CN114677183A - 一种新品销量预测方法、装置、计算机设备及存储介质 - Google Patents

一种新品销量预测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114677183A
CN114677183A CN202210428419.1A CN202210428419A CN114677183A CN 114677183 A CN114677183 A CN 114677183A CN 202210428419 A CN202210428419 A CN 202210428419A CN 114677183 A CN114677183 A CN 114677183A
Authority
CN
China
Prior art keywords
sales
data
new product
prediction
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210428419.1A
Other languages
English (en)
Inventor
吴凌宇
张�杰
蒋俊峰
白洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Runlian Software System Shenzhen Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202210428419.1A priority Critical patent/CN114677183A/zh
Publication of CN114677183A publication Critical patent/CN114677183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例属于人工智能中的预测模型领域,涉及一种基于模型融合的新品销量预测方法、装置、计算机设备及存储介质。本申请通过两阶段模型利用历史在售品的历史销量自动合成新品销量预测的初步预测值,提供了一种自动合成权重的方式,有效提高销量预测的准确性。

Description

一种新品销量预测方法、装置、计算机设备及存储介质
技术领域
本申请涉及预测模型技术领域,尤其涉及一种基于模型融合的新品销量预测方法、装置、计算机设备及存储介质。
背景技术
售行业每年都会推出大量新产品。为了对下游供应链进行有效规划,需要对新推出的产品进行准确的需求预测。
目前经典的时间序列算法和机器学习算法可以用于现有产品的常规销售预测。
但是,申请人发现新产品往往销售数据较少,通过常规算法没有足够的数据基础。现有传统的新品预测是业务专家根据自己的经验结合产品特征和市场状况预估出来的。由于市场环境莫测,影响销量的因素繁多,凭借个人经验容易出现偏差。而且单品数量较多,新品档期较多的时候预测所有产品需要耗费大量人力。由此可见,传统的新品销量预测方法存在预测准确度较低,人力资源耗费量大的问题。
发明内容
本申请实施例的目的在于提出一种基于模型融合的新品销量预测方法、装置、计算机设备及存储介质,以解决传统的新品销量预测方法存在预测准确度较低,人力资源耗费量大的问题。
为了解决上述技术问题,本申请实施例提供一种基于模型融合的新品销量预测方法,采用了如下所述的技术方案:
获取待预测新品信息,其中,所述待预测新品信息包括新品类别信息以及新品销量数据;
读取历史销售数据库,在所述历史销售数据库中获取与所述新品类别信息相同的历史销售数据,作为同类销售数据;
根据欧式距离分别计算所述新品销量数据与所述同类销量数据的相似度;
分别构建所述新品销售数据以及所述同类销售数据的初始预测模型,并根据所述相似度构建所述初始预测模型的权重系数,得到同类预测模型,其中,所述权重系数为所述相似度除以所述新品销量数据和所述同类销量数据的距离乘积二次跟的乘积的倒数;
根据加权法对所有所述同类预测模型进行融合操作,得到与所述待预测新品相对应的销量预测数据。
为了解决上述技术问题,本申请实施例还提供一种基于模型融合的新品销量预测装置,采用了如下所述的技术方案:
待预测新品获取模块,用于获取待预测新品信息,其中,所述待预测新品信息包括新品类别信息以及新品销量数据;
同类销售获取模块,用于读取历史销售数据库,在所述历史销售数据库中获取与所述新品类别信息相同的历史销售数据,作为同类销售数据;
相似度计算模块,用于根据欧式距离分别计算所述新品销量数据与所述同类销量数据的相似度;
同类预测模型构建模块,用于分别构建所述新品销售数据以及所述同类销售数据的初始预测模型,并根据所述相似度构建所述初始预测模型的权重系数,得到同类预测模型,其中,所述权重系数为所述相似度除以所述新品销量数据和所述同类销量数据的距离乘积二次跟的乘积的倒数;
销量预测模块,用于根据加权法对所有所述同类预测模型进行融合操作,得到与所述待预测新品相对应的销量预测数据。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于模型融合的新品销量预测方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于模型融合的新品销量预测方法的步骤。
本申请提供了一种基于模型融合的新品销量预测方法,包括:获取待预测新品信息,其中,所述待预测新品信息包括新品类别信息以及新品销量数据;读取历史销售数据库,在所述历史销售数据库中获取与所述新品类别信息相同的历史销售数据,作为同类销售数据;根据欧式距离分别计算所述新品销量数据与所述同类销量数据的相似度;分别构建所述新品销售数据以及所述同类销售数据的初始预测模型,并根据所述相似度构建所述初始预测模型的权重系数,得到同类预测模型,其中,所述权重系数为所述相似度除以所述新品销量数据和所述同类销量数据的距离乘积二次跟的乘积的倒数;根据加权法对所有所述同类预测模型进行融合操作,得到与所述待预测新品相对应的销量预测数据。与现有技术相比,本申请通过两阶段模型利用历史在售品的历史销量自动合成新品销量预测的初步预测值,提供了一种自动合成权重的方式,有效提高销量预测的准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请实施例一提供的基于模型融合的新品销量预测方法的实现流程图;
图3是图2中步骤S202的一种具体实施方式的流程图;
图4是本申请实施例一提供的销量优化方法的一种具体实施方式的流程图;
图5是本申请实施例一提供的参数更新方法的一种具体实施方式的流程图;
图6是本申请实施例二提供的基于模型融合的新品销量预测装置的结构示意图;
图7是本申请实施例二提供的同类销售获取模块204的一种具体实施方式的结构示意图;
图8是本申请实施例二提供的销量优化装置的一种具体实施方式的结构示意图;
图9是本申请实施例二提供的参数更新装置的一种具体实施方式的结构示意图;
图10是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于模型融合的新品销量预测方法一般由服务器/终端设备执行,相应地,基于模型融合的新品销量预测装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
实施例一
继续参考图2,示出了本申请实施例一提供的基于模型融合的新品销量预测方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的基于模型融合的新品销量预测方法,包括以下步骤:
步骤S201:获取待预测新品信息,其中,待预测新品信息包括新品类别信息以及新品销量数据;
步骤S202:读取历史销售数据库,在历史销售数据库中获取与新品类别信息相同的历史销售数据,作为同类销售数据;
步骤S203:根据欧式距离分别计算新品销量数据与同类销量数据的相似度;
步骤S204:分别构建新品销售数据以及同类销售数据的初始预测模型,并根据相似度构建初始预测模型的权重系数,得到同类预测模型,其中,权重系数为相似度除以新品销量数据和同类销量数据的距离乘积二次跟的乘积的倒数;
步骤S205:根据加权法对所有同类预测模型进行融合操作,得到与待预测新品相对应的销量预测数据。
在本申请实施例中,根据调研,该公司的促销新品主要集中在春节,国庆和中秋三个假日。促销新品主要集中在包括:休闲小食、母婴产品在内的9个大类。不同商品大类由于商品属性的不同,促销销量也有较大的差异,因此为了提高销售预测的准确率,根据商品所处大类分别建立模型。新品预测的核心是筛选出与新品相似的历史单品,通过机器学习捕捉历史单品的销量规律对新品的销量进行预测。为了筛选出与新品相似的产品,首先从数据集中筛选出与新品在相同大类的产品。为了保证单品数据来源充足,从原始数据集删除生命周期小于4个月的产品。从系统取出的数据包括5年的所有单品的历史数据,在划分数据集方面,将第2年和第3年的样本作为训练集、第4年样本作为验证集和最后1年样本作为测试集。每个样本包含单个新品和与新品在同一大类的历史在售单品(截止当日生命周期大于1年)。
从特征的维度来看获取数据主要包括商品相关时序数据、文本特征数据。
文本特征数据包括单品的文本特征包括大小、产地,公司的文本特征数据源:所处地理位置、经营面积、经营SKU数、平均断货率等。外部的文本特征数据:季节信息、日期信息、节假日信息、天气信息等。
时序数据包括新品价格、每日销量、每日天气与温度等。
在本申请实施例中,目前预估新品主要是根据业务经验选择与新品类似的历史单品的销量基础上进行预估。但是对于很多门店的单品数上百,如果只凭经验来进行相似品类选择工作量较大,而且对于一个加多新品上线的档期,通过这种方式无法自动扩展到其他单品上。本发明收集了单品的特征,利用余弦相似度计算新品与新品所在大类其他历史在售商品的相似度。
特征加权之后相似度的计算公式如下:
Figure BDA0003609090530000071
其中,v为特征向量。设置相似度阈值为p,保留相似度大于p的单品,作为源域中的单品,筛选出的相似品数量为p。
在本申请实施例中,新品的历史销量样本序列Y*为:
Figure BDA0003609090530000072
第i个相似历史在售单品自发布开始M个销量样本为:
Figure BDA0003609090530000073
由于新品发布时间较短,积累的样本数量较少:N<M。
通过欧式距离Di衡量新品销量序列Y和旧品前N的样本Yi的相似度,距离越近,相似度越高
Figure BDA0003609090530000074
为了尽可能消除异常预测结果对结果的影响,将距离除以Y和Yi的距离乘积二次根的乘积。模型的联系度记作Ci
Figure BDA0003609090530000075
距离与相似度成倒数关系,将模型i的权重设置为联系度的倒数:
Figure BDA0003609090530000081
将各期模型的权重进行标准化:
Figure BDA0003609090530000082
通加权法计算出的新品销量为:
Figure BDA0003609090530000083
在本申请实施例中,提供了一种基于模型融合的新品销量预测方法,包括:获取待预测新品信息,其中,待预测新品信息包括新品类别信息以及新品销量数据;读取历史销售数据库,在历史销售数据库中获取与新品类别信息相同的历史销售数据,作为同类销售数据;根据欧式距离分别计算新品销量数据与同类销量数据的相似度;分别构建新品销售数据以及同类销售数据的初始预测模型,并根据相似度构建初始预测模型的权重系数,得到同类预测模型,其中,权重系数为相似度除以新品销量数据和同类销量数据的距离乘积二次跟的乘积的倒数;根据加权法对所有同类预测模型进行融合操作,得到与待预测新品相对应的销量预测数据。与现有技术相比,本申请通过两阶段模型利用历史在售品的历史销量自动合成新品销量预测的初步预测值,提供了一种自动合成权重的方式,有效提高销量预测的准确性。
继续参阅图3,示出了图2中步骤S202的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,步骤S202具体包括:
步骤S301:在获取到历史销售数据之后,对历史销售数据进行数据预处理操作,得到预处理销售数据,将预处理销售数据作为同类销售数据。
在本申请实施例中,数据预处理主要包括缺失值处理、异常值处理、数据标准化、文本数据处理,具体的:
(1)缺失值处理:对于时间序列特征的缺失值采用线性插值进行填充。截图特征,通过搜索相近的特征,通过函数拟合进行插值。
(2)异常值的处理:通过3σ原则,删除日销量偏离门店销量均值3个标准差范围的异常销量并用前后两日的均值进行填充。
(3)文本数据处理:文本数据主要针对一些字符串类型的变量,如节假日、天气。对类别数据(季节、打折类型)进行one-hot处理。对天气、气候类型的文本数据可以通过专业知识经验按照对销量的影响程度进行打分,获得相应的特征。
继续参阅图4,示出了本申请实施例一提供的销量优化方法的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在步骤S205之后,还包括:
步骤S401:根据词嵌入矩阵对商品文本属性进行文本转换操作,得到文本嵌入信息;
步骤S402:将商品数字属性依次经过多头注意力层、残差连接归一化层以及第一全连接层进行数字转换操作,得到数字嵌入信息;
步骤S403:对数字嵌入信息以及文本嵌入信息进行拼接操作,得到销量优化因子;
步骤S404:根据销量优化因子对预测销量数据进行销量优化操作,得到优化预测数据。
在本申请实施例中,新品销量与相似旧品的销售有相似趋势之外,还会受到时间特征、新品差异性特征的影响。利用时间特征等外部特征、新品差异性特征构建销量优化因子。将特征按照数据格式划分为数字商品特征和文本特征。
在本申请实施例中,文本特征将预测的文本属性根据预训练的词嵌入矩阵转换,通过加总函数(W)生成属性嵌入信息X1。通过预训练矩阵可以大幅度缩减训练时间,提高模型的训练效率。
在本申请实施例中,数字特征包含商品历史价格、历史销量、天气等与时间相关的特征。先通过多头注意力层,提取不同时间中的核心特征,对重点信息进行提取。再通过残差连接层,防止出现网络梯度衰减和梯度爆炸的问题。再通过层归一化,加快网络训练速度,加快收敛。将归一化层提取到的信息通过全连接层进一步深层特征,再经过全连接层得到特征输出X2。
在本申请实施例中,将特征输出X1和X2进行拼接,通过全连接层将特征维度转换成1*M,得到销量优化因子X。销量优化因子将根据数据特征获得新品的非共享特征,将X和合成销量Y点为预测得到未来档期每日的预测值Ypre
继续参阅图5,示出了本申请实施例一提供的参数更新方法的一种具体实施方式的流程图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,在步骤S404之后,还包括:
步骤S501:根据均方误差损失函数对同类预测模型进行参数更新,其中,均方误差损失函数表示为:
Figure BDA0003609090530000101
其中,L为损失函数,Y为新品自每一天销量的真实值,Ypre为新品销量对应的预测值,M为预测的时期数,yi为销量中的第i时刻的真实值,
Figure BDA0003609090530000102
为销量的第i时刻对应的预测值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图6,作为对上述图2所示方法的实现,本申请提供了一种基于模型融合的新品销量预测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的基于模型融合的新品销量预测装置200包括:待预测新品获取模块201、同类销售获取模块202、相似度计算模块203、同类预测模型构建模块204以及销量预测模块205。其中:
待预测新品获取模块201,用于获取待预测新品信息,其中,待预测新品信息包括新品类别信息以及新品销量数据;
同类销售获取模块202,用于读取历史销售数据库,在历史销售数据库中获取与新品类别信息相同的历史销售数据,作为同类销售数据;
相似度计算模块203,用于根据欧式距离分别计算新品销量数据与同类销量数据的相似度;
同类预测模型构建模块204,用于分别构建新品销售数据以及同类销售数据的初始预测模型,并根据相似度构建初始预测模型的权重系数,得到同类预测模型,其中,权重系数为相似度除以新品销量数据和同类销量数据的距离乘积二次跟的乘积的倒数;
销量预测模块205,用于根据加权法对所有同类预测模型进行融合操作,得到与待预测新品相对应的销量预测数据。
在本申请实施例中,根据调研,该公司的促销新品主要集中在春节,国庆和中秋三个假日。促销新品主要集中在包括:休闲小食、母婴产品在内的9个大类。不同商品大类由于商品属性的不同,促销销量也有较大的差异,因此为了提高销售预测的准确率,根据商品所处大类分别建立模型。新品预测的核心是筛选出与新品相似的历史单品,通过机器学习捕捉历史单品的销量规律对新品的销量进行预测。为了筛选出与新品相似的产品,首先从数据集中筛选出与新品在相同大类的产品。为了保证单品数据来源充足,从原始数据集删除生命周期小于4个月的产品。从系统取出的数据包括5年的所有单品的历史数据,在划分数据集方面,将第2年和第3年的样本作为训练集、第4年样本作为验证集和最后1年样本作为测试集。每个样本包含单个新品和与新品在同一大类的历史在售单品(截止当日生命周期大于1年)。
从特征的维度来看获取数据主要包括商品相关时序数据、文本特征数据。
文本特征数据包括单品的文本特征包括大小、产地,公司的文本特征数据源:所处地理位置、经营面积、经营SKU数、平均断货率等。外部的文本特征数据:季节信息、日期信息、节假日信息、天气信息等。
时序数据包括新品价格、每日销量、每日天气与温度等。
在本申请实施例中,目前预估新品主要是根据业务经验选择与新品类似的历史单品的销量基础上进行预估。但是对于很多门店的单品数上百,如果只凭经验来进行相似品类选择工作量较大,而且对于一个加多新品上线的档期,通过这种方式无法自动扩展到其他单品上。本发明收集了单品的特征,利用余弦相似度计算新品与新品所在大类其他历史在售商品的相似度。
特征加权之后相似度的计算公式如下:
Figure BDA0003609090530000121
其中,v为特征向量。设置相似度阈值为p,保留相似度大于p的单品,作为源域中的单品,筛选出的相似品数量为p。
在本申请实施例中,新品的历史销量样本序列Y*为:
Figure BDA0003609090530000122
第i个相似历史在售单品自发布开始M个销量样本为:
Figure BDA0003609090530000123
由于新品发布时间较短,积累的样本数量较少:N<M。
通过欧式距离Di衡量新品销量序列Y和旧品前N的样本Yi的相似度,距离越近,相似度越高
Figure BDA0003609090530000131
为了尽可能消除异常预测结果对结果的影响,将距离除以Y和Yi的距离乘积二次根的乘积。模型的联系度记作Ci
Figure BDA0003609090530000132
距离与相似度成倒数关系,将模型i的权重设置为联系度的倒数:
Figure BDA0003609090530000133
将各期模型的权重进行标准化:
Figure BDA0003609090530000134
通加权法计算出的新品销量为:
Figure BDA0003609090530000135
在本申请实施例中,提供了一种基于模型融合的新品销量预测装置200,包括:待预测新品获取模块201,用于获取待预测新品信息,其中,待预测新品信息包括新品类别信息以及新品销量数据;同类销售获取模块202,用于读取历史销售数据库,在历史销售数据库中获取与新品类别信息相同的历史销售数据,作为同类销售数据;相似度计算模块203,用于根据欧式距离分别计算新品销量数据与同类销量数据的相似度;同类预测模型构建模块204,用于分别构建新品销售数据以及同类销售数据的初始预测模型,并根据相似度构建初始预测模型的权重系数,得到同类预测模型,其中,权重系数为相似度除以新品销量数据和同类销量数据的距离乘积二次跟的乘积的倒数;销量预测模块205,用于根据加权法对所有同类预测模型进行融合操作,得到与待预测新品相对应的销量预测数据。与现有技术相比,本申请通过两阶段模型利用历史在售品的历史销量自动合成新品销量预测的初步预测值,提供了一种自动合成权重的方式,有效提高销量预测的准确性。
继续参阅图7,示出了本申请实施例二提供的同类销售获取模块204的一种具体实施方式的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述同类销售获取模块204包括:预处理子模块2041,其中:
预处理子模块2041,用于在获取到历史销售数据之后,对历史销售数据进行数据预处理操作,得到预处理销售数据,将预处理销售数据作为同类销售数据。
在本申请实施例中,数据预处理主要包括缺失值处理、异常值处理、数据标准化、文本数据处理,具体的:
(1)缺失值处理:对于时间序列特征的缺失值采用线性插值进行填充。截图特征,通过搜索相近的特征,通过函数拟合进行插值。
(2)异常值的处理:通过3σ原则,删除日销量偏离门店销量均值3个标准差范围的异常销量并用前后两日的均值进行填充。
(3)文本数据处理:文本数据主要针对一些字符串类型的变量,如节假日、天气。对类别数据(季节、打折类型)进行one-hot处理。对天气、气候类型的文本数据可以通过专业知识经验按照对销量的影响程度进行打分,获得相应的特征。
继续参阅图8,示出了本申请实施例二提供的销量优化装置的一种具体实施方式的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述基于模型融合的新品销量预测装置200还包括:文本转换模块206、数字转换模块207、拼接模块208以及销量优化模块209,其中:
文本转换模块206,用于根据词嵌入矩阵对商品文本属性进行文本转换操作,得到文本嵌入信息;
数字转换模块207,用于将商品数字属性依次经过多头注意力层、残差连接归一化层以及第一全连接层进行数字转换操作,得到数字嵌入信息;
拼接模块208,用于对数字嵌入信息以及文本嵌入信息进行拼接操作,得到销量优化因子;
销量优化模块209,用于根据销量优化因子对预测销量数据进行销量优化操作,得到优化预测数据。
在本申请实施例中,新品销量与相似旧品的销售有相似趋势之外,还会受到时间特征、新品差异性特征的影响。利用时间特征等外部特征、新品差异性特征构建销量优化因子。将特征按照数据格式划分为数字商品特征和文本特征。
在本申请实施例中,文本特征将预测的文本属性根据预训练的词嵌入矩阵转换,通过加总函数(W)生成属性嵌入信息X1。通过预训练矩阵可以大幅度缩减训练时间,提高模型的训练效率。
在本申请实施例中,数字特征包含商品历史价格、历史销量、天气等与时间相关的特征。先通过多头注意力层,提取不同时间中的核心特征,对重点信息进行提取。再通过残差连接层,防止出现网络梯度衰减和梯度爆炸的问题。再通过层归一化,加快网络训练速度,加快收敛。将归一化层提取到的信息通过全连接层进一步深层特征,再经过全连接层得到特征输出X2。
在本申请实施例中,将特征输出X1和X2进行拼接,通过全连接层将特征维度转换成1*M,得到销量优化因子X。销量优化因子将根据数据特征获得新品的非共享特征,将X和合成销量Y点为预测得到未来档期每日的预测值Ypre
继续参阅图9,示出了本申请实施例二提供的参数更新装置的一种具体实施方式的结构示意图,为了便于说明,仅示出与本申请相关的部分。
在本实施例的一些可选的实现方式中,上述基于模型融合的新品销量预测装置200还包括:参数更新模块210,其中:
参数更新模块210,用于根据均方误差损失函数对同类预测模型进行参数更新,其中,均方误差损失函数表示为:
Figure BDA0003609090530000161
其中,L为损失函数,Y为新品自每一天销量的真实值,Ypre为新品销量对应的预测值,M为预测的时期数,yi为销量中的第i时刻的真实值,
Figure BDA0003609090530000162
为销量的第i时刻对应的预测值。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
所述计算机设备300包括通过系统总线相互通信连接存储器310、处理器320、网络接口330。需要指出的是,图中仅示出了具有组件310-330的计算机设备300,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器310至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器310可以是所述计算机设备300的内部存储单元,例如该计算机设备300的硬盘或内存。在另一些实施例中,所述存储器310也可以是所述计算机设备300的外部存储设备,例如该计算机设备300上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器310还可以既包括所述计算机设备300的内部存储单元也包括其外部存储设备。本实施例中,所述存储器310通常用于存储安装于所述计算机设备300的操作系统和各类应用软件,例如基于模型融合的新品销量预测方法的计算机可读指令等。此外,所述存储器310还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器320在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器320通常用于控制所述计算机设备300的总体操作。本实施例中,所述处理器320用于运行所述存储器310中存储的计算机可读指令或者处理数据,例如运行所述基于模型融合的新品销量预测方法的计算机可读指令。
所述网络接口330可包括无线网络接口或有线网络接口,该网络接口330通常用于在所述计算机设备300与其他电子设备之间建立通信连接。
本申请提供的计算机设备,本申请通过两阶段模型利用历史在售品的历史销量自动合成新品销量预测的初步预测值,提供了一种自动合成权重的方式,有效提高销量预测的准确性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于模型融合的新品销量预测方法的步骤。
本申请提供的计算机可读存储介质,本申请通过两阶段模型利用历史在售品的历史销量自动合成新品销量预测的初步预测值,提供了一种自动合成权重的方式,有效提高销量预测的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于模型融合的新品销量预测方法,其特征在于,包括下述步骤:
获取待预测新品信息,其中,所述待预测新品信息包括新品类别信息以及新品销量数据;
读取历史销售数据库,在所述历史销售数据库中获取与所述新品类别信息相同的历史销售数据,作为同类销售数据;
根据欧式距离分别计算所述新品销量数据与所述同类销量数据的相似度;
分别构建所述新品销售数据以及所述同类销售数据的初始预测模型,并根据所述相似度构建所述初始预测模型的权重系数,得到同类预测模型,其中,所述权重系数为所述相似度除以所述新品销量数据和所述同类销量数据的距离乘积二次跟的乘积的倒数;
根据加权法对所有所述同类预测模型进行融合操作,得到与所述待预测新品相对应的销量预测数据。
2.根据权利要求1所述的基于模型融合的新品销量预测方法,其特征在于,所述读取历史销售数据库,在所述历史销售数据库中获取与所述新品类别信息相同的历史销售数据,作为同类销售数据的步骤,具体包括下述步骤:
在获取到所述历史销售数据之后,对所述历史销售数据进行数据预处理操作,得到预处理销售数据,将所述预处理销售数据作为所述同类销售数据。
3.根据权利要求1所述的基于模型融合的新品销量预测方法,其特征在于,商品信息包括商品数字属性以及商品文本属性,在所述根据加权法对所有所述初始预测模型进行融合操作,得到与所述待预测新品相对应的销量预测数据的步骤之后,还包括下述步骤:
根据词嵌入矩阵对所述商品文本属性进行文本转换操作,得到文本嵌入信息;
将所述商品数字属性依次经过多头注意力层、残差连接归一化层以及第一全连接层进行数字转换操作,得到数字嵌入信息;
对所述数字嵌入信息以及所述文本嵌入信息进行拼接操作,得到销量优化因子;
根据所述销量优化因子对所述预测销量数据进行销量优化操作,得到优化预测数据。
4.根据权利要求3所述的基于模型融合的新品销量预测方法,其特征在于,在所述根据所述销量优化因子对所述预测销量数据进行销量优化操作,得到优化预测数据的步骤之后,还包括下述步骤:
根据均方误差损失函数对所述同类预测模型进行参数更新,其中,所述均方误差损失函数表示为:
Figure FDA0003609090520000021
其中,L为损失函数,Y为新品自每一天销量的真实值,Ypre为所述新品销量对应的预测值,M为预测的时期数,yi为所述销量中的第i时刻的真实值,
Figure FDA0003609090520000022
为所述销量的第i时刻对应的预测值。
5.一种基于模型融合的新品销量预测装置,其特征在于,包括:
待预测新品获取模块,用于获取待预测新品信息,其中,所述待预测新品信息包括新品类别信息以及新品销量数据;
同类销售获取模块,用于读取历史销售数据库,在所述历史销售数据库中获取与所述新品类别信息相同的历史销售数据,作为同类销售数据;
相似度计算模块,用于根据欧式距离分别计算所述新品销量数据与所述同类销量数据的相似度;
同类预测模型构建模块,用于分别构建所述新品销售数据以及所述同类销售数据的初始预测模型,并根据所述相似度构建所述初始预测模型的权重系数,得到同类预测模型,其中,所述权重系数为所述相似度除以所述新品销量数据和所述同类销量数据的距离乘积二次跟的乘积的倒数;
销量预测模块,用于根据加权法对所有所述同类预测模型进行融合操作,得到与所述待预测新品相对应的销量预测数据。
6.根据权利要求5所述的基于模型融合的新品销量预测装置,其特征在于,所述同类销售获取模块包括:
预处理子模块,用于在获取到所述历史销售数据之后,对所述历史销售数据进行数据预处理操作,得到预处理销售数据,将所述预处理销售数据作为所述同类销售数据。
7.根据权利要求5所述的基于模型融合的新品销量预测装置,其特征在于,商品信息包括商品数字属性以及商品文本属性,所述装置还包括:
文本转换模块,用于根据词嵌入矩阵对所述商品文本属性进行文本转换操作,得到文本嵌入信息;
数字转换模块,用于将所述商品数字属性依次经过多头注意力层、残差连接归一化层以及第一全连接层进行数字转换操作,得到数字嵌入信息;
拼接模块,用于对所述数字嵌入信息以及所述文本嵌入信息进行拼接操作,得到销量优化因子;
销量优化模块,用于根据所述销量优化因子对所述预测销量数据进行销量优化操作,得到优化预测数据。
8.根据权利要求7所述的基于模型融合的新品销量预测装置,其特征在于,所述装置还包括:
参数更新模块,用于根据均方误差损失函数对所述同类预测模型进行参数更新,其中,所述均方误差损失函数表示为:
Figure FDA0003609090520000031
其中,L为损失函数,Y为新品自每一天销量的真实值,Ypre为所述新品销量对应的预测值,M为预测的时期数,yi为所述销量中的第i时刻的真实值,
Figure FDA0003609090520000032
为所述销量的第i时刻对应的预测值。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的基于模型融合的新品销量预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的基于模型融合的新品销量预测方法的步骤。
CN202210428419.1A 2022-04-22 2022-04-22 一种新品销量预测方法、装置、计算机设备及存储介质 Pending CN114677183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210428419.1A CN114677183A (zh) 2022-04-22 2022-04-22 一种新品销量预测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210428419.1A CN114677183A (zh) 2022-04-22 2022-04-22 一种新品销量预测方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114677183A true CN114677183A (zh) 2022-06-28

Family

ID=82079283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210428419.1A Pending CN114677183A (zh) 2022-04-22 2022-04-22 一种新品销量预测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114677183A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423538A (zh) * 2022-11-02 2022-12-02 深圳市云积分科技有限公司 新品销量数据的预测方法及装置、存储介质、电子设备
CN118365248A (zh) * 2024-06-18 2024-07-19 运易通科技有限公司 一种基于数据分析的采购单智能生成决策系统
CN118396658A (zh) * 2024-06-26 2024-07-26 浙江口碑网络技术有限公司 销量预估方法、装置、电子设备、存储介质及程序产品
CN118365248B (zh) * 2024-06-18 2024-10-25 运易通科技有限公司 一种基于数据分析的采购单智能生成决策系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423538A (zh) * 2022-11-02 2022-12-02 深圳市云积分科技有限公司 新品销量数据的预测方法及装置、存储介质、电子设备
CN118365248A (zh) * 2024-06-18 2024-07-19 运易通科技有限公司 一种基于数据分析的采购单智能生成决策系统
CN118365248B (zh) * 2024-06-18 2024-10-25 运易通科技有限公司 一种基于数据分析的采购单智能生成决策系统
CN118396658A (zh) * 2024-06-26 2024-07-26 浙江口碑网络技术有限公司 销量预估方法、装置、电子设备、存储介质及程序产品
CN118396658B (zh) * 2024-06-26 2024-09-20 浙江口碑网络技术有限公司 销量预估方法、装置、电子设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN109840730B (zh) 用于数据预测的方法及装置
CN114677183A (zh) 一种新品销量预测方法、装置、计算机设备及存储介质
CN110555578B (zh) 一种销量预测方法和装置
CN110827112B (zh) 深度学习的商品推荐方法、装置、计算机设备及存储介质
CN113220734A (zh) 课程推荐方法、装置、计算机设备及存储介质
CN109214730A (zh) 信息推送方法和装置
CN113095893A (zh) 确定物品销量的方法和装置
CN110555713A (zh) 一种确定销量预测模型的方法和装置
CN112182118B (zh) 基于多数据源的目标对象预测方法及其相关设备
CN113743971A (zh) 一种数据处理方法和装置
CN109961328A (zh) 确定订单冷静期的方法和装置
CN112925911A (zh) 基于多模态数据的投诉分类方法及其相关设备
CN109615414A (zh) 房产预估方法、装置及存储介质
CN110866625A (zh) 促销指标信息生成方法和装置
CN117252564A (zh) 资源调度方法、装置、计算机设备及存储介质
CN114663015A (zh) 补货方法和装置
CN113947439A (zh) 需求预测模型训练方法和装置、需求预测方法和装置
CN117670366A (zh) 风险预测方法、装置、设备、介质和程序产品
CN112348590A (zh) 一种物品价值确定方法、装置、电子设备和存储介质
CN113094602A (zh) 酒店推荐方法、系统、设备及介质
CN112669136A (zh) 基于大数据的金融产品推荐方法、系统、设备及存储介质
CN116843483A (zh) 一种车险理赔方法、装置、计算机设备及存储介质
CN110414875B (zh) 产能数据处理方法、装置、电子设备及计算机可读介质
CN116681462A (zh) 基于云计算的供应链数据分析方法、装置、设备及介质
CN115587830A (zh) 工作任务激励方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination