CN107515898B - 基于数据多样性和任务多样性的轮胎企业销售预测方法 - Google Patents

基于数据多样性和任务多样性的轮胎企业销售预测方法 Download PDF

Info

Publication number
CN107515898B
CN107515898B CN201710603320.XA CN201710603320A CN107515898B CN 107515898 B CN107515898 B CN 107515898B CN 201710603320 A CN201710603320 A CN 201710603320A CN 107515898 B CN107515898 B CN 107515898B
Authority
CN
China
Prior art keywords
data
tire
sales
prediction
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710603320.XA
Other languages
English (en)
Other versions
CN107515898A (zh
Inventor
李敏波
廖倡
许晓彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201710603320.XA priority Critical patent/CN107515898B/zh
Publication of CN107515898A publication Critical patent/CN107515898A/zh
Application granted granted Critical
Publication of CN107515898B publication Critical patent/CN107515898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change

Abstract

本发明属于工业大数据应用技术领域,具体为一种基于数据多样性和任务多样性的轮胎企业销售预测方法。本发明方法包括五个部分:(1)主题特征提取,通过LDA模型提取关于轮胎行业的半结构化数据的特征;(2)结构特征提取,通过将轮胎行业的企业根据相关的联系映射到异质网络中,并提取出结构特征;(3)网络结构扩展,针对网络稀疏性问题,通过融合主题特征和结构特征,扩展企业之间的关系图,寻找潜在关联因素;(4)使用LASSO方法的多任务学习方法来解决高维样本空间的缺点;(5)因素特征提取与时序分析,通过有效整合和利用与销售相关的多个数据集(轮胎需求计划,主机厂产品销量,轮胎销售发货数据等)进行预测,通过实验数据验证,能够提高轮胎销售预测的准确率。

Description

基于数据多样性和任务多样性的轮胎企业销售预测方法
技术领域
本发明属于工业大数据应用技术领域,具体涉及轮胎企业销售预测方法。
背景技术
随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码、二维码、RFID、工业传感器、工业自动控制系统、工业物联网、ERP、CAD/CAM/CAE/CAI等技术在工业企业中得到广泛应用,尤其是互联网、移动互联网、物联网等新一代信息技术在工业领域的应用,工业企业所拥有的数据也日益丰富。由工业设备所产生、采集和处理的数据量远大于企业中计算机和人工产生的数据,工业企业已经进入“大数据”时代,其数据的多样性正以创纪录的速度迅速增长。可以说,工业大数据是未来工业在全球市场竞争中发挥优势的关键。放眼全球,无论是德国工业4.0、美国工业互联网还是《中国制造2025》,各国制造业创新战略的实施基础都离不开工业大数据的搜集和特征分析。在工业4.0的时代背景下,通过深入研究未来工业的商业模式和智能服务体系的创新技术变革,以及如何通过工业大数据的分析和应用去预测需求、制造,整合产业链价值链,实现为用户提供定制化的产品和服务,这些对于工业企业都是至关重要的。
自中国加入WTO以来,企业不但要与国内同行企业竞争,还要面对来自国际市场的竞争。无论是哪种类型的企业,企业的竞争力都与其产品的销量息息相关。科学准确地预测出下一个阶段产品的销量,可以帮助企业合理制定生产计划、营销策略等,帮助企业减小产品成本,回避市场风险,提高市场竞争力。随着信息化技术的高速发展,欧美发达国家正在实施以信息技术为特点的再工业化战略,中国的制造企业面临新的挑战。
当前轮胎产业正面临转型升级的关键时刻,产能过剩问题普遍存在,因此对于销量的预测显得更加重要。合理科学的预测依赖于相关信息,而信息的载体是数据,决策依靠数据。与互联网行业数据相比,轮胎行业的数据具有价值密度高、数据类型丰富、来源多样性等特点。轮胎的成本受到诸多因素影响,橡胶、硫、钢等原材料价格都会影响轮胎市场,同时轮胎产品的销量与贸易保护出口限制政策、汽车产量、宏观经济数据的关联性强。从这些角度来看,轮胎销量的预测充满挑战。
国内轮胎企业主要分为海外市场和国内市场,海外市场主要按客户订单生产,海外客户信誉良好,无需进行销售预测和库存备货工厂,按订单生产即可,企业海外市场的生产计划准确率一般在80%-90%以上。轮胎企业国内生产计划编制,每月中下旬由各地销售员上报下月的销售数据,预估轮胎产品下月生产计划,并在月底进行下月拟销售数量和生产数量的修改确认,最终由计划部门编制工厂所有产品型号的下月销售计划和生产计划。由于汽车和工程机械等主机厂上报轮胎需求数量形成预估生产值依赖于主机厂生产的稳定性以及轮胎公司销售员的个人经验,针对国内主机厂配套部的轮胎销售计划准确率一般为60%-70%,导致企业生产计划的频繁变动和大量库存的存在。对于轮胎的零售批发市场,一级经销商的需求估计则受市场变动的影响巨大,依赖经验估计的需求量与真实订单间差异较大,轮胎零售批发市场的销售计划准确率低于50%,需要进行合理的产品备库。
轮胎的销量受多种复杂因素的共同作用影响,如何有效地预测轮胎销量是一个挑战。然而,在大数据时代,数据的积累已经达到了一定程度,使有效整合和利用与销售相关的多个数据集成为可能。本发明通过精确的特征提取与选取恰当的算法,为企业提供了轮胎销售预测的方法,并且通过实验证明能够有效提升轮胎销售预测的准确度。
发明内容
本发明的目的在于提供一种预测准确度高,使用操作方便的轮胎企业销售预测的方法。
本发明提供的轮胎企业销售预测的方法,包括:通过LDA模型(Latent DirichletAllocation)提取关于轮胎行业的半结构化数据的特征,来实现主题特征的提取;通过将轮胎行业的企业更具相关的联系映射到异质网络中来进行结构特征提取;针对网络稀疏性问题,通过融合主题特征和结构特征,扩展企业之间的关系图,达到了网络结构扩展的目的。本方法使用LASSO(The Least Absolute Shrinkage and Selectionator Operator)方法的多任务学习方法来解决高维样本空间的缺点。此外,因素特征提取是通过有效整合和利用与销售相关的多个数据集来实现的,最后采用基于线性回归的整合算法进行轮胎销售数据预测。通过实验数据验证,企业下月轮胎销售计划的预测准确率由70%提高到使用本预测方法的78%,能够提高轮胎销售数据预测的准确率。
该方法所涉及的概念主要包括非结构化数据特征抽取,构建网络,网络扩展,特征融合,时序分析等。
本发明提出的对轮胎企业进行销售预测的具体方法和具体步骤为:
(1)提取非结构化数据的特征,即针对收集的各公司文本数据进行数据预处理(去噪去重),通过LDA方法得到每个公司的隐含特征,通过此过程拓展数据源;
(2)提取网络数据的结构特征,从公司报告中得到各个公司之间的关联从而构建轮胎网络,在网络中量化各个公司之间的联系强度;
(3)链接扩展网络结构,综合拓扑结构和主题相似性,采用节点对之间的潜在链接强度打分算法,结合步骤(1)和步骤(2)的结果,进一步扩展优化公司之间的联系,以此有效提升轮胎销售预测的准确率;
(4)整合多源数据,在轮胎销售预测的场景下,把多种数据整合在一起。在整合中,针对特征冗余问题(特征维度大于训练样本个数),引入正则化惩罚项,即特征选择。同时抽取上下游行业的价格走势数据,在此处将其作为特征直接用于线性回归模型;
(5)基于多任务的销售预测,即利用不同预测任务之间参数共享约束(sharedparameter),将单一类型的轮胎销售预测优化为多个不同类型的轮胎销售预测问题。在基于线性回归的轮胎销售预测中,参数学习不仅依赖于自身的历史数据,也和其他类型轮胎的预测参数有关。此步骤将得到最后的销售预测结果。
所述抽取非结构化数据特征的具体流程为:
本流程核心思路是利用主题挖掘思想,采用文本聚类的算法,通过向量空间模型将轮胎文本里的非结构化数据映射到向量空间中的点,然后用传统的聚类算法,实现文本聚类,聚类的结果可以近似认为满足同一个主题。经过这个流程的处理,这些非结构化数据不仅做了预处理过滤,还能丰富轮胎销售预测的数据源。
本流程的主题挖掘主要用了LDA模型,其生成文本的方式参见图1所示。最开始,LDA从参数为β的Dirichlet分布中抽取主题与单词的关系
Figure BDA0001357716980000035
LDA生成一个文本时,首先从参数为α的Dirichlet分布中抽取该文本与各个主题之间的关系θ,当有K个主题时,θ是一个K维向量,其中的每个元素代表主题在文本中的出现概率,所以θ满足∑Kθ=1;接着,从参数为θ的多项式分布中抽样当前单词所属的主题k;最后从参数为
Figure BDA0001357716980000031
的多项式分布中抽取出具体单词w。所谓参数估计,有两种思路,即EM和MCMC。其主题分布如下所示:
Figure BDA0001357716980000032
Figure BDA0001357716980000033
ni,k表示在若干次重复实验中,主题k在所有主题中出现的次数;
Figure BDA0001357716980000034
为词语的多项式分布,w为采样最终生成词语。至此,我们可以将轮胎行业的一些非结构化数据,如公司主页,行业网站,工业论坛上获取的文本数据转换为公司主题向量,作为销售预测数据源的一部分,并且去除了这些数据中与销售预测完全不相关的维度,比如轮胎企业开展的各项内部活动演出显然不是轮胎销售预测需要考虑的因素,这些无关的信息需要从庞杂的轮胎行业非结构化数据中剔除。
所述提取网络数据的结构特征的具体流程为:
为了在网络中量化各个公司之间的联系强度,首先需要加载各公司的数据集。通过领域知识,构建轮胎异质网络。轮胎异质信息网络是一种特殊的信息网络,它既包含多种类型的对象,也包含多种类型的链接关系。采用PathSim方法,将不同连接路径背后所隐藏的语义信息结合到对象相似性度量问题中。两个对象之间的PathSim值定义如下:
Figure BDA0001357716980000041
这里,p(x~→y)表示在路径P模式下,对象x和y之间的路径个数。通过这个算法,把数据集构建成了轮胎网络,主要是为下一步的链接扩展轮胎网络结构所做的准备。
所述链接扩展网络结构的具体流程为:
在步骤(1)和步骤(2)中,已经得到了网络拓扑结构和主题向量,本流程采用节点对之间的潜在链接强度打分算法,加载步骤1和步骤2得到的结果,综合计算相似性,进一步扩展优化公司之间的联系,从而实现数据间的互相优化训练,这能有效提升轮胎销售预测的准确率。
这里的链接扩展网络结构主要是做链接预测的任务,利用网络中已观察到的节点属性和联系,来预测节点间的其他联系是否存在。此处的关键问题在于如何合理高效地结合链接属性、节点属性等相关信息以用于预测目的。针对该问题,本流程采用的核心算法首先定义基于主题的相似性:给定R维欧式空间中的节点x和节点y的主题特征向量θ1和θ2,则从二者的特征相似性出发,
Figure BDA0001357716980000042
定义如下式所示。
Figure BDA0001357716980000043
表示节点x和节点y之间基于文本内容的主题相似性大小。
Figure BDA0001357716980000044
其中将节点x和节点y的主题向量的余弦相似度,作为二者的相似性大小的基础之一。当二者的兴趣分布类似,即概率相近时,二者越可能存在链接关系。通过综合网络结构特征和主题相似性,节点对之间的潜在链接强度打分可以表示为以下形式:
Figure BDA0001357716980000045
其中,φ()和
Figure BDA0001357716980000051
分别表示对应的映射函数,而符号ο则表示相应的运算形式。例如
Figure BDA0001357716980000052
为常见的线性回归表示。特征之间的融合可以通过常用的指数簇回归实现。
通过网络扩展,能够帮助找到预测中隐藏的关联情况,这将大大利于轮胎销售预测准确率的提升。因为轮胎销售预测面临的一项挑战是轮胎生命周期较短,单个产品的数据量有限,但是通过寻找网络数据间的联系,可以互相优化训练,从而提高预测的准确度。
所述整合多源数据的具体流程为:
其主要步骤包括以下几个方面:(1)连接所需多源数据库并获取相关数据;(2)研究和理解所获得的数据;(3)梳理和清理数据;(4)数据转换和建立结构;(5)数据组合;(6)建立分析数据集。不同类型的数据主要包括上下游行业的价格走势数据,在此处可以将其作为特征直接用于线性回归模型。同时,针对特征冗余(特征维度大于训练样本个数)引入正则化惩罚项,即特征选择。
多源数据的融合是非常重要的,传统的数据挖掘只挖掘单一的数据,但是在轮胎销售预测的场景下,这个系统需要把多种数据融合在一起。本发明主要采用线性融合多源数据,依据是轮胎销售预测所获得数据大部分是数值型数据,具有模型简单,可解释性强、效果好等特点。其基本形式如下:
y=wx+a+ε
其中y为因变量,x={x1,x2,...,xn}为特征选择集合,a为偏移量,w={w1,w2,...,wn}为特征权重,ε为误差项。其中,特征选择集合x={x1,x2,...,xn}和偏移量a由领域专家手工选择,前者确定哪些特征会对结果影响并量化,后者是一个结果的人为偏移量,为了加强模型的解释性,理论上可以不加。误差项ε的引入是因为总有一些我们难以观察或者发现的特征会对结果有一些微小的影响,而且它们各自相对近似独立,根据中心极限定理,可以用正态分布来模拟。模型的训练过程就是确定权重的过程,采用随机梯度下降找到一个最合适的权重让模型尽可能表示真实世界的概率分布,当有新的特征集合时,能给出一个最可能正确的结果。在数据融合与时序分析中,基本的思路都是基于线性回归再做调整。
所述基于多任务的销售预测的具体流程为:
该流程由lasso方法与时序分析组成。对于数据集,在程序中使用lasso算法去除残留的冗余信息,获得最终用于时序分析的训练集。在时序分析部分,先调用数据分析工具WEKA的API来训练线性回归模型,得到初步结果,然后根据实际加载的数据集判断是否需要M5P算法(M5模型数算法)进行优化,若需要,则利用M5P的分类式线性回归优化结果,若不需要,则直接用Bagging算法优化准确度,避免因为小样本而出现的过拟合现象。由于轮胎销售预测可以从多个维度进行预测,包括轮胎主机厂、轮胎品种与轮胎品牌,因此需要对历史数据进行支持向量机算法模拟,若结果良好,则与上述结果进行加权处理,完成预测的整合,并将预测结果显示在前端页面中。其流程如下所示:
融入复杂lasso的特征融合方法:在轮胎多源数据中,不同数据集具有相同的解释变量甚至因变量,同一解释变量在不同数据集中的系数存在某种相似性。我们认为,影响轮胎销售量应该由几个核心因素影响且变量存在冗余,应该在一个特征压缩的子空间中,在某种程度上应该满足稀疏性。另一方面,各个任务间往往相互关联,其表现为受共同受外部事件影响,以及相同的销售量影响因素,我们认为,各类轮胎型号的销售量应该满足参数权重的一定程度的一致性。故基于此,我们通过设定优化方程如下所示:
Figure BDA0001357716980000061
即不再依据厂商而切分数据集,而将它们看做一个整体的数据集,这样数据集就从原始的N-P(N个数据集,P个特征)变成了N*M-P(N*M个数据集,P个特征,M在这里代表厂商的个数)。上述方程中权重矩阵W代表了每一家的厂商的权重,即W=diag(W1,…,WM),A代表人为偏移矩阵,即A=(1,…,M)。λ1是一个惩罚权重,其值越大,代表模型对参数应该满足的一致性的约束要求越高,λ2也是一个惩罚权重,其值越大,代表模型的稀疏行约束要求越高,其他的参数和普通的线性回归模型参数一致。通过lasso的方法,能够有效地提升销售预测的准确度。
时序分析:轮胎销售预测是一个典型的时间序列问题。我们提出了首先采用线性回归方法进行初步销售预测,它既避免了常规方法参数人工设定的缺陷,又可避免复杂模型对数据集大小的需求。线性回归是一个大致有效地算法,但还需要其他模型的补充,例如M5P、SMOreg、Bagging算法等。M5P算法是决策树和线性回归算法的一个结合体。M5P算法就是先进行分类,再计算的方法,避免了将不同因素混在一起进行预测的缺陷。SMOreg是支持向量机算法,它的特点是对于数据集比较小、维度比较高的预测比较有效,在这点上,与轮胎销售预测的背景较为吻合,因为轮胎的生命周期并不长,同时也有很多因素影响它的最终销售结果。Bagging算法是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。它的简单流程是首先给定一个弱学习算法和一个训练集。由于单个弱学习算法准确率不高,所以将该学习算法使用多次,得出预测函数序列,进行投票。最后结果准确率将得到提高,因为它能防止小样本预测容易出现的过拟合现象。在线性回归预测的基础上,将决策树、Bagging、支持向量机算法进行整合得到回归预测模型。
附图说明
图1为LDA主题模型生成文本的方式。
图2为实际销量与预测销量的对比图。
图3为基于数据多样性和任务多样性的轮胎企业销售预测方法框架。
图4为应用Lasso算法实现多任务销售预测优化图示。
图5为提取网络数据的特征与链接扩展网络结构流程图示。
具体实施方式
下面结合实施例对本发明做进一步详细阐述。
(1)系统设计与数据预处理:销售预测系统根据需要预测的维度,首先从数据库中提取出该维度下的销售数据,然后按照时间进行排序。为了保证预测的合理性,在用户请求参数的时间之后的销售数据直接删掉,如果在此时间之前的销售数据因为数据缺失等原因中间存在不连续的间断情况,则直接忽略,交由后续逻辑进行处理。
外部数据源的加载有两种方式,一种是根据已经加载的销售数据构造训练集或者测试集中,每一次都从数据库查询对应时间的外部数据。这种方式的优点是逻辑清楚实现简单,缺点也是显而易见的,即对数据库压力过大,运行效率低下。第二种则是预先将需要的外部数据源全部加载进内存,然后选择合适的数据结构与销售数据进行拼接。这种方式更占内存实现稍显复杂,但是性能较第一种方式提升很多,因此本系统采用第二种方式。
数据加载完成之后,即可根据预测任务的时间来构造训练集和测试集。由于加载的数据以时间作为主键,而预测是依赖历史的数据,即每构造一条训练集都需要往前回溯。在回溯时,因为可能存在空缺值,需要检查连续性,对于存在非连续状态的数据将其从训练集中删除。除此之外,需要保证训练集和测试集的格式与模型的要求一致。测试集最多只包含一条数据,即代表需要预测的月份或者数据缺失而导致无法构造测试集。训练集包含多条,视用户提交的请求而定。
模型使用训练集数据训练模型,对于测试集数据则返回结果。如果一切正常,方法返回的JSON对象包括三个键值对,包括status(状态码,值为1),actualNum(实际值)和predictNum(预测值),actualNum为-1时代表需要预测的月份实际值数据库中不存在。如果报错,方法返回的JSON对象则只包括两个键值对,包括status(状态码,值为0)和msg(具体的错误信息)。前端根据返回status的值来决定如何展示。
系统自动加载最新的数据作为预测的依据,并根据用户选择同步提取外部数据源作为辅助的预测的依据。轮胎企业在每个主机厂均指派业务人员作为联系人,主机厂订单的轮胎数量经过业务人员的矫正之后再上报给轮胎公司进行计划生产。这种传统的预测方式存在预测精度不高的问题,一般只能预测某个主机厂的销量。本发明方法拓展了预测的维度,可以对产品种类、客户、品牌(三种预测维度)进行销量预测,当选择好维度之后,名称里会自动显示该维度的可选名称,这是由AJAX技术实现的,可在不重载页面的情况与Web服务器交换数据,即在不需要刷新页面的情况下,就可以产生局部刷新的效果。AJAX在浏览器与Web服务器之间使用异步数据传输(HTTP请求),这样就可使网页从服务器请求少量的信息,而不是整个页面。当用户选择维度后,会在系统后台查询该维度对应的数据表,将查找结果放入列表后在Struts的XML配置文件里作为JSON返回给页面。
(2)抽取非结构化数据:在本发明中抽取非结构化数据主要借助了mallet工具包,MALLET是基于Java的自然语言处理工具箱,包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面用。Mallet可以把文本转换为数学上的表达形式,从而更有效的对文本进行机器学习。这个过程是通过“管道(pipe)”系统实现的,它可以进行分词,移除停用词,把序列转换为向量等方面的操作。定义公司-主题向量:指从一个公司的文本信息中抽取主题的概率分布,可以表达为如下形式:
Figure BDA0001357716980000081
其中,n为主题的个数,pi代表第i个主题占所有主题的比例,且满足
Figure BDA0001357716980000082
得到每个公司的主题分布的算法如下所示。
Figure BDA0001357716980000083
Figure BDA0001357716980000091
其中,ni,k表示在若干次重复实验中,主题k在用户i所有主题中出现的次数
根据以上算法,借助mallet,按照工具包的步骤实施数据载入、训练测试分类器、结果输出,将转换好的数据作为后续步骤的部分数据源。
(3)提取网络数据的特征与链接扩展网络结构:本系统主要使用networkx工具包进行网络数据特征提取与链接扩展工作。该工具包是用python语言编写的软件包,便于用户对复杂网络进行创建、操作和学习。利用networkx可以以标准化和非标准化的数据格式存储网络、生成多种随机网络和经典网络、分析网络结构、建立网络模型、设计新的网络算法、进行网络绘制等。实际操作中,先把数据加载至networkx,然后创建加权的网络图,融合数据产生网络拓扑图。结合具体实施方式2中的主题向量,综合计算相似性,得到链接的结果。这个结果将在下一步的多任务预测中调用,整个流程如图5所示。
(4)整合多源数据并基于多任务进行销售预测:首先编写lasso算法的语句,根据上一步已经获取的网络链接结果,在已有的数据集上利用lasso算法进一步优化,除去预测中的冗余属性,保留核心属性,使销售预测模型能够训练的更好,这个已经优化的训练子集将在后续的Weka创建训练集过程中载入。Lasso算法在本系统的应用实现了多任务销售预测优化功能。轮胎的生命周期较短,采取单任务预测的方式难免有局限性,但是采用多任务销售预测,则能在训练中互相优化结果,这个预测优化过程如图4所示。
之后,借助数据分析工具WEKA实现轮胎销售预测。WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。对于存在数据库中的历史数据及外部数据,使用WEKA可以非常方便的把数据加载入预测模块,在这之前先要用JDBC的API把数据读到JAVA内存里。这些数据需要经过WEKA的预处理,例如把年月从数值型转换成标准型,以便于后续的训练和预测。对于预测来说,将选取的重要特征数据进行整理,这些数据需要按照WEKA的格式规范存入训练集。在可视化WEKA界面中,使用ARFF格式的文件比较简便。但是在销售预测系统里,用WEKA从数据库读取数据的话,这些数据需要经过整合之后保存在数组里。对于某一个月的预测,训练集就取之前的所有历史数据及外部数据,然后载入lasso算法的结果,形成最终的训练集。指定完训练集后,还需要指定测试集。测试集就是针对需要预测的月份提供参数,把这一条记录作为测试集。构建完训练集和测试集后,还需要设置训练算法。训练算法采用线性回归、M5P、支持向量机和Bagging算法的整合模型,最后得到销售预测结果。具体实施方式为,首先调用数据分析工具WEKA的API来训练线性回归模型,得到初步结果,然后根据实际加载的数据集判断是否需要M5P算法进行优化,如果M5P算法的评估结果较好,则说明数据集需要进行分类处理,所以采用M5P的分类式线性回归优化结果,若评估效果很差,则说明不需要分类处理,直接用Bagging算法优化准确度,避免因为小样本而出现的过拟合现象,造成模型对历史数据非常支持,却无法准确预测未来的销售数据这一情况。由于轮胎销售预测可以从多个维度进行预测,包括轮胎主机厂、轮胎品种与轮胎品牌,加载的数据集不一样,因此需要评估支持向量机算法在具体情况能否对预测结果有所提升。利用WEKA的评估工具评估支持向量机的预测结果,若结果良好,则与Bagging算法优化过的预测数据进行加权处理,完成预测的整合,并将预测结果显示在前端页面中。如果用户需要,还可以指定时间区间,用来展示实际销量与预测销量的对比图,如附图2所示。
图3展示基于数据多样性和任务多样性的轮胎企业销售预测方法框架图:①表示非结构化数据特征提取;②表示依据现有信息的轮胎企业关系图构建;③融入影响轮胎销售的上下游经济数据等;④表示扩充的轮胎企业关系网络;⑤轮胎企业多任务预测计算。

Claims (6)

1.一种基于数据多样性和任务多样性的轮胎企业销售预测方法,其特征在于,具体步骤为:
(1)提取非结构化数据的特征,即针对收集的各公司文本数据进行数据预处理,包括去噪去重,通过LDA方法得到每个公司的隐含特征;
(2)提取网络数据的结构特征,即从公司报告中得到各个公司之间的关联从而构建轮胎网络,在网络中量化各个公司之间的联系强度;
(3)链接扩展网络结构,综合拓扑结构和主题相似性,采用节点对之间的潜在链接强度打分算法,结合步骤(1)和步骤(2)的结果,进一步扩展优化公司之间的联系,以此有效提升轮胎销售预测的准确率;
(4)整合多源数据,即在轮胎销售预测的场景下,把多种数据整合在一起;在整合中,针对特征冗余问题,引入正则化惩罚项,即特征选择;同时抽取上下游行业的价格走势数据,将其作为特征直接用于线性回归模型;
(5)基于多任务的销售预测,即利用不同预测任务之间参数共享约束,将单一类型的轮胎销售预测优化为多个不同类型的轮胎销售预测问题;采用基于线性回归的轮胎销售预测方法,参数学习不仅依赖于自身的历史销售发货数据,也和其他类型轮胎的预测参数有关;此步骤将得到最后的销售预测结果;
所述基于多任务的销售预测的具体流程为:
包括lasso方法与时序分析两部分;对于数据集,使用lasso算法去除残留的冗余信息,获得最终用于时序分析的训练集;在时序分析部分,先调用数据分析工具WEKA的API来训练线性回归模型,得到初步结果,然后根据实际加载的数据集判断是否需要M5P算法进行优化,若需要,则利用M5P的分类式线性回归优化结果;若不需要,则直接用Bagging算法优化准确度,避免因为小样本而出现的过拟合现象;由于轮胎销售预测可以从多个维度进行预测,包括轮胎主机厂、轮胎品种与轮胎品牌,因此需要对历史数据进行支持向量机算法模拟,若结果良好,则与上述结果进行加权处理,完成预测的整合,并将预测结果显示在前端页面中。
2.根据权利要求1所述的轮胎企业销售预测方法,其特征在于,所述抽取非结构化数据特征的具体流程为:
利用主题挖掘思想,采用文本聚类的算法,通过向量空间模型将轮胎文本里的非结构化数据映射到向量空间中的点,然后用传统的聚类算法,实现文本聚类,聚类的结果近似认为满足同一个主题;
所述的主题挖掘主要用LDA模型,其生成文本的方式如下:最开始,LDA从参数为β的Dirichlet分布中抽取主题与单词的关系
Figure FDA0003006593330000025
LDA生成一个文本时,首先从参数为α的Dirichlet分布中抽取该文本与各个主题之间的关系θ,当有K个主题时,θ是一个K维向量,其中的每个元素代表主题在文本中的出现概率,所以θ满足∑Kθ=1;接着,从参数为θ的多项式分布中抽样当前单词所属的主题z;最后从多项式分布中抽取出具体单词w;所谓参数估计,有两种思路,即EM和MCMC;其主题分布如下所示:
Figure FDA0003006593330000021
Figure FDA0003006593330000022
至此,可以将轮胎行业的一些非结构化数据,包括公司主页,行业网站,工业论坛上获取
Figure FDA0003006593330000023
的文本数据转换为公司主题向量,作为销售预测数据源的一部分,并且去除这些数据中与销售预测完全不相关的维度。
3.根据权利要求1所述的轮胎企业销售预测方法,其特征在于,所述提取网络数据的结构特征的具体流程为:
为了在网络中量化各个公司之间的联系强度,首先加载各公司的数据集;通过领域知识,构建轮胎异质信息网络;轮胎异质信息网络是一种特殊的信息网络,它既包含多种类型的对象,也包含多种类型的链接关系;采用PathSim方法,将不同连接路径背后所隐藏的语义信息结合到对象相似性度量问题中;两个对象之间的PathSim值定义如下:
Figure FDA0003006593330000024
这里,p(x~→y)表示在路径P模式下,对象x和y之间的路径个数;通过这个算法,把数据集构建成了轮胎网络,为下一步的链接扩展轮胎网络结构所做的准备。
4.根据权利要求1所述的轮胎企业销售预测方法,其特征在于,所述链接扩展网络结构的具体流程为:
在步骤(1)和步骤(2)中,已经得到网络拓扑结构和主题向量,采用节点对之间的潜在链接强度打分算法,加载步骤(1)和步骤(2)得到的结果,综合计算相似性,进一步扩展优化公司之间的联系,从而实现数据间的互相优化训练,以有效提升轮胎销售预测的准确率;
本流程采用的算法:首先定义基于主题的相似性:给定R维欧式空间中的节点x和节点y的主题特征向量θ1和θ2,从二者的特征相似性出发,
Figure FDA0003006593330000031
定义如下式所示,
Figure FDA0003006593330000032
表示节点x和节点y之间基于文本内容的主题相似性大小:
Figure FDA0003006593330000033
其中,将节点x和节点y的主题向量的余弦相似度,作为二者的相似性大小的基础之一;当二者的兴趣分布类似,即概率相近时,二者越可能存在链接关系;通过综合网络结构特征和主题相似性,节点对之间的潜在链接强度打分表示为以下形式:
Figure FDA0003006593330000034
其中,特征之间的融合通过常用的指数簇回归实现。
5.根据权利要求1所述的轮胎企业销售预测方法,其特征在于,所述整合多源数据的具体流程为:
(1)连接所需多源数据库并获取相关数据;(2)研究和理解所获得的数据;(3)梳理和清理数据;(4)数据转换和建立结构;(5)数据组合;(6)建立分析数据集;不同类型的数据主要包括上下游行业的价格走势数据,在此处将其作为特征直接用于线性回归模型;同时,针对特征冗余引入正则化惩罚项,即特征选择;
采用线性融合多源数据,其基本形式如下:
y=wx+a+ε
其中,y为因变量,x={x1,x2,...,xn}为特征选择集合,a为偏移量,w={w1,w2,...,wn}为特征权重,ε为误差项;特征选择集合x={x1,x2,...,xn}和偏移量a由领域专家手工选择,前者确定哪些特征会对结果影响并量化,后者是一个结果的人为偏移量;模型的训练过程就是确定权重的过程,采用随机梯度下降找到一个最合适的权重让模型尽可能表示真实世界的概率分布,当有新的特征集合时,能给出一个最可能正确的结果。
6.根据权利要求1所述的轮胎企业销售预测方法,其特征在于,所述基于多任务的销售预测的具体流程为:
融入复杂lasso的特征融合方法:在轮胎多源数据中,不同数据集具有相同的解释变量甚至因变量,同一解释变量在不同数据集中的系数存在某种相似性;影响轮胎销售量由几个核心因素影响且变量存在冗余,在一个特征压缩的子空间中,在某种程度上满足稀疏性;另一方面,各个任务间往往相互关联,其表现为受共同受外部事件影响,以及相同的销售量影响因素,各类轮胎型号的销售量满足参数权重的一定程度的一致性;基于此,设定优化方程如下所示:
Figure FDA0003006593330000041
即不再依据厂商而切分数据集,而将它们看做一个整体的数据集,这样数据集就从原始的N-P,即N个数据集、P个特征,变成了N*M-P,即N*M个数据集,P个特征,M代表厂商的个数;上述方程中Y为不同种轮胎的销售时间序列,X为不同轮胎自身的特征,权重矩阵W代表每一家的厂商的权重,即W=diag(W1,…,WM),A代表人为偏移矩阵,即A=(1,…,M);λ1是一个惩罚权重,其值越大,代表模型对参数应该满足的一致性的约束要求越高,λ2也是一个惩罚权重,其值越大,代表模型的稀疏行约束要求越高,其他的参数和普通的线性回归模型参数一致;
时序分析:轮胎销售预测是一个典型的时间序列问题;首先采用线性回归方法进行初步销售预测,线性回归算法包括M5P、SMOreg、Bagging算法;M5P算法就是先进行分类,再计算的方法,避免将不同因素混在一起进行预测的缺陷;SMOreg是支持向量机算法;Bagging算法是用来提高学习算法准确度的方法,该方法通过构造一个预测函数系列,然后将它们组合成一个预测函数;它的流程是首先给定一个弱学习算法和一个训练集;将该学习算法使用多次,得出预测函数序列,进行投票;在线性回归预测的基础上,将决策树、Bagging、支持向量机算法进行整合得到回归预测模型。
CN201710603320.XA 2017-07-22 2017-07-22 基于数据多样性和任务多样性的轮胎企业销售预测方法 Active CN107515898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710603320.XA CN107515898B (zh) 2017-07-22 2017-07-22 基于数据多样性和任务多样性的轮胎企业销售预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710603320.XA CN107515898B (zh) 2017-07-22 2017-07-22 基于数据多样性和任务多样性的轮胎企业销售预测方法

Publications (2)

Publication Number Publication Date
CN107515898A CN107515898A (zh) 2017-12-26
CN107515898B true CN107515898B (zh) 2021-06-04

Family

ID=60722386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710603320.XA Active CN107515898B (zh) 2017-07-22 2017-07-22 基于数据多样性和任务多样性的轮胎企业销售预测方法

Country Status (1)

Country Link
CN (1) CN107515898B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109426920A (zh) * 2018-01-19 2019-03-05 武汉十傅科技有限公司 一种考虑预测订单和实际订单的企业生产计划优化方法
CN108230049A (zh) * 2018-02-09 2018-06-29 新智数字科技有限公司 订单的预测方法及系统
SG11202008015PA (en) * 2018-02-27 2020-09-29 Palathinkal Rony Joseph An artificial intelligence based prescriptive sales analytics system and method
CN108446771A (zh) * 2018-04-02 2018-08-24 四川长虹电器股份有限公司 一种防止销售预测模型过拟合的方法
CN111724188B (zh) * 2019-03-22 2024-04-19 北京沃东天骏信息技术有限公司 商品陈列位置的优化方法、装置、设备和存储介质
CN110163669B (zh) * 2019-05-09 2021-07-27 杭州览众数据科技有限公司 基于特征系数似然估计和零售业业务规则的需求预测方法
CN111831656B (zh) * 2020-06-24 2023-10-24 华迪计算机集团有限公司 一种企业内部产品数据管理及共享方法
CN111858690B (zh) * 2020-07-30 2024-04-30 中国民航信息网络股份有限公司 一种航班舱位限制销售数量自动调整方法及系统
CN111949708B (zh) * 2020-08-10 2023-07-25 中国平安人寿保险股份有限公司 基于时序特征提取的多任务预测方法、装置、设备及介质
TWI755035B (zh) * 2020-08-19 2022-02-11 國立勤益科技大學 大數據產品價值模型與產品活躍度指標之產品消費型態分析方法及其系統
CN112002403A (zh) * 2020-08-25 2020-11-27 上海至数企业发展有限公司 用于医疗设备的量化评估方法、装置、设备及存储介质
CN112132617A (zh) * 2020-09-23 2020-12-25 胜斗士(上海)科技技术发展有限公司 用于确定价格敏感度的方法和装置
CN112651671A (zh) * 2021-01-18 2021-04-13 中国民航信息网络股份有限公司 一种航班舱位调整方法及相关设备
CN113052636A (zh) * 2021-04-02 2021-06-29 西南石油大学 一种基于多源异构数据的农产品销量预测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729473A (zh) * 2014-01-22 2014-04-16 扬州大学 一种基于lda主题模型的相关软件历史数据提取方法
JP2016066269A (ja) * 2014-09-25 2016-04-28 Kddi株式会社 クラスタリング装置、方法及びプログラム
CN105956012A (zh) * 2016-04-21 2016-09-21 哈尔滨工程大学 基于图划分策略的数据库模式抽象方法
CN106326371A (zh) * 2016-08-12 2017-01-11 北京奇艺世纪科技有限公司 服务推送方法及装置
CN106802956A (zh) * 2017-01-19 2017-06-06 山东大学 一种基于加权异构信息网络的电影推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729473A (zh) * 2014-01-22 2014-04-16 扬州大学 一种基于lda主题模型的相关软件历史数据提取方法
JP2016066269A (ja) * 2014-09-25 2016-04-28 Kddi株式会社 クラスタリング装置、方法及びプログラム
CN105956012A (zh) * 2016-04-21 2016-09-21 哈尔滨工程大学 基于图划分策略的数据库模式抽象方法
CN106326371A (zh) * 2016-08-12 2017-01-11 北京奇艺世纪科技有限公司 服务推送方法及装置
CN106802956A (zh) * 2017-01-19 2017-06-06 山东大学 一种基于加权异构信息网络的电影推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IPI:一种基于影响力和兴趣的链接预测算游;杨林瑞 等;《计算机系统应用》;20161231;第160-164页 *
工业大数据分析技术与轮胎销售数据预测;李敏波 等;《计算机工程与应用》;20170313;第100-109页 *
异质信息网络分析及其予以探索;王锐 等;《研究与研发》;20151231;第2015166-1-2015166-9页 *

Also Published As

Publication number Publication date
CN107515898A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515898B (zh) 基于数据多样性和任务多样性的轮胎企业销售预测方法
Bilal et al. Big Data in the construction industry: A review of present status, opportunities, and future trends
US10410138B2 (en) System and method for automatic generation of features from datasets for use in an automated machine learning process
CN108320171B (zh) 热销商品预测方法、系统及装置
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN103336790B (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
Aghdaie et al. Synergies of data mining and multiple attribute decision making
CN103336791B (zh) 基于Hadoop的粗糙集快速属性约简方法
CN103744928A (zh) 一种基于历史访问记录的网络视频分类方法
CN101546290B (zh) 提高面向对象型软件中类阶层质量预测准确度的方法
CN110109902A (zh) 一种基于集成学习方法的电商平台推荐系统
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN114139725A (zh) 业务对象的预测方法、设备及存储介质
CN113763031A (zh) 一种商品推荐方法、装置、电子设备及存储介质
KR102307132B1 (ko) 플랜트 엔지니어링 업무 단계별 의사결정 지원을 위한 머신러닝 자동화 플랫폼 장치
Ng et al. Simulation-based innovization using data mining for production systems analysis
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
Jeyaraman et al. Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications
CN117078007A (zh) 一种融合尺度标签的多尺度风控系统及其方法
CN111930944A (zh) 文件标签分类方法及装置
CN111699472A (zh) 确定用于开发、设计和/或部署不同技术领域的复杂的嵌入式或信息物理系统,特别是其中使用的复杂的软件架构的措施的方法和计算机程序产品
Shah et al. Predictive Analytic Modeling: A Walkthrough
Lytvyn et al. Ontology of big data analytics
US11922438B1 (en) Semantic graph database capture of industrial organization and market structure
Farjoo et al. Design of a recommender system for online shopping using decision tree and Apriori algorithm

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant