CN113052636A - 一种基于多源异构数据的农产品销量预测系统 - Google Patents
一种基于多源异构数据的农产品销量预测系统 Download PDFInfo
- Publication number
- CN113052636A CN113052636A CN202110361893.2A CN202110361893A CN113052636A CN 113052636 A CN113052636 A CN 113052636A CN 202110361893 A CN202110361893 A CN 202110361893A CN 113052636 A CN113052636 A CN 113052636A
- Authority
- CN
- China
- Prior art keywords
- data
- sales
- agricultural product
- market
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 63
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000000265 homogenisation Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 13
- 238000004519 manufacturing process Methods 0.000 abstract description 5
- 238000012163 sequencing technique Methods 0.000 abstract description 3
- 239000000047 product Substances 0.000 description 84
- 235000002566 Capsicum Nutrition 0.000 description 8
- 241000758706 Piperaceae Species 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000013311 vegetables Nutrition 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 241000722363 Piper Species 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Marine Sciences & Fisheries (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Game Theory and Decision Science (AREA)
- Mining & Mineral Resources (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于多源异构数据的农产品销量预测系统,涉及农业智能生产领域。所本发明通过引入市场因子§的概念来描绘潜溺在销量数据下,市场对销量的整体影响度,通过计算市场销售的农产品的市场因子§能实现对市场画像的刻画,通过市场画像,能计算两个市场的相似度,对于相似度高的市场,可以套用已经训练好的销量预测模型,从而更加准确地选择销量预测模型来对需要进行销量预测的市场进行准确预测,且降低计算量;过引入Key_Value对照表实现了数据的快速去冗余,且降低了计算量;通过计算所有特征的特征关联度,并对他们进行特征关联度排序,从而排除了影响销量较小的特征,降低了销量预测模型训练的训练量,并保证了预测的准确度。
Description
技术领域
本发明涉及农业智能生产领域,尤其涉及一种基于多源异构数据的农产品销量预测系统。
背景技术
构建优质的农产品供应链是保证人民吃上新鲜、优质、实惠、放心农产品的关键所在,为此,国家投入大量资金构建“菜篮子”工程,旨在保证农产品供应链的稳定、优质。
在农产品的产销过程中,会伴随产生海量的数据,这些数据以各种形式保存在各个环节中,这些数据统称为多源异构数据,在过去,多源异构数据被视为无用且臃肿的数据,是人们难以割舍却又不得不割舍的数据资料,但随着时代发展,大数据处理技术的日趋成熟,多源异构数据变成了人类的宝贵财富,人们可以通过多源异构数据训练人工智能AI,多源异构数据是机器学习、人工智能、人脸识别、事态推测的基础,对于农产品的产销过程中产生的多源异构数据,人们也在积极寻找处理利用的方法。
申请号为CN201710291312.6的发明公开了一种基于互联网和大数据的农产品产销服务系统,包括:基础数据层,进行粮食、蔬菜、水果、畜产品的市场数据的采集存储;数据处理层,通过模型算法库对上传的数据进行加工、处理、聚类和分类,将处理后的数据采用分布式存储,构建基本的数据仓库;应用层,通过平台技术的整合,将数据仓库里的数据经行特征提取构建向量空间模型,并通过匹配推荐算法库与用户兴趣模型经行匹配,将匹配结果通过系统进行下一步的报送工作;展示层,通过媒体中介工具,将测报结果传送至农户、政府机构、科研机构以及消费者。但是该发明未对销量进行预测,从而指导供应链进行精准的备货。
故有必要提出一种新的,能通过现有历史数据对未来农产品销量做出准确预测的,能通过预测指导投放农产品的,基于多源异构数据的农产品销量预测系统。
发明内容
为解决上述技术问题,本发明提供一种基于多源异构数据的农产品销量预测系统,涉及农业智能生产领域。所述预测系统包括数据采集端、数据预处理端和销量预测模型;本发明通过引入市场因子§的概念来描绘潜溺在销量数据下,市场对销量的整体影响度,市场因子§还能作为描绘市场画像的工具,通过计算市场销售的农产品的市场因子§能实现对市场画像的刻画,通过市场画像,能计算两个市场的相似度,对于相似度高的市场,可以套用已经训练好的销量预测模型,从而更加准确地选择销量预测模型来对需要进行销量预测的市场进行准确预测,且降低计算量;过引入Key_Value对照表实现了数据的快速去冗余,且降低了计算量;通过计算所有特征的特征关联度,并对他们进行特征关联度排序,从而排除了影响销量较小的特征,降低了销量预测模型训练的训练量,并保证了预测的准确度。
本发明提供的一种基于多源异构数据的农产品销量预测系统,包括数据采集端、数据预处理端和销量预测模型;
所述数据采集端用于采集预测区域内所有农产品销售网点的历史数据作为训练样本集;
所述数据预处理端将训练样本集中的数据进行预处理,并将预处理后的数据分为参考集和特征集;
所述特征集用于训练销量预测模型,训练销量预测模型的给出的预测结果通过参考集来验证预测精准度;
所述销量预测模型为基于XGBoost的预测模型,能通过输入参考集和特征集进行模型训练,并构造用于预测农产品销量的销量预测模型。
作为更近一步的解决方案,所述训练样本集包括结构化数据和半结构化数据,所述结构化数据包括农产品种类数据、农产品价格数据、农产品库存数据、农产品销量数据、农产品转入数据、农产品转出数据工作人员信息和客户数据;所述半结构化数据包括销售网点位置数据、人员密度数据、消费水平数据、年龄组成数据,所述参考集中保存农产品销量数据,其余数据保存至特征集中。
作为更近一步的解决方案,包括如下步骤:
S1采集预测区域内所有农产品销售网点的历史数据作为训练样本集;
S2对训练样本集进行进行数据预处理,数据预处理包括数据均一化和数据去冗余;
S3通过数据预处理后的训练样本集数据计算各农产品销售网点的市场因子§和市场相似度S;
S4提取训练样本集中的特征变量;
S5将市场因子§和特征变量共同组成特征集;
S6将农产品销售网点的农产品销量作为参考集;
S7通过关联分析对特征集进行关联度降维,并分别得到训练集和测试集;
S8通过训练集中的特征集和参考集对XGBoost模型进行训练并得到XGBoost销量预测模型;
S9通过测试集对XGBoost销量预测模型进行精度测试;
S10对未达到精度要求的XGBoost销量预测模型,重复S8与S9步骤,满足精度要求则执行下一步;
S11通过相似度S寻找与需进行销量预测农产品销售网点匹配的XGBoost销量预测模型;
S12通过销量预测农产品销售网点的历史销售数据对XGBoost销量预测模型的特征权重进行修正;
S13将经过特征权重修正的XGBoost销量预测模型作为最终的预测模型对需进行销量预测农产品销售网点进行未来的销量预测,并根据实际预测结果进行预测有效值评估。
作为更近一步的解决方案,所述数据均一化包括如下步骤:
S21将训练样本集统一转化成半结构化数据;
S22通过分词器将数据进行分词处理;
S23将分词进行聚类分析;
S24将同一聚类下的分词进行均一化;
S25重复上述步骤直至每一个分词都进行同一聚类并均一化。
作为更近一步的解决方案,数据去冗余包括如下步骤:
S31为训练样本集中每一个样本子集计算Hash值;
S32将Hash值作为Key元素,样本子集保存地址作为Value元素构建Key_Value对照表并保存至Redis数据库中;
S33读取Redis数据库的返回值,若为0则正常存储,样本子集未出现重复;若为1则未正常存储,样本子集出现重复;
S34对训练样本集中每一个样本子集进行如上步骤直至去除训练样本集中所有冗余的样本子集。
作为更近一步的解决方案,所述市场因子§表示为:
作为更近一步的解决方案,所述市场相似度S表示为:
S(A,B)=Y(A)/Y(B),
其中,Y(A)表示A市场的市场画像矩阵;Y(B)表示B市场的市场画像矩阵。
作为更近一步的解决方案,所述关联度降维包括计算特征关联度和关联度排序;
所述关联度γi表示为:
作为更近一步的解决方案,所述销量预测模型为基于XGBoost的预测模型,所述销量预测模型包括回归树模型Φ和误差函数Li(Φ);
所述回归树模型Φ表示为:
其中,Qi表示i时刻对应的销售量,Li表示i时刻对应输入特征集的数据,f(k)表示回归树的第k棵树的构造函数;
所述误差函数Li(Φ)表示为:
其中,l表示为残值函数,θ为正则项。
作为更近一步的解决方案,通过销量预测模型对农产品销售网点销量进行预测时,需计算该农产品销售网点与现存已经训练好销量预测模型的市场相似度S,将相似度最高的销量预测模型作为该农产品销售网点的最终预测模型。
与相关技术相比较,本发明提供的一种基于多源异构数据的农产品销量预测系统具有如下有益效果:
1、本发明通过引入市场因子§的概念来描绘潜溺在销量数据下,市场对销量的整体影响度,市场因子§还能作为描绘市场画像的工具,通过计算市场销售的农产品的市场因子§能实现对市场画像的刻画,通过市场画像,能计算两个市场的相似度,对于相似度高的市场,可以套用已经训练好的销量预测模型,从而更加准确地选择销量预测模型来对需要进行销量预测的市场进行准确预测,且降低计算量;
2、本发明通过引入Key_Value对照表实现了数据的快速去冗余,且降低了计算量;
3、本发明通过计算所有特征的特征关联度,并对他们进行特征关联度排序,从而排除了影响销量较小的特征,降低了销量预测模型训练的训练量,并保证了预测的准确度。
附图说明
图1为本发明提供的一种基于多源异构数据的农产品销量预测系统的较佳实施例系统示意图;
图2为本发明提供的一种基于多源异构数据的农产品销量预测系统的较佳实施例系统流程图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1至图2所示,本发明一种基于多源异构数据的农产品销量预测系统,包括数据采集端、数据预处理端和销量预测模型。
进一步地,所述数据采集端用于采集预测区域内所有农产品销售网点的历史数据作为训练样本集。
进一步地,所述数据预处理端将训练样本集中的数据进行预处理,并将预处理后的数据分为参考集和特征集。
其中,训练样本集会被分为两个类别,两个类别指的是将数据分为参考集和特征集,特征集是作为输入预测模型的实际训练数据,是用于描绘影响销量的影响因子,而参考集是作为预测结果的修正参考,通俗来讲就是,特征集是一张杂乱无章的拼图,参考集则是拼图的正确答案,销量预测模型做的事情就是找出将杂乱无章的拼图,拼凑成正确答案的思路和规律。训练样本集还会分为两部分,一部分作为平时训练的训练集,另一部分作为测试销量预测模型预测准确度的测试集,这类似于我们的日常作业和测试考试,训练集作为思路训练而测试集用于得出实际结论。
更一步地,所述特征集用于训练销量预测模型,训练销量预测模型的给出的预测结果通过参考集来验证预测精准度。
具体的,所述销量预测模型为基于XGBoost的预测模型,能通过输入参考集和特征集进行模型训练,并构造用于预测农产品销量的销量预测模型。
作为更近一步的解决方案,所述训练样本集包括结构化数据和半结构化数据,所述结构化数据包括农产品种类数据、农产品价格数据、农产品库存数据、农产品销量数据、农产品转入数据、农产品转出数据工作人员信息和客户数据;所述半结构化数据包括销售网点位置数据、人员密度数据、消费水平数据、年龄组成数据,所述参考集中保存农产品销量数据,其余数据保存至特征集中。
作为更近一步的解决方案,包括如下步骤:
S1采集预测区域内所有农产品销售网点的历史数据作为训练样本集;
S2对训练样本集进行进行数据预处理,数据预处理包括数据均一化和数据去冗余;
S3通过数据预处理后的训练样本集数据计算各农产品销售网点的市场因子§和市场相似度S;
S4提取训练样本集中的特征变量;
S5将市场因子§和特征变量共同组成特征集;
S6将农产品销售网点的农产品销量作为参考集;
S7通过关联分析对特征集进行关联度降维,并分别得到训练集和测试集;
S8通过训练集中的特征集和参考集对XGBoost模型进行训练并得到XGBoost销量预测模型;
S9通过测试集对XGBoost销量预测模型进行精度测试;
S10对未达到精度要求的XGBoost销量预测模型,重复S8与S9步骤,满足精度要求则执行下一步;
S11通过相似度S寻找与需进行销量预测农产品销售网点匹配的XGBoost销量预测模型;
S12通过销量预测农产品销售网点的历史销售数据对XGBoost销量预测模型的特征权重进行修正;
S13将经过特征权重修正的XGBoost销量预测模型作为最终的预测模型对需进行销量预测农产品销售网点进行未来的销量预测,并根据实际预测结果进行预测有效值评估。
需要说明的是:市场因子§是影响农产品销量的一个重要概念,他体现为通过农产品转入数据和农产品转出数据分析其中潜溺的隐含信息,它并不关心潜溺的隐含信息的具体值,而是做出潜溺的隐含信息的一个整体影响度,而某一市场的市场画像可以通过这个市场销售的农产品的市场因子§集合来进行一个整体刻画。
作为更近一步的解决方案,所述数据均一化包括如下步骤:
S21将训练样本集统一转化成半结构化数据;
S22通过分词器将数据进行分词处理;
S23将分词进行聚类分析;
S24将同一聚类下的分词进行均一化;
S25重复上述步骤直至每一个分词都进行同一聚类并均一化。
需要说明的是:随着人工智能的不断发展,基于人工智能的服务型API接口功能也不断强大起来,如分词器和聚类分析便是如百度、腾讯、阿里等大型企业提供的语意API服务提供的服务功能,本实施基于上述API接口实现,故其实现原理不再进行赘述。
作为更近一步的解决方案,数据去冗余包括如下步骤:
S31为训练样本集中每一个样本子集计算Hash值;
S32将Hash值作为Key元素,样本子集保存地址作为Value元素构建Key_Value对照表并保存至Redis数据库中;
S33读取Redis数据库的返回值,若为0则正常存储,样本子集未出现重复;若为1则未正常存储,样本子集出现重复;
S34对训练样本集中每一个样本子集进行如上步骤直至去除训练样本集中所有冗余的样本子集。
需要说明的是:由于我们需要存储的数据量大,在数据去冗余时,如果采用遍历所有数据查出重复项的方式进行的话,其效率极其低下,为了解决上述问题,本实施采用的是将训练样本集分为若干个样本子集进行保存,并计算样本子集的Hash值,构建Key_Value对照表并保存至Redis数据库中,这样做的目的是在存储前计算需要存储数据的Hash值与现存的Hash值进行比较,这样不用遍历所有文件而仅需要进行Hash值的比对就行,采用Redis数据库,是由于Redis数据库只对未存在于数据库的数据进行存储,若存在了,数据库会向用户发送返回值1表示文件存储失败。
具体的,由于农产品的保质期相对较短,而消费市场又存在波动,这就给农产品销售网点如何安排进出货带来了挑战,在过去,对于消费市场的评估往往是通过经验评估,这样的评估方式能对农产品的销售起到一定的指导作用,但是仅凭经验评估难免出现误判,或者由于评估者的经验累计程度不同,造成错误指引等,现有的评估方式通常是采集历史销量数据进行预测,但是预测精准度不高,究其原因是因为忽略了市场因素。
实际的案例是:A市场区域的消费者偏好食辣,映射到农产品转移的情况,反应为A区域转入辣椒量大,而转出辣椒量几乎没有;相应的,B市场区域的消费者不偏好食辣,但是B区域市场所服务的区域比A市场大,映射到农产品转移的情况,反应为B区域转入辣椒量大,而转出辣椒量更大,结果为B区域销售辣椒量大于A区域转入辣椒量,如果根据传统销售建模推理预测的话,我们需要向销售量大的地区补货,也就是B区域;但显然这是不对的,由于农产品易损耗腐败,若是经常进行搬动的话,必定造成不必要的消耗,所以我们应该是对A区域进行及时补货,而逐步降低对B区域的补货直至A、B区域的进货量和出货量趋于稳定;从上述案例中我们不难看出,对于推测农产品的销售量我们不能简单的通过历史销售数据进行推测,而应该引入市场画像,也就是刻画市场区域消费偏好的市场因子,对于市场因子结构相似的区域,我们可以进行预测模型套用,对于市场因子结构不相似的区域,我们需对其进行独立衡量。
需要说明的是:本实施例引入市场因子的概念,我们将市场因子设为§,则衡量市场因子可以通过农产品转出量和农产品转入量来进行,我们设市场为U农产品为X,市场U在T时间段内农产品X的转入量为市场U在T时间段内农产品X的转出量为则U市场对于农产品X的市场因子可表示为:
市场因子§能反应该市场对待某一农产品的欢迎度,若该市场的市场因子§为正值时,则说明该市场对于农产品销售起到促进作用,同样的,若市场因子§为负时,反应到实际销量上就是该市场有4农产品销售的作用。
作为更近一步的解决方案,在建立市场因子§的概念以后,我们再引入市场相似度S的概念,市场相似度S是衡量不同市场之间内在关联的相似程度,具体来讲就是,四川地区和渝州地区均有食辣之习,这代表在辣椒这种农产品销售上,两地均存在促进作用,而为了更好的,更立体的刻画这种潜在的联系,我们需要对构建市场画像;而构建市场画像我们需要通过市场因子§构建市场画像矩阵,设U市场中包括i种农产品,则U市场的市场画像矩阵Y(U)为(§(U)1,§(U)2,...,§(U)i);评价市场A与市场B的相似度便能表示为:
S(A,B)=Y(A)/Y(B)。
作为本实施例更进一步的解决方式,在引入市场因子§和市场相似度S的概念后,我们需要将市场因子§和原始训练样本集一并输入销量预测模型中进行特征提取并构造特征集,由于特征集里包含着大量与销量预测不相关的特征数据,当引入过多非相关特征以后,会极大影响预测系统的准确性和不必要的海量计算,故我们需要对特征集进行处理将不必要的特征进行弱化处理,本实施例是通过关联度分析的方法对特征数据进行降维,然后通过衡量特征与销量关联度的大小,进行关联度排序,从而确定起主导作用的特征。
需要说明的是:本实施例原始数据提取的特征包括146项之多,对其一一输入模型进行训练显然是不合理的,故选取对影响销量较大的特征尤为重要。
作为更近一步的解决方案,所述关联度降维包括计算特征关联度和关联度排序;
作为本实施例更加具体的解决方案,对于计算特征的关联度,将n个特征数据排列成m行进行排列得到初始的矩阵数列:
其中i表示数列当中的行数,k表示对应的特征,构造好分析矩阵以后,我们需要将分析矩阵的数据进行无量纲化,本实施采用均值化的方式,表达式为:
其中ox表示原始的分析数列,k表示对应的特征;
在得到无量纲数列yi后,需要计算关联度系数γ(k):
而关联度γi可表示为:
作为本实施例更进一步的解决方案,在确定每一个特征的关联度γi后,对关联度进行大小排序,取前X项作为XGBoost模型的输入特征集,本实施例X取值为6。
作为本实施例更进一步的解决方案,XGBoost模型是通过构造回归树模型并增加树节点来不断逼近真实值的来使得目标函数趋近最小从而实现建模推测农产品销量,在本实施例中,设参考集与输入特征集构造的对应集为Di={(Li,Qi)},i∈m,其中,m表示参考集与对应有m行数据,Qi表示i时刻对应的销售量,Li表示i时刻对应输入特征集的数据,回归树模型Φ在本实施中可定义为:
作为更近一步的解决方案,通过销量预测模型对农产品销售网点销量进行预测时,需计算该农产品销售网点与现存已经训练好销量预测模型的市场相似度S,将相似度最高的销量预测模型作为该农产品销售网点的最终预测模型。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于多源异构数据的农产品销量预测系统,其特征在于,包括数据采集端、数据预处理端和销量预测模型;
所述数据采集端用于采集预测区域内所有农产品销售网点的历史数据作为训练样本集;
所述数据预处理端将训练样本集中的数据进行预处理,并将预处理后的数据分为参考集和特征集;
所述特征集用于训练销量预测模型,训练销量预测模型的给出的预测结果通过参考集来验证预测精准度;
所述销量预测模型为基于XGBoost的预测模型,能通过输入参考集和特征集进行模型训练,并构造用于预测农产品销量的销量预测模型。
2.根据权利要求1所述的一种基于多源异构数据的农产品销量预测系统,其特征在于,所述训练样本集包括结构化数据和半结构化数据,所述结构化数据包括农产品种类数据、农产品价格数据、农产品库存数据、农产品销量数据、农产品转入数据、农产品转出数据工作人员信息和客户数据;所述半结构化数据包括销售网点位置数据、人员密度数据、消费水平数据、年龄组成数据,所述参考集中保存农产品销量数据,其余数据保存至特征集中。
3.根据权利要求2所述的一种基于多源异构数据的农产品销量预测系统,其特征在于,包括如下步骤:
S1采集预测区域内所有农产品销售网点的历史数据作为训练样本集;
S2对训练样本集进行进行数据预处理,数据预处理包括数据均一化和数据去冗余;
S3通过数据预处理后的训练样本集数据计算各农产品销售网点的市场因子§和市场相似度S;
S4提取训练样本集中的特征变量;
S5将市场因子§和特征变量共同组成特征集;
S6将农产品销售网点的农产品销量作为参考集;
S7通过关联分析对特征集进行关联度降维,并分别得到训练集和测试集;
S8通过训练集中的特征集和参考集对XGBoost模型进行训练并得到XGBoost销量预测模型;
S9通过测试集对XGBoost销量预测模型进行精度测试;
S10对未达到精度要求的XGBoost销量预测模型,重复S8与S9步骤,满足精度要求则执行下一步;
S11通过相似度S寻找与需进行销量预测农产品销售网点匹配的XGBoost销量预测模型;
S12通过销量预测农产品销售网点的历史销售数据对XGBoost销量预测模型的特征权重进行修正;
S13将经过特征权重修正的XGBoost销量预测模型作为最终的预测模型对需进行销量预测农产品销售网点进行未来的销量预测,并根据实际预测结果进行预测有效值评估。
4.根据权利要求3所述的一种基于多源异构数据的农产品销量预测系统,其特征在于,所述数据均一化包括如下步骤:
S21将训练样本集统一转化成半结构化数据;
S22通过分词器将数据进行分词处理;
S23将分词进行聚类分析;
S24将同一聚类下的分词进行均一化;
S25重复上述步骤直至每一个分词都进行同一聚类并均一化。
5.根据权利要求3所述的一种基于多源异构数据的农产品销量预测系统,其特征在于,数据去冗余包括如下步骤:
S31为训练样本集中每一个样本子集计算Hash值;
S32将Hash值作为Key元素,样本子集保存地址作为Value元素构建Key_Value对照表并保存至Redis数据库中;
S33读取Redis数据库的返回值,若为0则正常存储,样本子集未出现重复;若为1则未正常存储,样本子集出现重复;
S34对训练样本集中每一个样本子集进行如上步骤直至去除训练样本集中所有冗余的样本子集。
7.根据权利要求3所述的一种基于多源异构数据的农产品销量预测系统,其特征在于,所述市场相似度S表示为:
S(A,B)=Y(A)/Y(B),
其中,Y(A)表示A市场的市场画像矩阵;Y(B)表示B市场的市场画像矩阵。
10.根据权利要求3所述的一种基于多源异构数据的农产品销量预测系统,其特征在于,通过销量预测模型对农产品销售网点销量进行预测时,需计算该农产品销售网点与现存已经训练好销量预测模型的市场相似度S,将相似度最高的销量预测模型作为该农产品销售网点的最终预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361893.2A CN113052636A (zh) | 2021-04-02 | 2021-04-02 | 一种基于多源异构数据的农产品销量预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361893.2A CN113052636A (zh) | 2021-04-02 | 2021-04-02 | 一种基于多源异构数据的农产品销量预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113052636A true CN113052636A (zh) | 2021-06-29 |
Family
ID=76517217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110361893.2A Pending CN113052636A (zh) | 2021-04-02 | 2021-04-02 | 一种基于多源异构数据的农产品销量预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113052636A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723480A (zh) * | 2022-03-28 | 2022-07-08 | 西南石油大学 | 一种针对乡村旅游的客流量预测方法及货物调度系统 |
CN116385048A (zh) * | 2023-06-06 | 2023-07-04 | 山东政信大数据科技有限责任公司 | 一种农产品智慧营销方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184424A (zh) * | 2015-10-19 | 2015-12-23 | 国网山东省电力公司菏泽供电公司 | 实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法 |
CN107515898A (zh) * | 2017-07-22 | 2017-12-26 | 复旦大学 | 基于数据多样性和任务多样性的轮胎企业销售预测方法 |
-
2021
- 2021-04-02 CN CN202110361893.2A patent/CN113052636A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184424A (zh) * | 2015-10-19 | 2015-12-23 | 国网山东省电力公司菏泽供电公司 | 实现多源异构数据融合的多核函数学习SVM的Mapreduce化短期负荷预测方法 |
CN107515898A (zh) * | 2017-07-22 | 2017-12-26 | 复旦大学 | 基于数据多样性和任务多样性的轮胎企业销售预测方法 |
Non-Patent Citations (1)
Title |
---|
张星: "融合多源异构制造数据的产品销售预测和投放策略研究", 《中国优秀博硕士学位论文全文数据库(硕士)经济与管理科学辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723480A (zh) * | 2022-03-28 | 2022-07-08 | 西南石油大学 | 一种针对乡村旅游的客流量预测方法及货物调度系统 |
CN114723480B (zh) * | 2022-03-28 | 2024-04-30 | 西南石油大学 | 一种针对乡村旅游的客流量预测方法及货物调度系统 |
CN116385048A (zh) * | 2023-06-06 | 2023-07-04 | 山东政信大数据科技有限责任公司 | 一种农产品智慧营销方法和系统 |
CN116385048B (zh) * | 2023-06-06 | 2023-08-22 | 山东政信大数据科技有限责任公司 | 一种农产品智慧营销方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910243B (zh) | 一种基于可重构大数据知识图谱技术的产权交易方法 | |
WO2021031566A1 (zh) | 一种基于多任务学习的人脸美丽预测方法 | |
CN107944986B (zh) | 一种o2o商品推荐方法、系统及设备 | |
CN102855268B (zh) | 基于属性关系进行图像排序的方法和系统 | |
CN113052636A (zh) | 一种基于多源异构数据的农产品销量预测系统 | |
CN111144933A (zh) | 商品推荐方法、装置、电子设备及存储介质 | |
CN113946754A (zh) | 基于用户画像的权益推荐方法、装置、设备及存储介质 | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
CN116304299A (zh) | 一种融和用户兴趣演化和梯度提升算法的个性化推荐方法 | |
CN111104614A (zh) | 用于旅游目的地推荐系统的召回信息的生成方法 | |
US20220383344A1 (en) | Generating numerical data estimates from determined correlations between text and numerical data | |
Ma et al. | Analysis and identification of students with financial difficulties: A behavioural feature perspective | |
CN108287902B (zh) | 一种基于数据非随机缺失机制的推荐系统方法 | |
Feng et al. | Predicting book sales trend using deep learning framework | |
CN115619571A (zh) | 一种理财规划方法、系统及装置 | |
Siahaan et al. | Text Processing and Sentiment Analysis using Machine Learning and Deep Learning with Python GUI | |
Zadeh | A New Sales Forecasting method for industrial supply chain | |
Pascua et al. | Combined synthetic minority oversampling technique and deep neural network for red wine quality prediction | |
Zhao et al. | An mcts-based recommender system for education complex | |
Liu | Method to Facilitate E-Commerce Buying Power by Using Machine Learning Techniques | |
Al-Taie et al. | Successful Data Science Projects: Lessons Learned from Kaggle Competition | |
Zhihua et al. | Potential customer mining application of smart home products based on LightGBM PU learning and Spark ML algorithm practice | |
CN108595693A (zh) | 一种枸杞数据整理系统 | |
Geetha et al. | Deep Learning and Sentiment Analysis Improve E-commerce Sales Prediction | |
Upadhyay et al. | Sales Prediction in the Retail Industry Using Machine Learning: A Case Study of BigMart |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210629 |