CN113052636A

CN113052636A - 一种基于多源异构数据的农产品销量预测系统

Info

Publication number: CN113052636A
Application number: CN202110361893.2A
Authority: CN
Inventors: 陈怡男; 陈惠芬; 梁琳; 李婕; 吕园园; 杨先凤
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-29

Abstract

本发明提供一种基于多源异构数据的农产品销量预测系统，涉及农业智能生产领域。所本发明通过引入市场因子§的概念来描绘潜溺在销量数据下，市场对销量的整体影响度，通过计算市场销售的农产品的市场因子§能实现对市场画像的刻画，通过市场画像，能计算两个市场的相似度，对于相似度高的市场，可以套用已经训练好的销量预测模型，从而更加准确地选择销量预测模型来对需要进行销量预测的市场进行准确预测，且降低计算量；过引入Key_Value对照表实现了数据的快速去冗余，且降低了计算量；通过计算所有特征的特征关联度，并对他们进行特征关联度排序，从而排除了影响销量较小的特征，降低了销量预测模型训练的训练量，并保证了预测的准确度。

Description

一种基于多源异构数据的农产品销量预测系统

技术领域

本发明涉及农业智能生产领域，尤其涉及一种基于多源异构数据的农产品销量预测系统。

背景技术

构建优质的农产品供应链是保证人民吃上新鲜、优质、实惠、放心农产品的关键所在，为此，国家投入大量资金构建“菜篮子”工程，旨在保证农产品供应链的稳定、优质。

在农产品的产销过程中，会伴随产生海量的数据，这些数据以各种形式保存在各个环节中，这些数据统称为多源异构数据，在过去，多源异构数据被视为无用且臃肿的数据，是人们难以割舍却又不得不割舍的数据资料，但随着时代发展，大数据处理技术的日趋成熟，多源异构数据变成了人类的宝贵财富，人们可以通过多源异构数据训练人工智能AI，多源异构数据是机器学习、人工智能、人脸识别、事态推测的基础，对于农产品的产销过程中产生的多源异构数据，人们也在积极寻找处理利用的方法。

申请号为CN201710291312.6的发明公开了一种基于互联网和大数据的农产品产销服务系统，包括：基础数据层，进行粮食、蔬菜、水果、畜产品的市场数据的采集存储；数据处理层，通过模型算法库对上传的数据进行加工、处理、聚类和分类，将处理后的数据采用分布式存储，构建基本的数据仓库；应用层，通过平台技术的整合，将数据仓库里的数据经行特征提取构建向量空间模型，并通过匹配推荐算法库与用户兴趣模型经行匹配，将匹配结果通过系统进行下一步的报送工作；展示层，通过媒体中介工具，将测报结果传送至农户、政府机构、科研机构以及消费者。但是该发明未对销量进行预测，从而指导供应链进行精准的备货。

故有必要提出一种新的，能通过现有历史数据对未来农产品销量做出准确预测的，能通过预测指导投放农产品的，基于多源异构数据的农产品销量预测系统。

发明内容

为解决上述技术问题，本发明提供一种基于多源异构数据的农产品销量预测系统，涉及农业智能生产领域。所述预测系统包括数据采集端、数据预处理端和销量预测模型；本发明通过引入市场因子§的概念来描绘潜溺在销量数据下，市场对销量的整体影响度，市场因子§还能作为描绘市场画像的工具，通过计算市场销售的农产品的市场因子§能实现对市场画像的刻画，通过市场画像，能计算两个市场的相似度，对于相似度高的市场，可以套用已经训练好的销量预测模型，从而更加准确地选择销量预测模型来对需要进行销量预测的市场进行准确预测，且降低计算量；过引入Key_Value对照表实现了数据的快速去冗余，且降低了计算量；通过计算所有特征的特征关联度，并对他们进行特征关联度排序，从而排除了影响销量较小的特征，降低了销量预测模型训练的训练量，并保证了预测的准确度。

本发明提供的一种基于多源异构数据的农产品销量预测系统，包括数据采集端、数据预处理端和销量预测模型；

所述数据采集端用于采集预测区域内所有农产品销售网点的历史数据作为训练样本集；

所述数据预处理端将训练样本集中的数据进行预处理，并将预处理后的数据分为参考集和特征集；

所述特征集用于训练销量预测模型，训练销量预测模型的给出的预测结果通过参考集来验证预测精准度；

所述销量预测模型为基于XGBoost的预测模型，能通过输入参考集和特征集进行模型训练，并构造用于预测农产品销量的销量预测模型。

作为更近一步的解决方案，所述训练样本集包括结构化数据和半结构化数据，所述结构化数据包括农产品种类数据、农产品价格数据、农产品库存数据、农产品销量数据、农产品转入数据、农产品转出数据工作人员信息和客户数据；所述半结构化数据包括销售网点位置数据、人员密度数据、消费水平数据、年龄组成数据，所述参考集中保存农产品销量数据，其余数据保存至特征集中。

作为更近一步的解决方案，包括如下步骤：

S1采集预测区域内所有农产品销售网点的历史数据作为训练样本集；

S2对训练样本集进行进行数据预处理，数据预处理包括数据均一化和数据去冗余；

S3通过数据预处理后的训练样本集数据计算各农产品销售网点的市场因子§和市场相似度S；

S4提取训练样本集中的特征变量；

S5将市场因子§和特征变量共同组成特征集；

S6将农产品销售网点的农产品销量作为参考集；

S7通过关联分析对特征集进行关联度降维，并分别得到训练集和测试集；

S8通过训练集中的特征集和参考集对XGBoost模型进行训练并得到XGBoost销量预测模型；

S9通过测试集对XGBoost销量预测模型进行精度测试；

S10对未达到精度要求的XGBoost销量预测模型，重复S8与S9步骤，满足精度要求则执行下一步；

S11通过相似度S寻找与需进行销量预测农产品销售网点匹配的XGBoost销量预测模型；

S12通过销量预测农产品销售网点的历史销售数据对XGBoost销量预测模型的特征权重进行修正；

S13将经过特征权重修正的XGBoost销量预测模型作为最终的预测模型对需进行销量预测农产品销售网点进行未来的销量预测，并根据实际预测结果进行预测有效值评估。

作为更近一步的解决方案，所述数据均一化包括如下步骤：

S21将训练样本集统一转化成半结构化数据；

S22通过分词器将数据进行分词处理；

S23将分词进行聚类分析；

S24将同一聚类下的分词进行均一化；

S25重复上述步骤直至每一个分词都进行同一聚类并均一化。

作为更近一步的解决方案，数据去冗余包括如下步骤：

S31为训练样本集中每一个样本子集计算Hash值；

S32将Hash值作为Key元素，样本子集保存地址作为Value元素构建Key_Value对照表并保存至Redis数据库中；

S33读取Redis数据库的返回值，若为0则正常存储，样本子集未出现重复；若为1则未正常存储，样本子集出现重复；

S34对训练样本集中每一个样本子集进行如上步骤直至去除训练样本集中所有冗余的样本子集。

作为更近一步的解决方案，所述市场因子§表示为：

其中，

表示市场U在T时间段内农产品X的转入量；

表示市场U在T时间段内农产品X的转出量，T表示单位时间段。

作为更近一步的解决方案，所述市场相似度S表示为：

S(A,B)＝Y(A)/Y(B)，

其中，Y(A)表示A市场的市场画像矩阵；Y(B)表示B市场的市场画像矩阵。

作为更近一步的解决方案，所述关联度降维包括计算特征关联度和关联度排序；

所述关联度γ_i表示为：

其中，n表示特征总个数，k表示关联度对应的特征，其初始权重值为1/n；

表示动态变化系数，γ(k)表示关联度系数。

作为更近一步的解决方案，所述销量预测模型为基于XGBoost的预测模型，所述销量预测模型包括回归树模型Φ和误差函数Lⁱ(Φ)；

所述回归树模型Φ表示为：

其中，Q_i表示i时刻对应的销售量，L_i表示i时刻对应输入特征集的数据，f(k)表示回归树的第k棵树的构造函数；

所述误差函数Lⁱ(Φ)表示为：

其中，l表示为残值函数，θ为正则项。

作为更近一步的解决方案，通过销量预测模型对农产品销售网点销量进行预测时，需计算该农产品销售网点与现存已经训练好销量预测模型的市场相似度S,将相似度最高的销量预测模型作为该农产品销售网点的最终预测模型。

与相关技术相比较，本发明提供的一种基于多源异构数据的农产品销量预测系统具有如下有益效果：

1、本发明通过引入市场因子§的概念来描绘潜溺在销量数据下，市场对销量的整体影响度，市场因子§还能作为描绘市场画像的工具，通过计算市场销售的农产品的市场因子§能实现对市场画像的刻画，通过市场画像，能计算两个市场的相似度，对于相似度高的市场，可以套用已经训练好的销量预测模型，从而更加准确地选择销量预测模型来对需要进行销量预测的市场进行准确预测，且降低计算量；

2、本发明通过引入Key_Value对照表实现了数据的快速去冗余，且降低了计算量；

3、本发明通过计算所有特征的特征关联度，并对他们进行特征关联度排序，从而排除了影响销量较小的特征，降低了销量预测模型训练的训练量，并保证了预测的准确度。

附图说明

图1为本发明提供的一种基于多源异构数据的农产品销量预测系统的较佳实施例系统示意图；

图2为本发明提供的一种基于多源异构数据的农产品销量预测系统的较佳实施例系统流程图。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。

如图1至图2所示，本发明一种基于多源异构数据的农产品销量预测系统，包括数据采集端、数据预处理端和销量预测模型。

进一步地，所述数据采集端用于采集预测区域内所有农产品销售网点的历史数据作为训练样本集。

进一步地，所述数据预处理端将训练样本集中的数据进行预处理，并将预处理后的数据分为参考集和特征集。

其中，训练样本集会被分为两个类别，两个类别指的是将数据分为参考集和特征集，特征集是作为输入预测模型的实际训练数据，是用于描绘影响销量的影响因子，而参考集是作为预测结果的修正参考，通俗来讲就是，特征集是一张杂乱无章的拼图，参考集则是拼图的正确答案，销量预测模型做的事情就是找出将杂乱无章的拼图，拼凑成正确答案的思路和规律。训练样本集还会分为两部分，一部分作为平时训练的训练集，另一部分作为测试销量预测模型预测准确度的测试集，这类似于我们的日常作业和测试考试，训练集作为思路训练而测试集用于得出实际结论。

更一步地，所述特征集用于训练销量预测模型，训练销量预测模型的给出的预测结果通过参考集来验证预测精准度。

具体的，所述销量预测模型为基于XGBoost的预测模型，能通过输入参考集和特征集进行模型训练，并构造用于预测农产品销量的销量预测模型。

作为更近一步的解决方案，包括如下步骤：

S4提取训练样本集中的特征变量；

S5将市场因子§和特征变量共同组成特征集；

S6将农产品销售网点的农产品销量作为参考集；

S9通过测试集对XGBoost销量预测模型进行精度测试；

需要说明的是：市场因子§是影响农产品销量的一个重要概念，他体现为通过农产品转入数据和农产品转出数据分析其中潜溺的隐含信息，它并不关心潜溺的隐含信息的具体值，而是做出潜溺的隐含信息的一个整体影响度，而某一市场的市场画像可以通过这个市场销售的农产品的市场因子§集合来进行一个整体刻画。

作为更近一步的解决方案，所述数据均一化包括如下步骤：

S21将训练样本集统一转化成半结构化数据；

S22通过分词器将数据进行分词处理；

S23将分词进行聚类分析；

S24将同一聚类下的分词进行均一化；

S25重复上述步骤直至每一个分词都进行同一聚类并均一化。

需要说明的是：随着人工智能的不断发展，基于人工智能的服务型API接口功能也不断强大起来，如分词器和聚类分析便是如百度、腾讯、阿里等大型企业提供的语意API服务提供的服务功能，本实施基于上述API接口实现，故其实现原理不再进行赘述。

作为更近一步的解决方案，数据去冗余包括如下步骤：

S31为训练样本集中每一个样本子集计算Hash值；

需要说明的是：由于我们需要存储的数据量大，在数据去冗余时，如果采用遍历所有数据查出重复项的方式进行的话，其效率极其低下，为了解决上述问题，本实施采用的是将训练样本集分为若干个样本子集进行保存，并计算样本子集的Hash值，构建Key_Value对照表并保存至Redis数据库中，这样做的目的是在存储前计算需要存储数据的Hash值与现存的Hash值进行比较，这样不用遍历所有文件而仅需要进行Hash值的比对就行，采用Redis数据库，是由于Redis数据库只对未存在于数据库的数据进行存储，若存在了，数据库会向用户发送返回值1表示文件存储失败。

具体的，由于农产品的保质期相对较短，而消费市场又存在波动，这就给农产品销售网点如何安排进出货带来了挑战，在过去，对于消费市场的评估往往是通过经验评估，这样的评估方式能对农产品的销售起到一定的指导作用，但是仅凭经验评估难免出现误判，或者由于评估者的经验累计程度不同，造成错误指引等，现有的评估方式通常是采集历史销量数据进行预测，但是预测精准度不高，究其原因是因为忽略了市场因素。

实际的案例是：A市场区域的消费者偏好食辣，映射到农产品转移的情况，反应为A区域转入辣椒量大，而转出辣椒量几乎没有；相应的，B市场区域的消费者不偏好食辣，但是B区域市场所服务的区域比A市场大，映射到农产品转移的情况，反应为B区域转入辣椒量大，而转出辣椒量更大，结果为B区域销售辣椒量大于A区域转入辣椒量，如果根据传统销售建模推理预测的话，我们需要向销售量大的地区补货，也就是B区域；但显然这是不对的，由于农产品易损耗腐败，若是经常进行搬动的话，必定造成不必要的消耗，所以我们应该是对A区域进行及时补货，而逐步降低对B区域的补货直至A、B区域的进货量和出货量趋于稳定；从上述案例中我们不难看出，对于推测农产品的销售量我们不能简单的通过历史销售数据进行推测，而应该引入市场画像，也就是刻画市场区域消费偏好的市场因子，对于市场因子结构相似的区域，我们可以进行预测模型套用，对于市场因子结构不相似的区域，我们需对其进行独立衡量。

需要说明的是：本实施例引入市场因子的概念，我们将市场因子设为§，则衡量市场因子可以通过农产品转出量和农产品转入量来进行，我们设市场为U农产品为X，市场U在T时间段内农产品X的转入量为

市场U在T时间段内农产品X的转出量为

则U市场对于农产品X的市场因子可表示为：

市场因子§能反应该市场对待某一农产品的欢迎度，若该市场的市场因子§为正值时，则说明该市场对于农产品销售起到促进作用，同样的，若市场因子§为负时，反应到实际销量上就是该市场有4农产品销售的作用。

作为更近一步的解决方案，在建立市场因子§的概念以后，我们再引入市场相似度S的概念，市场相似度S是衡量不同市场之间内在关联的相似程度，具体来讲就是，四川地区和渝州地区均有食辣之习，这代表在辣椒这种农产品销售上，两地均存在促进作用，而为了更好的，更立体的刻画这种潜在的联系，我们需要对构建市场画像；而构建市场画像我们需要通过市场因子§构建市场画像矩阵，设U市场中包括i种农产品，则U市场的市场画像矩阵Y(U)为(§(U)₁，§(U)₂，...，§(U)_i)；评价市场A与市场B的相似度便能表示为：

S(A,B)＝Y(A)/Y(B)。

作为本实施例更进一步的解决方式，在引入市场因子§和市场相似度S的概念后，我们需要将市场因子§和原始训练样本集一并输入销量预测模型中进行特征提取并构造特征集，由于特征集里包含着大量与销量预测不相关的特征数据，当引入过多非相关特征以后，会极大影响预测系统的准确性和不必要的海量计算，故我们需要对特征集进行处理将不必要的特征进行弱化处理，本实施例是通过关联度分析的方法对特征数据进行降维，然后通过衡量特征与销量关联度的大小，进行关联度排序，从而确定起主导作用的特征。

需要说明的是：本实施例原始数据提取的特征包括146项之多，对其一一输入模型进行训练显然是不合理的，故选取对影响销量较大的特征尤为重要。

作为本实施例更加具体的解决方案，对于计算特征的关联度，将n个特征数据排列成m行进行排列得到初始的矩阵数列：

其中i表示数列当中的行数，k表示对应的特征，构造好分析矩阵以后，我们需要将分析矩阵的数据进行无量纲化，本实施采用均值化的方式，表达式为：

其中ox表示原始的分析数列，k表示对应的特征；

在得到无量纲数列y_i后，需要计算关联度系数γ(k)：

其中，k表示关联度系数对应的特征，

表示分辨度，

表示最小极差，

表示最大极差；

而关联度γ_i可表示为：

表示动态变化系数，根据实际的销售情况确定，γ(k)表示关联度系数。

作为本实施例更进一步的解决方案，在确定每一个特征的关联度γ_i后，对关联度进行大小排序，取前X项作为XGBoost模型的输入特征集，本实施例X取值为6。

作为本实施例更进一步的解决方案，XGBoost模型是通过构造回归树模型并增加树节点来不断逼近真实值的来使得目标函数趋近最小从而实现建模推测农产品销量，在本实施例中，设参考集与输入特征集构造的对应集为D_i＝{(L_i,Q_i)}，i∈m，其中，m表示参考集与对应有m行数据，Q_i表示i时刻对应的销售量，L_i表示i时刻对应输入特征集的数据，回归树模型Φ在本实施中可定义为：

其中，

表示i时刻的销量预测值，f(k)表示回归树的第k棵树的构造函数，而销量预测值

与真实Q_i之间的误差可表示为：

其中，l表示为残值函数，θ为正则项；通过不断缩小Lⁱ(Φ)的误差值，能使回归树模型Φ的给出的销售量预测值

越来越逼近i时刻销售量真实值Q_i。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多源异构数据的农产品销量预测系统，其特征在于，包括数据采集端、数据预处理端和销量预测模型；

2.根据权利要求1所述的一种基于多源异构数据的农产品销量预测系统，其特征在于，所述训练样本集包括结构化数据和半结构化数据，所述结构化数据包括农产品种类数据、农产品价格数据、农产品库存数据、农产品销量数据、农产品转入数据、农产品转出数据工作人员信息和客户数据；所述半结构化数据包括销售网点位置数据、人员密度数据、消费水平数据、年龄组成数据，所述参考集中保存农产品销量数据，其余数据保存至特征集中。

3.根据权利要求2所述的一种基于多源异构数据的农产品销量预测系统，其特征在于，包括如下步骤：

S4提取训练样本集中的特征变量；

S5将市场因子§和特征变量共同组成特征集；

S6将农产品销售网点的农产品销量作为参考集；

S9通过测试集对XGBoost销量预测模型进行精度测试；

4.根据权利要求3所述的一种基于多源异构数据的农产品销量预测系统，其特征在于，所述数据均一化包括如下步骤：

S21将训练样本集统一转化成半结构化数据；

S22通过分词器将数据进行分词处理；

S23将分词进行聚类分析；

S24将同一聚类下的分词进行均一化；

S25重复上述步骤直至每一个分词都进行同一聚类并均一化。

5.根据权利要求3所述的一种基于多源异构数据的农产品销量预测系统，其特征在于，数据去冗余包括如下步骤：