CN109064201A

CN109064201A - 一种基于rsvd的生猪价格数据多级填充方法

Info

Publication number: CN109064201A
Application number: CN201810548810.9A
Authority: CN
Inventors: 邓水光; 王文文; 于莹; 张金迪; 夏晨丰; 董效贤; 何钦铭
Original assignee: Beijing Nongxin Interconnection Technology Co Ltd; Zhejiang University ZJU
Current assignee: Beijing Nongxin Interconnection Technology Co Ltd; Zhejiang University ZJU
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-12-21

Abstract

本发明公开了一种基于RSVD的生猪价格数据多级填充方法，其采用了基于RSVD和KNN的方法，综合考虑了时间和地理位置因素，计算各个地区的K近邻地区的价格相关系数，之后采用RSVD方法，用于填充某一地区的缺失值。本发明方法在综合考虑了相关价格的时间和地理位置属性的基础上，还考虑了整体价格的变化趋势，使用已知数据不断的拟合因子矩阵，直到收敛，利用因子矩阵的乘积来填补缺失数据。因此，本发明能够较好地利用生猪价格的时序和地理位置信息，可以更及时地发布生猪市场价格信息，有效、直观地传递给相关受众。

Description

一种基于RSVD的生猪价格数据多级填充方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于RSVD(正则化奇异值分解)的生猪价格数据多级填充方法。

背景技术

在生猪市场信息化的过程中，市场中的交易机构和相关公司逐渐积累了大量的生猪价格数据及与生猪养殖相关的其他各类数据，包括全国各个区县的生猪交易价格数据、历史饲料(包括玉米、豆粕)价格数据、历史生猪和能繁母猪存栏数据等。利用这些历史数据，我们可以得到各个地区生猪的综合价格，即建立生猪价格采集模型；通过生猪价格采集模型，各个地区的市场参与者，包括养殖户、生猪收购人员、消费者，可以对当前的市场生猪价格有一个准确的了解，对其投资与消费决策提供指导，减少因信息缺失与不对称导致的决策失误，以及由此引发的生猪市场价格波动，对市场的稳定发展起到积极的作用。但是，如何更好地利用这些数据，存在以下诸多挑战：

①各个地区的生猪价格历史数据来源多样，数据质量参差不齐，不能简单地平均使用，需要确定不同来源的价格数据的合理权重分配。

②由于不同区县价格数据存在缺失，即许多区县在某些日期不存在交易记录；这对价格采集模型的建立制造了诸多的困难，需要解决在一个确定的模型中，对输入价格的缺失进行处理的问题。

③生猪是一种非标准的交易标的，与股票、期货、黄金等标准物品相比，不同生猪的品质本身存在差异，生猪的交易地点也非常分散，生猪的交易价格信息传递渠道也不够通畅，这是另一种层面的信息缺失，即每一条生猪价格成交信息的自身特征是不确定的。

生猪市场迫切地需要建立和强化针对于生猪价格的动态监测和分析机制，建立准确合理的生猪价格填充模型，并以互联网作为媒介及时发布生猪市场价格信息，有效、直观地传递给相关受众；通过信息化手段，引导养殖户科学地调整生产结构，稳定市场情绪，规避由此带来的市场风险。

基于大量的生猪价格历史数据，利用机器学习的相关算法，生成代表各个地区的综合价格，并利用数据可视化技术，将价格信息快速、准确地传递给市场参与主体，是信息时代、智能时代的发展要求，也是生猪产业进一步提升生产效率、降低生产风险的必然需求。

目前常用的数据填充方法通常基于统计学原理，根据初始数据集中其余样本取值的分布情况来对一个缺失值进行填充。数据挖掘中常用的有以下几种补齐方法：(1)人工填写；由于最了解数据的还是用户自己，因此这个方法产生数据偏离最小，可能是填充效果最好的一种。然而一般来说，该方法很费时，当数据规模很大、空值很多的时候，该方法是不可行的。(2)平均值填充；将初始数据集中的属性分为数值属性和非数值属性来分别进行处理，如果空值是数值型的，就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值，以最大概率可能的取值来补充缺失的属性值，但是对于生猪价格容易受相关因素影响，出现涨跌不定的情况，所以该方法没有利用价格的时序属。(3)KNN(K 最邻近分类算法)；先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据；该方法只是考虑的价格本身的因素，仍然没有考虑时间和地理位置等因素。(4)SVD填充；根据SVD(奇异值分解)推论，任意矩阵都可被分解为两个矩阵的乘积，即任意U ×I的矩阵，都可被分解为一个U×K的矩阵与一个K×I的矩阵的乘积，其中K 为原始矩阵的秩，故缺失价格数据的矩阵也可被分解为两个矩阵的乘积，使用已知的数据不断去拟合因子矩阵，最终收敛时，可由矩阵乘积得到未知的价格空缺。

发明内容

鉴于上述，本发明提供了一种基于RSVD的生猪价格数据多级填充方法，能够较好地利用生猪价格的时序和地理位置信息，可以更及时地发布生猪市场价格信息，有效、直观地传递给相关受众。

一种基于RSVD的生猪价格数据多级填充方法，具体如下：

对于各省份生猪价格缺失采用以下步骤进行数据填充：

(1)收集全国各地区的生猪价格数据并进行过滤操作，计算确定各省份每天的生猪价格；

(2)若某一省份s某一日期d存在价格数据缺失，根据时空特性构建关于省份s生猪价格的数据关联矩阵D；

(3)根据数据关联矩阵D通过奇异值分解确定因子矩阵P和Q的秩，从而初始化因子矩阵P和Q；

(4)对以下目标函数SSE进行最小优化求解，得到最终的因子矩阵P和Q 并使P×Q＝D^*，利用矩阵D^*对数据关联矩阵D中缺失的价格值进行填充补全；

其中：p_i为因子矩阵P中的第i行向量，q_j为因子矩阵Q中的第j列向量，λ为权重衰减系数，e_ij＝D_ij-p_i×q_j，|p_i|＝p_ip_i ^T，|q_j|＝q_jq_j ^T，D_ij为数据关联矩阵D中第 i行第j列元素值，^T表示转置，i和j均为自然数；

对于各地级市生猪价格缺失则采用与上述省份生猪价格缺失相同的数据填充步骤实现，即首先确定各地级市每天的生猪价格，若某一地级市c某一日期d 存在价格数据缺失，则构建关于地级市c生猪价格的数据关联矩阵D；然后根据数据关联矩阵D通过奇异值分解确定因子矩阵P和Q的秩，并对相应的目标函数进行最小优化求解，得到最终的因子矩阵P和Q；最后使P×Q＝D^*，利用矩阵D^*对数据关联矩阵D中缺失的价格值进行填充补全。

进一步地，所述步骤(1)的具体实现过程如下：

1.1对全国各地区各日期的生猪价格数据进行过滤操作，即删除其中的异常值；

1.2对于某一省份s某一日期d的生猪价格，根据过滤后的价格数据对该省份s各地区日期d的生猪价格计算平均得到一个价格均值p_avg；

1.3若该省份s某些地区日期d的生猪价格与价格均值p_avg相差超过一定阈值，则删除这些地区日期d的生猪价格后再次求平均得到的均值作为省份s日期 d的生猪价格；除此之外，直接以价格均值p_avg作为省份s日期d的生猪价格。

进一步地，所述步骤(2)的具体实现过程为：首先，提取省份s及其所有相邻省份在时间窗口L内的生猪价格数据，所述时间窗口L即以日期d为中心前后一定宽度的时间段；然后，将这些省份在时间窗口L内每一天的生猪价格依次排列得到对应的m条横向量，m为省份s及其所有相邻省份的总个数，进而将这些横向量组成一个矩阵，对矩阵中缺失的价格值暂且先置为0；最后，使矩阵中的价格值乘以其对应省份的关联系数，所述关联系数＝省份s的最新GDP/ 对应省份的最新GDP，最终得到关于省份s生猪价格的数据关联矩阵D，其大小为m×n，n为时间窗口L的总天数。

进一步地，所述步骤(3)中确定因子矩阵P和Q的秩，具体过程为：首先，对于数据关联矩阵D中相邻省份缺失的价格值(即初始置为0的价格值)，采用该省份在时间窗口L内的生猪价格均值进行填充，填充后得到矩阵D'；然后，对矩阵D'进行奇异值分解，对于分解得到的奇异值，统计其中大于1的奇异值个数并作为因子矩阵P和Q的秩。

进一步地，所述步骤(3)中初始化因子矩阵P和Q的具体方法为：随机初始化因子矩阵P和Q为标准正态分布矩阵，即该矩阵中每列元素值服从均值为 0方差为1的标准正态分布；其中，因子矩阵P的大小为m×r，因子矩阵Q的大小为r×n，r为因子矩阵P和Q的秩。

进一步地，所述步骤(4)中采用RSVD算法对目标函数SSE进行最小优化求解，并利用梯度下降法不断减小均方误差以更新因子矩阵P和Q，收敛后得到最终的P和Q。

进一步地，对于地级市生猪价格缺失的数据填充步骤中构建关于地级市c 生猪价格的数据关联矩阵D，具体实现过程为：首先，提取地级市c及其所有相邻地级市在时间窗口L内的生猪价格数据，所述时间窗口L即以日期d为中心前后一定宽度的时间段；然后，将这些地级市在时间窗口L内每一天的生猪价格依次排列得到对应的k条横向量，k为地级市c及其所有相邻地级市的总个数，进而将这些横向量组成一个矩阵，对矩阵中缺失的价格值暂且先置为0；最后，使矩阵中的价格值乘以其对应地级市的关联系数η，关联系数η的具体计算表达式如下，最终得到关于地级市c生猪价格的数据关联矩阵D，其大小为k×n，n为时间窗口L的总天数；

其中：和λ₁分别为地级市c的纬度和经度，和λ₂分别为对应地级市的纬度和经度。

进一步地，对于地级市生猪价格缺失的数据填充步骤中通过奇异值分解确定因子矩阵P和Q的秩，具体实现过程为：首先，对于数据关联矩阵D中相邻地级市缺失的价格值，采用该地级市所属省份对应日期的生猪价格进行填充，填充后得到矩阵D'；然后，对矩阵D'进行奇异值分解，对于分解得到的奇异值，统计其中大于1的奇异值个数并作为因子矩阵P和Q的秩。

本发明采用了基于RSVD和KNN的方法，综合考虑了时间和地理位置因素，计算各个地区的K近邻地区的价格相关系数，之后采用RSVD方法，用于填充某一地区的缺失值。本发明方法在综合考虑了相关价格的时间和地理位置属性的基础上，还考虑了整体价格的变化趋势，使用已知数据不断的拟合因子矩阵，直到收敛，利用因子矩阵的乘积来填补缺失数据。

附图说明

图1为本发明各省生猪价格数据填充的步骤流程图。

图2为本发明各地级市生猪价格数据填充的步骤流程图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于RSVD的生猪价格数据多级填充方法，包括如下步骤：

对于各省份的生猪价格缺失，如图1所示：

(1)收集某省份每天的综合价格数据，以及该省份U个相邻省份每天的综合价格数据。

其中，各个省份每天的综合价格数据是根据当天收集的生猪价格交易记录生成的，针对当天的收集的生猪价格交易记录，分别计算均值和方差，根据 3sigma原则，过滤掉差异较大的数据。当过滤操作后，该省份仍然包含大量数据，利用剩下的数据重新计算均值作为该省份当天的综合价格数据，否则的话，采用原数据的均值作为该省份当天的生猪价格数据。

各省份的相邻省份是采用的地理位置相邻的概念，因为相邻省份的价格变动趋势相似，所以利用相邻省份的数据在一定程度上可以近似拟合缺失的省份的价格数据。但是因为各省的经济发展状况不同，所以本实施方式利用相邻省份的GDP与目标省份的GDP的比值，作为该省份的生猪价格数据的系数，对数据进行放缩，这在一定程度上可以降低数据之间的差异性，对于填充的数据也更加准确。

(2)选择需要填充的时间周期I，相邻省份缺失值填充为时间周期I内该省份价格数据的均值。

对于目标省份的价格出现缺失的日期，选择前后I/2的时间段，U个相邻省份中出现缺失的价格数据暂时填充为该省在时间段I内的每天综合价格数据的均值，综合价格数据的计算采用步骤(1)中的方法。

(3)构建该省份包含缺失值的初始输入矩阵R，大小为U×I。

(4)设矩阵为R(U×I)，rank(R)＝K，初始化P(U×K)、Q(K×I)，权重衰减参数λ，学习率参数η。

对于矩阵R的秩，采用对矩阵R进行奇异值分解后，选取奇异值大于1的元素个数，记为K。另外，初始化因子矩阵P(U×K)、Q(K×I)，两个因子矩阵均为符合标准正态分布的矩阵，将因子矩阵初始化为符合标准正态分布，在后面进行优化求解时，下降速度会更快，更快收敛。

(5)对矩阵R中每个有数据的元素，计算由P和Q计算R中每一个元素的值r_ui，以及计算与真实价格之间的误差e_ui：

(6)根据与真实价格之间的误差e_ui，不断的更新P和Q的元素，对P_u和 Q_i中的每个元素进行更新：

p_uk:＝p_uk+η(e_uiq_ki-λp_uk)q_ki:＝q_ki+η(e_uip_uk-λq_ki)

(7)计算损失值，用于判断迭代是否终止：

在迭代过程中采用梯度下降方法来优化求解，对损失函数求导，得到梯度。损失函数采用了均方差误差损失函数，此外还加入了L2正则项，来防止过拟合；通过梯度下降不断的更新因子矩阵P和Q中的元素，直至误差降低到一定阈值，或者迭代次数达到上限，但是梯度下降的速度还取决于两个超参数，权重衰减参数λ，学习率参数η，这两个参数需要在实验过程中不断调整。

(8)迭代中止时，计算P×Q的值用于填充R对应位置的值。

在迭代中止时，可近似认为因子矩阵P×Q是对R拟合误差相对较小，使用P×Q可近似替代R，所以可以对R中缺失的值进行填充为对应位置上的P ×Q。

对于地级市的生猪价格数据填充，如图2所示：

(1)收集某地级市每天的综合价格数据，以及该地级市U个相邻地级市每天的综合价格数据。

其中，各个地区每天的综合价格数据生成和省份每天的综合价格生成方法相同。但是各地区的相邻地区是采用KNN的方法，选择距离最近的U个地区。对于各地级市之间的关联程度，采用不同城市之间的距离来表示。城市之间的距离由城市的经纬度，利用Haversine公式计算得到，Haversine距离的计算公式为：

其中：haversin(θ)＝sin²(θ/2)＝(1-cos(θ))/2，和表示两点的纬度，λ₁和λ₂表示两点的经度。

所以这里利用相邻地级市与目标省份地级市的Haversine距离，作为该地级市的生猪价格数据的系数，对数据进行放缩，这在一定程度上可以降低数据之间的差异性，对于填充的数据也更加准确。

对于目标地级市的价格出现缺失的日期，选择前后I/2的时间段，U个相邻地级市中出现缺失的价格数据暂时填充为该地级市所属省份当天的综合价格数据，综合价格数据的计算采用步骤(1)中的方法。

步骤(3)(4)(5)(6)(7)(8)与省份填充的方法一致，迭代算法的具体实现如下：

输入：包含空缺价格的数据矩阵

输出：填充好的价格数据矩阵

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于RSVD的生猪价格数据多级填充方法，其特征在于：

对于各省份生猪价格缺失采用以下步骤进行数据填充：

(4)对以下目标函数SSE进行最小优化求解，得到最终的因子矩阵P和Q并使P×Q＝D^*，利用矩阵D^*对数据关联矩阵D中缺失的价格值进行填充补全；

其中：p_i为因子矩阵P中的第i行向量，q_j为因子矩阵Q中的第j列向量，λ为权重衰减系数，e_ij＝D_ij-p_i×q_j，|p_i|＝p_ip_i ^T，|q_j|＝q_jq_j ^T，D_ij为数据关联矩阵D中第i行第j列元素值，^T表示转置，i和j均为自然数；

对于各地级市生猪价格缺失则采用与上述省份生猪价格缺失相同的数据填充步骤实现，即首先确定各地级市每天的生猪价格，若某一地级市c某一日期d存在价格数据缺失，则构建关于地级市c生猪价格的数据关联矩阵D；然后根据数据关联矩阵D通过奇异值分解确定因子矩阵P和Q的秩，并对相应的目标函数进行最小优化求解，得到最终的因子矩阵P和Q；最后使P×Q＝D^*，利用矩阵D^*对数据关联矩阵D中缺失的价格值进行填充补全。

2.根据权利要求1所述的生猪价格数据多级填充方法，其特征在于：所述步骤(1)的具体实现过程如下：

1.3若该省份s某些地区日期d的生猪价格与价格均值p_avg相差超过一定阈值，则删除这些地区日期d的生猪价格后再次求平均得到的均值作为省份s日期d的生猪价格；除此之外，直接以价格均值p_avg作为省份s日期d的生猪价格。

3.根据权利要求1所述的生猪价格数据多级填充方法，其特征在于：所述步骤(2)的具体实现过程为：首先，提取省份s及其所有相邻省份在时间窗口L内的生猪价格数据，所述时间窗口L即以日期d为中心前后一定宽度的时间段；然后，将这些省份在时间窗口L内每一天的生猪价格依次排列得到对应的m条横向量，m为省份s及其所有相邻省份的总个数，进而将这些横向量组成一个矩阵，对矩阵中缺失的价格值暂且先置为0；最后，使矩阵中的价格值乘以其对应省份的关联系数，所述关联系数＝省份s的最新GDP/对应省份的最新GDP，最终得到关于省份s生猪价格的数据关联矩阵D，其大小为m×n，n为时间窗口L的总天数。

4.根据权利要求3所述的生猪价格数据多级填充方法，其特征在于：所述步骤(3)中确定因子矩阵P和Q的秩，具体过程为：首先，对于数据关联矩阵D中相邻省份缺失的价格值，采用该省份在时间窗口L内的生猪价格均值进行填充，填充后得到矩阵D'；然后，对矩阵D'进行奇异值分解，对于分解得到的奇异值，统计其中大于1的奇异值个数并作为因子矩阵P和Q的秩。

5.根据权利要求3所述的生猪价格数据多级填充方法，其特征在于：所述步骤(3)中初始化因子矩阵P和Q的具体方法为：随机初始化因子矩阵P和Q为标准正态分布矩阵，即该矩阵中每列元素值服从均值为0方差为1的标准正态分布；其中，因子矩阵P的大小为m×r，因子矩阵Q的大小为r×n，r为因子矩阵P和Q的秩。

6.根据权利要求1所述的生猪价格数据多级填充方法，其特征在于：所述步骤(4)中采用RSVD算法对目标函数SSE进行最小优化求解，并利用梯度下降法不断减小均方误差以更新因子矩阵P和Q，收敛后得到最终的P和Q。

7.根据权利要求1所述的生猪价格数据多级填充方法，其特征在于：对于地级市生猪价格缺失的数据填充步骤中构建关于地级市c生猪价格的数据关联矩阵D，具体实现过程为：首先，提取地级市c及其所有相邻地级市在时间窗口L内的生猪价格数据，所述时间窗口L即以日期d为中心前后一定宽度的时间段；然后，将这些地级市在时间窗口L内每一天的生猪价格依次排列得到对应的k条横向量，k为地级市c及其所有相邻地级市的总个数，进而将这些横向量组成一个矩阵，对矩阵中缺失的价格值暂且先置为0；最后，使矩阵中的价格值乘以其对应地级市的关联系数η，关联系数η的具体计算表达式如下，最终得到关于地级市c生猪价格的数据关联矩阵D，其大小为k×n，n为时间窗口L的总天数；

8.根据权利要求1所述的生猪价格数据多级填充方法，其特征在于：对于地级市生猪价格缺失的数据填充步骤中通过奇异值分解确定因子矩阵P和Q的秩，具体实现过程为：首先，对于数据关联矩阵D中相邻地级市缺失的价格值，采用该地级市所属省份对应日期的生猪价格进行填充，填充后得到矩阵D'；然后，对矩阵D'进行奇异值分解，对于分解得到的奇异值，统计其中大于1的奇异值个数并作为因子矩阵P和Q的秩。