CN111445006A

CN111445006A - 开源社区中开发者代码提交次数的预测方法及系统

Info

Publication number: CN111445006A
Application number: CN202010124146.2A
Authority: CN
Inventors: 曹健; 童兰轩; 钱诗友
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-24

Abstract

本发明提供了一种开源社区中开发者代码提交次数的预测方法及系统，包括：步骤1：构建单位根检验，检验时间序列的平稳性；步骤2：构建LB或Q统计量，检验时间序列的白噪声；步骤3：构建季节性单位根检验，检验时间序列的季节性；步骤4：根据检验结果选择预测模型得到预测结果，所述预测模型包括ARIMA模型、LSTM模型和混合模型。本发明根据不同的时间粒度将开发者代码提交次数数据转变为时间序列，通过时间序列成分分析后，自适应地选择最合适的预测模型，以预测接下来的各个时间粒度中开发者代码提交次数。

Description

开源社区中开发者代码提交次数的预测方法及系统

技术领域

本发明涉及数据挖掘技术领域，具体地，涉及一种开源社区中开发者代码提交次数的预测方法及系统。

背景技术

开源软件已经成为了目前的软件开发的主流方式。开发者在这些开源社区中以各种方式作出贡献，推动着开源软件的发展。对开发者的代码提交行为进行预测，有助于对开源项目的管理和对人员工作状态的了解。由于每个开发者的代码提交的规律不相同，因此，无法以统一的预测模型应用于所有的开发者。

专利文献CN107644268A(申请号：201710813673.2)公开了一种基于多特征的开源软件项目孵化状态预测方法，包括如下步骤：步骤1收集关于Apache项目的文件提交以及邮件交流的历史数据；步骤2根据项目的前5个月的历史数据，构建项目成员的有向网络；步骤3提取特征数据，包括邮件网络的网络特征以及相关属性特征，作为训练测试数据；步骤4采用支持向量机(SupportVectorMachine，SVM)，的方法对数据进行训练，并构建多特征的开源软件项目孵化状态的预测模型。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种开源社区中开发者代码提交次数的预测方法及系统。

根据本发明提供的开源社区中开发者代码提交次数的预测方法，包括：

步骤1：构建单位根检验，检验时间序列的平稳性；

步骤2：构建LB或Q统计量，检验时间序列的白噪声；

步骤3：构建季节性单位根检验，检验时间序列的季节性；

步骤4：根据检验结果选择预测模型得到预测结果，所述预测模型包括ARIMA模型、LSTM模型和混合模型。

优选地，所述ARIMA模型根据对时间序列的成分分析对参数(p,d,q)进行范围定阶；

其中，p表示自回归项数，d表示滑动平均项数，q表示使该序列成为平稳序列所做的差分次数。

优选地，所述ARIMA模型包括：自回归模型、移动平均模型、移动平均自回归模型、趋势差分移动平均自回归模型和季节性差分移动自回归模型模型。

优选地，所述LSTM模型利用任何成熟实现，包括：基于tensorflow构建的LSTM和基于pytorch构建的LSTM。

优选地，所述混合模型包括ARIMA-LSTM混合模型；

ARIMA-LSTM混合模型是在自动ARIMA模型拟合后，将拟合残差作为LSTM模型的输入，结合两部分的结果得到最终预测结果。

优选地，所述ARIMA-LSTM混合模型的步骤包括：

步骤A：设定时间序列X＝{x₁,x₂,…,x_N}，选择ARIMA模型阶数，记为p₀,d₀,q₀；

其中，x₁表示时间序列中的第一项，即发生的最早的一项；N表示时间序列长度，X_N为最后一项，即发生的最晚的一项；p₀、d₀及q₀表示在对ARIMA模型进行成分分析确定p、d及q范围，通过信息准则计算后，找到数据的ARIMA模型自回归项数、滑动平均项数及序列所作的差分次数；

步骤B：计算残差；

步骤C：对残差进行Max-Min归一化处理；

步骤D：构建LSTM模型并获取到预测结果。

优选地，所述步骤B包括：

e_k＝x_k-ARIMA(P₀，d₀，q₀)({x₁，x₂，…，x_k-1})k＝2，…，N

其中，e_k表示第k项的残差，时间序列第k项值与ARIMA模型在该项的预测值的差；

对于序列中元素的每一个下标k，用前k-1个元素的预测值为L_k，其中，e₁＝x₁。

优选地，所述步骤C包括：

其中，

表示归一化后的第k项残差，e_min表示所有残差中的最小值，e_max表示所有残差中的最大值。

优选地，所述步骤D包括：

其中，

表示时间序列中下一项的预测值，(X)表示X＝{x₁,x₂,…,x_N}为设定的时间序列，作为参数输入给模型ARIMA，LSTM(E')表示：E’＝{e₂,…,e_N}为残差序列，作为参数输入给模型LSTM。

根据本发明提供的开源社区中开发者代码提交次数的预测系统，包括：

模块M1：构建单位根检验，检验时间序列的平稳性；

模块M2：构建LB或Q统计量，检验时间序列的白噪声；

模块M3：构建季节性单位根检验，检验时间序列的季节性；

模块M4：根据检验结果选择预测模型得到预测结果，所述预测模型包括ARIMA模型、LSTM模型和混合模型。

与现有技术相比，本发明具有如下的有益效果：

1、本发明根据不同的时间粒度将开发者代码提交次数数据转变为时间序列，通过时间序列成分分析后，自适应地选择最合适的预测模型，以预测接下来的各个时间粒度中开发者代码提交次数；

2、本发明对开发者的代码提交行为进行预测，有助于对开源项目的管理和对人员工作状态的了解；

3、本发明有利于推动着开源软件的发展。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1所示的是本发明的结构示意图；

图2所示的是本发明的自适应预测模型选择的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

请参考图1，本发明通过以下技术方案实现：

一种将开发者代码提交行为按照时间单位统计次数后转变为代码提交行为次数时间序列，基于对时间序列成分的分析，自适应选择最优预测模型的方法。对从行为序列提取出的时间序列的成分分析主要包括以下步骤：

1)构建单位根检验，利用ADF检验和KPSS检验以确定时间序列的平稳性：非平稳、平稳、差分平稳、趋势平稳；

2)依据时间序列的长度构建LB或Q统计量，检验时间序列的白噪声；

3)构建HEGY季节性单位根检验，以检验时间序列的季节性。

4)基于以上检验，在三类模型：ARIMA模型、LSTM及ARIMA-LSTM混合模型中选择。

(1)ARIMA模型，根据对时间序列的成分分析可以对参数(p,d,q)进行一定的范围定阶，ARIMA模型的实现包括：

自回归(AR)模型；

移动平均(MA)模型；

移动平均自回归(ARMA)模型；

趋势差分移动平均自回归(趋势ARIMA)模型；

季节性差分移动自回归模型(季节性ARIMA)模型。

(2)LSTM模型的实现可以采用任何成熟方法；

(3)ARIMA-LSTM混合模型：在自动ARIMA模型拟合后，将拟合残差作为LSTM模型的输入，结合两部分的结果得到最终预测结果。ARIMA-LSTM混合模型的步骤为：

S1、对于时间序列X＝{x₁,x₂,…,x_N}，假设该时间序列选择了最合适的ARIMA模型阶数，记为p₀,d₀,q₀。

S2、对于序列中元素的每一个下标k，用前k-1个元素的预测值为L_k，计算残差：

e_k＝x_k-ARIMA(p₀，d₀，q₀)({x₁、x₂，…，x_k-1})k＝2，…，N

特别的，e₁＝x₁；

S3、对残差进行Max-Min归一化处理：

S4、构建LSTM模型，综合L_N后得到预测结果：

如图2，展示的是根据对时间序列的成分分析结果，自动选择相应的预测模型。对于几乎不含白噪声的序列，根据平稳性选择相应的ARIMA模型；对于含一定比例白噪声的序列，则选择相应的混合ARIMA-LSTM模型；对于含有季节性的序列，选择季节性ARIMA模型。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种开源社区中开发者代码提交次数的预测方法，其特征在于，包括：

步骤1：构建单位根检验，检验时间序列的平稳性；

步骤2：构建LB或Q统计量，检验时间序列的白噪声；

步骤3：构建季节性单位根检验，检验时间序列的季节性；

2.根据权利要求1所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述ARIMA模型根据对时间序列的成分分析对参数(p,d,q)进行范围定阶；

3.根据权利要求1所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述ARIMA模型包括：自回归模型、移动平均模型、移动平均自回归模型、趋势差分移动平均自回归模型和季节性差分移动自回归模型模型。

4.根据权利要求1所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述LSTM模型利用任何成熟实现，包括：基于tensorflow构建的LSTM和基于pytorch构建的LSTM。

5.根据权利要求1所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述混合模型包括ARIMA-LSTM混合模型；

6.根据权利要求1所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述ARIMA-LSTM混合模型的步骤包括：

步骤B：计算残差；

步骤C：对残差进行Max-Min归一化处理；

步骤D：构建LSTM模型并获取到预测结果。

7.根据权利要求6所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述步骤B包括：

e_k＝x_k-ARIMA(p₀，d₀，q₀)({x₁，x₂，…，x_k-1})k＝2，…，N

8.根据权利要求6所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述步骤C包括：

其中，e′_k表示归一化后的第k项残差，e_min表示所有残差中的最小值，e_max表示所有残差中的最大值。

9.根据权利要求6所述的开源社区中开发者代码提交次数的预测方法，其特征在于，所述步骤D包括：

其中，

10.一种开源社区中开发者代码提交次数的预测系统，其特征在于，包括：

模块M1：构建单位根检验，检验时间序列的平稳性；

模块M2：构建LB或Q统计量，检验时间序列的白噪声；

模块M3：构建季节性单位根检验，检验时间序列的季节性；