CN106569981A

CN106569981A - 一种适用于大规模数据集的统计参量确定方法及系统

Info

Publication number: CN106569981A
Application number: CN201610920439.5A
Authority: CN
Inventors: 皇甫伟; 杨心竹; 张弘; 胡晓彦
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-04-19
Anticipated expiration: 2036-10-21
Also published as: CN106569981B

Abstract

本发明提供一种适用于大规模数据集的统计参量确定方法及系统，能够提高求解统计参量的效率。所述方法包括：获取待处理的数据集，将所述数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值。本发明适用于大数据求解统计参量技术领域。

Description

一种适用于大规模数据集的统计参量确定方法及系统

技术领域

本发明涉及大数据技术领域，特别是指一种适用于大规模数据集的统计参量确定方法及系统。

背景技术

近年来，随着数据量的积累和快速增长，对大规模数据的充分挖掘已成为学术界研究的热点。数据挖掘一般是指从大量的数据中通过算法搜索有效信息的过程，其中对于具有一定统计分布特征的数据，确定其分布类型、估计相关参量是这类数据挖掘中基础且重要的内容。对于具有单一分布模式的数据集，可以使用传统的最大似然估计方法计算其参量，但是实际数据集复杂多变，往往包含多种分布模式(即混合分布)，且由于观测条件的限制，与每种分布模式相关的数据情况是未知的(即含有隐藏变量)，传统的最大似然估计方法对于此类数据集很难直接计算其参量，因此一种有效计算混合分布相关参量的方法是十分必要的，最大期望算法(Expectation Maximization Algorithm，EM算法)的提出解决了上述问题。

EM算法用于含有隐藏变量概率分布模型的参量估计，算法简单易行，得到了广泛地应用。EM算法主要通过先引入合适的隐藏变量数据，起到简化似然函数的作用，然后再对完整数据集的似然函数进行迭代，算法流程如下：首先设数目据样本数N的已知观测数据集为X，设置隐藏变量为Y＝{y₁,y₁,…,y_i,…,y_n}，得到的基于假设的完整数据集{X,Y}，EM算法则通过E步和M步的不断迭代优化来估计模型中的未知参量θ，步骤如下：

1)设置初始值θ⁽⁰⁾；

2)E步：计算基于完整数据集的似然函数关于隐藏变量Y的条件期望，记为辅助Q函数：Q(θ；θ^(m))＝E_Y[ln f(X,Y；θ|X,θ^(m))]；

其中，f(X,Y；θ|X,θ^(m))表示在观测数据集X和第m迭代的参数θ^(m)已知条件下，基于完整数据集{X,Y}的关于未知参数θ的似然函数。

3)M步：求值θ^(m+1)，使其满足Q(θ^(m+1)；θ^(m))＝maxQ(θ；θ^(m))；

其中，θ^(m)表示第m次迭代。

将上述E步和M步运算交替迭代，直到||θ^(m+1)-θ^(m)||充分小时停止，最终求得的θ值即为该混合分布模型的参量估计值。

EM算法的最大优点是简单和稳定，因此目前的混合分布模型参量估计大多使用EM算法，但EM算法需要迭代数据集中的全部数据，时间复杂度和数据量成正比，近似为O(N)，当数据量很大时，EM算法迭代速度缓慢、效率低，并不适合大规模数据集的统计参量计算。

发明内容

本发明要解决的技术问题是提供一种适用于大规模数据集的统计参量确定方法及系统，以解决现有技术所存在的当数据量很大时，EM算法迭代速度缓慢、效率低的问题。

为解决上述技术问题，本发明实施例提供一种适用于大规模数据集的统计参量确定方法，包括：

获取待处理的数据集，将所述数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；

利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；

根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；

通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值。

进一步地，所述似然函数表示为：

其中，P(θ)表示似然函数，N表示所述数据集中数据样本的数目，m表示区间数量，n_i表示第i区间的数据样本的数目，P_i(θ)表示所述数据集中任一数据样本x在区间[x_i-1,x_i]的概率，f(x,θ)为包含未知参量θ的概率密度函数。

进一步地，所述通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值包括：

S1，初始化粒子群；

S2，根据所述目标函数计算所述粒子群中每个粒子的适应度，更新粒子群中每个粒子的位置和速度，并根据所述粒子群中每个粒子的适应度大小，更新粒子群中每个粒子的最好位置和粒子群的最好位置；其中，粒子i的最好位置表示到当前次迭代为止，粒子i的适应度最大时粒子i的位置；所述粒子群的最好位置表示到当前次迭代为止，所述粒子群中适应度最大的粒子的位置；

S3，判断是否满足预设的结束条件，若满足预设的结束条件，则结束迭代，此时粒子群的最好位置为全局最优位置，所述全局最优位置为所述未知参量的最优解，其中，所述预设的结束条件包括：迭代次数是否达到预设的最大迭代次数或最大适应度的增量是否小于预设的阈值；否则，返回S2。

进一步地，所述初始化粒子群包括：

若所述概率密度函数中包含的未知参量的数目为D，则在D维空间中初始化粒子群。

进一步地，所述更新粒子群中每个粒子的位置和速度包括：

通过粒子速度更新公式，更新粒子群中粒子i的速度，其中，所述粒子速度更新公式表示为：

通过粒子位置更新公式，更新粒子群中粒子i的位置，其中，所述粒子位置更新公式表示为：

其中，为第k次迭代粒子群中粒子i速度的第d维分量；为第k-1次迭代粒子群中粒子i速度的第d维分量；为第k-1次迭代粒子群中粒子i位置的第d维分量；为第k次迭代粒子群中粒子i位置的第d维分量；c₁和c₂为两个加速度常数；r₁和r₂为两个随机数，取值范围[0,1]；ω为非负数惯性权重；表示到上一次迭代为止，粒子群中粒子i的最好位置的第d维分量；g_d表示到上一次迭代为止，粒子群的最好位置的第d维分量；其中，d满足1≤d≤D。

本发明实施例还提供一种适用于大规模数据集的统计参量确定系统，包括：

分区统计模块，用于获取待处理的数据集，将所述数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；

概率确定模块，用于利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；

函数确定模块，用于根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；

参量求解模块，用于通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值。

进一步地，所述似然函数表示为：

进一步地，所述参量求解模块包括：

初始化单元，用于初始化粒子群；

更新单元，用于根据所述目标函数计算所述粒子群中每个粒子的适应度，更新粒子群中每个粒子的位置和速度，并根据所述粒子群中每个粒子的适应度大小，更新粒子群中每个粒子的最好位置和粒子群的最好位置；其中，粒子i的最好位置表示到当前次迭代为止，粒子i的适应度最大时粒子i的位置；所述粒子群的最好位置表示到当前次迭代为止，所述粒子群中适应度最大的粒子的位置；

求解单元，判断是否满足预设的结束条件，若满足预设的结束条件，则结束迭代，此时粒子群的最好位置为全局最优位置，所述全局最优位置为所述未知参量的最优解，其中，所述预设的结束条件包括：迭代次数是否达到预设的最大迭代次数或最大适应度的增量是否小于预设的阈值；否则，返回更新单元继续执行。

进一步地，所述初始化单元，用于若所述概率密度函数中包含的未知参量的数目为D，则在D维空间中初始化粒子群。

进一步地，所述更新单元包括：

速度更新子单元，用于通过粒子速度更新公式，更新粒子群中粒子i的速度，其中，所述粒子速度更新公式表示为：

位置更新子单元，用于通过粒子位置更新公式，更新粒子群中粒子i的位置，其中，所述粒子位置更新公式表示为：

本发明的上述技术方案的有益效果如下：

上述方案中，通过将获取的待处理的数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值；这样，通过对数据集中的数据样本进行分区间并统计每个区间中数据样本的数目，再结合粒子群优化算法能够快速、准确地确定所述未知参量的值，且对于混合分布模型，不需要考虑隐藏变量对数据集的影响，能够准确且快速地进行含有隐藏变量的大规模数据集的混合分布模型的参量的估计，效率高。

附图说明

图1为本发明实施例提供的适用于大规模数据集的统计参量确定方法的流程示意图；

图2为本发明实施例提供的区间划分示意图；

图3为本发明实施例提供的粒子群优化算法流程示意图；

图4为本发明实施例提供的使用IS-PSO算法得到的参量收敛曲线示意图；

图5(a)为本发明实施例提供的vd＝200时的实际值和IS-PSO算法计算参量的拟合值的CCDF示意图；

图5(b)为本发明实施例提供的vd＝500时的实际值和IS-PSO算法计算参量的拟合值的CCDF示意图；

图5(c)为本发明实施例提供的vd＝800时的实际值和IS-PSO算法计算参量的拟合值的CCDF示意图；

图5(d)为本发明实施例提供的vd＝1000时的实际值和IS-PSO算法计算参量的拟合值的CCDF示意图；

图6为本发明实施例提供的基于模拟数据的EM算法和IS-PSO算法的运行时间曲线示意图；

图7为本发明实施例提供的基于实际数据的EM算法和IS-PSO算法的运行时间曲线示意图的结构示意图；

图8为本发明实施例提供的适用于大规模数据集的统计参量确定系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的当数据量很大时，EM算法迭代速度缓慢、效率低的问题，提供一种适用于大规模数据集的统计参量确定方法及系统。

为了更好地理解本发明，先对统计参量进行说明，统计参量是指统计学中反应一组数据样本统计特征的数字，例如各种分布(指数分布、正态分布、对数正态分布等)的参数等，统计参量可以简称为参量。

实施例一

参看图1所示，本发明实施例提供的适用于大规模数据集的统计参量确定方法，包括：

S101，获取待处理的数据集，将所述数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；

S102，利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；

S103，根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；

S104，通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值。

本发明实施例所述的适用于大规模数据集的统计参量确定方法，通过将获取的待处理的数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值；这样，通过对数据集中的数据样本进行分区间并统计每个区间中数据样本的数目，再结合粒子群优化算法能够快速、准确地确定所述未知参量的值，且对于混合分布模型，不需要考虑隐藏变量对数据集的影响，能够准确且快速地进行含有隐藏变量的大规模数据集的混合分布模型的参量的估计，效率高。

本实施例中，首先对获取的待处理的所述数据集进行预处理：把所述数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；其中，预处理的步骤可以称为区间统计(Interval Statistics，IS)。

本实施例中，假设所述数据集中有N个数据样本，所述数据集对应的概率密度函数为f(x,θ)，其中，θ＝(θ₁,θ₂,…,θ_D)为f(x,θ)中的D个未知参量集合。把N个数据样本等分成若干区间，例如，m个区间，并记在区间[x₀,x₁]中的数据样本的数目为n₁，在区间[x₁,x₂]中的数据样本的数目为n₂，以此类推，在区间[x_m-1,x_m]中的数据样本的数目为n_m，其中，x₀为所述数据集中最小数据样本值，x_m为所述数据集中最大数据样本值，如图2所示。

本实施例中，区间统计的时间复杂度为O(N)，首先需要一次遍历数据集找出最小数据样本值x₀和最大数据样本值x_m，然后第二次遍历数据集统计每个区间的数据样本的数目，该过程算法复杂度低，并只做一次处理就可以多次探寻数据集中数据样本的分布类型(所述分布类型包括但不限于:指数分布、正态分布、对数正态分布等)及其统计参量。

本实施例中，当划分的区间数目合理时，即：不要太大也不要太小，统计得到的每个区间的数据样本的数目不仅可以反应数据集中数据样本的分布类型及其统计参量，在进行粒子群优化算法时，还可以大大减小数据样本量。

本实施例中，数据集中任一数据样本x在区间[x_i-1,x_i]的概率P_i(θ)可以表示为式(1)：

由于将所述数据集中的数据样本分成m个区间，则可知任一数据样本x所在区间有m个可能结果，数据样本x在区间[x_i-1,x_i]记为结果R_i，由式(1)可得任一数据样本x在每个区间的概率依次为P₁(θ),P₂(θ),…,P_i(θ),…,P_m(θ)，当有N个数据样本时，R₁出现n₁次、R₂出现n₂次、……、R_m出现n_m次的这种事件出现的概率为：

式(2)为似然函数也是目标函数，式(2)中，N表示所述数据集中数据样本的数目，m表示区间数量，n_i表示第i区间的数据样本的数目，P_i(θ)表示所述数据集中任一数据样本x在区间[x_i-1,x_i]的概率，f(x,θ)为包含未知参量θ的概率密度函数。

本实施例中，由最大似然估计可知，P(θ)最大时求解的参量值最准确。由于目标函数P(θ)极其复杂，一般的求解方法公式推导冗长且易出错，所以采用简单快速的粒子群优化算法(Particle Swarm Optimization，PSO)寻找P(θ)最大值，当目标函数P(θ)取最大值时，得到所述未知参量的最优解。

综上可知，本实施例所述的适用于大规模数据集的统计参量确定方法主要包括2个步骤：第一步、分区间统计每个区间中数据样本个数，第二步、通过粒子群优化算法迭代寻找目标函数P(θ)的最大值，因此，本实施例所述的适用于大规模数据集的统计参量确定方法也可以称为区间统计与粒子群优化算法(Interval Statistic and Particle SwarmOptimization，IS-PSO)。

粒子群优化算法是模拟粒子群智能所建立起来的一种优化算法，从随机解开始迭代，直至目标函数P(θ)最大时，得到所述未知参量的最优解，具体步骤如下：

1)由于f(x,θ)中未知参量为D个，则在D维空间中初始化粒子群：设置粒子群，其中，所述粒子群包括n个粒子，粒子i的速度可以记为粒子i的位置可以记为其中，粒子i的速度为D维的速度矢量、粒子i的位置为D维的位置矢量，每个粒子的初始位置及速度随机取值；

2)将θ⁽ⁱ⁾代入适应度函数(即目标函数P(θ))中求粒子i的适应度，并更新粒子i的速度与位置，还根据粒子i的适应度的大小，得到粒子i个体经历过的最好位置其中，表示到当前次迭代为止，粒子i个体适应度最大时粒子i的位置；还根据粒子群中每个粒子的适应度的大小，得到粒子群所经历过的最好位置g_best＝(g₁,g₂,…,g_D)，其中，g_best表示到当前次迭代为止，粒子群中适应度最大的粒子的位置。通常，将第d(1≤d≤D)维的速度变化范围限定在[-v_max,d,v_max,d]内，第d(1≤d≤D)维的位置变化范围限定在[θ_min,d,θ_max,d]内，即在迭代中若速度或位置超出了限定的边界值，则被限制为该维的最大速度边界值或位置边界值，粒子在限定的范围内不断迭代更新，寻找最优的适应度函数。

3)判断是否满足预设的结束条件，若满足预设的结束条件，则结束迭代，此时粒子群的最好位置为全局最优位置，所述全局最优位置为所述未知参量的最优解，其中，所述预设的结束条件包括：迭代次数是否达到预设的最大迭代次数或最大适应度的增量是否小于预设的阈值；否则，返回2)。

当满足预设的结束条件，此时所述目标函数的值为最大值，粒子群的最好位置即为所述未知参量的最优解。

本实施例中，作为一可选实施例，所述通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值包括：

S1，初始化粒子群；

本实施例中，粒子群优化算法迭代速度快，当未知参量个数及粒子群中粒子数量一定时，通过粒子群优化算法计算未知参量值的时间复杂度与数据集中样本数量没有关系，只与区间数量m有关，即O(m)，因此大大减小了运行时间，而且对于具有隐藏变量的混合分布数据集，此步并不用考虑隐藏变量的影响，而是直接求解目标函数P(θ)最大值即可。综上，IS-PSO算法可以准确地对大规模数据集进行统计参量的计算。

在前述适用于大规模数据集的统计参量确定方法的具体实施方式中，进一步地，所述更新粒子群中每个粒子的位置和速度包括：

通过粒子速度更新公式，更新粒子群中粒子i的速度，其中，所述粒子速度更新公式表示为式(3)：

通过粒子位置更新公式，更新粒子群中粒子i的位置，其中，所述粒子位置更新公式表示为式(4)：

式(3)、(4)中，为第k次迭代粒子群中粒子i速度的第d维分量；为第k-1次迭代粒子群中粒子i速度的第d维分量；为第k-1次迭代粒子群中粒子i位置的第d维分量；为第k次迭代粒子群中粒子i位置的第d维分量；c₁和c₂为两个加速度常数，可调节学习最大步长；r₁和r₂为两个随机数，取值范围[0,1]，可以增加搜索随机性；ω为非负数惯性权重，可以调节对解空间的搜索范围；表示到上一次迭代为止，粒子群中粒子i的最好位置的第d维分量；g_d表示到上一次迭代为止，粒子群的最好位置的第d维分量；其中，d满足1≤d≤D。

本实施例中，就式(3)而言，式(3)包括三部分，第一部分为粒子i先前的速度；第二部分为“认知”部分，表示粒子i本身的思考，可理解为粒子i当前位置与自己最好位置之间的距离；第三部分为“社会”部分，表示粒子间的信息共享与合作，可理解为粒子i当前位置与粒子群最好位置之间的距离。

本实施例中，接着，通过计算模拟数据和实例数据的统计参量，验证本实施例所述的适用于大规模数据集的统计参量确定方法(IS-PSO算法)的准确性和高效性。

1)准确性验证

本实施例中，采用的模拟数据(也就是中，数据集中的数据为模拟数据)为1×10⁵的混合指数分布，设其概率密度函数为其中，参量α＝0.3、λ₁＝0.1、λ₂＝0.5，假设参量未知，通过本实施例所述的IS-PSO算法估计未知参量α、λ₁、λ₂的值。

首先把模拟数据中的数据样本分为m个区间，统计每个区间中数据样本的个数，并在粒子群优化算法中设定50个粒子，且设加速度常数c₁和c₂均为2，随机数r₁和r₂为0.5，非负数惯性权重ω为0.8，每个粒子的初始位置及速度随机取值，不断迭代直至目标函数取最大值，使用本实施例所述的IS-PSO算法进行若干次实验，图4为迭代情况，三个参量(α、λ₁、λ₂)均收敛至最优值处(α＝0.3、λ₁＝0.1、λ₂＝0.5)，也就是说，本实施例所述的IS-PSO算法准确可行。

本实施例中，基于不同区间数目进行了若干次仿真，分析了把数据样本分成不同区间数目时，本实施例所述的IS-PSO算法估计参量值的均值及标准差情况(保留2位有效数字)。由表1可知，当把数据样本分为100及以上个区间时，本实施例所述的IS-PSO算法估计的各参量均值与实际参量相吻合，但分为50、20、10个区间时，均值偏差逐渐增大，其中分成10个区间时，参量λ₂估计值出现较大偏差错误，导致其均值与实际值差异很大；估计参量值标准差的总体趋势为随着区间划分数目的减小而增大，说明划分区间越少，参量估计值偏离均值的程度越大。通过以上分析可知，把数据集分成100个区间依然可以较好地反应数据集分布特征情况，且由于区间越少算法运行速度越快，所以本实施例中后续的验证均划分数据样本为100个区间，下文的参量估计结果也都表明此区间划分数目确实有效可行。

表1区间数目对参量估计值的影响

以上通过模拟数据验证本实施例所述的IS-PSO算法的准确性。

接下来，本实施例基于一组实际大数据集(也就是说，数据集中的数据为实际数据)，即2010年5月份北京市出租车的经纬度轨迹数据，提取车联网中通信机会的时间间隔，使用本实施例所述的IS-PSO算法计算时间间隔数据的相关统计参量。本实施例中，定义车辆密度(vehicle density，vd)为单位面积上的车辆数量，设北京市的车辆覆盖面积为1个面积单位，将分别研究车辆密度为200、500、800及1000不同数值条件下的统计模型及其统计参量，充分验证本实施例所述的IS-PSO算法的准确性。

设置区间个数为100，在粒子群优化算法中设定50个粒子，加速度常数c₁和c₂均为2，随机数r₁和r₂为0.5，非负数惯性权重ω为0.8，初始位置及速度随机取值，通过多次假设检验分析，认为车联网的通信机会间隔服从两个指数的混合分布，且不同车辆密度的统计模型可以用不同参量的混合指数分布进行拟合，图5(a)-(d)为不同车辆密度的实际值和本实施例所述的IS-PSO算法计算参量的拟合值的互补累计分布函数(ComplementaryCumulative Distribution Function，CCDF)示意图，其中，CCDF定义为数据集中大于某一值的概率，拟合的混合指数分布参量均通过Kolmogorov-Smirnov检验，拟合情况良好，参量估计准确，有效地验证了本实施例所述的IS-PSO算法的准确性。2)高效性验证

高效性的验证基于准确性验证中的模拟数据的概率分布设置1×10⁶至2×10⁷等多种数值的模拟数据样本量，使用EM算法和本实施例所述的IS-PSO算法分别计算数据集的统计参量。其中，本实施例所述的IS-PSO算法预处理时划分数据样本为100个区间，且在粒子群优化算法中设定50个粒子，加速度常数c₁和c₂均为2，随机数r₁和r₂为0.5，非负数惯性权重ω为0.8，初始位置及速度随机取值。图6为基于模拟数据的EM算法和IS-PSO算法的运行时间曲线示意图，可见当数据量为1×10⁶时，两种算法差异不大；但当数据量增大到2×10⁷时，EM算法运行时间近2个小时，而本实施例所述的IS-PSO算法只需5分钟左右，效率大大提高，且运行时间只在第一步区间统计随数据样本量的增大而增大，在第二步粒子群优化算法迭代时不受数据样本量大小影响，只与分的区间数有关，能够高效适应大数据的混合统计参量计算。

接下来基于出租车实际数据，分别使用EM算法和IS-PSO算法计算车联网通信机会间隔统计参量。依然设置IS-PSO算法区间个数为100，粒子群优化算法中设置粒子个数为50，加速度常数c₁和c₂均为2，随机数r₁和r₂为0.5，非负数惯性权重ω为0.8，初始位置及速度随机取值。图7为基于实际数据的EM算法和IS-PSO算法的运行时间曲线示意图，当车辆密度为200时，数据样本个数约为2×10⁶，且数据样本个数随着车辆密度增加约呈线性增加，当车辆密度为1000时，数据样本个数约为1×10⁷。由图7可知，EM算法运行时间在车辆密度为200时略小于IS-PSO算法；但随着车辆密度的增加，EM算法运行时间增长迅速，曲线斜率是IS-PSO算法曲线斜率的近10倍。由此可见在大数据集条件下，与EM算法相比，IS-PSO算法效率优势显著，可以高效适应大数据集的统计参量计算。

以上通过对模拟数据和实际数据计算统计参量，验证了随着数据样本量的增加，本发明提出的IS-PSO算法可以准确地对具有一定统计分布特征的数据集进行统计参量估计，算法运行效率较高，尤其当数据量很大时，与EM算法相比运行时间大大减少。

实施例二

本发明还提供一种适用于大规模数据集的统计参量确定系统的具体实施方式，由于本发明提供的适用于大规模数据集的统计参量确定系统与前述适用于大规模数据集的统计参量确定方法的具体实施方式相对应，该适用于大规模数据集的统计参量确定系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述适用于大规模数据集的统计参量确定方法具体实施方式中的解释说明，也适用于本发明提供的适用于大规模数据集的统计参量确定系统的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

参看图8所示，本发明实施例还提供一种适用于大规模数据集的统计参量确定系统，包括：

分区统计模块11，用于获取待处理的数据集，将所述数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；

概率确定模块12，用于利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；

函数确定模块13，用于根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；

参量求解模块14，用于通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值。

本发明实施例所述的适用于大规模数据集的统计参量确定系统，通过将获取的待处理的数据集中的数据样本分成若干区间，并统计每个区间的数据样本的数目；利用预先设置的包含未知参量的概率密度函数计算所述数据集中任一数据样本在每个区间的统计概率；根据统计得到的每个区间的数据样本的数目及计算得到的所述数据集中任一数据样本在每个区间的统计概率，计算似然函数作为目标函数；通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值；这样，通过对数据集中的数据样本进行分区间并统计每个区间中数据样本的数目，再结合粒子群优化算法能够快速、准确地确定所述未知参量的值，且对于混合分布模型，不需要考虑隐藏变量对数据集的影响，能够准确且快速地进行含有隐藏变量的大规模数据集的混合分布模型的参量的估计，效率高。

在前述适用于大规模数据集的统计参量确定系统的具体实施方式中，进一步地，所述似然函数表示为：

在前述适用于大规模数据集的统计参量确定系统的具体实施方式中，进一步地，所述参量求解模块包括：

初始化单元，用于初始化粒子群；

在前述适用于大规模数据集的统计参量确定系统的具体实施方式中，进一步地，所述初始化单元，用于若所述概率密度函数中包含的未知参量的数目为D，则在D维空间中初始化粒子群。

在前述适用于大规模数据集的统计参量确定系统的具体实施方式中，进一步地，所述更新单元包括：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种适用于大规模数据集的统计参量确定方法，其特征在于，包括：

2.根据权利要求1所述的适用于大规模数据集的统计参量确定方法，其特征在于，所述似然函数表示为：

P (θ) = \frac{N!}{n_{1}! ... n_{i}! ... n_{m}!} P_{1} {(θ)}^{n_{1}} ... P_{i} {(θ)}^{n_{i}} ... P_{m} {(θ)}^{n_{m}}, Σ_{i = 1}^{m} n_{i} = N

3.根据权利要求1所述的适用于大规模数据集的统计参量确定方法，其特征在于，所述通过粒子群优化算法求解所述目标函数的最大值，当所述目标函数取最大值时，得到所述未知参量的值包括：

S1，初始化粒子群；

4.根据权利要求3所述的适用于大规模数据集的统计参量确定方法，其特征在于，所述初始化粒子群包括：

5.根据权利要求4所述的适用于大规模数据集的统计参量确定方法，其特征在于，所述更新粒子群中每个粒子的位置和速度包括：

v_{d}^{(i)} (k) = {ωv}_{d}^{(i)} (k - 1) + c_{1} r_{1} (p_{d}^{(i)} - θ_{d}^{(i)} (k - 1)) + c_{2} r_{2} (g_{d} - θ_{d}^{(i)} (k - 1))

θ_{d}^{(i)} (k) = θ_{d}^{(i)} (k - 1) + v_{d}^{(i)} (k - 1)

6.一种适用于大规模数据集的统计参量确定系统，其特征在于，包括：

7.根据权利要求6所述的适用于大规模数据集的统计参量确定系统，其特征在于，所述似然函数表示为：

P (θ) = \frac{N!}{n_{1}! ... n_{i}! ... n_{m}!} P_{1} {(θ)}^{n_{1}} ... P_{i} {(θ)}^{n_{i}} ... P_{m} {(θ)}^{n_{m}}, Σ_{i = 1}^{m} n_{i} = N

8.根据权利要求6所述的适用于大规模数据集的统计参量确定系统，其特征在于，所述参量求解模块包括：

初始化单元，用于初始化粒子群；

9.根据权利要求8所述的适用于大规模数据集的统计参量确定系统，其特征在于，所述初始化单元，用于若所述概率密度函数中包含的未知参量的数目为D，则在D维空间中初始化粒子群。

10.根据权利要求9所述的适用于大规模数据集的统计参量确定系统，其特征在于，所述更新单元包括：

v_{d}^{(i)} (k) = {ωv}_{d}^{(i)} (k - 1) + c_{1} r_{1} (p_{d}^{(i)} - θ_{d}^{(i)} (k - 1)) + c_{2} r_{2} (g_{d} - θ_{d}^{(i)} (k - 1))

θ_{d}^{(i)} (k) = θ_{d}^{(i)} (k - 1) + v_{d}^{(i)} (k - 1)