CN104346534A

CN104346534A - 一种测量随机数据非指数性的熵方法

Info

Publication number: CN104346534A
Application number: CN201410626199.9A
Authority: CN
Inventors: 陈文�; 梁英杰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2015-02-11

Abstract

本发明公开了一种测量随机数据非指数性的熵方法，首先通过对数矩估计法确定随机数据对应的Mittag-Leffler分布的参数，然后分别计算随机数据的实际熵和预测熵，最后通过相对熵指标及其判别准则，确定随机数据的非指数性。Mittag-Leffler分布是指数分布的推广，参数的物理意义明确。本发明可用于确定随机数据的非指数性，进而利用该特性进行数据挖掘，具有重要的工程应用价值。

Description

一种测量随机数据非指数性的熵方法

技术领域

本发明属于随机数据挖掘领域，具体涉及一种测量随机数据非指数性的熵方法。

背景技术

目前，非指数性随机数据已广泛存在于水文、网络、生化、金融和土建等复杂系统。这类随机数据的最大特点是其概率分布或尾部分布不服从传统的指数分布或指数衰减。而随机数据的非指数统计性质很大程度上决定着整个系统的稳定性。因此，测量随机数据的非指数性是十分必要的。

现有测量随机数据非指数性的方法中，经验累积分布的尾部估计法是最常用的方法。该方法在双对数坐标下，描绘经验累积分布的右尾。如其右尾近似为一条直线，则被测量的随机数据具有非指数性。该方法简单且直观，但仅是一种定性的方法，而且样本的大小直接影响其精度。熵是一种测量随机系统不确定性的有力工具。目前，香农熵已应用于风险管理、肿瘤诊断和信息通信等领域。但是，香农熵依赖随机数据直方图分组区间的大小或需要计算复杂的积分，计算成本大且精度较低。

在国内外，已有多项专利技术涉及熵方法，如专利CN103886186A“一种确定钢管混凝土承载力设计误差分布的熵方法”，通过结合稳定分布的累计分布函数计算累计熵，选择误差分布的概型；CN102622649A“一种基于信息熵的改进进化多目标优化方法”，结合高斯函数，利用传统的香农熵进行目标优化；US20140189792“Method and system for electronic content storage andretrieval using Galois Fields and information entropy on cloud computingnetworks”，同样采用传统的香农熵用于云网络计算。

因此，需要一种新的测量随机数据非指数性的方法以解决上述问题。

发明内容

本发明的目的是针对现有技术中测量随机数据非指数性的缺陷，提供一种测量随机数据非指数性的熵方法。

为实现上述发明目的，本发明测量随机数据非指数性的熵方法可采用如下技术方案：

一种测量随机数据非指数性的熵方法，包括如下步骤：

1)、获取分析对象的随机数据；

2)、利用对数矩估计法计算步骤1)得到的随机数据对应的Mittag-Leffler分布的参数，Mittag-Leffler分布包括以下两个参数：

\hat{α} = \frac{π}{\sqrt{3 (σ^{2} - π^{2} / 12)}}

其中，是Mittag-Leffler分布的稳定指数，是Mittag-Leffler分布的尺度参数，μ为随机数据X的对数变换log(X)的均值，σ为log(X)的标准差，为欧拉常数；

3)、计算随机数据的实际熵；

4)、利用步骤2)得到的随机数据对应的Mittag-Leffler分布计算随机数据的预测熵；

5)、结合步骤3)的实际熵和步骤4)的预测熵，计算相对熵指标，其中，相对熵指标R为预测熵与实际熵比的绝对值；

6)、当相对熵指标R小于等于0.01时，则表明随机数据具有非指数性。

更进一步的，步骤3)中利用分数阶矩法和/或对数矩法计算随机数据的实际熵。更进一步的，分数阶矩法通过下式计算随机数据的实际熵：

H (X^{p}) = \frac{1}{n} Σ_{i = 1}^{n} {X_{i}}^{p}

其中，X_i为第i个随机数据，n为随机数据X的长度，p为分数阶矩法的阶数，p大于0且小于0.4。

更进一步的，对数矩法通过下式计算随机数据的实际熵：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度。

更进一步的，步骤4)中利用Mittag-Leffler分布对应的分数阶矩法和/或对数矩法计算随机数据预测熵。

更进一步的，步骤4)中利用Mittag-Leffler分布对应的分数阶矩法计算随机数据预测熵的表达式为：

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

其中，X_ml为Mittag-Leffler分布的随机变量，n为随机数据X的长度，p为分数阶矩法的阶数，p大于0且小于0.4，和分别为Mittag-Leffler分布的稳定指数和尺度参数。

更进一步的，步骤4)中利用Mittag-Leffler分布对应的对数矩法计算随机数据预测熵的表达式为：

其中，X_ml为Mittag-Leffler分布的随机变量，分别为Mittag-Leffler分布的尺度参数，为欧拉常数。

更进一步的，步骤3)中利用分数阶矩法计算随机数据的实际熵，分数阶矩法通过下式计算随机数据的实际熵：

H (X^{p}) = \frac{1}{n} \overset{n}{\underset{i = 1}{Σ}} {X_{i}}^{p}

其中，X_i为第i个随机数据，n为随机数据X的长度，p为分数阶矩法的阶数，p大于0且小于0.4；

步骤4)中利用Mittag-Leffler分布对应的分数阶矩法计算随机数据预测熵，利用Mittag-Leffler分布对应的分数阶矩法计算随机数据预测熵的表达式为：

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

其中，X_ml为Mittag-Leffler分布的随机变量，n为随机数据X的长度，p为分数阶矩法的阶数，p大于0且小于0.4，和分别为Mittag-Leffler分布的稳定指数和尺度参数，

其中，相对熵指标为

R (X^{p}) = | \frac{H ({X_{ml}}^{p}) - H (X^{p})}{H (X^{p})} | .

更进一步的，步骤3)中利用对数矩法计算随机数据的实际熵，对数矩法通过下式计算随机数据的实际熵：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度；

步骤4)中利用Mittag-Leffler分布对应的对数矩法计算随机数据预测熵的表达式为：

其中，X_ml为Mittag-Leffler分布的随机变量，分别为Mittag-Leffler分布的尺度参数，为欧拉常数；

其中，相对熵指标为

R (\log X) = | \frac{H (\log X_{ml}) - H (\log X)}{H (\log X)} | .

更进一步的，步骤3)中利用分数阶矩法和对数矩法分别计算随机数据的实际熵，步骤4)中利用Mittag-Leffler分布对应的分数阶矩法和对数矩法计算随机数据预测熵，分数阶矩法通过下式计算随机数据的实际熵：

H (X^{p}) = \frac{1}{n} Σ_{i = 1}^{n} {X_{i}}^{p}

对数矩法通过下式计算随机数据的实际熵：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度；

利用Mittag-Leffler分布对应的对数矩法计算随机数据预测熵的表达式为：

其中，相对熵指标为

R (\log X) = | \frac{H (\log X_{ml}) - H (\log X)}{H (\log X)} | .

利用Mittag-Leffler分布对应的分数阶矩法计算随机数据预测熵的表达式为：

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

其中，X_ml为Mittag-Leffler分布的随机变量，n为随机数据X的长度，p为分数阶矩法的阶数，p大于0且小于0.4，和分别为Mittag-Leffler分布的稳定指数和尺度参数；

利用分数阶矩法计算得到的相对熵指标为

利用对数矩法计算得到的相对熵指标为

基于Mittag-Leffler分布的分数阶矩法和对数矩法计算随机数据的熵，充分考虑了随机数据中的不确定性，且技术简单，方便使用。

有益效果：本发明的测量随机数据非指数性的熵方法首先通过对数矩估计法确定随机数据对应的Mittag-Leffler分布的参数，然后分别计算随机数据的实际熵和预测熵，最后通过相对熵指标及其判别准则，确定随机数据的非指数性Mittag-Leffler分布是指数分布的推广，参数的物理意义明确。本发明可用于确定随机数据的非指数性，进而利用该特性进行数据挖掘，具有重要的工程应用价值。

附图说明

图1为本发明一种测量随机数据非指数性的熵方法的流程图；

图2为分数阶矩法中相对熵指标随阶数的变化图；

图3为分数阶矩法中相对熵指标随稳定指数的变化图；

图4为分数阶矩法中相对熵指标随尺度参数的变化图；

图5为对数矩法中相对熵指标随稳定指数的变化图；

图6为对数矩法中相对熵指标随尺度参数的变化图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

香农熵是定量描述随机系统不确定性的一种方法，其离散型表达式为：

H (x) = - Σ_{k = 1}^{K} P (x_{k}) \log P (x_{k})

其中K为随机数据系统的状态，P(x_k)为第k个状态出现的概率。香农熵依赖随机数据直方图分组区间的大小，影响了其计算成本和精度。

Mittag-Leffler分布是指数分布的推广，且其分数阶矩和对数矩均具有解析表达式。将Mittag-Leffler分布的分数阶矩和对数矩与香农熵相结合，可以定量确定随机数据的非指数性。

请参阅图1所示，本发明的测量随机数据非指数性的熵方法，包括如下步骤：

1)获取分析对象的随机数据；

2)采用对数矩估计法，计算随机数据对应Mittag-Leffler分布的参数；

对数矩估计法中，Mittag-Leffler分布两个参数的表达式为：

\hat{α} = \frac{π}{\sqrt{3 (σ^{2} - π^{2} / 12)}}

其中，是Mittag-Leffler分布稳定指数的估计值，是Mittag-Leffler分布尺度参数的估计值，μ为随机数据X对数变换log(X)的均值，σ为log(X)的标准差，为欧拉常数。

3)采用分数阶矩法和对数矩法，分别计算随机数据系统的实际熵；分数阶矩法和对数阶矩法计算随机数据系统实际熵的表达式为分数阶矩法：

H (X^{p}) = \frac{1}{n} Σ_{i = 1}^{n} {X_{i}}^{p}

对数矩法：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度。

4)利用Mittag-Leffler分布的分数阶矩法和对数矩法，计算随机数据系统的预测熵；

Mittag-Leffler对应的分数阶矩法和对数矩法计算随机数据系统预测熵的表达式为：

分数阶矩法：

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

其中，X_ml为Mittag-Leffler分布的随机变量，n为随机数据X的长度，p为分数阶矩法的阶数，p大于0且小于0.4，和为步骤2)中的估计值。

对数矩法：

其中，X_ml为Mittag-Leffler分布的随机变量，为步骤2)中的估计值，为欧拉常数。

5)结合实际熵和预测熵，计算相对熵指标。

分数阶矩法和对数矩法对应的相对熵指标计算形式为：

分数阶矩法：

R (X^{p}) = | \frac{H ({X_{ml}}^{p}) - H (X^{p})}{H (X^{p})} |

对数矩法：

R (\log X) = | \frac{H (\log X_{ml}) - H (\log X)}{H (\log X)} | .

6)根据相对熵判别准则，确定随机数据的非指数性。

相对熵准则为：当相对熵指标R小于等于0.01时，则表明随机数据具有非指数性。

实施例

(1)本发明以100000个独立同分布的Mittag-Leffler随机数为例，其中稳定指数为0.7，尺度参数为5。根据Mittag-Leffler分布的性质，可知这些随机数具有明显的非指数性。

(2)根据对数矩估计法，估计步骤(1)中随机数对应Mittag-Leffler分布的参数，计算得到稳定指数为0.7001，尺度参数为4.9949。

(3)根据分数阶矩法和对数矩法的表达式，计算随机数系统的实际熵。分数阶矩法中p取0.2，分数阶矩法的计算结果见表1，对数矩法的计算结果见表2。

(4)根据Mittag-Leffler分布对应的分数阶矩法和对数矩法的数学形式，计算随机数系统的预测熵，并与真实分布和指数分布的结果进行了对比。分数阶矩法中p取0.2，分数阶矩法的估计结果见表1，对数矩法的估计结果见表2。

根据表1和表2，可见Mittag-Leffler分布对应的预测熵与随机数系统的实际熵非常接近。而指数分布对应的预测熵与实际熵之间的差距较大。

(5)利用步骤(3)和步骤(4)中的实际熵和预测熵，并根据分数阶矩法和对数矩法对应相对熵指标的表达式，计算随机数系统的相对熵指标，并与实际分布和指数分布的结果进行对比。

根据表1和表2，可见分数阶矩法和对数矩法中，Mittag-Leffler分布对应的相对熵指标均接近于0。而指数分布对应的相对熵指标较大。

(6)根据相对熵准则可知，Mittag-Leffler分布对应的相对熵指标均小于0.01，表明步骤(1)中随机数具有明显非指数性。因此，可知基于Mittag-Leffler分布的分数阶矩法和对数矩法，测量随机数据非指数性的熵方法是有效的。

不失一般性，分数阶矩法p值的选取可能对随机数据非指数性的判别结果有一定的影响。采用分数阶矩法，并重复步骤(1)至(6)，考察相对熵指标随p值的变化趋势，见图2。由图2可知，当0<p<0.4时，相对熵指标满足相对熵准则。

Mittag-Leffler分布的稳定指数和尺度参数的值可能对随机数据非指数性的判别结果有一定的影响。采用分数阶矩法，并重复步骤(1)至(6)，考察相对熵指标随稳定指数和尺度参数的变化趋势，分别见图3和图4。由图3可知，当0.2＜α≤1时，相对熵指标满足相对熵准则。由图4可知，不同σ对应的相对熵指标均能满足相对熵准则。

采用对数矩法，并重复步骤(1)至(6)，考察相对熵指标随稳定指数和尺度参数的变化趋势，分别见图5和图6。由图5可知，α的取值对相对熵指标的影响较大。由图6可知，当σ为2和3时，相对熵指标不满足相对熵准则。

表1分数阶矩法中，不同分布对应的熵和相对熵指标的值

分布	Mittag-Leffler分布	指数分布	实际分布
				熵	1.3606	2.4792	1.3573
相对熵指标	0.0024	0.8265	0

表2对数矩法中，不同分布对应的熵和相对熵指标的值

分布	Mittag-Leffler分布	指数分布	实际分布
				熵	1.0322	6.6711	1.0295
相对熵指标	0.0027	5.4802	0

本发明首先通过对数矩估计法确定随机数据对应Mittag-Leffler分布的参数，然后采用分数阶矩法和对数矩法，分别计算随机数据系统的实际熵和预测熵，最后通过相对熵指标及其判别准则，确定随机数据的非指数性。Mittag-Leffler分布是指数分布的推广，参数的物理意义明确。基于Mittag-Leffler分布的分数阶矩法和对数矩法估计随机数据系统的熵，充分考虑了随机数据中的不确定性，且技术特点简单，方便使用。

本发明可用于确定随机数据的非指数性，进而利用该特性进行数据挖掘，具有重要的工程应用价值。

Claims

1.一种测量随机数据非指数性的熵方法，其特征在于：包括如下步骤：

1)、获取分析对象的随机数据；

\hat{α} = \frac{π}{\sqrt{3 (σ^{2} - π^{2} / 12)}}

3)、计算随机数据的实际熵；

2.如权利要求1所述的测量随机数据非指数性的熵方法，其特征在于：步骤3)中利用分数阶矩法和/或对数矩法计算随机数据的实际熵。

3.如权利要求2所述的测量随机数据非指数性的熵方法，其特征在于：分数阶矩法通过下式计算随机数据的实际熵：

H (X^{p}) = \frac{1}{n} Σ_{i = 1}^{n} {X_{i}}^{p}

4.如权利要求2所述的测量随机数据非指数性的熵方法，其特征在于：对数矩法通过下式计算随机数据的实际熵：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度。

5.如权利要求1所述的测量随机数据非指数性的熵方法，其特征在于：步骤4)中利用Mittag-Leffler分布对应的分数阶矩法和/或对数矩法计算随机数据预测熵。

6.如权利要求5所述的测量随机数据非指数性的熵方法，其特征在于：步骤4)中利用Mittag-Leffler分布对应的分数阶矩法计算随机数据预测熵的表达式为：

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

7.如权利要求5所述的测量随机数据非指数性的熵方法，其特征在于：步骤4)中利用Mittag-Leffler分布对应的对数矩法计算随机数据预测熵的表达式为：

8.如权利要求1所述的测量随机数据非指数性的熵方法，其特征在于：步骤3)中利用分数阶矩法计算随机数据的实际熵，分数阶矩法通过下式计算随机数据的实际熵：

H (X^{p}) = \frac{1}{n} Σ_{i = 1}^{n} {X_{i}}^{p}

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

其中，相对熵指标为

R (X^{p}) = | \frac{H ({X_{ml}}^{p}) - H (X^{p})}{H (X^{p})} | .

9.如权利要求1所述的测量随机数据非指数性的熵方法，其特征在于：步骤3)中利用对数矩法计算随机数据的实际熵，对数矩法通过下式计算随机数据的实际熵：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度；

其中，相对熵指标为

R (\log X) = | \frac{H (\log X_{ml}) - H (\log X)}{H (\log X)} | .

10.如权利要求1所述的测量随机数据非指数性的熵方法，其特征在于：步骤3)中利用分数阶矩法和对数矩法分别计算随机数据的实际熵，步骤4)中利用Mittag-Leffler分布对应的分数阶矩法和对数矩法计算随机数据预测熵，分数阶矩法通过下式计算随机数据的实际熵：

H (X^{p}) = \frac{1}{n} Σ_{i = 1}^{n} {X_{i}}^{p}

对数矩法通过下式计算随机数据的实际熵：

H (\log X) = \frac{1}{n} Σ_{i = 1}^{n} \log X_{i}

其中，X_i为第i个随机数据，n是随机数据X的长度；

其中，相对熵指标为

R (\log X) = | \frac{H (\log X_{ml}) - H (\log X)}{H (\log X)} | .

H ({X_{ml}}^{p}) = \frac{p {\hat{γ}}^{p} π}{\hat{α} Γ (1 - p) \sin (πp / \hat{α})}

利用分数阶矩法计算得到的相对熵指标为

利用对数矩法计算得到的相对熵指标为