CN108647186B

CN108647186B - 基于灰自助和未确知有理数的小样本试验数据估计方法

Info

Publication number: CN108647186B
Application number: CN201810343037.2A
Authority: CN
Inventors: 柯肇捷; 周文雅; 祝冀鲁; 侯兴明; 吴红朴; 廖兴禾; 李巧丽; 孟礼
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2021-05-28
Anticipated expiration: 2038-04-17
Also published as: CN108647186A

Abstract

本发明公开了一种基于灰自助和未确知有理数的小样本试验数据估计方法，包括以下步骤：S1、小样本试验数据的灰自助生成；S2、未确知有理数的构造与优化；建立未确知有理数，所建立的未确知有理数的可信度熵越大就越能刻画测试指标，当可信度熵取最大值时，估计未确知有理数的最佳阶数，实现优化；S3、基于未确知有理数的参数估计。本发明所述的基于灰自助和未确知有理数的小样本试验数据估计方法，给出了其点估计、区间估计以及估计可靠度模型，并进行了算例验证。仿真算例表明该方法合理可行，能有效地解决装备测试数据的参数估计问题，不需要原始数据的概率分布特征。

Description

基于灰自助和未确知有理数的小样本试验数据估计方法

技术领域

本发明涉及一种基于灰自助和未确知有理数的小样本试验数据估计方法。

背景技术

武器装备试验鉴定是武器装备全寿命管理中的一个重要环节，随着武器装备的网络化、体系化、智能化发展，试验目的复杂多样，试验成本越来越高，致使试验鉴定难度越来越大，通常只能进行少量的外场对抗性试验[1]，小样本试验数据的参数估计、基于小样本试验数据的评估等技术已成为装备试验鉴定领域急需解决的关键难题。

目前的小样本数据处理主要采取两个思路，一是概率统计法，包括经典的统计方法和Bayes方法。经典的统计方法对样本分布模型进行假设，基于数学期望对原始试验数据进行点估计，但是由于试验过程的动态性和不确定性，原始试验数据在本质上未必属于同一总体，难以满足关于独立、同分布的前提，使得统计处理出现较大的风险。

Bayes方法在小子样处理领域获得了较为广泛的应用[1-3]，如文献[3]利用Bayes理论和验前信息，提出了利用序贯验后加权检验方法以及截尾序贯验后加权检验方法对维修性指标进行验证评定；Bayes方法能在保证决策风险尽可能小的情况下综合利用多种信息类型，但是需要利用验前信息，如何获得验前信息并确定其概率分布形式是应用的难题问题。

二是基于不确定性理论的非统计法，包括两种模式，一种是直接利用不确定理论相关方法，如文献[4]结合泛函的范数理论和灰色系统[5]的灰色关联原理，提出了灰色距离信息方法来进行电子装备试验数据的参数估计处理，这种方法不能给出参数估计的可靠度。另一种是利用不确定理论相关方法产生虚拟总体样本[6]，然后通过数据融合进行参数估计，如文献[7]提出一种乏信息空间机械臂随机振动数据估计的灰自助方法[8，9]，解决经典的统计学方法无法解决乏信息数据的评估问题，该方法不涉及原始数据的概率分布问题。

因此，小样本试验数据的参数估计、基于小样本试验数据的评估等技术已成为装备试验鉴定领域急需解决的关键难题。

发明内容

根据上述提出的技术问题，而提供一种基于灰自助和未确知有理数的小样本试验数据估计方法，用于解决现有的小样本试验数据的参数估计、基于小样本试验数据的评估技术，不能满足装备试验鉴定领域需求的缺点。本发明采用的技术手段如下：

一种基于灰自助和未确知有理数的小样本试验数据估计方法，包括以下步骤：

S1、小样本试验数据的灰自助生成；通过N个小样本试验数据的设定，进行自助再抽样，并建立GM(1，1)模型，得到新的测试指标测量数据集合。

步骤S1中的小样本试验数据的灰自助生成，具体包括以下步骤：

S11、N个小样本试验数据的设定；

在武器装备试验中，假设针对某一测试指标得到的测量数据集合为：

X＝{x(t)；t＝1,2,…,N} (1)

式中x(t)为第t个测量数据，N为测量数据总数。

S12、自助再抽样；

从X中等概率可放回地随机抽取1个数据，记为x₁(1)，该抽取过程重复m次即可得到第1个自助样本，记为

X₁＝{x₁(1),x₁(2),…,x₁(m)} (2)

上述获得自助样本的整体抽取过程连续重复A次，则会得到A个自助再抽样样本，再抽样样本集合可记为

Y＝{X₁,X₂,…,X_i,…X_A} (3)

式中X_i＝{x_i(1),x_i(2),…,x_i(m)}。

S13、GM(1，1)模型的建立；

针对自助样本X_i建立灰色模型GM(1，1)，假设其一次累加生成序列为

式中h＝1,2,…,m，则有

的紧邻均值生成序列为

式中k＝2,3,…,m，则有GM(1，1)模型x_i(k)+az_i(k)＝b针对初始条件

的时间响应序列为

式中k＝1,2,…,m，

为最小二乘估计参数列，其中

在式(6)中令k＝m-1,m，通过一次累减生成算法即可得到自助样本X_i中第m+1个预测值，记为

于是得到新的测试指标测量数据集合为

X＝{x(1),…,x(N),x(N+1),…,x(N+A)} (9)。

S2、未确知有理数的构造与优化；建立未确知有理数，所建立的未确知有理数的可信度熵越大就越能刻画测试指标，当可信度熵取最大值时，估计未确知有理数的最佳阶数，实现优化。

步骤S2中的未确知有理数的构造与优化，具体包括以下步骤：

S21、未确知有理数的建立；

针对步骤S13挖掘生成的测量数据集合X，利用这N+A个数据来构造一个k(k＜N+A)阶未确知有理数，记为[[c,d],φ(x)]，其中

c＝min{x(1),…,x(N),x(N+1),…,x(N+A)} (10)

d＝max{x(1),…,x(N),x(N+1),…,x(N+A)} (11)

其中φ(x)为可信度分布密度函数，α_i为试验数据取值x_i时的可信度，且有0＜α_i＜1；

表示总可信度，且有0＜α≤1；则，式中c≤x_i≤d；

通常对区间[c,d]进行2k个等值划分，使得该区间数据值x_i的领域控制半径均相等，则可得到试验数据取值x_i(i＝1,2,…,k)的表达式为

可信度α_i则用试验数据值x_i控制半径内数据出现的频率进行表示，即有

式中β_i表示以值x_i为中心、

为控制半径的数据领域中的试验数据个数。

S22、未确知有理数阶数的优化；

利用未确知有理数对挖掘生成后的测量数据集合进行表达，反映了测试指标的数据值分布情况，可信度α_i只是表明了取值x_i的不确定性程度；

信息论中熵被定义为信息的均值，不确定性越大，熵也越大；

对测量数据集合，将未确知有理数中k个取值所提供的平均信息量定义为可信度熵，则可信度熵反映了对该测试指标认识的不确定性程度；

区间[c,d]上取值x_i的频率越均匀，对测试指标的刻画越复杂，不确定性程度也就越大，未确知有理数的可信度熵也就越大；

为了从不确定的事情中获取最大的信息量，所构造未确知有理数的可信度熵越大就越能刻画测试指标；

因此，当可信度熵取最大值时，估计未确知有理数的最佳阶数。

步骤S22中，对于步骤S21中构造的k阶未确知有理数，其可信度熵定义为

令

则k^*即为所求的未确知有理数最佳阶数。

S3、基于未确知有理数的参数估计；

步骤S3中基于未确知有理数的参数估计，具体包括基于未确知有理数的点估计和/或区间估计。

步骤S3中，基于未确知有理数的点估计，具体包括以下步骤：

基于步骤S2的构造与优化过程，将描述测量数据集合X的k^*阶未确知有理数A记为[[c,d],φ(x)]，其中

通过k^*阶未确知有理数A的构造，测试指标样本总体的离散化值x₁,…,x_k*，通过小样本的灰自助生成已求得其中每一个x_i的出现频率，但是不能确定样本总体的分布类型；

基于矩估计法，称下列一阶未确知有理数

为未确知有理数A的数学期望，也称E(A)为未确知期望或均值；

上述未确知期望的内涵是值实数

作为未确知有理数A的真值估计有α的可信度；

则，当α＝1时，E(A)为实数

这时未确知有理数A就是随机变量，所以E(A)为随机变量的数学期望；当α＜1时，E(A)为一阶未确知有理数，而非实数；

用方差D(A)来描述未确知有理数A到E(A)的离散程度，即

D(A)＝E(A-E(A))² (18)

不考虑

作为A的均值的可信度，则认为E(A)为实数

该式求解方差的实质是计算A到值实数

的离散程度，从而有计算式

于是，有k^*阶未确知有理数A的点估计值为

其估计精度为

则定义上述点估计的可靠度为

步骤S3中，基于未确知有理数的区间估计，具体包括以下步骤：

给定置信水平1-β，根据指定的标准正态分布上侧β分位点表中查询u(β/2)，基于下式计算给定置信水平下的置信区间半长度ε；

于是计算未确知有理数A的均值

在置信水平1-β下的置信区间

针对挖掘生成的N+A个数据，假设有t个数据位于上述置信区间之外，则定义置信水平1-β下区间估计的可靠度为

随着武器装备的体系化、智能化发展，由于试验环境构建、试验耗费及时间的限制，小样本数据的处理问题已成为目前武器装备试验鉴定领域急需解决的关键技术。

与现有技术相比较，本发明所述的基于灰自助和未确知有理数的小样本试验数据估计方法，给出了其点估计、区间估计以及估计可靠度模型，并进行了算例验证。仿真算例表明该方法合理可行，能有效地解决装备测试数据的参数估计问题，不需要原始数据的概率分布特征。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明基于灰自助和未确知有理数的数据估计原理图。

具体实施方式

S1、小样本试验数据的灰自助生成；

通过N个小样本试验数据的设定，进行自助再抽样，并建立GM(1，1)模型，得到新的测试指标测量数据集合；

S11、N个小样本试验数据的设定；

X＝{x(t)；t＝1,2,…,N} (1)

式中x(t)为第t个测量数据，N为测量数据总数；

这N个小样本数据所携带的信息不足以确定测试指标的真实状态和数量关系，决策者只能部分地认识测试指标的真实状态。按照灰色系统理论的观点，这种认知就呈现出典型的“部分已知、部分未知”的灰色状态。

S12、自助再抽样；

自助抽样原理的基本思路是从X中等概率可放回地随机抽取1个数据，记为x₁(1)，该抽取过程重复m次即可得到第1个自助样本，记为

X₁＝{x₁(1),x₁(2),…,x₁(m)} (2)

Y＝{X₁,X₂,…,X_i,…X_A} (3)

式中X_i＝{x_i(1),x_i(2),…,x_i(m)}；

S13、GM(1，1)模型的建立；

式中h＝1,2,…,m，则可以有

的紧邻均值生成序列为

式中k＝2,3,…,m，则有GM(1，1)模型x_i(k)+az_i(k)＝b针对初始条件

的时间响应序列为

式中k＝1,2,…,m，

为最小二乘估计参数列，其中

于是得到新的测试指标测量数据集合为

X＝{x(1),…,x(N),x(N+1),…,x(N+A)} (9)

看出，使用灰自助方法对原始乏信息数据序列进行充分挖掘，能拟合生成较多的系统信息，且生成过程不依赖于原始数据序列的概率分布信息。

S2、未确知有理数的构造与优化；

建立未确知有理数，所建立的未确知有理数的可信度熵越大就越能刻画测试指标，当可信度熵取最大值时，估计未确知有理数的最佳阶数，实现优化；

上面挖掘生成的测量数据集合X中N+A个数据也不能使决策者完全把握测试指标的真实状态，对测试指标真实状态的认知在性质上还是“部分已知、部分未知”，但是相比于N个数据所表征灰色信息的“部分已知、部分未知”，它们又有重要的区别，前者“部分已知、部分未知”中已知部分要多于后者。

这时表征测试指标真实状态的N+A个数据在本质上属于未确知信息的范畴，是纯主观上、认识上的不确定性信息，未确知信息通常用未确知有理数进行描述。

S21、未确知有理数的建立；

c＝min{x(1),…,x(N),x(N+1),…,x(N+A)} (10)

d＝max{x(1),…,x(N),x(N+1),…,x(N+A)} (11)

表示总可信度，且有0＜α≤1；很显然，式中c≤x_i≤d；

式中β_i表示以值x_i为中心、

为控制半径的数据领域中的试验数据个数。看出，控制半径取决于未确知有理数的阶数；反之，在实际数据估计过程中，通过选取不同的控制半径来控制未确知有理数的阶数。未确知有理数的阶数越大，表明对测试指标的刻画表示越精细，最佳的未确知有理数阶数通过下节的信息熵方法进行计算。

S22、未确知有理数阶数的优化；

利用未确知有理数对挖掘生成后的测量数据集合进行表达，较好地反映了测试指标的数据值分布情况，可信度α_i只是表明了取值x_i的不确定性程度；

区间[c,d]上取值x_i的频率越均匀(即取值越分散)，对测试指标的刻画越复杂，不确定性程度也就越大，未确知有理数的可信度熵也就越大；

令

则k^*即为所求的未确知有理数最佳阶数。

S3、基于未确知有理数的参数估计。

通过k^*阶未确知有理数A的构造，实际上我们有了测试指标样本总体的离散化值x₁,…,x_k*，通过小样本的灰自助生成已求得其中每一个xi的出现频率，但是还是不能确定样本总体的分布类型；

基于矩估计法，称下列一阶未确知有理数

上述未确知期望的内涵是值实数

作为未确知有理数A的真值估计有α的可信度；

很显然，当α＝1时，E(A)为实数

用方差D(A)来描述未确知有理数A到E(A)的离散程度，即

D(A)＝E(A-E(A))² (18)

不考虑

作为A的均值的可信度，近似认为E(A)为实数

该式求解方差的实质是计算A到值实数

的离散程度，从而有计算式

于是，有k^*阶未确知有理数A的点估计值为

其估计精度为

则定义上述点估计的可靠度为

除了用上述点估计给出测试指标的近似值外，还能够用区间估计法给出它的取值范围，即把估计误差用醒目的形式标示出来。

但是区间估计需要假设样本总体的分布特征，对于武器装备的测试指标数据，一般假设其服从正态分布。

需要指出的是，区间估计中的置信水平反映了估计的可靠性(与未确知有理数中的可信度有本质的区别)，表达了待估参数落入估计区间的概率大小，概率越大，可靠性越高。

给定置信水平1-β，从表1所示的常用标准正态分布上侧β分位点表中查询u(β/2)，基于下式计算给定置信水平下的置信区间半长度ε。

表1常用标准正态分布上侧β分位点表

β	0.001	0.005	0.010	0.025	0.050	0.100	0.200
								u(β)	3.090	2.576	2.327	1.960	1.645	1.282	0.8416

于是计算未确知有理数A的均值

在置信水平1-β下的置信区间

实施例1，小样本试验数据估计算例；

基于灰自助和未确知有理数的小样本数据估计方法就是将灰色自助法和未确知有理数处理方法有机地结合起来，对小样本数据进行点估计和区间估计的一种分析方法，其原理如图1所示。

为了验证算法的有效性，对某型装备试验中的干扰功率测试数据X＝{93.5,92.6,93.7,92.5,93.1，93.5}进行参数估计。

利用灰自助法获得新的测试指标测量数据集合为{93.5,92.6,93.7,92.5,93.1,93.5,93.1,92.7,93.2,93.6,92.8,94.0,93.0,92.5,93.4,93.0,92.7,92.2,92.9,92.1,93.1,93.4,93.0,92.5,93.4,92.8,92.1,92.9,92.6,94.0}，总共30个数据，其中最大值为94.0，最小值为92.1。

分别构造k阶未确知有理数，其对应的可信度熵如表2所示。

表2不同阶数未确知有理数的可信度熵

k	2	3	4	5	6	7
							S<sub>k</sub>	0.1486	0.1511	0.1433	0.1360	01252	0.1160

根据表中计算结果和未确知有理数阶数优化原理，本算例构造3阶未确知有理数[[92.1,94.0],φ(x)]，其中

根据本文算法，得到某型装备干扰功率的点估计为

其估计精度为0.36，点估计的可靠度为p₁＝99.6％。

假设置信水平为0.99，则β＝0.01，计算给定置信水平下的置信区间半长度ε＝0.93，则得到置信区间为[92.07，93.93]，这时有2个点位于上述区间之外，区间估计的可靠度为p₂＝93.3％。

在装备试验鉴定活动中，对某一测试指标进行测试，一般会得到较少的几个数据，称之为小样本数据；参数估计就是基于这几个数据，点估计或区间估计的结果用来描述这个测试指标，并应用于后续的效能评估等活动；数据估计是数据处理的一个重要步骤，也是一个相对完整的独立过程。

本发明所述的基于灰自助和未确知有理数的小样本试验数据估计方法，基于灰自助和未确知数学方法[10，11]，提出了小样本数据估计的一种新途径，介绍了估计流程和实现方法，并进行了算例验证。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

参考文献

[1]唐雪梅，周伯昭，李荣.武器装备小子样综合试验设计与鉴定技术[J].战术导弹技术，2007(2):51-56.

[2]刘君，李庆民，张志华.Bayes小子样分析在武器性能评估中的应用[J].兵工学报，2008,29(9):1114-1117.

[3]董博超，宋保维，梁庆卫，等.武器装备小子样维修性试验与评定方法研究[J].兵工学报，2011,32(3):327-330.

[4]Ke Hongfa,Chen Yongguang,Liu Yi.Data Processing of Small SamplesBased on Grey Distance Information Approach[J].Journal of Systems Engineeringand Electronics,2007，18(2)：281-289.

[5]Liu SF,Lin Y.Grey Information:Theory and Practical Applications[M],Springer,London,2006.

[6]叶伟，李亚平，陈顶，等.基于小样本的复杂装备“虚拟总体”生成与检验模型[J].中国管理科学，2015,23(专辑):240-244.

[7]汪启跃，王中宇，王岩庆，等.乏信息空间机械臂随机振动信号的灰自助评估[J].北京航空航天大学学报，2016,42(4):858-864.

[8]王中宇，王倩，付继华.乏信息多传感器压力数据自助模糊融合估计[J].北京航空航天大学学报，2013,39(11):1426-1430.

[9]WANG Y,W ANG Z,SUN J,et al.Gray bootstrap method for estimatiogfrequency-varying random vibration signals with small samples[J].ChineseJoumal of Aeronautics,2014,27(2):383-389.

[10]陈永光，柯宏发，胡利民.基于未确知有理数的天线增益测试数据处理[J].电波科学学报，2011,26(6):1194-1199.

[11]刘开第，吴和琴，庞彦军，等.不确定性信息数学处理及应用[M].北京：科学出版社，1999.