CN110008568A

CN110008568A - 小样本下装备平均修复时间的非统计估计模型

Info

Publication number: CN110008568A
Application number: CN201910246874.8A
Authority: CN
Inventors: 柯宏发; 祝冀鲁; 吴红朴; 侯兴明; 陈小卫; 李巧丽
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-12

Abstract

本发明涉及装备试验与鉴定技术领域，公开的一种小样本下装备平均修复时间的非统计估计模型，其步骤如下：1)小样本数据的离散GM(1,1)模型生成，包括离散GM(1,1)模型，基于离散GM(1,1)模型的自助抽样生成；2)基于未确知有理数的参数估计，包括未确知有理数的构造及优化，基于未确知有理数的点估计，基于未确知有理数的区间估计；3)非统计估计过程和方法框架。本发明利用非统计估计算法对装备维修时间原始数据进行处理，根据两个数据样本的点估计、区间估计都是比较接近的，能够估计置信度也很接近，即基于离散GM(1,1)模型的样本数据挖掘生成是有效可行；小样本装备平均修复时间的非统计估计模型有效可行。

Description

小样本下装备平均修复时间的非统计估计模型

技术领域

本发明涉及装备试验与鉴定技术领域，尤其涉及一种小样本下装备平均修复时间的非统计估计模型。

背景技术

为了对装备平均修复时间进行估计与验证，目前常用的方法是在自然故障或模拟故障条件下进行试验，根据试验数据进行估计并对维修性是否达到指标要求进行分析判定。这种验证方法的理论基础是经典数理统计学，需要假设样本的概率分布特征，而且需要较大的样本量才能得到较高的估计精度。目前针对小样本处理的Bayes方法也属于一种概率统计方法，需要利用验前信息并确定其概率分布形式，而且非常依赖于验前信息的融合正确性。但是随着武器装备的复杂化、网络化、体系化发展，进行装备维修性验证试验获取较多样本量的难度越来越大，成本也越来越高，急需解决未知概率分布前提下小样本数据的扩展生成、参数估计等技术难题。

发明内容

针对小样本下装备平均修复时间的参数估计问题，本发明提供一种小样本下装备平均修复时间的非统计估计模型。

为实现上述发明目的，本发明采用如下技术方案：

一种小样本下装备平均修复时间的非统计估计模型，其步骤如下：

1)小样本数据的离散GM(1,1)模型生成

在武器装备试验活动中，由于试验条件和费用的限制，很多测试指标得到的数据样本量是很小的，数据集合描述为

X＝{x(t)；t＝1,2,…,N} (1)

式中x(t)为第t个测量数据，N为测量数据总数；通常情况下N≤(5～10)，难以确定该指标数据的概率分布特征，即使假设其服从正态分布，参数估计的置信度也难以保证；灰色系统理论认为，这N个小样本数据所携带的信息不足以确定测试指标的真实状态和数量关系，但是已经部分地反映了测试指标的真实状态，通过“已知部分”推断“未知部分”正是灰色系统技术与方法的优势；本部分介绍离散GM(1,1)模型及其求解算法，以及基于离散GM(1,1)模型的数据生成流程；

1.1离散GM(1,1)模型，假设原始数据列为X⁽⁰⁾＝((x⁽⁰⁾(1),…,x⁽⁰⁾(n))，其中x⁽⁰⁾(k)≥0(k＝1,…,n)；定义X⁽⁰⁾的1-AGO序列为X⁽¹⁾＝(x⁽¹⁾(1),…,x⁽¹⁾(n))，其中则称

x⁽¹⁾(k+1)＝β₁x⁽¹⁾(k)+β₂ (2)

为GM(1,1)模型的离散形式，简称离散GM(1,1)模型；式中参数β₁、β₂为待估计参数；

上述离散GM(1,1)模型中待估计参数表示为参数列运用最小二乘法即可得到

其中Y、B分别为

令初始条件为x⁽¹⁾(0)＝x⁽⁰⁾(1)，从而得到离散GM(1,1)模型的时间响应序列为

根据其累减还原式可以得到X⁽⁰⁾的时间响应序列为

式中k＝1,2,…,n；在装备维修时间的实际建模过程中，取初始序列为X⁽¹⁾，其1阶累减生成序列为X⁽⁰⁾，建立离散GM(1,1)模型直接对X⁽¹⁾进行模拟；

1.2基于离散GM(1,1)模型的自助抽样生成，

将自助抽样生成的样本量选为：N+A＝30；

自助抽样生成的基本原理是从原始数据集合X中的概率放回地随机抽取1个数据，记为x₁(1)，该抽取过程重复m次即可得到第1个自助样本，记为

X₁＝{x₁(1),x1(2),…,x₁(m)} (7)

根据离散GM(1,1)模型的建模数据需求，确定m＝5～8；上述获得自助样本的整体抽取过程连续重复A次，则会得到A个自助再抽样样本，再抽样样本集合记为

Y＝{X₁,X₂,…,X_i,…X_A} (8)

式中X_i＝{x_i(1),x_i(2),…,x_i(m)}；

针对自助样本X_i建立离散GM(1,1)模型，对其时间响应序列进行一次累减生成，即可得到自助样本X_i中第m+1个预测值，记为

于是得到自助再抽样样本集合，即新的装备维修时间数据集合为

X＝{x(1),…,x(N),x(N+1),…,x(N+A)} (10)

式中x(N+1),…,x(N+A)分别为A个自助再抽样样本的离散GM(1,1)模型预测值；

基于离散GM(1,1)模型的自助抽样生成过程通过对原始数据序列的随机抽样挖掘，其中自助再抽样样本集合X依然不能全面反映测试指标的真实状态，在本质、性质上还是“部分已知、部分未知”地实现对测试指标真实状态的认知；和原始N个数据所表征的“部分已知、部分未知”相比，前者的“已知部分”要远远地多于后者，这也是自助抽样挖掘的目的和作用；

2)基于未确知有理数的参数估计

2.1未确知有理数的构造及优化，针对上述自助再抽样样本集合X，构造一个k(k＜N+A)阶未确知有理数对这N+A个数据进行整体上的描述；

首先记

a＝min{x(1),…,x(N),x(N+1),…,x(N+A)} (11)

b＝max{x(1),…,x(N),x(N+1),…,x(N+A)} (12)

然后区间[a,b]进行某种划分，以小区间的中间值x_i(a≤x_i≤b)为中心，并以λ为控制半径确定一数据领域，统计N+A个数据在该领域出现的频率，则得到表达式

式中φ(x)定义为可信度分布密度函数，α_i为自助抽样数据取值x_i时的可信度，且有0＜α_i＜1；表示总可信度，且有0＜α≤1；简便地，将上述过程的未确知有理数记为[[a,b],φ(x)]；

通常对区间[a,b]进行2k个等值划分，使得自助抽样数据值x_i的领域控制半径均相等，则得到x_i(i＝1,2,…,k)的表达式为

可信度α_i则用自助抽样数据在x_i为中心的控制领域内出现的频率表示，即有

式中β_i表示在x_i为中心、为半径的控制领域内的自助抽样数据个数；

从上述构造过程知道，未确知有理数的阶数k决定了数据领域的控制半径，表征了对自助再抽样样本集合X刻画的精细程度，阶数k越大，刻画越精细；但是阶数k取值并非越大越好，可信度α_i表明取值x_i对样本集合X刻画的不确定性程度，当阶数k取值趋近于N+A时，刻画的不确定性程度就越来越大；

信息论的熵常常被用来刻画不确定性，此处的可信度熵同样用来反映对样本集合X刻画的不确定性程度，基于可信度熵的最大值就能够确定未确知有理数的最佳阶数；

针对上述k阶未确知有理数的可信度熵

令则k^*即为所求的未确知有理数最佳阶数；此时将k^*阶未确知有理数A记为A＝[[a,b],φ(x)]，其中

2.2基于未确知有理数的点估计，对上述优化的k^*阶未确知有理数进行有关处理，即可得到自助再抽样样本的点估计和区间估计；针对该k^*阶未确知有理数A，称下列一阶未确知有理数

为其数学期望，也称E(A)为未确知期望或均值；

用方差D(A)来描述未确知有理数A到E(A)的离散程度，即

于是，有自助再抽样样本的点估计值为其估计精度为

综合未确知期望的可信度，则定义自助再抽样样本点估计的置信度为

2.3基于未确知有理数的区间估计，采用常用标准正态分布上侧β分位点：

β：0.001、0.005、0.010、0.025、0.050、0.100、0.200；

u(β)：3.090、2.576、2.327、1.960、1.645、1.282、0.8416；

假设自助再抽样样本的分布特征，用区间估计法给出样本的取值范围；假设自助再抽样样本服从正态分布，给定置信水平1-β，通过常用标准正态分布上侧β分位点中查询u(β/2)，则给定置信水平下置信区间半长度ε的计算公式为

于是计算自助再抽样样本的点估计值在置信水平1-β下的置信区间

针对自助再抽样挖掘生成的N+A个数据，假设有t个数据位于上述置信区间之外，同时综合估计区间的置信水平，则定义自助再抽样样本上述区间估计的置信度为

此处需要注意置信水平和置信度两个概念的联系与区别；关于对装备维修时间的非统计估计分为自助再抽样生成、参数描述、参数估计的过程，置信水平反映了正态分布假设条件下区间估计的可靠性，覆盖了参数估计过程；而点估计和区间估计的置信度则覆盖了装备维修时间的非统计估计全过程，置信水平对区间估计置信度有一份贡献率；

3)非统计估计过程和方法框架

基于离散GM(1,1)模型的自助抽样生成和未确知有理数的装备维修时间非统计估计，就是在小样本自助再抽样生成、参数描述与估计的过程中，应用离散GM(1,1)建模技术、未确知有理数构造方法、基于未确知有理数的点估计和区间估计方法的一种分析方法。

由于采用如上所述的技术方案，本发明具有如下优越性：

一种小样本下装备平均修复时间的非统计估计模型，是一种基于离散GM(1,1)模型和未确知有理数的新方法。对原始数据集合进行等概率可放回地随机再抽样，通过离散GM(1,1)模型挖掘生成较多的样本数据；不假设自助再抽样样本的概率分布特征，使用未确知有理数对自助再抽样样本集合进行描述，构建其表达模型和阶数优化模型；分别构建了平均修复时间基于未确知有理数的点估计和区间估计模型；分别基于本专利提出的非统计估计模型和GJB2072-94建议的估计模型，对某型装备平均修复时间进行参数的估计与验证，对比结果表明了本专利非统计方法的有效性和可行性。

本发明利用非统计估计算法对装备维修时间原始数据进行处理，根据两个数据样本的点估计、区间估计都是比较接近的，能够估计置信度也很接近，即基于离散GM(1,1)模型的样本数据挖掘生成是有效可行；小样本装备平均修复时间的非统计估计模型有效可行。

附图说明

图1为小样下装备平均修复时间的非统计估计模型的数据的生成流程图；

图2为装备维修时间的非统计估计过程图。

具体实施方式

如图1、2所示，一种小样本下装备平均修复时间的非统计估计模型，是基于灰自助的样本生成的，提出通过离散GM(1,1)模型产生虚拟总体样本的方法，并通过未确知有理数对总体样本进行相应的点估计和区间估计。通过数据虚拟生成流程及算法和估计模型，最后进行算例的对比验证。1小样本数据的离散GM(1,1)模型生成

在武器装备试验活动中，由于试验条件和费用的限制，很多测试指标得到的数据样本量是很小的，数据集合可以描述为

X＝{x(t)；t＝1,2,…,N} (1)

式中x(t)为第t个测量数据，N为测量数据总数。通常情况下N≤(5～10)，难以确定该指标数据的概率分布特征，即使假设其服从正态分布，参数估计的置信度也难以保证。灰色系统理论认为，这N个小样本数据所携带的信息不足以确定测试指标的真实状态和数量关系，但是已经部分地反映了测试指标的真实状态，通过“已知部分”推断“未知部分”正是灰色系统技术与方法的优势。通过离散GM(1,1)模型及其求解算法，以及基于离散GM(1,1)模型的数据生成流程。

1.1 离散GM(1,1)模型

假设原始数据列为X⁽⁰⁾＝((x⁽⁰⁾(1),…,x⁽⁰⁾(n))，其中x⁽⁰⁾(k)≥0(k＝1,…,n)；定义X⁽⁰⁾的1-AGO序列为X⁽¹⁾＝(x⁽¹⁾(1),…,x⁽¹⁾(n))，其中则称

x⁽¹⁾(k+1)＝β₁x⁽¹⁾(k)+β₂ (2)

为GM(1,1)模型的离散形式，简称离散GM(1,1)模型。式中参数β₁、β₂为待估计参数。

其中Y、B分别为

根据其累减还原式可以得到X⁽⁰⁾的时间响应序列为

式中k＝1,2,…,n。在装备维修时间的实际建模过程中，可以取初始序列为X⁽¹⁾，其1阶累减生成序列为X⁽⁰⁾，建立离散GM(1,1)模型直接对X⁽¹⁾进行模拟。

1.2 基于离散GM(1,1)模型的自助抽样生成

GJB2072-94《维修性试验与评定》规定维修作业样本量按选取的试验方法中的统计计算确定，也可选择推荐样本量。本发明将自助抽样生成的样本量选为国军标中的推荐样本量，即N+A＝30。

自助抽样生成的原理是从原始数据集合X中等概率可放回地随机抽取1个数据，记为x₁(1)，该抽取过程重复m次即可得到第1个自助样本，记为

X₁＝{x₁(1),x₁(2),…,x₁(m)} (7)

根据离散GM(1,1)模型的建模数据需求，本发明确定m＝5～8。上述获得自助样本的整体抽取过程连续重复A次，则会得到A个自助再抽样样本，再抽样样本集合可记为

Y＝{X₁,X₂,…,X_i,…X_A} (8)

式中X_i＝{x_i(1),x_i(2),…,x_i(m)}。

X＝{x(1),…,x(N),x(N+1),…,x(N+A)} (10)

式中x(N+1),…,x(N+A)分别为A个自助再抽样样本的离散GM(1,1)模型预测值。

上述自助抽样生成流程如图1所示。基于离散GM(1,1)模型的自助抽样生成过程通过对原始数据序列的随机抽样挖掘，且没有对原始数据序列的概率分布信息进行假设，拟合生成了符合参数估计要求的数据信息。但是自助再抽样样本集合X依然不能全面反映测试指标的真实状态，在本质、性质上还是“部分已知、部分未知”地实现对测试指标真实状态的认知。和原始N个数据所表征的“部分已知、部分未知”相比，前者的“已知部分”要远远地多于后者，这也是自助抽样挖掘的目的和作用。

2 基于未确知有理数的参数估计

针对自助再抽样样本集合X中N+A个数据的参数估计，如果假设数据的分布特征，采用常规的统计方法进行点估计和参数估计，那么就失去了上述自助抽样挖掘的意义，何况数据分布特征的合理性和正确性难以验证。所以本发明依然不假设生成数据的概率分布规律，直接引入未确知有理数方法进行参数估计。

2.1 未确知有理数的构造及优化

针对上述自助再抽样样本集合X，构造一个k(k＜N+A)阶未确知有理数对这N+A个数据进行整体上的描述。首先记

a＝min{x(1),…,x(N),x(N+1),…,x(N+A)}(11)

b＝max{x(1),…,x(N),x(N+1),…,x(N+A)} (12)

然后区间[a,b]进行某种划分，以小区间的中间值x_i(a≤x_i≤b)为中心，并以λ为控制半径确定一数据领域，统计N+A个数据在该领域出现的频率，则可以得到表达式

式中φ(x)定义为可信度分布密度函数，α_i为自助抽样数据取值x_i时的可信度，且有0＜α_i＜1；表示总可信度，且有0＜α≤1。简便地，可以将上述过程的未确知有理数记为[[a,b],φ(x)]。

大多数情况下，通常对区间[a,b]进行2k个等值划分，使得自助抽样数据值x_i的领域控制半径均相等，则可得到x_i(i＝1,2,…,k)的表达式为

式中β_i表示在x_i为中心、为半径的控制领域内的自助抽样数据个数。

从上述构造过程可以看出，未确知有理数的阶数k决定了数据领域的控制半径，表征了对自助再抽样样本集合X刻画的精细程度，阶数k越大，刻画越精细。但是阶数k取值并非越大越好，可信度α_i表明取值x_i对样本集合X刻画的不确定性程度，当阶数k取值趋近于N+A时，刻画的不确定性程度就越来越大。

信息论的熵常常被用来刻画不确定性，此处的可信度熵同样可以用来反映对样本集合X刻画的不确定性程度，基于可信度熵的最大值就可以确定未确知有理数的最佳阶数。

针对上述k阶未确知有理数的可信度熵

令则k^*即为所求的未确知有理数最佳阶数。此时将k^*阶未确知有理数A记为A＝[[a,b],φ(x)]，其中

2.2 基于未确知有理数的点估计

对上述优化的k^*阶未确知有理数进行有关处理，即可得到自助再抽样样本的点估计和区间估计。针对该k^*阶未确知有理数A，称下列一阶未确知有理数

为其数学期望，也称E(A)为未确知期望或均值。

用方差D(A)来描述未确知有理数A到E(A)的离散程度，即

于是，有自助再抽样样本的点估计值为其估计精度为

2.3 基于未确知有理数的区间估计

表1 常用标准正态分布上侧β分位点表

β	0.001	0.005	0.010	0.025	0.050	0.100	0.200
								u(β)	3.090	2.576	2.327	1.960	1.645	1.282	0.8416

假设自助再抽样样本的分布特征，可以用区间估计法给出样本的取值范围。一般假设自助再抽样样本服从正态分布，给定置信水平1-β，从表1所示的常用标准正态分布上侧β分位点表中查询u(β/2)，则给定置信水平下置信区间半长度ε的计算公式为

于是可以计算自助再抽样样本的点估计值在置信水平1-β下的置信区间

此处需要注意置信水平和置信度两个概念的联系与区别。本发明对装备维修时间的非统计估计分为自助再抽样生成、参数描述、参数估计等过程，置信水平反映了正态分布假设条件下区间估计的可靠性，覆盖了参数估计过程；而点估计和区间估计的置信度则覆盖了装备维修时间的非统计估计全过程，置信水平对区间估计置信度有一份贡献率。

3 非统计估计过程和方法框架

基于离散GM(1,1)模型的自助抽样生成和未确知有理数的装备维修时间非统计估计就是在小样本自助再抽样生成、参数描述与估计等过程中，应用离散GM(1,1)建模技术、未确知有理数构造方法、基于未确知有理数的点估计和区间估计方法等方法论的一种分析方法，其过程和方法论框架如图2所示。

4 装备平均修复时间的非统计估计算例

为了充分验证本发明算法的有效性，采用GJB2072-94《维修性试验与评定》D1.5中装备维修时间数据。并且取其中一部分为自助再抽样对象，抽样生成小样本数据，再将其另一部分作为验证用数据，便于本发明算法合理性和有效性的对比验证。D1.5中装备维修时间数据为26、14、21、30、70、69、20、21、18、65、16、34、26、16、40、28、42、33、19、19、43、54、12、18、13、26、10、50、21、31、42、30、46、24，总计34个。本发明间隔2个数据进行抽样并取前10个，得到验证用的小样本数据为26、30、20、65、26、28、19、54、13、50。

4.1 非统计参数估计的计算

针对这10个小样本数据，进行等概率可放回地随机抽样，重复抽取6次视为得到1个自助样本，总共需要得到20个自助样本。分别针对这20个自助样本进行离散GM(1,1)建模，取每个模型的一步预测值，从而得到自助再抽样样本为26、30、20、65、26、28、19、54、13、50、22.1、13.5、27.5、51.2、24.8、23.4、26.5、34.2、65.8、41.1、32.7、46.0、29.0、16.5、12.1、69.0、51.5、19.5、17.8、29.6。

上述自助再抽样样本最大值为69.0，最小值为12.1。分别构造k阶未确知有理数，其对应的可信度熵如表2所示。

表2 不同阶数未确知有理数的可信度熵

k	2	3	4	5	6	7
							S<sub>k</sub>	0.1326	0.1317	0.1376	0.1228	0.1152	0.1073

表中可信度熵最大值为0.1376，其对应的最优未确知有理数阶数k^*＝4，则本算例构造4阶未确知有理数为其中

根据本发明的非统计估计算法，得到装备维修时间的点估计为点估计的置信度为p₁＝78.1％。

假设置信水平为0.95，则β＝0.05，计算给定置信水平下的置信区间半长度ε＝14.17，则得到装备维修时间的区间估计[18.79，47.13]，这时有12个点位于上述区间之外，区间估计的置信度为p₂＝57.0％。

4.2 对比验证

利用本发明非统计估计算法对D1.5中34个装备维修时间原始数据进行处理，其最佳4阶未确知有理数为其中

从而得到其点估计为置信度为p₁＝76.4％。置信水平为0.99时的区间估计[17.67，44.61]，这时有11个点位于上述区间之外，区间估计的置信度为p₂＝62.2％。可见两个数据样本的点估计、区间估计都是比较接近的，且估计置信度也很接近，说明基于离散GM(1,1)模型的样本数据挖掘生成方法有效可行。

本算例中装备维修时间的概率分布和方差都是未知的，依据GJB2072-94《维修性试验与评定》D2中试验B的估计模型，对于原始34个数据样本，取α＝β＝0.05，其标准正态分布分位数Z_1-α/2＝Z_0.975＝1.96，则其点估计为

双侧置信区间为[25.05，36.59]。

对于本发明生成的自助再抽样样本，基于上述试验B的估计模型，得到其点估计为

双侧置信区间为[26.95，38.70]。

综上所述，针对原始34个数据样本和自助再抽样样本，分别使用本发明的非统计估计模型和GJB2072-94建议的估计模型，点估计比较结果如表3所示，位于估计区间的点数比较如表4所示。

表3 点估计结果的比较

表4 估计区间之外的样本点数比较

由表3可以计算，本发明提出的非统计估计模型和GJB2072-94估计模型对原始数据样本的点估计相对误差为1.15％，对自助再抽样样本的点估计相对误差为0.39％。但是根据表4的统计结果，同一置信水平下的估计区间覆盖数据样本的个数，本发明提出的非统计估计模型要远远好于GJB2072-94估计模型。由此可以看出，本发明提出的小样本装备平均修复时间的非统计估计模型有效可行。

Claims

1.一种小样本下装备平均修复时间的非统计估计模型，其特征是：其步骤如下：

1)小样本数据的离散GM(1,1)模型生成

X＝{x(t)；t＝1,2,…,N} (1)

1.1离散GM(1,1)模型，假设原始数据列为X⁽⁰⁾＝((x⁽⁰⁾(1),…,x⁽⁰⁾(n))，其中x⁽⁰⁾(k)≥0(k＝1,…,n)；定义X⁽⁰⁾的1-AGO序列为X⁽¹⁾＝(x⁽¹⁾(1),…,x⁽¹⁾(n))，其中k＝1,2,…,n；则称

x⁽¹⁾(k+1)＝β₁x⁽¹⁾(k)+β₂ (2)

其中Y、B分别为

根据其累减还原式可以得到X⁽⁰⁾的时间响应序列为

1.2基于离散GM(1,1)模型的自助抽样生成，

将自助抽样生成的样本量选为：N+A＝30；

X₁＝{x₁(1),x₁(2),…,x₁(m)} (7)

Y＝{X₁,X₂,…,X_i,…X_A} (8)

式中X_i＝{x_i(1),x_i(2),…,x_i(m)}；

X＝{x(1),…,x(N),x(N+1),…,x(N+A)} (10)

2)基于未确知有理数的参数估计

首先记

a＝min{x(1),…,x(N),x(N+1),…,x(N+A)} (11)

b＝max{x(1),…,x(N),x(N+1),…,x(N+A)} (12)

针对上述k阶未确知有理数的可信度熵

为其数学期望，也称E(A)为未确知期望或均值；

用方差D(A)来描述未确知有理数A到E(A)的离散程度，即

于是，有自助再抽样样本的点估计值为其估计精度为

β：0.001、0.005、0.010、0.025、0.050、0.100、0.200；

u(β)：3.090、2.576、2.327、1.960、1.645、1.282、0.8416；

3)非统计估计过程和方法框架

基于离散GM(1,1)模型的自助抽样生成和未确知有理数的装备维修时间非统计估计，就是在小样本自助再抽样生成、参数描述与估计的过程中，应用离散GM(1,1)建模技术、未确知有理数构造方法、基于未确知有理数的点估计和区间估计的一种分析方法。