CN108763828B - 一种基于统计分析的小样本数据模型验证方法 - Google Patents

一种基于统计分析的小样本数据模型验证方法 Download PDF

Info

Publication number
CN108763828B
CN108763828B CN201810645622.8A CN201810645622A CN108763828B CN 108763828 B CN108763828 B CN 108763828B CN 201810645622 A CN201810645622 A CN 201810645622A CN 108763828 B CN108763828 B CN 108763828B
Authority
CN
China
Prior art keywords
miss distance
sample
aircraft
reference sample
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810645622.8A
Other languages
English (en)
Other versions
CN108763828A (zh
Inventor
马萍
周玉臣
宋婷
方可
杨明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201810645622.8A priority Critical patent/CN108763828B/zh
Publication of CN108763828A publication Critical patent/CN108763828A/zh
Application granted granted Critical
Publication of CN108763828B publication Critical patent/CN108763828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于统计分析的小样本数据模型验证方法,本发明涉及小样本数据模型验证方法。本发明的目的是为了解决传统的Bootstrap方法再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果不够准确,存在一定风险的问题。过程为:一、对参考样本和仿真样本进行正态性检验,若服从正态分布,则执行二;二、当n≥30时,采用U检验法;当10<n<30时,采用t或F检验法;当3<n≤10时,采用
Figure DDA0001703440830000011
Figure DDA0001703440830000012
分别对一的仿真样本进行单正态总体参数检验;得到参考样本和仿真样本的均值和方差是否一致;当n<3时,不进行模型验证。本发明用于仿真模型验证领域。

Description

一种基于统计分析的小样本数据模型验证方法
技术领域
本发明涉及小样本数据模型验证方法。
背景技术
模型验证是确保仿真模型是否可以正确代替真实系统进行实验的重要手段,是仿真领域研究的重点问题之一。模型验证的主要思想是在同等输入条件下,对真实物理系统实验输出的参考数据和仿真模型实验输出的仿真数据的一致性进行分析;根据仿真样本与参考样本是否一致,决定仿真模型是否可信。在实际应用工程中,如飞行器仿真模型,由于试验条件、试验经费等因素的限制,无法进行大量的重复性试验,使得真实系统输出的数据样本量较小。在应用中,一般将样本数量小于30的统称为小样本;其中,样本数量大于10且小于30,称为一般小样本;样本数量大于3且小于等于10,称为特小样本;样本数量小于等于3称为超小样本。小样本问题给飞行器仿真模型验证工作带来困难,因此有必要研究如何利用小样本参考数据,对仿真模型进行验证。
统计分析是模型验证中常用的方法,然而在参考数据样本量较小的情况下,某些统计学方法无法直接使用。而Bayes方法却能实现对小样本以及特小样本的处理,该方法充分利用先验信息,减少了对样本容量的要求,故将其应用到小样本数据仿真模型验证问题中,Bayes方法应用的重点与难点在于先验分布的获取。Bootstrap法通过计算机实现重抽样,实现对小样本进行扩容进而转化为样本量充足的问题,将扩容样本的统计特性作为Bayes先验分布超参数的信息是完全可以的,因此采用Bootstrap法获取Bayes先验分布信息。传统的Bootstrap虽然实现了对参考样本的扩容处理,但再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果准确率低,存在一定风险,本发明针对这一问题对Bootstrap法进行改进。
发明内容
本发明的目的是为了解决传统的Bootstrap方法再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果准确率低,存在一定风险的问题,提出一种基于统计分析的样本数据模型验证方法。
一种基于统计分析的样本数据模型验证方法具体过程为:
步骤一、对参考样本和仿真样本进行正态性检验,若参考样本和仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析参考样本和仿真样本的累积概率分布相似性程度;
所述参考样本为真实物理系统实验数据;
所述仿真样本为与真实物理系统相对应的仿真模型获得的实验数据;
所述非参数检验法包括K-S检验,符号秩检验,游程检验;
步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:
步骤2.1:当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;
步骤2.2:当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;
步骤2.3:当参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计参考样本均值后验估计值
Figure BDA0001703440810000021
和参考样本方差后验估计值
Figure BDA0001703440810000022
步骤2.4、采用步骤2.3得到的参考样本均值后验估计值
Figure BDA0001703440810000023
和方差后验估计值
Figure BDA0001703440810000024
分别对步骤一的仿真样本进行单正态总体参数检验,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;
步骤2.5:当参考样本容量n<3时,不进行模型验证。
本发明的有益效果为:
本发明公开了一种基于统计分析的小样本数据模型验证方法,针对不同容量的少量参考样本进行一致性分析,提出一种基于统计分析的小样本数据模型验证框架,适用于解决不同容量的模型验证问题;针对现有模型验证方法无法解决特小参考样本的一致性分析问题,提出一种改进Bootstrap法,适用于解决参考样本容量小的模型验证问题。本发明的方法首先对仿真模型实验获得的仿真样本与真实物理系统实验获得的参考样本进行正态性检验,在样本服从非正态分布的情况下,采用非参数检验方法对参考样本和仿真样本的分布进行拟合检验;在样本服从正态分布的情况下,采用参数检验方法。对于参数检验,若参考样本数量大于10个,选取合适的两总体参数检验法对参考样本与仿真样本的均值和方差进行一致性检验。若参考样本数量小于等于10个,利用改进Bootstrap法对参考样本进行扩容,获取再生样本;利用再生样本,估计Bayes先验分布超参数,进而利用Bayes参数估计法求出参考样本的均值和方差的后验估计值;最后采用单总体的均值和方差检验,分析仿真样本和参考样本统计特性(均值,方差)的一致性。此外,本发明提出的改进Bootstrap方法有利于提高参数估计的精度,扩展再生样本的范围,提高模型验证结果的正确性。
本发明提出改进的Bootstrap法可以解决传统Bootstrap法生成的再生样本局限在原始样本范围内,易偏离真实分布等问题,不仅扩展了再生样本的范围,且在某种程度上提高了参数估计的准确率;同时证明了本发明提出的基于统计分析的小样本数据模型验证方法处理参考数据为小样本的模型验证问题是有效的。
采用经典统计方法、传统Bootstrap和改进Bootstrap法估计的误差分别为0.3173、0.3165、0.3133。分析表1中结果可知,在小样本情况下,直接利用经典统计方法进行估计的结果误差较大,其优势不再明显;采用传统取样法的Bootstrap法进行参数估计的精度有了一定提高;而采用改进的Bootstrap法求得的参数精度比起前者又有所提高,改进Bootstrap法求得的均值的估计值最接近真实值,可见改进的Bootstrap法在一定程度上提高了参数估计的准确率。
附图说明
图1为本发明提出的基于统计分析的小样本数据模型验证方法流程图;
图2为本发明实例中传统Bootstrap和改进Bootstrap获得的样本均值的箱线图;
图3为本发明实例中脱靶量数据参考样本和仿真样本累积经验分布函数图,F(x)为参考样本或仿真样本的累积概率,x为参考样本或仿真样本的值,Empirical CDF为累积经验分布函数。
具体实施方式
具体实施方式一:本实施方式的一种基于统计分析的样本数据模型验证方法具体过程为:
步骤一、对参考样本和仿真样本进行正态性检验,若参考样本和仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析参考样本和仿真样本的累积概率分布相似性程度;
所述参考样本为真实物理系统实验数据,例如飞行器系统获得的实验数据;
所述仿真样本为与真实物理系统相对应的仿真模型获得的实验数据,例如飞行器仿真模型实验数据;
所述非参数检验法包括K-S检验,符号秩检验,游程检验;
步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:
步骤2.1:当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;
步骤2.2:当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;
步骤2.3:当参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计参考样本均值后验估计值
Figure BDA0001703440810000041
和参考样本方差后验估计值
Figure BDA0001703440810000042
步骤2.4、采用步骤2.3得到的参考样本均值后验估计值
Figure BDA0001703440810000043
和方差后验估计值
Figure BDA0001703440810000044
(都是一个值)分别对步骤一的仿真样本进行单正态总体参数检验,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;
步骤2.5:当参考样本容量n<3时,此时样本容量太小,不进行模型验证;可以增加参考样本数量,重新运行步骤1。
对于样本服从正态分布,且参考样本数量超过10个的情况,可以采用两正态总体的均值和方差检验方法;对于样本数量小于等于10个的特小样本情况,本发明提出了一种基于改进Bootstrap法和Bayes参数估计获取参考数据均值与方差,进而利用单总体假设检验方法分析仿真样本与参考样本统计特征的一致性。此外,为了解决现有Bootstrap方法虽然实现了对参考样本的扩容处理,但再生样本的范围限制在了原始样本范围内;尤其在样本量较小的情况下,可能导致再生样本的分布偏离真实分布,使得估计结果不够准确,在使用过程中存在一定风险的问题;提出一种改进Bootstrap方法,以提高参数估计的精度,扩展再生样本的范围,提高模型验证结果的正确性。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中对参考样本和仿真样本进行正态性检验,具体过程为:
所述正态性检验采用W检验法,W检验法选取指标量为:
Figure BDA0001703440810000045
其中,n为样本容量,当n为偶数时,k=n/2;当n为奇数时,k=(n-1)/2;
X(1)≤X(2)≤...X(n)为样本升序排列;
ak为计算系数(查表可得);
W检验法的拒绝域为W≤Wa
Wa为α分位数(查表可得),α为显著性水平;
下面给出正态性检验实例:
例如有10组数据:2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3,用W检验法检验该组数据是否服从正态分布;升序排列为,-1.2,-1.0,,-0.6,-0.3,0,0.7,0.8,2.0,2.7,3.7;上式中分母的计算结果为24.3842,分子的计算过程如表1所示。
表1分子计算结果
Figure BDA0001703440810000051
计算得到
Figure BDA0001703440810000052
将分子计算结果和分母计算结果带入W计算公式中,计算可得W=0.9240,取α=0.05,查统计量W的α分位表可得,n=10时,Wα=0.842,因为W>Wα,即数据服从正态分布。
所述非参数检验法为对参考样本和仿真样本进行分布相似性的拟合检验,如K-S检验、χ2拟合优度检验。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤2.1中当参考样本容量n≥30时,采用两正态总体均值的U检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致;具体过程为:
设参考样本X=(X1,…,Xn)服从正态分布N(μ11 2),仿真样本Y=(Y1,…,Ym)服从正态总体N(μ22 2);
(X1,…,Xn)为n次真实物理系统实验数据,即参考样本;(Y1,…,Ym)为m次仿真模型输出的实验数据,即仿真样本;n为参考样本容量,m为仿真样本容量;m,n取值均为正整数;μ1为真实物理系统实验数据总体的均值,σ1 2为真实物理系统实验数据总体的方差;μ2为仿真模型数据总体的均值,σ2 2为仿真模型数据总体的方差;
这里所述的总体可以理解为进行大量重复实验(例如100000次)获得的数据的全体,但是由于时间成本或者经济成本的限制,真实物理系统或者仿真系统实验无法大量重复,μ1,μ2,σ1 2,σ2 2无法准确获得;但是在样本容量较大时,可以采用如下的估计方法。
X,Y分别表示μ1和μ2的无偏估计,S1 2,S2 2分别表示σ1 2和σ2 2的无偏估计,其中
Figure BDA0001703440810000061
两正态总体均值的U检验法计算过程如下:
设σ1 2,σ2 2均为已知,原假设H01=μ2即参考样本和仿真样本来自同一总体,备择假设H11≠μ2即参考样本和仿真样本来自不同的总体,检验统计量的公式如下:
Figure BDA0001703440810000062
在检验水平α条件下的拒绝域为u=(-∞,-uα/2]∪[uα/2,+∞);
其中uα/2为两正态总体均值的U检验拒绝域的临界点;
已知检验水平α,查正态分布表得到uα/2,一般取α=0.1,0.05,0.025;
若检验统计量u落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤2.2中当参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对参考样本和仿真样本的一致性进行分析,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;具体过程为:
两正态总体均值的t检验:原假设H01=μ2,备择假设H11≠μ2,检验统计量的计算公式如下:
Figure BDA0001703440810000071
在检验水平α条件下的拒绝域为:
t=(-∞,-tα/2]∪[tα/2,+∞)
其中tα/2为t检验拒绝域的临界点;
已知检验水平α,查t分布表得到tα/2
若检验统计量t落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的;
两正态总体方差的F检验:原假设H01 2=σ2 2,备择假设H11 2≠σ2 2,检验统计量的计算公式如下:
Figure BDA0001703440810000072
在检验水平α条件下的拒绝域为:
F=[0,-Fα/2(n-1,m-1)]∪[Fα/2(n-1,m-1),+∞)
其中Fα/2为F检验拒绝域的临界点;
已知检验水平α,查F分布表得到Fα/2(n-1,m-1);
若检验统计量F落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤2.3中当参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计参考样本均值后验估计值
Figure BDA0001703440810000073
和参考样本方差后验估计值
Figure BDA0001703440810000074
具体过程为:
本发明对Bootstrap法提出了改进,解决传统Bootstrap存在的再生样本范围局限在原始样本范围内,易偏离真实分布而导致参数估计结果不准确等问题。
改进Bootstrap取样方法具体步骤如下:
(1)利用计算机生成[0,1]区间上服从均匀分布的随机数λ,λ=U(0,1),U表示均匀分布;
(2)定义随机变量ζ与i,其中ζ=(n-1)λ,i=[ζ]+1,
式中[ζ]为向零取整;n为参考样本容量;
(3)根据随机变量i的取值范围获得Bootstrap样本Xj * k,公式为:
Figure BDA0001703440810000081
其中X(i)为参考样本按升序顺序排列后的第i个样本,
Figure BDA0001703440810000082
表示第j组Bootstrap抽样中的第k个样本,k=1,2,...,n,j=1,2,...,N,N取值为正整数;;在第j组Bootstrap抽样中,重复步骤(1)至(3)n次即得n个Bootstrap样本,即为一组再生样本
Figure BDA0001703440810000083
i=1,2,...,n;
(4)重复步骤(1)-步骤(3)N次,得到N组Bootstrap样本构成的矩阵,即再生样本:
Figure BDA0001703440810000084
其中上标T表示矩阵转置;
从步骤(3)公式中看出,再生样本X*是对参考样本进行加权处理,即每个再生样本数据都是综合原始样本而得到,当i>[n/2]时,获取的Bootstrap样本大于等于X(i+1),当i≤[n/2]时获取的Bootstrap样本小于等于X(i),扩展了再生样本的范围。
此外,得到的再生样本不仅包含了参考样本数据(ζ为整数时),同时包含参考样本外的数据点(ζ不为整数时),这样在尽量保证再生样本分布特征与原始样本一致的情况下,一定程度上降低其与原始样本的相似程度,可以更好地反映原始样本的真实特性。
参考样本X=(X1,…,Xn)服从正态分布N(μ11 2),在特小样本的情况下,μ1和σ1 2均未知;
利用Bayes参数估计先验分布的获取一般采用共轭先验法,即假设样本先验密度函数和后验密度函数服从相同的分布函数形式。一般可以假设均值服从正态分布(后验),均值μ1的先验分布π(μ1)可以表示为正态分布π(μ1)~N(μ,τ2),μ为先验分布中的均值超参数,τ2为先验分布方差超参数;μj为第j组再生样本
Figure BDA0001703440810000091
的均值,
Figure BDA0001703440810000092
Figure BDA0001703440810000093
为第j组再生样本
Figure BDA0001703440810000094
的方差,
Figure BDA0001703440810000095
再生样本的方差
Figure BDA0001703440810000096
采用Bayes参数估计法估计参考样本均值的过程为:
(5)利用再生样本X*估计Bayes先验分布π(μ1)的超参数μ和τ2
Figure BDA0001703440810000097
Figure BDA0001703440810000098
(6)将再生样本X*的方差D(X*)作为参考样本后验分布初始方差,即σ1 2=D(X*);
(7)计算参考样本均值后验估计值
Figure BDA0001703440810000099
在估计出参考样本后验分布均值
Figure BDA00017034408100000910
的基础上,将
Figure BDA00017034408100000911
作为已知值,求取参考样本后验分布方差σ1 2的估计值
Figure BDA00017034408100000912
一般可以假设方差服从逆伽马分布(后验),根据共轭先验,方差σ1 2的先验分布π(σ1 2)服从逆伽马分布π(σ1 2)~IGa(α,β),α和β为方差先验分布中的超参数;
采用Bayes参数估计法估计参考样本方差的过程为:
(8)利用再生样本X*估计Bayes先验分布中的超参数α和β,再生样本X*的方差D(X*)的一阶原点矩为
Figure BDA00017034408100000913
再生样本X*的方差D(X*)的二阶中心矩为
Figure BDA00017034408100000914
(9)求取参考样本方差后验估计值
Figure BDA00017034408100000915
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述步骤2.4中采用步骤2.3得到的参考样本均值后验估计值
Figure BDA00017034408100000916
和方差后验估计值
Figure BDA00017034408100000917
(都是一个值)分别对步骤一的仿真样本进行单正态总体参数检验,得到参考样本和仿真样本的均值是否一致以及参考样本和仿真样本的方差是否一致;具体过程为:
对步骤2.3得到的参考样本均值后验估计值
Figure BDA0001703440810000101
采用单正态总体均值的t检验或均值的U检验;
对步骤2.3得到的参考样本方差后验估计值
Figure BDA0001703440810000102
采用χ2检验;
单正态总体均值的t检验步骤:
已知参考样本均值后验估计值
Figure BDA0001703440810000103
原假设
Figure BDA0001703440810000104
备择假设
Figure BDA0001703440810000105
取统计量
Figure BDA0001703440810000106
在检验水平α条件下的拒绝域为:
T=(-∞,-tα/2(n-1)]∪[tα/2(n-1),+∞)
其中tα/2(n-1)为单正态总体均值的t检验拒绝域的临界点;
若检验统计量T落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的;
单正态总体均值的U检验步骤:
已知参考样本均值后验估计值
Figure BDA0001703440810000107
原假设
Figure BDA0001703440810000108
备择假设
Figure BDA0001703440810000109
取统计量
Figure BDA00017034408100001010
在检验水平α条件下的拒绝域为:
U=(-∞,-uα/2]∪[uα/2,+∞)
其中uα/2为单正态总体均值的U检验拒绝域的临界点;
若检验统计量U落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的;
单正态总体方差的χ2检验步骤:
已知参考样本方差后验估计值
Figure BDA00017034408100001011
原假设
Figure BDA00017034408100001012
备择假设
Figure BDA00017034408100001013
检验统计量的计算公式如下:
Figure BDA0001703440810000111
在检验水平α条件下的拒绝域为:
χ2≤χ2 1-α/2(n-1)或χ2≥χ2 α/2(n-1)
其中χ2 1-α/2(n-1)为单正态总体方差的χ2检验拒绝域的临界点;
若检验统计量χ2落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的。
其它步骤及参数与具体实施方式一至五之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
为评估本发明方法的性能及应用,验证发明方法的有效性,并使本发明的目的、技术方案和有益效果更加清楚,下面使用经典参数估计法、传统Bootstrap法与本发明的改进Bootstrap法方法作对比,并参照附图,对本发明进一步详细说明。
(1)改进Bootstrap法精度方面
为证明改进Bootstrap法的优越性,应用MATLAB工具,随机生成一组容量n=10的变量X~N(0,1),X={0.2970,1.3964,0.5379,-0.43713,-1.0361,0.46039,-0.2955,0.0701,0.3570,1.8231}。分别采用经典统计学方法、传统Bootstrap法以及改进Bootstrap法估计样本均值,利用传统Bootstrap法和改进Bootstrap法构造并生成N=10000组再生样本,估计再生样本的均值,使用三种方法的参数估计结果如表2所示。
表2三种方法参数估计结果比较
Figure BDA0001703440810000112
采用经典统计方法、传统Bootstrap和改进Bootstrap法估计的误差分别为0.3173、0.3165、0.3133。分析表1中结果可知,在小样本情况下,直接利用经典统计方法进行估计的结果误差较大,其优势不再明显;采用传统取样法的Bootstrap法进行参数估计的精度有了一定提高;而采用改进的Bootstrap法求得的参数精度比起前者又有所提高,改进Bootstrap法求得的均值的估计值最接近真实值,可见改进的Bootstrap法在一定程度上提高了参数估计的精度。
此外,传统Bootstrap法产生的再生样本局限在原始样本范围内,而改进Bootstrap法将再生样本范围由[-1.0361,1.8231]扩展到[-1.6351,2.2549],可以更好地反映样本的真实特性。图3给出了传统Bootstrap与改进Bootstrap再生样本均值的箱线图,可以看出改进Bootstrap法扩展了再生样本范围。
(2)基于改进Bootstrap与Bayes参数估计的方法有效性
下面通过算例,验证本发明的基于Bootstrap与Bayes参数估计的方法的有效性。以飞行器仿真模型脱靶量数据为例,由于试验条件、试验经费的限制,真实系统试验无法大量进行,能够获得的脱靶量参考数据只有6个,属于特小样本范畴,仿真数据可以通过计算机仿真大量获得,在此取100组,参考数据和仿真数据如表3所示。
表3脱靶量仿真数据和参考数据表
Figure BDA0001703440810000121
图3给出了脱靶量参考样本和仿真样本的经验分布函数图,从图中无法定量的获取参考样本和仿真样本分布的一致性程度,因此采用基于Bootstrap与Bayes参数估计的方法结合单正态总体均值的t检验法验证模型飞行器仿真模型脱靶量指标的可信性。首先采用格拉布斯法对参考样本和仿真样本进行检验,结果表明参考样本和仿真样本均无异常值,然后采用Lilliefors检验对参考样本和仿真样本的正态性进行检验,得出参考样本与仿真样本均服从正态分布的结论,在此基础上采用提出的基于Bootstrap与Bayes参数估计的小样本数据模型验证方法,得到的模型验证结果如表4所示。
表4模型验证结果
Figure BDA0001703440810000122
从表4中可以看出,基于传统Bootstrap和改进Bootstrap法的Bayes参数估计得到的均值后验分布结果误差分别为0.0235和0.0087,改进Bootstrap方法估计误差较小,再次证明了改进Bootstrap具有提高参数估计精度的优势。采用两种取样方法都可以得出h=0接受原假设的结论,即仿真样本和参考样本来自同一正态总体。采用基于改进Bootstrap与Bayes参数估计的验证方法的得到的检验p值更大,即有更大概率接受模型是可信的,提高模型验证分析结果的正确性。不仅证明了改进Bootstrap法的优越性,同时证明了基于Bootstrap与Bayes参数估计的小样本模型验证方法的有效性。
综上所述,本发明提出改进的Bootstrap法可以解决传统Bootstrap法生成的再生样本局限在原始样本范围内,易偏离真实分布等问题,不仅扩展了再生样本的范围,且在某种程度上提高了参数估计的精度;同时证明了本发明提出的基于统计分析的小样本数据模型验证方法处理参考数据为小样本的模型验证问题是有效的。
本发明提出的基于统计分析的小样本数据模型验证方法可以应用于多种领域,例如飞行器仿真模型的验证、体系对抗仿真系统的验证、交通调度系统的验证以及汽车碰撞仿真模型的验证等。
最后应说明的是,本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于统计分析的飞行器脱靶量小样本数据模型验证方法,其特征在于:所述方法具体过程为:
步骤一、对飞行器脱靶量参考样本和飞行器脱靶量仿真样本进行正态性检验,若飞行器脱靶量参考样本和飞行器脱靶量仿真样本服从正态分布,则执行步骤二,否则采用非参数检验法,分析飞行器脱靶量参考样本和飞行器脱靶量仿真样本的累积概率分布相似性程度;
所述飞行器脱靶量参考样本为真实物理系统实验数据,指代飞行器脱靶量实验数据;
所述飞行器脱靶量仿真样本为与真实物理系统相对应的仿真模型获得的实验数据,指代飞行器仿真模型脱靶量数据;
步骤二、判断参考样本容量n,根据参考样本容量选取验证方法:
步骤2.1:当飞行器脱靶量参考样本容量n≥30时,采用两正态总体均值的U检验法对飞行器脱靶量参考样本和飞行器脱靶量仿真样本的一致性进行分析,得到飞行器脱靶量参考样本和飞行器脱靶量仿真样本的均值是否一致;
步骤2.2:当飞行器脱靶量参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对飞行器脱靶量参考样本和飞行器脱靶量仿真样本的一致性进行分析,得到飞行器脱靶量参考样本和飞行器脱靶量仿真样本的均值是否一致以及飞行器脱靶量参考样本和飞行器脱靶量仿真样本的方差是否一致;
步骤2.3:当飞行器脱靶量参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000011
和飞行器脱靶量参考样本方差后验估计值
Figure FDA0003567809060000012
步骤2.4、采用步骤2.3得到的飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000013
和飞行器脱靶量方差后验估计值
Figure FDA0003567809060000014
分别对步骤一的飞行器脱靶量仿真样本进行单正态总体参数检验,得到飞行器脱靶量参考样本和飞行器脱靶量仿真样本的均值是否一致以及飞行器脱靶量参考样本和飞行器脱靶量仿真样本的方差是否一致;
步骤2.5:当飞行器脱靶量参考样本容量n<3时,不进行模型验证;
所述步骤2.3中当飞行器脱靶量参考样本容量3<n≤10时,采用基于改进Bootstrap与Bayes参数估计的方法,估计飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000015
和飞行器脱靶量参考样本方差后验估计值
Figure FDA0003567809060000021
具体过程为:
改进Bootstrap取样方法具体步骤如下:
(1)利用计算机生成[0,1]区间上服从均匀分布的随机数λ,λ=U(0,1);
U表示均匀分布;
(2)定义随机变量ζ与i,其中ζ=(n-1)λ,i=[ζ]+1,
式中[ζ]为向零取整;n为参考样本容量;
(3)根据随机变量i的取值范围获得Bootstrap样本
Figure FDA0003567809060000022
公式为:
Figure FDA0003567809060000023
其中X(i)为飞行器脱靶量参考样本按升序顺序排列后的第i个样本,
Figure FDA0003567809060000024
表示第j组Bootstrap抽样中的第k个飞行器脱靶量样本,k=1,2,...,n,j=1,2,...,N,N取值为正整数;在第j组Bootstrap抽样中,重复步骤(1)至(3)n次即得n个Bootstrap样本,即为一组飞行器脱靶量再生样本
Figure FDA0003567809060000025
(4)重复步骤(1)-步骤(3)N次,得到N组Bootstrap样本构成的矩阵,即飞行器脱靶量再生样本:
Figure FDA0003567809060000026
其中上标T表示矩阵转置;
假设均值服从正态分布,均值μ1的先验分布π(μ1)表示为正态分布π(μ1)~N(μ,τ2),μ为先验分布中的均值超参数,τ2为先验分布方差超参数;μj为第j组飞行器脱靶量再生样本
Figure FDA0003567809060000027
的均值,
Figure FDA0003567809060000028
Figure FDA0003567809060000029
为第j组飞行器脱靶量再生样本
Figure FDA00035678090600000210
的方差,
Figure FDA00035678090600000211
飞行器脱靶量再生样本的方差
Figure FDA00035678090600000212
采用Bayes参数估计法估计参考样本均值的过程为:
(5)利用飞行器脱靶量再生样本X*估计Bayes先验分布π(μ1)的超参数μ和τ2
Figure FDA0003567809060000031
(6)将飞行器脱靶量再生样本X*的方差D(X*)作为飞行器脱靶量参考样本后验分布初始方差,即σ1 2=D(X*);
(7)计算飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000032
假设方差服从逆伽马分布,根据共轭先验,方差σ1 2的先验分布π(σ1 2)服从逆伽马分布π(σ1 2)~IGa(α,β),α和β为方差先验分布中的超参数;
Figure FDA0003567809060000033
表示μ1的无偏估计;
采用Bayes参数估计法估计参考样本方差的过程为:
(8)利用飞行器脱靶量再生样本X*估计Bayes先验分布中的超参数α和β,飞行器脱靶量再生样本X*的方差D(X*)的一阶原点矩为
Figure FDA0003567809060000034
飞行器脱靶量再生样本X*的方差D(X*)的二阶中心矩为
Figure FDA0003567809060000035
Figure FDA0003567809060000036
(9)求取飞行器脱靶量参考样本方差后验估计值
Figure FDA0003567809060000037
2.根据权利要求1所述一种基于统计分析的飞行器脱靶量小样本数据模型验证方法,其特征在于:所述步骤一中对飞行器脱靶量参考样本和飞行器脱靶量仿真样本进行正态性检验,具体过程为:
所述正态性检验采用W检验法,W检验法选取指标量为:
Figure FDA0003567809060000038
其中,n为样本容量,当n为偶数时,k=n/2;当n为奇数时,k=(n-1)/2;
X(1)≤X(2)≤…X(n)为样本升序排列;
ak为计算系数;
W检验法的拒绝域为W≤Wa
Wa为α分位数,α为检验水平。
3.根据权利要求2所述一种基于统计分析的飞行器脱靶量小样本数据模型验证方法,其特征在于:所述步骤2.1中当飞行器脱靶量参考样本容量n≥30时,采用两正态总体均值的U检验法对飞行器脱靶量参考样本和飞行器脱靶量仿真样本的一致性进行分析,得到飞行器脱靶量参考样本和飞行器脱靶量仿真样本的均值是否一致;具体过程为:
设飞行器脱靶量参考样本X=(X1,…,Xn)服从正态分布N(μ11 2),飞行器脱靶量仿真样本Y=(Y1,…,Ym)服从正态总体N(μ22 2);
(X1,…,Xn)为n次真实物理系统飞行器脱靶量实验数据,即参考样本;(Y1,…,Ym)为m次仿真模型输出的飞行器仿真模型脱靶量数据,即仿真样本;n为飞行器脱靶量参考样本容量,m为飞行器脱靶量仿真样本容量;m,n取值均为正整数;μ1为真实物理系统飞行器脱靶量实验数据总体的均值,σ1 2为真实物理系统飞行器脱靶量实验数据总体的方差;μ2为飞行器仿真模型脱靶量数据总体的均值,σ2 2为飞行器仿真模型脱靶量数据总体的方差;
Figure FDA0003567809060000041
分别表示μ1和μ2的无偏估计,S1 2,S2 2分别表示σ1 2和σ2 2的无偏估计,
其中
Figure FDA0003567809060000042
Figure FDA0003567809060000043
两正态总体均值的U检验法计算过程如下:
设σ1 2,σ2 2均为已知,原假设H01=μ2,备择假设H11≠μ2,检验统计量的公式如下:
Figure FDA0003567809060000044
在检验水平α条件下的拒绝域为:
u=(-∞,-uα/2]∪[uα/2,+∞);
其中uα/2为两正态总体均值的U检验拒绝域的临界点;
已知检验水平α,查正态分布表得到uα/2
若检验统计量u落在拒绝域内,则拒绝H0,认为仿真模型是不可信的;否则接受H0,认为仿真模型是可信的。
4.根据权利要求3所述一种基于统计分析的飞行器脱靶量小样本数据模型验证方法,其特征在于:所述步骤2.2中当飞行器脱靶量参考样本容量10<n<30时,采用两正态总体均值的t检验法或两正态总体方差的F检验法对飞行器脱靶量参考样本和飞行器脱靶量仿真样本的一致性进行分析,得到飞行器脱靶量参考样本和飞行器脱靶量仿真样本的均值是否一致以及飞行器脱靶量参考样本和飞行器脱靶量仿真样本的方差是否一致;具体过程为:
两正态总体均值的t检验:原假设H′01=μ2,备择假设H′11≠μ2,检验统计量的计算公式如下:
Figure FDA0003567809060000051
在检验水平α条件下的拒绝域为:
t=(-∞,-tα/2]∪[tα/2,+∞)
其中tα/2为t检验拒绝域的临界点;
已知检验水平α,查t分布表得到tα/2
若检验统计量t落在拒绝域内,则拒绝H′0,认为仿真模型是不可信的;否则接受H′0,认为仿真模型是可信的;
两正态总体方差的F检验:原假设H″01 2=σ2 2,备择假设H″11 2≠σ2 2,检验统计量的计算公式如下:
Figure FDA0003567809060000052
在检验水平α条件下的拒绝域为:
F=[0,-Fα/2(n-1,m-1)]∪[Fα/2(n-1,m-1),+∞)
其中Fα/2为F检验拒绝域的临界点;
已知检验水平α,查F分布表得到Fα/2(n-1,m-1);
若检验统计量F落在拒绝域内,则拒绝H″0,认为仿真模型是不可信的;否则接受H″0,认为仿真模型是可信的。
5.根据权利要求4所述一种基于统计分析的飞行器脱靶量小样本数据模型验证方法,其特征在于:所述步骤2.4中采用步骤2.3得到的飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000061
和方差后验估计值
Figure FDA0003567809060000062
分别对步骤一的飞行器脱靶量仿真样本进行单正态总体参数检验,得到飞行器脱靶量参考样本和飞行器脱靶量仿真样本的均值是否一致以及飞行器脱靶量参考样本和飞行器脱靶量仿真样本的方差是否一致;具体过程为:
对步骤2.3得到的飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000063
采用单正态总体均值的t检验或均值的U检验;
对步骤2.3得到的飞行器脱靶量参考样本方差后验估计值
Figure FDA0003567809060000064
采用χ2检验;
单正态总体均值的t检验步骤:
已知飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000065
原假设
Figure FDA0003567809060000066
备择假设
Figure FDA0003567809060000067
取统计量
Figure FDA0003567809060000068
在检验水平α条件下的拒绝域为:
T=(-∞,-tα/2(n-1)]∪[tα/2(n-1),+∞)
其中tα/2(n-1)为单正态总体均值的t检验拒绝域的临界点;
若检验统计量T落在拒绝域内,则拒绝H″′0,认为仿真模型是不可信的;否则接受H″′0,认为仿真模型是可信的;
单正态总体均值的U检验步骤:
已知飞行器脱靶量参考样本均值后验估计值
Figure FDA0003567809060000069
原假设
Figure FDA00035678090600000610
备择假设
Figure FDA0003567809060000071
取统计量
Figure FDA0003567809060000072
在检验水平α条件下的拒绝域为:
U=(-∞,-uα/2]∪[uα/2,+∞)
其中uα/2为单正态总体均值的U检验拒绝域的临界点;
若检验统计量U落在拒绝域内,则拒绝
Figure FDA0003567809060000073
认为仿真模型是不可信的;否则接受
Figure FDA0003567809060000074
认为仿真模型是可信的;
单正态总体方差的χ2检验步骤:
已知飞行器脱靶量参考样本方差后验估计值
Figure FDA0003567809060000075
原假设
Figure FDA0003567809060000076
备择假设
Figure FDA0003567809060000077
检验统计量的计算公式如下:
Figure FDA0003567809060000078
在检验水平α条件下的拒绝域为:
χ2≤χ2 1-α/2(n-1)或χ2≥χ2 α/2(n-1)
其中χ2 1-α/2(n-1)为单正态总体方差的χ2检验拒绝域的临界点;
若检验统计量χ2落在拒绝域内,则拒绝
Figure FDA0003567809060000079
认为仿真模型是不可信的;否则接受
Figure FDA00035678090600000710
认为仿真模型是可信的。
CN201810645622.8A 2018-06-21 2018-06-21 一种基于统计分析的小样本数据模型验证方法 Active CN108763828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810645622.8A CN108763828B (zh) 2018-06-21 2018-06-21 一种基于统计分析的小样本数据模型验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810645622.8A CN108763828B (zh) 2018-06-21 2018-06-21 一种基于统计分析的小样本数据模型验证方法

Publications (2)

Publication Number Publication Date
CN108763828A CN108763828A (zh) 2018-11-06
CN108763828B true CN108763828B (zh) 2022-07-08

Family

ID=63979982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810645622.8A Active CN108763828B (zh) 2018-06-21 2018-06-21 一种基于统计分析的小样本数据模型验证方法

Country Status (1)

Country Link
CN (1) CN108763828B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583039A (zh) * 2018-11-07 2019-04-05 中国航空工业集团公司西安飞机设计研究所 一种极小子样可靠性增长试验设计方法
CN109542747B (zh) * 2018-11-23 2023-04-07 复旦大学 基于Bootstrap的可管理程序的性能评估方法
CN109325059A (zh) * 2018-12-03 2019-02-12 枘熠集成电路(上海)有限公司 一种数据比较方法及装置
CN110991001B (zh) * 2019-11-01 2021-06-18 北京航空航天大学 一种基于单调回归理论的卷簧寿命评估方法
CN111428363B (zh) * 2020-03-24 2022-07-01 成都理工大学 基于支持向量机svm的边坡系统失效概率计算方法
CN112181782A (zh) * 2020-10-16 2021-01-05 中国工商银行股份有限公司 基于ab测试的自适应灰度功能发布方法和装置
CN114492007B (zh) * 2022-01-17 2024-09-06 湘江实验室 一种基于分层误差控制的因子效应在线识别方法和设备
WO2023220934A1 (zh) * 2022-05-17 2023-11-23 中山大学 一种水文气象集合预报偏差及可靠度的判别方法及系统
CN115081248B (zh) * 2022-07-21 2022-11-25 中国民用航空总局第二研究所 一种远程塔台席位布局确定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073586A (zh) * 2010-12-23 2011-05-25 北京航空航天大学 基于灰色广义回归神经网络的小样本软件可靠性预计方法
CN103971024A (zh) * 2014-05-26 2014-08-06 华北电力大学(保定) 小样本失效数据下继电保护系统可靠性评估方法
CN106202929A (zh) * 2016-07-11 2016-12-07 中国人民解放军国防科学技术大学 一种基于Bayes混合模型的命中精度评估方法
CN106777928A (zh) * 2016-12-01 2017-05-31 中国人民解放军国防科学技术大学 面向正态分布数据样本的Bayes验前分布构造方法
US9805158B1 (en) * 2015-11-16 2017-10-31 Cadence Design Systems, Inc. Efficient extraction of K-sigma corners from Monte Carlo simulation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793908A (zh) * 2014-01-17 2014-05-14 首都医科大学 一种基于脑核磁共振图像多维度纹理建立预测模型的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073586A (zh) * 2010-12-23 2011-05-25 北京航空航天大学 基于灰色广义回归神经网络的小样本软件可靠性预计方法
CN103971024A (zh) * 2014-05-26 2014-08-06 华北电力大学(保定) 小样本失效数据下继电保护系统可靠性评估方法
US9805158B1 (en) * 2015-11-16 2017-10-31 Cadence Design Systems, Inc. Efficient extraction of K-sigma corners from Monte Carlo simulation
CN106202929A (zh) * 2016-07-11 2016-12-07 中国人民解放军国防科学技术大学 一种基于Bayes混合模型的命中精度评估方法
CN106777928A (zh) * 2016-12-01 2017-05-31 中国人民解放军国防科学技术大学 面向正态分布数据样本的Bayes验前分布构造方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进Bayes-Bootstrap方法的系统可靠性仿真评估;曹军海 等;《装甲兵工程学院》;20160229;第30卷(第1期);第95-98页 *

Also Published As

Publication number Publication date
CN108763828A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763828B (zh) 一种基于统计分析的小样本数据模型验证方法
CN110706213B (zh) 基于应变响应累积分布函数差的桥梁集群结构损伤判别方法
CN101477172A (zh) 一种基于神经网络的模拟电路故障诊断方法
CN103684350B (zh) 一种粒子滤波方法
CN105117550A (zh) 一种面向产品多维相关性退化失效的建模方法
Dette et al. Relevant change points in high dimensional time series
CN105866664A (zh) 一种基于幅频特征的模拟电路智能化故障诊断方法
CN108767880A (zh) 一种电力系统主导振荡模式辨识的快速迭代随机子空间法
CN111368837B (zh) 一种图像质量评价方法、装置、电子设备及存储介质
CN102129027A (zh) 一种基于故障字典的开关电流电路故障诊断方法
Bansal et al. A new stochastic simulation algorithm for updating robust reliability of linear structural dynamic systems subjected to future Gaussian excitations
CN106372315A (zh) 基于改进的布朗漂移运动的加速退化试验方法
Estep et al. Nonparametric density estimation for randomly perturbed elliptic problems I: Computational methods, a posteriori analysis, and adaptive error control
Ju et al. Automatic modal frequency identification of bridge cables under influence of abnormal monitoring data
Lelièvre et al. A Kriging-based method to deal with high dimensional reliability problems
CN111858699A (zh) 一种时间序列相关性检测方法、设备及存储介质
Bean et al. On binomial observations of continuous-time Markovian population models
Martins et al. Methods for estimating the upcrossings index: improvements and comparison
CA3101842A1 (en) A method of digital signal feature extraction comprising multiscale analysis
CN107218964B (zh) 一种试验子样容量性状的判定方法
CN113657623B (zh) 电力设备状态诊断效果确定方法、装置、终端及存储介质
Maus et al. Chaos, Solitons & Fra ctals
Choi et al. Estimation of the number of spikes using a generalized spike population model and application to RNA-seq data
RU74227U1 (ru) Устройство для повышения информативности результатов натурных испытаний
Withers et al. M-Estimators for Regression with Changing Scale

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant