CN109472346B

CN109472346B - 考虑部分数据模糊和缺失的应急物资需求预测的方法

Info

Publication number: CN109472346B
Application number: CN201811181487.2A
Authority: CN
Inventors: 张明; 仇志峰; 吴翰林; 张一帆; 李伯权; 孔祥鲁; 黄倩文; 刘思涵
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2020-08-07
Anticipated expiration: 2038-10-11
Also published as: CN109472346A

Abstract

本发明公开一种考虑部分数据模糊和缺失的应急物资需求预测模型构建方法及基于该模型对应急物资需求进行预测，针对白化权函数转折点难以确定模糊数据的问题，提出两种求模糊区间灰数的“核”的计算公式，所得的“核”代替原有模糊信息，达到不确定信息转变为确定信息的目的，针对部分数据缺失，在结合灰色关联度和K近邻填补算法的基础上，提出改进的GKNN算法，在填补环节引入权重，并在填补后加入逻辑检验条件；然后将预处理后的数据输入经过改进的遗传算法优化后的神经网络模型，得到训练好的应急物资需求预测模型，并对预测模型进行测试，调整模型参数使得模型最优，预测精度也更高。

Description

考虑部分数据模糊和缺失的应急物资需求预测的方法

技术领域

本发明属于应急物质需求预测技术领域，尤其涉及部分数据模糊和缺失的应急物资需求预测。

背景技术

在地震灾害发生的情况下，救援时间紧迫、人力物力有限、灾害现场混乱等各种不利情势，同时，应急救援物资的需求预测，受到诸多社会、环境等因素影响，具有很强的时效性和阶段性，同时灾情和物资需求信息具有模糊性和不确定性，这就给应急物资需求预测工作增加了难度，同时也会极大影响预测结果的准确度和真实度。救援物资需求的准确预测，可为救援调度等后续救援工作的开展，争取宝贵的救援时间，是应急管理部门和应急规划研究人员亟待解决的关键性问题，具有重要的研究价值。

解决应急物资需求数据模糊现象的方法，可选择基于模糊数学或灰色系统理论，两者都可以研究模糊现象，但是侧重点不同：模糊数学以经典的集合论为基础进行拓展，而集合论要求给定的集合必须由确定的元素所组成，故而模糊数学更侧重于研究元素对集合的隶属程度，然而对于模糊问题，研究目标数值对某个模糊集合的隶属关系并不能有效帮助后续的应急物资需求预测工作。而灰色系统理论的研究对象是含有确定信息和不确定信息的系统，目标是研究如何将系统中的不确定信息、未知信息发展为确定信息和已知信息。

对于模糊信息的处理，已有相关文献采用灰色系统理论进行了研究。例如，2010年《系统工程与电子技术》杂志公开的“基于核和灰度的区间灰数运算法则”(即文献[1])中建立了区间灰数运算公理、运算法则，灰数运算被转化为实数运算，但该文献为讨论方便，将灰数均值白化数作为灰数的核，这种方法运用在灾情信息模糊处理中，会使得到的结果丢失实际情况中客观存在的信息分布不确定性。

为了达成对模糊区间灰数的白化处理，求得区间灰数的核，首先要确定区间灰数的白化权函数，而白化权函数的类型最主要由转折点的位置和数量决定。目前关于白化权函数转折点的选取没有统一明确的方法，主要是依靠研究者根据研究背景的相关灰值分布信息来主观确定转折点。同时也没有一个具体明确的计算公式可以帮助研究者确定转折点，故大部分做法是直接采用等权均值白化方法，或者避开转折点的选取具体过程，直接将白化权函数作为已知条件进行研究。接下来推导白化权函数转折点位置不确定的情况下，求区间灰数的核的公式，从而解决在灰值分布信息不充分情形下，模糊区间灰数的白化处理问题。

对于应急物资需求数据缺失问题，现有的主要方法可以归为单一插补法、多重插补法、建立模型法。在单一插补法中，随机插补和均值插补虽然操作简单，但忽略了信息背后的关联性，把问题过于简单化，不适合用于灾情缺失信息补全；单一插补中具有代表性的方法还有回归插补法，但回归插补需要找出信息之间的线性回归方程，这对于灾情信息而言具有很大难度，由于每个灾情案例所处环境背景不同，多个灾情案例属性之间很难找出共性的回归模型。多重插补则是基于单一插补发展而来，主要思想是重复执行相同的操作若干次得到多个候选完整数据集，但至于选取何种方法作为重复执行的操作还需要具体确定。建立模型法需要分析缺失数据的缺失机制，再为需要填补的属性建立模型，但这种方法不适用于数据样本较小的情况。

应急物资需求信息中存在的数据缺失，相关文献进行了研究。例如，2010年《系统与软件》杂志公开的“在不完全实例中利用信息的缺失数据填补”(即文献[2])中表明用灰色关联度来计算两个样本之间的相似度比欧氏距离或其他距离度量更合适。1996年《水资源研究》杂志公开的“基于最近邻抽样的水文时间序列分析”(即文献[3])中介绍了一种重新取标量或向量的时间序列非参数方法对水文数据进行缺失填补，认为K近邻算法的K值小于研究对象规模的开方数值，最后通过实验证明了方法的可行性。综上所述，灰色关联度在度量对象之间的相似度更为合理，但GRA方法本身还存在需要改进之处，如分辨系数的选取以及分析排序的角度选取。将GRA与KNN相结合作为改善算法性能的手段是一个较好的突破口，而本发明在此基础上提出改进的GKNN算法。

发明内容

为解决上述问题，本发明给出了针对灾情信息模糊问题和缺失问题的解决方法以及物资需求预测模型，并可基于该模型对应急物资需求进行预测。本发明针对白化权函数转折点难以确定模糊数据的问题，提出两种求模糊区间灰数的“核”的计算公式，所得的“核”代替原有模糊信息，达到不确定信息转变为确定信息的目的，针对部分数据缺失，在结合灰色关联度和K近邻填补算法的基础上，提出改进的GKNN算法，在填补环节引入权重，并在填补后加入逻辑检验条件，使得填补结果更符合实际、准确性更高；然后将预处理后的数据输入经过改进的遗传算法优化后的神经网络模型，得到训练好的应急物资需求预测模型，并对预测模型进行测试，调整模型参数使得模型最优；最后，通过实际灾情算例五组对比试验，表明本发明提出的数据模糊和缺失下的物资需求预测精度更高。

具体技术方案如下：

本发明公开一种考虑部分数据模糊和缺失的应急物资需求预测模型构建方法，包括以下步骤：

S1、对于模糊的区间信息，计算模糊区间灰数的“核”，并将所得的“核”代替原有的模糊的区间信息；

S2、对于缺失的数据项信息，在结合灰色关联度和K近邻填补算法的基础上，于填补环节引入权重，并在填补后加入逻辑检验条件；

S3、将S1和S2预处理后的信息输入经过改进的遗传算法优化后的神经网络模型进行训练，得到训练好的应急物资需求预测模型；

S4、对S3得到的应急物资需求预测模型进行测试，根据测试结果不断调整模型参数，以得到目标应急物资需求预测模型。

优选的，所述步骤S1包括：

S11、根据获取的灰值分布信息构造区间灰数的白化权函数，所述白化权函数表示区间灰数对于其区间范围内取不同的值所体现的倾向程度；

S12、利用白化权函数求区间灰数的核，即求得最能体现其倾向程度的数值；

S13、用求得的区间灰数的核来近似代表该区间灰数。

优选的，所述步骤S11具体包括：

在白化权函数转折点不确定情况下：设第K个区间灰数

的白化权函数为

其中，每个区间灰数的上下限已知，有

a_k表示第K个区间灰数的区间左端点，b_k表示第K个区间灰数的区间右端点；关于第K个区间灰数，最多有两个转折点

且存在两个转折点时，有

第K个区间灰数的白化权函数被构造为：

关于转折点有

表示为：

式中，α和β分别表示根据仅有的灰值分布信息选取的系数；

所述步骤S12具体包括：

根据公式(6)和公式(7)，得到区间灰数

的核表示为：

式中：

优选的，所述步骤S11具体包括：

在白化权函数转折点不确定情况下：设第K个区间灰数

的白化权函数为

其中，每个区间灰数的上下限已知，有

表示第K个区间灰数的区间左端点，b_k表示第K个区间灰数的区间右端点；关于第K个区间灰数，存在一个转折点

时，有

第K个区间灰数的白化权函数被构造为：

其中，转折点

可表示为：

式中，γ表示根据仅有的灰值分布信息选取的系数；

所述步骤S12具体包括：

根据公式(15)，则区间灰数

的核表示为：

优选的，所述步骤S2具体包括：

随机初始化K值，对选取的K个候选样本进行关联度排序；

为各候选样本设定权重，所述权重为对应候选样本与目标样本灰色关联度的值占所有候选样本与目标样本灰色关联度的和的百分比。

优选的，所述在填补后加入逻辑检验条件，具体包括：

对每一个填补的缺失信息的填补结果进行检验，检验的条件根据所研究的内容进行设置；

初始化K值，K在

内随机取值，n为样本规模，确定K值后继续填补；

一旦填补结果不符合所设置的条件，则返回K值确定阶段，在范围内重新选取K值，取值方法为K＝K-1；

确定K值后继续填补，若填补结果仍不符合条件，则返回K值选取阶段重新取值；当K＝1时，则重新令

优选的，通过变异概率和交叉概率的自适应公式对不断调整模型参数，使得输出结果满足设置的训练精度要求。

优选的，所述步骤S3具体包括：

S31、输入样本，对BP神经网络进行训练，包括：设定网络训练的迭代次数、训练精度和学习速率，训练完毕后得到网络初始结构，然后对初始的权值和阈值进行编码，让其随机生成初始种群；

S32、遗传算法参数初始化：包括初始化遗传算法最大进化次数、种群规模设、交叉概率和变异概率，将收集到的训练样本输入，计算网络预测结果的误差，误差平方和的倒数作为个体适应度；

S33、当个体适应度较小时，适当增大交叉概率P_c和变异概率P_m，以增加种群多样性；当个体适应度较大时，适当减小交叉概率P_c和变异概率P_m，以增强寻优收敛速度；

S34、重复S34，让神经网络的权值和阈值不断地进化，直到网络预测结果的误差达到训练目标或自适应遗传算法进化迭代次数达到最大值时遗传算法结束，输出最优的初始权值和阈值；

S35、将得到的最优的初始权值和阈值赋给BP神经网络进行仿真预测；

其中：所述自适应遗传算法的交叉概率P_c和变异概率P_m分别表示如下：

式中：f_max表示种群中最大适应度的值；f_avg表示每一代种群平均适应度的值；f_min表示种群中最小适应度的值；f₁表示要交叉的两个个体中适应度较大的值；f₂表示要变异个体的适应度的值；P表示取(0,1)之间的值。

优选的，所述步骤S31中：设定网络训练的迭代次数设置为2000次，训练精度设为0.001，学习速率为0.1，训练函数选择L-M优化算法；所述步骤S32中：将遗传算法最大进化次数设为40，种群规模设为15，交叉率取0.5，变异概率取0.01。

本发明还公开一种考虑部分数据模糊和缺失的应急物资需求预测的方法，它是基于上述方法构建的应急物资需求预测模型进行灾情物资需求量的预测。

本发明具有以下有益效果：

(1)将灰色理论的白化权函数求核概念应用于模糊信息的处理当中，并提出两种简单易用的区间模糊灰数求核公式，用于在灰值信息分布不明确情况下对模糊数据的白化处理，保证准确性的同时，保留了原数据中客观存在的信息分布不确定性。

(2)将灰色关联度和KNN算法结合，并加入了逻辑检验条件，在填补环节引入权重，应用于缺失信息的补全，降低了GKNN算法对K值的依赖程度，使改进后的GKNN填补算法性能更优，填补结果更符合实际逻辑。

(3)将遗传算法进行改进并结合BP神经网络，应用于地震伤亡人数预测，得到了预测效果更准确的预测模型。

(4)本发明所提出的方法有效解决地震灾害发生时信息不全面情形下的预测问题，为应急物资需求预测提供信息支撑和保障。

附图说明

图1两种求核公式结果与参考值对比；

图2算法填补误差对比；

图3算法填补效率对比；

图4GABP模型改进前后性能对比；

图5第一组实验的预测结果；

图6第二组实验的预测结果；

图7第三组实验的预测结果；

图8第四组实验的预测结果；

图9第五组实验的预测结果。

具体实施方式

本发明公开的考虑部分数据模糊和缺失的应急物资需求预测的方法，主要包括以下几个部分：

一、对于信息模糊，引入灰色系统理论，针对白化权函数转折点难以确定的问题，提出两种求模糊区间灰数的“核”的计算公式，所得的“核”代替原有模糊信息，达到不确定信息转变为确定信息的目的；

二、对于缺失信息，在结合灰色关联度和K近邻填补算法的基础上，于填补环节引入权重，并在填补后加入逻辑检验条件，使得填补结果更符合实际、准确性更高；

三、将预处理后的信息输入经过改进的遗传算法优化后的神经网络模型，得到训练好的应急物资需求预测模型；对预测模型进行测试，调整模型参数使得模型最优；最后利用模型预测当前灾情案例的物资需求量。

其中，对第一部分中改进的白化权函数的模糊数据处理说明如下：

灰值分布信息可理解为不确定性信息在一定取值范围内取不同值所对应的可能性，它直接影响区间灰数的白化权函数的构造及其转折点的位置选取。取得灰值分布信息时即可构造区间灰数的白化权函数，再利用白化权函数求区间灰数的核，用核来近似代表该区间灰数。白化权函数表示区间灰数对于其区间范围内取不同的值所体现的倾向程度，利用白化权函数求得区间灰数的核，即求得区间灰数最能体现其倾向程度的数值。

设一个区间灰数

则区间灰数

的白化权函数的一般形式可表示为：

那么区间灰数的核

可以表示为：

式中，a₁表示第一个区间灰数的区间左端点，b₁表示第一个区间灰数的区间右端点，c₁表示第一个区间灰数的左转折点，d₁表示第一个区间灰数的右转折点，x表示该区间灰数可能取的值。

上述白化权函数属于典型白化权函数，其区间灰数的转折点与区间端点组成的几何图形为梯形。除了典型白化权函数，经常使用的还有三角白化权函数，对于这种白化权函数可由典型白化权函数令c₁＝d₁得到，所以三角白化权函数可表示为：

此时，区间灰数的核

可以表示为：

上述的情况是基于白化权函数已知时得出的，然而实际环境中，白化权函数的确定需要一定的信息量，当信息相对缺乏时，本发明在白化权函数转折点不确定情况下，提出一个具体公式来表示区间灰数的核。具体如下:

设第K个区间灰数

的白化权函数为

其中，每个区间灰数的上下限已知，有

a_k表示第K个区间灰数的区间左端点，b_k表示第K个区间灰数的区间右端点。关于第K个区间灰数，最多有两个转折点：

此时区间灰数的白化权函数为典型白化权函数；最少有一个转折点：

此时区间灰数的白化权函数为三角白化权函数。存在两个转折点时，有

存在一个转折点时，有

首先，讨论有两个转折点的情况，根据式(1)，区间灰数的白化权函数可表示为：

根据典型白化权函数的函数形状特点，可以得出其左端转折点

和右端转折点

的取值范围：

则它们可以表示为：

式中，α和β分别表示根据仅有的灰值分布信息选取的系数。

联立公式(2)、公式(6)和公式(7)，则区间灰数

的核可以表示为：

在上式中：

接下来讨论存在一个转折点的情况，根据公式(3)，第K个区间灰数的白化权函数可表示为：

其中，转折点可表示为：

式中，γ表示根据仅有的灰值分布信息选取的系数。

联立公式(4)和公式(15)，则区间灰数

的核可以表示为：

综上所述，本发明根据历史灾情数据库提供的灰值分布信息，为模糊区间灰数构造相应的白化权函数，并求得每个区间灰数的核，使得每个模糊信息变为直接可用的数据值，以为后续的预测分析工作提供数据支持。而对于分布信息不易获得的情况，则采用双转折点白化权函数求核公式(8)或单转折点白化权函数求核公式(16)可以迅速方便地对区间灰数进行白化处理。

其中，对第二部分基于改进的GKNN的缺失数据填补算法说明如下：

本发明提出的缺失数据填补算法是基于GKNN算法进行改进的。GKNN算法是灰色关联分析(Grey Relational Analysis,GRA)以及K最近邻填补算法(k-Nearest Neighbor，KNN)的结合。KNN算法用欧式距离表达样本之间的相似度，GKNN算法则将灰色关联度替代欧式距离，用灰色关联度表达样本之间的相似度能综合考虑整个数据集的关系，而非单纯考虑两个样本。

本发明对GKNN算法的第一个改进之处是，减少GKNN算法填补值对K值的依赖。

首先，随机初始化K值，然后对K个候选样本进行关联度排序。关联度越大的样本，说明它与待填补的目标样本越相似，则给它设定一个较大的权重；关联度越小的样本，说明它与目标样本的相似度较低，则给它设定一个较小的权重。对于每个候选样本的权重，均为该候选样本的灰色关联度的值比上所有候选样本的灰色关联度的值的总和。

因为传统KNN算法的填补原理是K个候选样本取均值进行填补，所以填补效果受制于K值选取。本发明对候选样本赋予权重而不是取均值，可以很大程度地摆脱KNN算法对K值的过分依赖，只需大致确定K值的范围，那么在该范围内任取一个K值，都能得到较理想的填补效果。文献[3]介绍了一种重新取标量或向量的时间序列非参数方法，该方法以多变量最近邻概率密度估计为依据，根据该文献的结论，K值的范围可以确定为：

其中为n为样本规模(即样本数量)。

需要说明的是，在应急物资需求预测的研究中，样本是指地震灾害历史数据，数据案例个数即样本规模。其中，目标样本是指样本的空缺值是本次填补的目标，包含填补目标的样本就是目标样本。填补的参考值从本质上来源于其他关联度较高的数据案例，也就是候选样本。

另外，需要注意的是，第二部分提及的K值与第一部分无关，第二部分的K值指样本的特征空间的类别数，第一部分的K值仅仅表示区间灰数的序号。

本发明对GKNN算法的第二个改进之处是，在GKNN算法原有基础上，增加填补结果的检验环节。

在算法填补缺失信息过程中，经常容易出现的错误是，把不可能的值赋予目标样本的缺失值。为了避免填补算法出现这种错误，每完成一个缺失信息的填补，检验填补结果是否合理就显得尤为必要。

检验的条件需要研究者根据所研究的内容进行设置。在本章中，完成填补的目标样本需要将样本内的属性进行对比，如某个样本s的属性有户数A_s，人口B_s，失去住所人数I_s，根据填补的属性不同，检验条件也不同，下面给出五种情况的检验条件：

(1)当填补属性为A_s，而其他属性完整时，填补结果应满足0.5B_s＞A_s＞0.25B_s；

(2)当填补属性为A_s，而B_s空缺，其他属性完整时，填补结果应满足5I_s＞A_s＞1.25I_s；

(3)当填补属性为B_s，而其他属性完整时，填补结果应满足4A_s＞B_s＞2A_s；

(4)当填补属性为B_s，而A_s空缺，I_s＞1000，且其他属性完整时，填补结果应满足10I_s＞B_s＞6I_s；

(5)当填补属性为B_s，而A_s空缺，I_s＜1000，且其他属性完整时，填补结果应满足20I_s＞B_s＞10I_s。

一旦填补结果不符合所设置的条件，则返回K值确定阶段，在范围内重新选取K值，取值方法为：初始化K值，K在

内随机取值，确定K值后继续填补，若填补结果不符合条件，则令K＝K-1；当K＝1时，则重新令

加入了检验条件，可以避免算法填补结果出现逻辑错误的情况，使填补结果更趋合理。

下面给出改进的GKNN算法逻辑流程：

其中，对第三部分基于改进的遗传算法优化的BP神经网络说明如下：

将遗传算法和BP神经网络结合可以得到较理想的寻优效果，但由于遗传算法的发展还不够完善，容易出现“早熟”现象或进化停滞问题。为解决此类问题，本发明通过引入自适应的遗传算法对BP神经网络进行初始权值和阈值优化，既发挥了遗传算法的全局快速搜索的优点，又发挥了BP神经网络的能够广泛映射的优势。

引入自适应的遗传算法对BP神经网络进行优化，算法流程如下：

Step 1:输入样本，对BP神经网络进行训练。网络训练的迭代次数设置为2000次，训练精度设为0.001，学习速率为0.1，训练函数选择L-M优化算法(trainlm)；训练完毕后得到网络初始结构，然后对初始的权值和阈值进行编码，让其随机生成初始种群。

Step 2:遗传算法参数初始化。将遗传算法最大进化次数设为40，种群规模设为15，交叉率取0.5，变异概率取0.01，将收集到的训练样本输入，计算网络预测结果的误差，误差平方和的倒数作为个体的适应度。如果个体适应度大，则说明对应的预测误差小；个体适应度小，则说明对应的预测误差大。自然，我们希望获得适应度尽可能大的个体。需要说明的是，此处的适应度是预测结果的误差反应，我们不去直接控制适应度的范围，而是通过自适应遗传算法的交叉概率和变异概率的调整使得预测误差慢慢下降直至满足精度要求。当预测误差满足要求时，我们认为个体的适应度足够大；相反，当预测误差较大时，我们认为个体适应度较小。

Step 3:在迭代过程中，种群的交叉概率和变异概率要随适应度的变化发生改变。适当的改变可以使得种群进化过程中具备以下特点：当个体适应度较小时，为了避免算法陷入局部最优解，适当增大交叉概率和变异概率，以增加种群多样性；当个体适应度较大时，为避免算法陷入随机漫游，适当减小交叉概率和变异概率，以增强寻优收敛速度。本发明的自适应遗传算法的交叉概率和变异概率按照下列公式进行调整：

式中：f_max表示种群中最大适应度的值；f_avg表示每一代种群平均适应度的值；f_min表示种群中最小适应度的值；f₁表示要交叉的两个个体中适应度较大的值；f₂表示要变异个体的适应度的值；P表示取(0,1)之间的值，P_c表示交叉概率，P_m表示变异概率。

Step 4:重复Step 3，让神经网络的权值和阈值不断地进化，直到网络预测结果的误差达到训练目标为止，或者自适应遗传算法进化迭代次数达到最大值，则遗传算法结束，输出最优的初始权值和阈值。

Step 5:将得到的最优的初始权值和阈值赋给BP神经网络进行仿真预测。

接下来，实施例中还给出一具体案例和相应的附图对本发明进行说明。

以2006-2010年中国大陆地震灾害损失数据集为例，分析数据集中的不完全信息，分别对模糊信息和缺失信息进行预处理。数据集的每一行表示一件灾害事例，如表1的第一行表示2006年1月12日云南省墨江5.0级地震事件；数据集的每一列代表事件的详细相关信息，包括：户数、人口、震级、震源深度、震中烈度、灾区面积、死亡人数、受伤人数、失去住所人数；每一行的空白项说明该数据项信息缺失，若样本行中的某一项为区间数，则表示该项为区间模糊数，即区间灰数。

表1 2006-2010年中国大陆地震灾害损失部分数据集

步骤一、区间灰数的白化处理

选取14个区间灰数，并分别采用双转折点白化权函数求核公式(8)和单转折点白化权函数求核公式(16)，进行20组实验。实验分为两大组，实验背景为区间灰数已知，但由于灰值分布信息不充分，每个区间灰数的白化权函数转折点未知，因此分情况讨论：第一种情况为假设白化权函数转折点为两个的情形，第二种情况为假设白化权函数转折点为一个的情形。两种情形下，影响转折点的辅助变量均在区间(0,1)范围内随机取值(例如α、β，表示根据仅有的灰值分布信息选取的系数)。因为是随机取值，所以每次实验的转折点取点不一样，导致求得区间灰数的核的结果不一样，故重复每个区间灰数的求核计算重复20次，记录每次结果与参考值的相对误差。此处的参考值是根据文献[1]中关于区间灰数“核”在缺乏灰值分布信息情形下的定义计算得来，其背后的原理是：由于缺乏灰值分布信息，故把所有的区间灰数做均值白化处理，即将每个区间灰数的白化权函数视作区间范围内均值分布，体现的灰值分布概率均等。

以第一个区间灰数的求核计算为例(即k＝1)：

由于灰值信息分布不充分，当参照公式(8)求区间灰数的核时，有：

其中：

上面的式子中，α₁和β₁在(0,1)范围内随机取值，此次取值结果为：α₁＝0.8003，β₁＝0.1419。从而计算得到的基于双转折点白化权函数的区间灰数的核为：

当参照公式(16)求区间灰数的核时，有：

上面的式子中，γ₁在(0,1)范围内随机取值，此次取值结果为：γ₁＝0.7922，从而计算得到的基于单转折点白化权函数的区间灰数的核为：

当参照文献[1]时，计算得到的区间灰数的核为：

将本发明所得的两种计算结果与文献[1]计算得到的参考值作比较，发现根据双转折点白化权函数计算得到的结果相对误差为0.02％，而根据单转折点白化权函数计算得到的结果相对误差为0.40％。两种求核计算方法得到的结果都非常贴近参考值，存在的些许差异实际上是在灰值信息分布缺乏情形下，模拟灰值信息随机分布的体现。在实际应用当中，信息数据不仅仅要保证准确，同时，在客观上也伴随着一定的“噪声”，这反映了信息的不确定性，可见本发明提出的两种求核计算公式恰恰能够在不影响数据准确性的同时体现这种信息分布的不确定性。

图1展示了两种求核公式的结果分别与文献[1]的参考值对比，为方便比较，图1中将参考值曲线化为误差为0的直线。横坐标表示某个区间灰数，纵坐标表示计算结果基于参考值的平均相对误差。如第四个区间灰数的20次实验平均结果显示，两种求核公式得出的计算结果均接近参考值。运用双转折点白化权函数求核公式(8)计算所得结果的总体平均误差为0.07％，平均用时1.23秒；运用单转折点白化权函数求核公式(16)计算所得结果的总体平均误差为1.19％，平均用时0.2秒。比较发现，两种方法消耗的计算用时相差不大，同时，利用公式(8)计算区间模糊数的核，所得的结果比利用公式(16)更稳定。

综上，在灰值分布信息不充分，若研究者需要将区间灰数转化为实数从而方便接下来的使用需求，则可以参考本发明提出的求核计算公式对区间灰数进行白化处理。当研究者认为所研究的样本对象中，大多数区间灰数偏向于典型测度的白化权函数(即标准梯形白化权函数)时，推荐采用基于双转折点白化权函数求区间灰数的核的计算公式；当研究者认为所研究的样本对象中，大多数区间灰数偏向于适中测度的白化权函数(即等腰三角白化权函数)时，推荐采用基于单转折点白化权函数求区间灰数的核的计算公式；若需要进行白化处理的区间灰数较多，数据量较大时，出于时间成本考虑，可选用基于单转折点白化权函数求区间灰数的核的计算公式；若追求白化处理结果的准确性，可选用基于双转折点白化权函数求区间灰数的核的计算公式。本发明提出的求核计算公式的优势在于，白化处理在保证结果的准确性的同时还可以反映信息分布的不确定性，且计算方法简单易用，使用时根据公式及仅有灰值分布信息选取系数即可得出结果。步骤二、缺失信息的补全处理

区间灰数处理完毕后，接下来填补缺失值。本发明提出的填补算法是基于一定筛选条件的，简称GKNN-CS(Grey&K-Nearest Neighbor-Conditional screening)，填补效果将与文献[2]中所述的GKNN算法相对比。分别用两种算法对数据集填补，取填补结果的平均相对误差和填补有效率进行比较，其中平均相对误差(MRE)为：

x_i表示某个填补值，而x_iz表示x_i对应位置的真实值。

接下来以计算样例展示本发明提出的算法步骤：

Step 1：选取表1中第二行作为待填补的目标样本，算法先检查目标样本中缺失项的个数，发现缺失项只有一个，记为Y_T，其缺失属性为“户数”，选为填补目标。

Step 2：包含缺失数据集和完整数据集在内，将所有样本组成的矩阵无量纲化，此处采用的方法为标准化mapstd方法，其映射均值为0，映射方差为1。

Step 3：以目标样本为基准，计算所有其余样本与目标样本的差值(在这一过程中，若目标样本存在除填补目标以外的多余缺失项，则把这些缺失项暂时替换为数值零，以免后续步骤中，空值所在列的差值序列全为空，差值序列计算完毕后数值替换还原)。

Step 4：在得到的差值序列矩阵X中，找出矩阵中的最小元素和最大元素，分别记为u_min和u_max。

Step 5：计算每一个样本关于目标样本的关联系数矩阵，计算公式为：

公式中R(A,B)表示关联系数矩阵的第A行第B列，X(A,B)表示差值序列的第A行第B列；分辨系数p越小，分辨力度越大，一般在(0,1)范围内取值，此处分辨系数取p＝0.5。

Step 6：对关联系数矩阵求行和，每行除以总体数据集矩阵的列数n(即样本属性类别数)，得到关联度矩阵r，并对矩阵r内的元素排序。

Step 7：初始化K值，K随机在

范围内取值，同时将初始化K值存入K₀，其中m代表总体数据集矩阵的行数(即样本个数)。

Step 8：从排序后的矩阵r中选取数值对大的K个数，记为g_i,i∈(1,2,...,K)。将这K个数对应的候选样本的相应属性值提取出来，记为Y_i,i∈(1,2,...,K)。

Step 9：对Y_T进行赋值完成填补，则有：

Y_T＝Q₁Y₁+Q₂Y₂+...+Q_KY_K (21)

其中，Q_i,i∈(1,2,...,K)为每个候选样本相应属性值的权重，具体计算公式为：

Step 10：检验Y_T的填补结果是否合理。

在此情景下，Y_T代表户数，不能超过所在样本的“人数”属性值的4倍，同时不得低于“人口”属性的数值。若发现填补结果不满足此条件，则进入第11步，否则进入第12步。

Step 11：令K＝K+1，然后重复Step8到Step 10；若

则令K＝2，然后重复Step8到Step 10；在此步骤中，K值每变化一次，检验K是否等于K₀，若等于K₀，则直接进入Step 12。

Step 12：针对此填补目标的补全结束，进行下一个缺失项的填补；若该目标样本不存在缺失项，则寻找下一个目标样本，并搜索新的缺失项，然后从Step 1开始进行。

Step 13：整个数据集的所有缺失项填补完成，算法结束。

为了检验算法在应对不同缺失程度的样本中表现的性能，对同一数据集进行人为删除处理，控制删除数量以模拟不同缺失程度的数据集，缺失比例从5％至50％。根据图2显示，随着样本缺失率的增大，两种填补算法的相对误差都在增加；样本缺失率在5％-10％左右时，两种算法的填补性能较好；样本缺失比例增加到25％左右时，已经对填补结果的准确性有较大影响；同等缺失比例情况下，GKNN-CS算法比传统的GKNN算法更接近真实值，这种优势在填补缺失比例较大的样本时更明显。这个结果从侧面说明了加入权重后，算法对K值的依赖程度降低，拥有比传统GKNN算法更好的准确性。

然而算法填补结果不可能总是符合实际，这是由于样本数据量有限时，GKNN算法的K近邻优选找不出足够且合适的近似样本对空缺值填补，算法填补有效率表示填补结果的合理数量占总的填补数量的百分比。从图3可以看出，GKNN-CS算法在样本缺失比例不大时，能够有效填补所有空缺值，而当样本缺失比例进一步增大时，两种算法的填补有效率均逐步下降；但在同等缺失程度的样本中，GKNN算法的填补有效率远不如GKNN-CS。这个结果充分说明加入检验条件后，GKNN-CS算法能够取得更加符合实际逻辑的填补结果。

步骤三、改进的GABP预测模型

对数据集的缺失项填补完成后，得到完整数据集，利用完整数据集对基本GABP神经网络和改进GABP神经网络进行训练，然后用训练后的网络预测失踪人口数，每个网络重复预测50次，计算结果与真值之间的误差，对比GABP和改进GABP的结果误差。

如图4所示，纵坐标为相对误差，相对误差是指GABP或改进GABP得到的预测值与真实值之间的差的真实值的百分比，相对误差越接近零越好；横坐标为样本，代表从第一次到第50次预测实验得到的样本数据。从图4来看，GABP预测值的误差波动幅度更大，而改进的GABP的预测值的误差相对较多地分布在0％附近。经过计算，发现GABP进行实验50次的平均预测误差约为18.17％，而改进的GABP实验50次的平均预测误差约为6.83％。显然，经过改进遗传算法优化后的神经网络，其初始权值和阈值更有利于BP神经网络在迭代过程中找到全局最优值。

接下来利用原始数据和经过处理的数据放入改进遗传算法优化后的神经网络(后简称改进的GABP模型)。原始数据包括了模糊区间数和缺失信息，这样的原始样本会影响神经网络预测的准确性。经过处理的数据已经成为完整的数据集，简称预处理样本，完整充分的信息更有利于神经网络的预测。由于神经网络每次训练预测结果存在不一致性，需要对同一个目标重复预测取平均值才能把握具体的预测值，所以每组实验重复20次，每次结果记录并计算预测值与真实值的相对误差。

实验分为五组，每组实验中，利用原始样本和预处理样本训练改进的GABP模型，并对结果进行预测。第一组预测目标是2006年3月27日甘肃省宕昌4.3级地震的需要的救灾帐篷个数，第二组预测目标是2006年8月25-29日云南省盐津5.1级地震伴随4.7级地震的大米需求量，第一组和第二组的原始样本中均存在模糊信息和缺失现象；第三组预测目标是2008年3月24日湖北省竹山-陕西省白河4.1级地震的淡水需求量，该组原始数据中存在缺失现象；第四组预测目标是2008年10月6日西藏自治区当雄6.6级地震的淡水需求量，该组的原始数据中存在模糊信息；第五组预测目标是2010年6月10日新疆维吾尔自治区乌恰5.1级地震的棉被需求量，该组原始数据完整。

第一组和第二组的预测结果如图5和图6所示。第一组中，依据原始样本进行预测的结果，其平均相对误差为12.40％，方差为41.13；依据预处理样本进行预测的结果，其平均相对误差为5.07％，方差为4.85。第二组中，依据原始样本进行预测的结果，其平均相对误差为14.55％，方差为39.16；依据预处理样本进行预测的结果，其平均相对误差为4.51％，方差为7.02。可以发现，利用完整数据集对神经网络训练所得到的预测结果比利用原始数据得到的结果更稳定，预测的准确度较好。

第三组的预测结果如图7所示。第三组中，依据原始样本进行预测的结果，其平均相对误差为15.47％，方差为64.31；依据预处理样本进行预测的结果，其平均相对误差为8.53％，方差为12.33。同样，利用完整数据集对神经网络训练所得到的预测结果比利用原始数据得到的结果更稳定更精确，但也可以发现，第三组实验中，预处理样本对预测精度的改进程度相比第一和第二组较有限制。可以得出的结论是，当原始样本中同时存在模糊信息和缺失现象时，预测的稳定性最差；当原始样本只存在模糊信息时，模型预测性能提升有限。

第四组的预测结果如图8所示。第四组中，依据原始样本进行预测的结果，其平均相对误差为12.21％，方差为61.09依据预处理样本进行预测的结果，其平均相对误差为9.73％，方差为46.37。虽然利用完整数据集对神经网络训练所得到的预测结果比利用原始数据更有优势，但这个优势不大。

第三组与第四组相比较，相同点是两组的不确定现象只存在一种，不同点是不确定现象的表现形式不同。通过两组的预测结果对比可知，模糊信息本身包含找出真实信息的痕迹，通过将模糊信息白化能够大大提高预测准确性；而缺失现象本身无法提供信息，填补算法只能利用完整数据集对缺失项填补，但毕竟不是无偏估计，故最后经过填补得到的完整数据集对预测效果的提升幅度不大。

第五组的预测结果如图9所示。第五组中，依据原始样本进行预测的结果，其平均相对误差为12.19％，方差为43.66；依据预处理样本进行预测的结果，其平均相对误差为11.92％，方差为43.98。值得一提的是，此时原始样本不存在缺失现象或模糊信息，所以和预处理样本没有区别。从平均相对误差和方差的值也可以看出它们预测结果差距很小，所以结合第五组、第一组以及第二组实验结果，可以得出的结论是：利用本发明提出的针对模糊信息或缺失现象的数据预处理手段，对原始数据进行预处理得到的完整数据集，更有利于对地震灾害的伤亡人数进行准确有效的预测。

由于第五组只起到参照作用，真正体现数据完整性和本发明提出的数据预处理方法有效性的实验组是第一组、第二组、第三组和第四组，通过实验可以证明，本发明提出的预处理方法，可以避免原始数据中的潜在价值信息丢失，同时帮助提升预测的结果的稳定性和准确性，经过计算得出，预测的准确度提升20.31％～69％，预测结果稳定性提升24.1％～88.21％。

综上可见，本发明将灰色理论的白化权函数求核概念应用于模糊信息的处理当中，并提出两种简单易用的区间模糊灰数求核公式，用于在灰值信息分布不明确情况下对模糊数据的白化处理，保证准确性的同时，保留了原数据中客观存在的信息分布不确定性；将灰色关联度和KNN算法结合，加入逻辑检验条件，在填补环节引入权重，应用于缺失信息的补全，降低了GKNN算法对K值的依赖程度，使改进后的GKNN填补算法性能更优，填补结果更符合实际逻辑；将遗传算法进行改进并结合BP神经网络，应用于地震伤亡人数预测，得到了预测效果更准确的预测模型。所提出的方法有效解决地震灾害发生时信息不全面情形下的预测问题，为应急物资需求预测提供信息支撑和保障。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。