CN110289986B

CN110289986B - 一种网络仿真数据的准确性量化方法

Info

Publication number: CN110289986B
Application number: CN201910444133.0A
Authority: CN
Inventors: 吴静; 杨兴; 周沫; 汪海; 江昊; 周建国
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2021-05-18
Anticipated expiration: 2039-05-27
Also published as: CN110289986A

Abstract

本发明公开了一种网络仿真数据的准确性量化方法，本发明详细介绍了数据的拓扑性质的近似估计方法，并在拓扑性质估计的基础上提出了不同数据的拓扑性质相似度的计算方法，通过计算仿真模型数据和参考数据的拓扑空间性质的相似程度来度量数据之间的相似性，同时提供了定量的度量指标可以直接比较不同的模型数据和参考数据之间的相似程度的大小，可用于网络仿真可信度的评估。

Description

一种网络仿真数据的准确性量化方法

技术领域

本发明属于网络仿真技术领域，尤其涉及一种网络仿真可信度评估中对仿真数据的准确性进行量化的方法。

背景技术

网络仿真是目前研究网络系统设计规划运行的有效手段，通过建立网络通信设备组件、传播环境、链路以及协议的模型，并且通过提供的相关的流量模型仿真模拟业务流量在网络中的传输，从而获取网络研究设计或网络模型优化所需的网络性能相关的指标数据。

网络仿真是基于相似性原理，所以仿真系统模型是否可信，最直接的方法是通过考察仿真模型的输出响应变量和系统状态变量的观测值与实际参考系统的输出响应变量和系统状态变量的观测值之间的偏差是否大到掩盖了仿真模型的有用性，即需要度量仿真数据与参考数据之间是否有足够的相似程度。所以仿真数据与参考数据的相似性的度量是进行仿真输出数据的准确性分析的重要内容。

目前针对相似度的度量方法研究，常用的有基于距离的度量方法，如编辑距离、欧式距离、动态时间弯曲距离以及灰色关联分析的空间距离等。但当数据扩展到多输出的高维数据之间的相似度度量时纯粹的基于距离的度量则区分程度不敏感。对于网络仿真研究中通过仿真模型生成的数据，假设其生成数据的分布为p_model(X)，则同样地参考数据的分布为p_data(X)。根据流形假设的理论：实际的支撑数据生成的分布p_data(X)是一个在欧式空间的低维流形M_data，且该流形是一个非线性的复杂的难以显示描述的空间结构。则同样的通过仿真生成模型生成的数据也有一个固有的流形为M_model。因此基于此假设，如果仿真模型足够好的话，其生成数据的流形空间和参考数据的流形空间应该是很接近的，即流形空间的拓扑性质是相似的，拓扑空间是指数据点在一定的度量空间下点与点之间构成的抽象的空间结构，是对数据内部的关系进行的全局客观的度量，所以提出了基于拓扑数据分析的相似性度量方法。

发明内容

目前针对相似度的度量方法研究，常用的有基于距离的度量方法，如编辑距离、欧式距离、动态时间弯曲距离以及灰色关联分析的空间距离等。但当数据扩展到多输出的高维数据之间的相似度度量时纯粹的基于距离的度量则区分程度不敏感。为了解决现有技术中存在的问题，本发明提供了一种网络仿真数据的准确性量化方法。

本发明所采用的技术方案是：一种网络仿真数据的准确性量化方法，其特征在于，包括以下步骤：

步骤1：假定网络仿真数据集为X，从中随机选择L个标定点，然后计算所选标定点与网络仿真数据集X的成对距离，并通过矩阵形式保存；

步骤2：通过默认设定的γ值与所选标定点之间成对距离的最大值相乘计算出持续性参数α的最大值α_max；

步骤3：利用步骤1中所选标定点与网络仿真数据集X的成对距离和2计算得到的参数α_max，以及witness复形进行拓扑近似，复形的最大维度设为k，然后利用得到的复形族计算在维度为k时的持续性区间；

步骤4：通过式(1)计算相对生成时间RTL(i,k,X,L)；

其中，β_k(α)表示k维“环”的贝蒂系数，i表示环的个数，k表示环的维度，μ表示在α的整个变化区间内，β_k(α)＝i的区间的长度；

对于一个固定值的α,k维“环”的贝蒂系数为包含α的持续性区间的数量，相应的值函数为式(2)；

β_k(α)＝|{[b_i,d_i]∈I_k：α∈[b_i,d_i]}| (2)

其中，b_i和d_i表示有i个环时α区间的端点，I_k表示k维“环”的α总区间。

步骤5：进行若干次的随机选择标定点之后计算出若干个相对生成时间，根据式(3)计算平均相对生成时间：

MRLT(i,k,X)＝E_L[RLT(i,k,X,L)] (3)

同时有：

∑_iMRLT(i,k,X)＝1 (4)

步骤6：计算两个数据集的MRLT的JS散度来表示两个数据集之间拓扑性质的相似程度：

TopSimScore(X_data,X_model)＝JS(MRLT_data||MRLT_model) (5)

其中，X_data表示参考数据集，X_model表示网络仿真数据集，MRLT_data表示参考数据集的平均相对生成时间，MRLT_model表示网络仿真数据集的平均相对生成时间，P(x)和Q(x)分别表示两个数据集，KL散度(Kullback–Leibler divergence)，称为相对熵是用于描述两个概率分布P(x)和Q(x)的差异。

JS散度的值域为[0,1]，值越低表示越接近，即相同为0，反之越不同值越接近1，同时具有对称性。由JS散度值即可判断网络仿真数据和参考数据的相似性。

对于网络仿真研究通过仿真模型生成的数据假设其生成数据的分布为p_model(X)，则同样地参考数据的分布为p_data(X)。根据流形假设的理论“实际的支撑数据生成的分布p_data(X)是一个在欧式空间的低维流形M_data，且该流形是一个非线性的复杂的难以显示描述的空间结构”。则同样的通过仿真生成模型生成的数据也有一个固有的流形为M_model。因此基于此假设，如果仿真模型足够好的话，其生成数据的流形空间和参考数据的流形空间应该是很接近的，即流形空间的拓扑性质是相似的，拓扑空间是指数据点在一定的度量空间下点与点之间构成的抽象的空间结构，是对数据内部的关系进行了全局客观的度量。所以提出了基于拓扑数据分析的相似性度量方法，通过计算仿真模型数据和参考数据的拓扑空间性质的相似程度来度量数据之间的相似性，同时提供了定量的度量指标可以直接比较不同的模型数据和参考数据之间的相似程度的大小。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的拓扑性质计算结果示意图；

图3是本发明实施例的不同噪声系数下生成的数据集示意图；

图4是本发明实施例的不同的噪声系数下生成的数据和参考数据的拓扑性质计算结果示意图；

图5是本发明实施例的不同噪声系数下生成数据的拓扑相似性评分示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明针对网络仿真数据的准确性量化问题，提出了基于拓扑性质的相似性的度量方法，并通过实例证明了其正确性和有效性。

请见图1，本发明提供的一种网络仿真数据的准确性量化方法，包括以下步骤：

请见图2，为本发明实施例的拓扑性质计算结果示意图，右边为相应的数据集利用本发明的拓扑近似的方法计算得到的拓扑性质即“环”的个数的分布。

本实施例中，假定数据集X描点后分别为图2中左边所示的形状(实际中很难直接在高维空间中画出数据点的分布形状)，分别构造了“环”的个数从1到5的测试数据，从中随机选择64个标定点，然后计算所选标定点与数据集X的成对距离的矩阵。

α_max原则上选择任何的γ的值都是可以的，但是在本实施例中

其中N为数据集的大小，dist(A,B)为计算样本A和B的成对距离的矩阵的函数。

α_max＝γ*max(dist(L,L))；

步骤3：利用步骤1中所选标定点与网络仿真数据集X的成对距离和步骤2计算得到的参数α_max，以及witness复形进行拓扑近似，复形的最大维度设为k，然后利用得到的复形族计算在维度为k时的持续性区间；

本实施例中，复形的最大维度设为2，即k＝2，然后利用得到的复形族计算在维度为2时的持续性区间。

Witness复形：

(1)随机地选择一些子集

作为标定点，同时选择好距离函数d(x,x′)；

(2)选择的标定点将作为单纯复形的节点，并且witness复形将决定什么样的单形被添加到单纯复形里面；

步骤4：通过式(1)计算相对生成时间RTL(i,k,X,L)；

其中，β_k(α)表示k维“环”的贝蒂系数，i表示环的个数，k表示环的维度，μ表示在α的整个变化区间内，β_k(α)＝i的区间的长度。

β_k(α)＝|{[b_i,d_i]∈I_k：α∈[b_i,d_i]}| (2)

MRLT(i,k,X)＝E_L[RLT(i,k,x,L)] (3)

同时有：

∑_iMRLT(i,k,X)＝1 (4)

根据规则MRLT加起来等于1，利用贝叶斯的观点，可以把它们解释为一个概率分布，反映了对平均有多少个“环”的度量。于是可以由步骤1中的数据集得到对应的概率分布图，如图2右边所示。从图2可以看出，本发明提出的数据的拓扑性质的方法，均能正确地计算出数据的拓扑中环的个数，从图中的体现是“环”在该数目下的对应的概率更高。如图所示在数据集的“环”的个数为1、2、3、5时，对应的计算出来的“环”的个数分别都是在等于1、2、3、5时的概率达到0.8以上；对于“环”的个数为4时，计算出来的“环”的个数等于4时的概率达到0.6以上，同时，因为在“环”的个数为4时，从数据集的分布的形状可以看出，其中间形成的“环”较小，所以，相对于其他的环，该“环”的生存时间则比较短，所以最终会有存在3个“环”的情况，同时这也在右边的计算的拓扑性质中体现出来，即在“环”的个数等于3时，对应的概率达到0.2以上，所以对拓扑性质的近似的概率也达到了0.8以上，因此从图示的结果可以验证的拓扑性质近似的方法的正确性和有效性。

假设参考的数据为6个“环”的数据集，同时，在参考数据上添加不同的噪声系数表示不同的仿真模型生成的数据，如图3所示。

TopSimScore(X_data,X_model)＝JS(MRLT_data||MRLT_model) (5)

得到结果如图4和5所示。

如图4拓扑性质分布图的结果可知，随着仿真模型的噪声系数的增加，生成的数据的拓扑性质的分布越来越远离参考数据的拓扑性质的分布图，提供了一个定性地观察数据拓扑性质变化。同时利用拓扑性质的相似度的评分，结果如图5所示，可以定量地比较和观察生成的数据和参考数据的拓扑性质的相似度，由图可知，随着噪声系数的增加，与参考数据之间的拓扑的相似性越来越低，同时，在噪声系数为2以上时，与参考数据的拓扑的相似性的评分并没有继续升高，而是几乎保持一个收敛的水平，此时的数据和参考数据已经没有了相似性，所以这也说明当计算出来的相似度的评分在0.6以下时，和参考数据之间才有一定的相似度可言。

本发明详细介绍了数据的拓扑性质的近似估计方法，并在拓扑性质估计的基础上提出了不同数据的拓扑性质相似度的计算方法，通过计算仿真模型数据和参考数据的拓扑空间性质的相似程度来度量数据之间的相似性，同时提供了定量的度量指标(就是JS散度值)可以直接比较不同的模型数据和参考数据之间的相似程度的大小，可用于网络仿真可信度的评估。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。