CN106993027B

CN106993027B - 远程数据存储位置验证方法

Info

Publication number: CN106993027B
Application number: CN201710153152.9A
Authority: CN
Inventors: 张元轶; 张俊伟; 马建峰; 李晨; 崔文璇; 马爽
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2020-02-07
Anticipated expiration: 2037-03-15
Also published as: CN106993027A

Abstract

本发明公开了一种远程数据存储位置的验证方法，主要解决远程数据定位存在误差较大、成本高及要求网络上时间延迟与地理距离近似为线性关系的问题。实现方案是：利用地标对所有网络节点发送多次探测，收集它们间的时间延迟，计算时间延迟的正态分布概率密度函数并建延迟匹配库；定位时，各地标对目标发送请求，记录目标响应的时间延迟；根据时间延迟计算目标可能所在网络节点的概率；依据概率计算远程数据存储位置验证的结果。本发明仅用三台地标，实现了城市级别的定位。不仅避免了时间延迟与地理距离的映射，降低了误差，提高定位精度，且所需服务器资源少，并存在评估定位正确率的量化方法。可用于定位云端数据或直接进行IP定位。

Description

远程数据存储位置验证方法

技术领域

本发明属于云计算技术领域，主要涉及远程数据的定位，具体是一种远程数据存储位置验证方法，可用于验证云端数据的存储位置或定位非本地的数据。

背景技术

云在过去数年内迅速席卷整个计算机行业的方方面面，存储即服务不仅使得企业将大量数据从线下转移到云端，也令无数个人用户的硬盘成为了具有时代特色的缓存。

然而，云的固有问题在于云服务商是否可信以及可靠。虽然云服务商大多为IT界巨头。但是在2009年，谷歌大批用户的文件外泄。同年，亚马逊S3服务两次中断，导致很多依靠其服务的网站瘫痪。事故并没有因抢救后停止，2010年微软的Hotmail错误地删除了1.7万用户数据。紧接着在2011年，亚马逊EC2服务永久丢失了大量用户的数据。用户虽然获得了巨量的存储空间以及较低的管理成本，但代价是失去对数据的直接控制。因此对云的使用而言，迫切需要建立一种能够有效验证云服务商所承诺服务的工程化机制。

通过服务水平协议(service level agreement)，简称SLA，用户可以在法理上与云服务商达成一致。但SLA并不能保证服务实际的运行状况，商人们有足够的动机为了降低成本而阉割服务。鉴于此，数据持有性证明PDP以及数据可恢复性证明POR应运而生，以验证云端用户数据的完整性。后者POR甚至可以在某种程度上恢复不完整的数据。

但仅仅验证数据被完整存储还远远不够，数据丢失的关键在于数据没有合适的冗余。为了应对自然灾害，断电甚至骇客的恶意行为，云服务商会为数据提供备份。然而即便利用PDP或POR能够验证数据的完整性，也无法得知数据是否按照协议要求被备份，更无法得知所备份的数据是否分布于不同的地理位置。

验证云端数据存储位置的应用不仅仅限于此，考虑到一些特殊数据，例如一个国家的健康档案。其不仅存储需求大，而且要求能够在全国范围内被正常访问。因此将其托管给商业机构是一个更好的选择。但出于对病人隐私的保护和其它方面的考虑，相关法律会限制其存储的地理位置。如加拿大个人信息保护和电子文档法规定这些数据必须存储于加拿大境内以保证安全，并且任何对该数据的托管都必须满足其存储于加拿大境内的要求。相关机构可以通过验证这些数据的地理位置来判断服务商是否违法。

在2011年USENIX Hot Cloud会议中，会议论文《A position paper on datasovereignty:The importance of geolocating data in the cloud》指出有效验证云端数据的地理位置是一个亟需解决的问题。而要解决的问题主要包含了俩个方面：

a)如何验证远端主机完整地存储了目标文件。

b)如何定位完整地存储了目标文件的主机。

问题的第一个方面目前已有很多良好的解决方案，如PDP以及POR协议。

然而，在定位方面。为了提高可靠性，需采用主动测量的方式。而非查询域名注册数据库的办法。因为这些注册信息既有可能过期，也有可能在登记时便是错误位置。所以目前主动测量进行定位的两大问题便是定位精度和定位成本。

2011年在ACM workshop on Cloud computing security workshop会议上《Doyou know where your cloud files are》一文采用直接取回远程数据的方式，结合CBG技术给出了理论框架并对亚马逊S3的9个数据中心进行了实验。其结果显示文件基本可以被成功定位，算法能够分辨亚马逊的各个数据中心，但需要使用数十个可控服务器(又称为地标)对目标定位，CBG要求网络的时间延迟与地理距离两者的线性关系较强，因此造成得误差较大，可达到1,000km，无法对城市作有效区分，且成本很高。

2012年在ACM Workshop on Cloud computing security workshop会议上《LoSt:Location Based Storage》一文提出了构建于POR与CBG之上的验证机制，称为位置验证POL。考虑了敌手攻击，并给出了安全性证明。该技术可以抵御云服务商的欺诈，提高定位结果的真实性。但由于其基于CBG进行定位，依然存在上述缺陷，报告所称平均误差为800km(欧洲)与1,000km(北美)。

综上，为了定位远程数据，云服务商的数据中心基本以城市为单位，因此必须实现城市级别的定位。但800～1,000km的定位误差意味着在有些国家内的城市难以区分，在欧洲，甚至无法区分相邻的国家，精度很低。且上述技术使用的服务器需要数十台，定位成本也很高。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种精度高，成本低的远程数据存储位置验证方法。

本发明是一种远程数据存储位置验证方法，其特征在于，包括有如下步骤：

(1)计算时间延迟的正态分布概率密度函数：设定某一个远程数据，对其存储位置进行验证，设该远程数据存储位置为目标x，相对于目标x，将定位的范围限制于某一验证区域内。该验证区域内存在地理位置已知的节点，在每个地理位置已知的节点上有可访问的网络节点N，至少存在一台可控服务器L，简称地标，位于验证区域内任意地理位置的已知节点，如果有多个地标，则它们不相互重合。令各地标L对所有地理位置已知的网络节点N发送k次探测，以任意地标L_i与任意网络节点N_j为例进行说明，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。计算地标L_i对网络节点N_j的k次探测所得时间延迟的平均值μ_ij与时间延迟的标准差σ_ij，可得地标L_i与网络节点N_j时间延迟的正态分布概率密度函数f_ij(x)。

(2)计算网络节点间的时间延迟相似度：针对各网络节点，构造各网络节点对各地标的时间延迟平均值向量，其中网络节点N_j针对所有地标的向量为(μ_1j,μ_2j,…,μ_ij,…,μ_nj)，其中元素μ_ij表示地标L_i与网络节点N_j的平均时间延迟。根据该向量，使用闵可夫斯基距离计算网络节点N_j与其它所有网络节点的距离，取它们的最小值，该值称为网络节点N_j的时间延迟相似度μ_j，1≤i≤n，n为地标总数。

(3)计算时间延迟波动：针对各网络节点，构造各网络节点对各地标的时间延迟标准差向量，其中网络节点N_j针对所有地标的向量为(σ_1j,σ_2j,…,σ_ij,…,σ_nj)，其中σ_ij为地标L_i与网络节点N_j之间时间延迟的标准差。根据该向量对网络节点N_j针对所有地标的向量的所有元素求和，并除以地标总数n，得网络节点N_j针对所有地标的时间延迟波动σ_j，1≤i≤n。

(4)建立延迟匹配库：用正态分布概率密度函数f_ij(x)，时间延迟相似度μ_j和时间延迟波动σ_j共建延迟匹配库。

(5)获取被定位目标x相对于各地标的时间延迟：远程数据存储于目标x，目标x在未确定位置之前，视为一个网络节点。各地标与目标x执行PDP协议，用地标L_i进行说明。地标L_i向目标x发送挑战并开始计时，目标x在接收到挑战后在响应中添加执行PDP协议所用时间θ_ix，并响应地标L_i。若地标L_i收到响应，得到从挑战发出到目标x响应的总时间延迟τ_ix，以及目标x所添加执行PDP协议所用时间θ_ix，计算从挑战发出到目标x响应的总时间延迟与执行PDP协议所用时间之差，即τ_ix-θ_ix，得到地标L_i与目标x间的时间延迟t_ix，1≤i≤n，n为地标总数；若地标L_i未收到响应，则设置地标L_i与目标x间的时间延迟t_ix＝-1。所有地标均执行该协议，得到所有地标与目标的时间延迟。当所有地标均获取与目标的时间延迟后执行步骤(6)，否则等待未完成该过程的地标。

(6)各地标计算目标x位于各网络节点的概率：地标L_i将它与目标x间的时间延迟t_ix代入地标L_i与网络节点N_j的正态分布概率密度函数f_ij(x)，得到目标x位于网络节点N_j的概率Pr_i(x＝N_j)，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。所有地标对所有网络节点均执行该计算，得到目标x位于各网络节点的概率。

(7)计算各地标的候选集合：设候选集合P_i是地标L_i定位目标x的中间结果。设置阈值δ，当目标x位于网络节点N_j的概率Pr_i(x＝N_j)大于δ时，将网络节点N_j与该概率Pr_i(x＝N_j)加入地标L_i的候选集合P_i，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。所有地标均执行该计算，得到所有地标各自的候选集合。

(8)计算所有候选集合中各网络节点的权重：各地标将所有候选集合发送至中央服务器CL，中央服务器CL统计各网络节点在所有候选集合中出现的总次数，记网络节点N_j的权重为W_j。所述中央服务器CL或选择某个地标作为中央服务器CL，或另部署一台普通服务器作为中央服务器CL。

(9)计算权重最大网络节点的概率：中央服务器CL选出权重的最大的网络节点。如果权重最大的网络节点有多个，计算目标x位于这些网络节点的最大概率，将上述网络节点及其最大概率加入集合R。

(10)得出定位结果：若集合R为空集，则定位失败；否则，集合R中概率最大的网络节点N_j为最终定位结果，即目标x位于N_j，完成远程数据存储位置验证。

本发明以网络上节点间时间延迟在一个稳定值附近波动为前提，建立网络节点间时间延迟与其相对位置的关系，以时间延迟为准，分类网络节点和建群，并建立延迟匹配库。定位时，根据延迟匹配库计算目标x可能位于各网络节点的权重与概率，实现对目标的定位。在地标数目相同的情况下，远程数据存储位置定位的精度高于现有技术。

与现有技术相比，本发明具有如下优点：

1)本发明构造网络上地标与网络节点间时间延迟的正态分布概率密度函数，通过正态分布概率密度函数，采用地标在定位时计算目标位于各网络节点的概率，将概率最大的网络节点作为定位结果。定位时没有将时间延迟映射到地理距离，避免了无法准确测量数据包传播的距离而引入的额外误差，因此定位的精度更高。

2)本发明需要参与定位的地标数目较少，理论上仅需一台即可进行定位，实际实施时使用三台便可达到甚至超过现有技术十多台进行定位的精度，实验数据显示本发明的误差缩小到100～300km，大大降低了成本。

3)本发明定位的所有计算不涉及几何运算，故总计算量小。同时，各地标分摊定位过程中的大部分计算，得出中间结果并传输至中央服务器。中央服务器得出最终结果所需的计算量很小。因此对地标与中央服务器的硬件要求较低。

4)本发明定义了时间延迟相似度与时间延迟波动俩个参数，它们用于在理论上评估本发明实际定位远程数据的正确率。其中时间延迟相似度的值越高，时间延迟波动的值越低，本发明定位的正确率越高。因此本发明存在量化的方式来评估其定位的正确率。

附图说明

图1是本发明使用的定位总体流程图；

图2是本发明的定位示意图；

图3是本发明的定位理论模型图；

图4是本发明使用的建立延迟匹配库流程图；

图5是本发明的地标与网络节点间时间延迟探测模型图；

图6是本发明的地标挑战目标模型图；

图7是本发明的计算目标位置流程图；

图8是本发明的众多国内大城市作为网络节点的延迟匹配库参数图；

图9是本发明在图8基础上的定位正确率因子图。

具体实施方式

下面结合附图，对本发明作详细的描述。

实施例1

目前远程数据存储位置验证的研究很少，现有技术均基于CBG技术。CBG技术在定位时将网络节点间的时间延迟映射为地理距离进行定位，其依赖于建立网络节点间时间延迟与它们间距离的线性关系。因为实际的网络中不存在这种严格的线性关系，故CBG技术通过大量探测时间延迟与地理距离来进行线性拟合。于是现有技术的误差主要来源于时间延迟的误差与地理距离的误差。首先，网络中的时间延迟包括传播延迟与非传播延迟两部分，只有传播延迟与地理距离相关，故非传播延迟不可避免地使时间延迟测量值较大。其次，网络节点间数据包实际传播的距离无法准确测量，且与网络节点在地图上的距离不相等，因此距离测量也会引入误差。在已有技术的报告中，其定位精度较低，很难区分一个国家内的主要城市。而目前云服务商数据中心的建设均以城市为单位，因此无法满足将远程数据精确定位于数据中心的需求。

本发明针对上述技术现状展开了探索与研究，提供了一种远程数据存储位置验证方法，参见图1，包括有如下步骤：

(1)计算时间延迟的正态分布概率密度函数：设定某一个远程数据，用户对其存储位置进行验证，设该远程数据存储位置为目标x，本发明就是相对于目标x展开对其位置的定位与验证，本发明首先将定位的范围限制于某一验证区域内，在这一验证区域内，对目标x进行定位和验证。如果最终的定位失败，则在另一个验证区域对目标x重新进行定位。

在该验证区域内存在地理位置已知的节点，参见图2，在每个地理位置已知的节点上有可访问的网络节点N，简称网络节点。至少存在一台可控服务器L，可控服务器L简称地标L，位于验证区域内任意地理位置的已知节点。如果有多个地标，则它们所位于的节点均不相同，即地标之间不相互重合。令各地标对所有地理位置已知的网络节点发送k次探测，用以得到地标与网络节点的时间延迟。以任意地标L_i与任意网络节点N_j为例进行说明：针对地标i，1≤i≤n，n为地标总数，针对网络节点j，1≤j≤m，m为网络节点总数，地标L_i对网络节点N_j发送k次探测，发送探测后获得地标L_i对网络节点N_j的时间延迟集合T_ij＝{t_ij1,t_ij2,…,t_ijk}，t_ijk是地标L_i对网络节点N_j发送第k次探测所得时间延迟；随后从时间延迟集合T_ij中删除较大值与较小值后，计算时间延迟集合T_ij中元素的平均值μ_ij和标准差σ_ij，可得地标L_i与网络节点N_j时间延迟的正态分布概率密度函数f_ij(x)。各地标对各网络节点均执行上述探测与计算，得到所有地标与所有网络节点间时间延迟的正态分布概率密度函数，用于定位时计算目标x位于各网络节点的概率。

(2)计算网络节点间的时间延迟相似度：针对各网络节点，构造各网络节点对各地标的时间延迟平均值向量，其中网络节点N_j针对所有地标的时间延迟平均值向量为(μ_1j,μ_2j,…,μ_ij,…,μ_nj)，其中元素μ_ij表示地标L_i与网络节点N_j的平均时间延迟。使用闵可夫斯基距离计算网络节点N_j与其它所有网络节点间的距离，取它们的最小值，该值称为网络节点N_j的时间延迟相似度μ_j，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。按以上方法计算所有网络节点的时间延迟相似度。时间延迟相似度评价远程数据定位正确率的基础数据。

(3)计算时间延迟波动：针对各网络节点，构造各网络节点对各地标的时间延迟标准差向量，其中网络节点N_j针对所有地标的时间延迟标准差向量为(σ_1j,σ_2j,…,σ_ij,…,σ_nj)，其中σ_ij为地标L_i与网络节点N_j之间时间延迟的标准差。对网络节点N_j针对所有地标的时间延迟标准差向量的所有元素求和，并除以地标总数n，得网络节点N_j针对所有地标的时间延迟波动σ_j，1≤i≤n，1≤j≤m，m为网络节点总数。按以上方法计算所有网络节点的时间延迟波动。时间延迟波动是评价远程数据定位正确率的基础数据。

(4)建立延迟匹配库：用以上三步所有地标得到的所有正态分布概率密度函数，时间延迟相似度和时间延迟波动共建延迟匹配库。延迟匹配库建立完毕后，便可快捷的利用该数据库进行远程数据的定位。

(5)获取被定位目标x相对于各地标的时间延迟：远程数据存储于目标x，目标x在未确定位置之前，视为一个网络节点。各地标与目标x执行PDP协议，用地标L_i进行说明：地标L_i向目标x发送挑战并开始计时，目标x在接收到挑战后在响应中添加执行PDP协议所用时间θ_ix，并响应地标L_i。若地标L_i收到响应，则得到从挑战发出到目标x响应的总时间延迟τ_ix，以及目标x所添加执行PDP协议所用时间θ_ix，并计算从挑战发出到目标x响应的总时间延迟与执行PDP协议所用时间之差，即τ_ix-θ_ix，得到地标L_i与目标x间的时间延迟t_ix；若地标L_i未收到响应，则设置地标L_i与目标x间的时间延迟t_ix＝-1，1≤i≤n，n为地标总数。所有地标均执行该协议，得到所有地标与目标的时间延迟。当所有地标均获取与目标的时间延迟后执行步骤(6)，否则未完成该过程的地标等待目标x返回响应并计算相应所需的时间延迟，直到所有地标获得与目标x的时间延迟。

(6)各地标计算目标x位于各网络节点的概率：地标L_i将它与目标x间的时间延迟t_ix代入地标L_i与网络节点N_j的正态分布概率密度函数f_ij(x)，该正态分布概率密度函数f_ij(x)在延迟匹配库中，得到目标x位于网络节点N_j的概率Pr_i(x＝N_j)，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。所有地标对所有网络节点均执行该计算，得到各地标所得x位于各网络节点的概率。

(7)计算各地标的候选集合：设候选集合P_i是地标L_i定位目标x的中间结果。设置阈值δ，当目标x位于网络节点N_j的概率Pr_i(x＝N_j)大于δ时，将网络节点N_j与该概率Pr_i(x＝N_j)加入到地标L_i的候选集合P_i，即P_i＝{(N_j,Pr_i(x＝N_j))|Pr_i(x＝N_j)>δ，1≤j≤m}，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。所有地标均执行该计算，得到所有地标各自的候选集合。

(8)计算所有候选集合中各网络节点的权重：各地标将上一步得到的所有候选集合发送至中央服务器CL，中央服务器CL统计各网络节点在所有候选集合中出现的总次数，称为权重，记网络节点N_j的权重为W_j。所述中央服务器CL或选择某个地标作为中央服务器CL，或另部署一台普通服务器作为中央服务器CL，中央服务器CL没有任何特殊要求。

(9)计算权重最大网络节点的概率：中央服务器CL选出权重的最大的网络节点，如果权重最大的网络节点有多个，计算目标x位于这些网络节点的最大概率，将上述网络节点及其最大概率加入集合R。

(10)得出定位结果：若集合R为空集，通知用户在某一验证区域内未搜索到该远程数据，定位失败；否则，集合R不为空集，集合R中概率最大的网络节点N_j为最终定位结果，即目标x位于N_j，完成远程数据存储位置验证。

本发明提出的定位技术，不要求网络节点间时间延迟与地理距离具有近似的线性关系。选择的网络节点与部署的地标越多，定位的精度越高。本发明使用少量地标便可实现城市级别的定位。

实施例2

远程数据存储位置验证方法的技术方案同实施例1，其中步骤(1)中计算地标与网络节点间时间延迟的正态分布的概率密度函数，包括如下步骤：

1a)计算步骤(1)所得集合T_ij中元素的均值μ_ij与标准差σ_ij，T_ij代表地标L_i对网络节点N_j发送k次探测所得时间延迟的集合，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数。时间延迟集合T_ij中元素的标准差的公式为：

K为地标L_i对网络节点N_j发送探测所得时间延迟集合T_ij中元素的个数，t_ijs为地标L_i对网络节点N_j的第s次探测结果。

1b)得到集合T_ij的均值μ_ij与标准差σ_ij，按如下公式计算：

f_ij(x)即为地标L_i与网络节点N_j的时间延迟正态分布的概率密度函数。

正态分布的概率密度函数是定位计算中最基础的。对于给定的一个地标与一个网络节点，如果记录它们间时间延迟的每个数据，则会占有大量的存储空间。而本发明只存储它们间时间延迟的正态分布概率密度函数，则只需要存储俩个参数，有效节省存储空间。

实施例3

远程数据存储位置验证方法的技术方案同实施例1-2，步骤(2)中所述的计算网络节点间的时间延迟相似度，包括如下步骤：

2a)对于网络节点N_j，根据步骤(1)所得时间延迟的平均值，构造网络节点N_j对所有地标的时间延迟平均值向量(μ_1j,μ_2j,…,μ_ij,…,μ_nj)，其中μ_ij为地标L_i与网络节点N_j时间延迟的平均值，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数。

2b)利用闵可夫斯基距离计算网络节点N_j与其余m-1个网络节点间时间延迟平均值向量的距离，可得m-1个结果，取最小值作为网络节点N_j的时间延迟相似度μ_j。闵可夫斯基距离公式为：

其中d_jh表示网络节点N_j与网络节点N_h的闵可夫斯基距离，μ_ij表示地标L_i与网络节点N_j间时间延迟平均值，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数。

时间延迟相似度是评价定位理论正确率的基础数据，一个网络节点的时间延迟相似度值越大，表明该网络节点与其它网络节点相似度越低，则地标越容易区分该网络节点与其它网络节点，因此理论上定位正确率越高。

实施例4

远程数据存储位置验证方法的技术方案同实施例1-3，步骤(6)中所述的各地标计算目标x位于各网络节点的概率，包括如下步骤：

地标L_i在步骤(5)中得到其与目标x的时间延迟t_ix，并代入地标L_i与各网络节点的正态分布概率密度函数{f_i1(x),f_i2(x),…,f_ij(x),…,f_im(x)}中，其中f_ij(x)为地标L_i与网络节点N_j间时间延迟的正态分布概率密度函数，按下式得到地标L_i所计算的目标x位于网络节点N_j的概率Pr_i(x＝N_j)：

Pr_i(x＝N_j)＝f_ij(t_ix)/f_ij(μ_ij)

μ_ij是地标L_i与网络节点N_j间时间延迟的平均值，1≤i≤n，1≤j≤m，n，m分别为地标和网络节点的总数。

本发明利用多个地标计算目标x位于各网络节点的概率，有效提高定位的可信度。如果部署的地标越多，则定位的正确率高，有效地提高了远程数据存储位置的定位精度。

实施例5

远程数据存储位置验证方法的技术方案同实施例1-4，步骤(7)中所述的计算各地标的候选集合，包括如下步骤：

7a)设置阈值δ，可设置为任意小于1大于0的值，本例中取δ≥0.6。

7b)若地标L_i所得目标x位于网络节点N_j的概率Pr_i(x＝N_j)>δ，则将网络节点N_j和该概率Pr_i(x＝N_j)加入至地标L_i的候选集合P_i，即P_i＝{(N_j,Pr_i(x＝N_j))|Pr_i(x＝N_j)>δ，1≤j≤m}，1≤i≤n，其中n与m分别为地标和网络节点的总数。

δ值设置较小，会增加后续定位步骤的计算量，但降低定位的出错率。反之δ值设置较大，会减少后续定位步骤的计算量，但提高定位的出错率。本发明经过多次实验，给出δ≥0.6是优化选择。

实施例6

远程数据存储位置验证方法的技术方案同实施例1-5，步骤(9)中计算权重最大网络节点的概率，包括如下步骤：

9a)中央服务器CL计算权重的最大值W_max＝max(W₁,W₂,…,W_j,…,W_m)，1≤j≤m，m为网络节点总数，W_j为网络节点N_j的权重，max指取括号中元素的最大值。

9b)中央服务器CL计算W_j＝W_max的网络节点N_j的最大概率Pr(x＝N_j)，计算公式为：

Pr(x＝N_j)＝max(Pr₁(x＝N_j),Pr₂(x＝N_j),...,Pr_i(x＝N_j),...,Pr_n(x＝N_j))

其中1≤i≤n，n为地标总数，Pr_i(x＝N_j)为地标L_i所得目标x位于网络节点N_j的概率。

9c)将满足W_j＝W_max的N_j以及其概率Pr(x＝N_j)组成二维向量(N_j,Pr(x＝N_j))加入集合R中，1≤j≤m，m为网络节点总数。

一个网络节点的权重越大，表明支持目标x位于该网络节点的地标越多。同时，本发明根据所有网络节点的权重先筛选出目标x最有可能所在的一个或多个网络节点，避免计算目标x位于所有网络节点的最大概率，减少了计算量，因此提高了定位效率。

下面给出一个完整而详尽的例子，对本发明进一步详细说明。

实施例7

远程数据存储位置验证方法的技术方案同实施例1-6。

定位理论模型设计

本发明所使用的理论模型，参照图3，令n个节点构成节点集合V，|V|＝n。对于任意节点i，j∈V，τ_ij表示节点i到节点j的时间延迟。定义T_i为节点i与V中各节点间时间延迟构成的集合，|T_i|＝m。因为可能

使得τ_is＝τ_ik，故|T_i|＝m≤|V|＝n。

记T_i＝{τ_i1,τ_i2,…,τ_im}，τ_iγ是T_i的任意一个元素，1≤γ≤m。T＝{T_i|i∈V}，显然|T|＝|V|＝n。

定义P_iγ为：P_iγ＝{j|j∈V,τ_ij＝τ_iγ}，即P_iγ是集合V中与节点i时间延迟为τ_iγ的节点集，故

构造集合P_i＝{P_iγ|i∈V}。因为对于V中任意一节点j，其与i的时间延迟τ_ij＝τ_iγ∈T_i，可得j∈P_iγ，且

P_i1∪P_i2∪…∪P_iγ＝V，故P_i是V的一个覆盖，且由其定义可知|P_i|＝|T_i|＝m。

定义映射h：T_i→P_i，由T_i和P_i的定义可知，h既为单射，又为满射，故为双射。

考虑最坏情况，V中的任意一节点i到其余n-1个节点的时间延迟都相等，均为τ_i。但i与其自身的时间延迟为ε_i，ε_i≠τ_i，则|T_i|＝m＝2。P_i＝{P_i1,P_i2}，P_i1＝{i}，P_i2＝V-{i}。定位i时，只能使用除i以外的节点，故必须使用除节点i以外的n-1个节点才可确定i。证明如下：

设V＝{1,2,…,n}，i为被定位的节点，1≤i≤n，j为除i的任意一节点，可得τ_j＝τ_ji，P_j＝{P_j1,P_j2}，其中P_j1＝{j}，P_j2＝V-{j}。将i与j的时间延迟τ_ji代入映射h可得：

h(τ_ji)＝P_j2＝V-{j}

又因为：

(V-{1})∩(V-{2})∩...∩(V-{j})＝{i}

其中1≤i≠j≤n。

由上两式可得：

h(τ_1i)∩h(τ_2i)∩...∩h(τ_ji)＝{i}

上式即为最坏情况下的定位方程。显然在最优情况下，只使用除节点i以外的一个节点即可定位节点i，其条件为任意两节点i与j之间的时间延迟不相等。

本发明中，定位集合V中任意节点i，需使用至少1个节点，节点即地标。可见本发明原则上只需1台地标便可定位远程数据，成本很低，如果使用更多的地标，则定位的精度更高。

建立延迟匹配库

建立延迟匹配库的流程参照图4，设被定位的远程数据存储于目标x，步骤如下：

步骤1、参照图5，对网络节点发送探测，并获取时间延迟

1a)依据TCP协议或ICMP协议构造探测时间延迟的数据包。

1b)所有地标{L₁,L₂,…,L_i,…,L_n}对地理位置已知各网络节点{N₁,N₂,…,N_j,…,N_m}各发送k次探测，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。

1c)地标发送探测后，设置超时限制t₀。若网络节点N_j在t₀之内未响应地标L_i的第s次探测，则L_i设置t_ijs＝-1，t_ijs表示L_i对节点N_j第s次探测所得时间延迟，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数。

1d)地标L_i对所有网络节点探测完毕后，获得地标L_i对所有网络节点的时间延迟集合T_ij＝{t_ij1,t_ij2,…,t_ijs,…,t_ijk}，t_ijs是地标L_i对网络节点N_j发送的第s次探测所得时间延迟，1≤i≤n，1≤j≤m，1≤s≤k，n为地标总数，m为网络节点总数，k为发送探测的总次数。

步骤2、处理步骤1所得时间延迟，删除较大和较小值

2a)对于时间延迟集合T_ij，若其中有元素为负值，将该元素删去，T_ij代表地标L_i对网络节点N_j的时间延迟集合，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数。

2b)对于地标L_i对所有网络节点的时间延迟集合T_ij，计算其元素的中位数M_ij，若其任意元素t_ijs满足：|t_ijs-M_ij|>0.5*M_ij，则将t_ijs从集合T_ij中删除，t_ijs为地标L_i对网络节点N_j的第s次探测结果。

2c)经过2a与2b两小步之后，若地标L_i对所有网络节点的时间延迟集合T_ij为空，为其添加一个元素无穷大∞。

步骤3、计算时间延迟的正态分布的概率密度函数

3a)经过步骤2处理后，计算集合T_ij中元素的平均值μ_ij与标准差σ_ij，T_ij代表地标L_i对网络节点N_j探测结果的集合，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数。标准差的公式为：

K为集合T_ij中元素的个数，t_ijs为地标L_i对网络节点N_j的第s次探测结果。

3b)得到集合T_ij的平均值μ_ij与标准差σ_ij后，地标L_i与网络节点N_j间正态分布的概率密度函数f_ij(x)的公式如下：

步骤4、计算网络节点间的时间延迟相似度

4a)对于网络节点N_j，由步骤3可得其时间延迟平均值的n维向量(μ_1j,μ_2j,…,μ_ij,…,μ_nj)，其中μ_ij为地标L_i与网络节点N_j时间延迟的平均值，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数。

4b)利用闵可夫斯基距离分别计算节点N_j与其余m-1个网络节点间n维向量的距离，可得m-1个结果，取最小值作为节点N_j的时间延迟相似度μ_j。闵可夫斯基距离公式为：

其中d_jh表示网络节点N_j与网络节点N_h的闵可夫斯基距离，μ_ij表示地标L_i与网络节点N_j间时间延迟平均值，1≤i≤n，1≤h≤m，j≠h，n与m分别为地标和网络节点总数。

步骤5、计算各网络节点的时间延迟波动

对于网络节点N_j，由步骤3可得其时间延迟标准差的n维向量(σ_1j,σ_2j,…,σ_ij,…,σ_nj)，其中σ_ij为地标L_i与网络节点N_j间时间延迟的标准差，1≤i≤n，n为地标总数。将向量求和并除以n，得N_j的时间延迟波动σ_j。

请求远程数据并获取时间延迟

参照图6，各地标对目标x执行PDP协议发送挑战，以地标L_i为例具体如下：

步骤6、地标生成挑战并发送给目标

地标L_i从文件F分块索引集合[1,p]中随机选取c个块索引{s₁,s₂,…,s_c}，为每一个索引生成一个随机数，将两者一起生成挑战发送给目标x，并开始计时。F是被进行验证存储位置的文件，p是文件F的分块数，s_c是第c个块索引，文件F便是远程数据。

步骤7、目标根据挑战做出响应

目标x根据其所存储的文件数据{F,Ф}，生成完整证据P，并将计算耗时θ_ix添加至数据包，一并返回给地标L_i。其中Ф为同态标签集合。

步骤8、地标接收目标的响应计算时间延迟

若地标L_i未接收到目标x的响应，则置时间延迟t_ix＝-1。

若地标L_i接收到目标x响应的证据P以及θ_ix后，结束计时，得到总时间延迟τ_ix，随后验证P是否正确。若P正确，计算t_ix＝τ_ix-θ_ix；若P不正确，则目标x未完整存储被定位的远程数据，通知用户，定位结束。

计算目标所在位置

参照图7，本步骤的具体实现如下：

步骤9、计算目标位于各网络节点的概率

地标L_i将步骤8中所得时间延迟t_ix依次代入其所存储的各正态分布的概率密度函数{f_i1(x),f_i2(x),…,f_ij(x),…,f_im(x)}中，按下式得到目标x位于网络节点N_j的概率Pr_i(x＝N_j)：

Pr_i(x＝N_j)＝f_ij(t_ix)/f_ij(μ_ij)

其中f_ij(x)为地标L_i与网络节点N_j间时间延迟的正态分布概率密度函数，μ_ij是地标L_i与节点N_j间时间延迟的平均值，1≤i≤n，1≤j≤m，n，m分别为地标和网络节点的总数。

步骤10、计算候选集合

10a)设置阈值δ，可设置为任意小于1大于0的值，δ≥0.5。

10b)若步骤9中地标L_i所得目标x位于网络节点N_j的概率Pr_i(x＝N_j)>δ，则将节点N_j加入地标L_i的候选集合P_i，并记录其概率Pr_i(x＝N_j)，即P_i＝{(N_j,Pr_i(x＝N_j))|Pr_i(x＝N_j)>δ，1≤j≤m}，1≤i≤n，n与m分别为地标和网络节点的总数。

步骤11、计算候选集合中各网络节点的权重

将所有地标(L₁,L₂,…,L_i,…,L_n)得到的所有候选集合P＝{P₁,P₂,…,P_i,…,P_n}发送至中央服务器CL。P_i代表L_i所得候选集合，1≤i≤n，n为地标总数。中央服务器CL统计网络节点N_j在集合P中各元素中出现的总次数，称为权重W_j，1≤j≤m，m为网络节点总数。

步骤12、计算权重最大网络节点的概率

12a)中央服务器CL计算权重的最大值W_max＝max(W₁,W₂,…,W_j,…,W_m)，1≤j≤m，m为网络节点总数，W_j为网络节点N_j的权重。

12b)中央服务器CL计算W_j＝W_max的网络节点N_j的最大概率Pr(x＝N_j)，计算公式为Pr(x＝N_j)＝max(Pr₁(x＝N_j),Pr₂(x＝N_j),…,Pr_i(x＝N_j),…,Pr_n(x＝N_j))，1≤i≤n，n为地标总数，Pr_i(x＝N_j)为地标L_i所得目标x位于网络节点N_j的概率。

12c)将满足W_j＝W_max的N_j以及其概率Pr(x＝N_j)组成二维向量(N_j,Pr(x＝N_j))加入集合R中，1≤j≤m，m为网络节点总数。

步骤13、得出定位结果

若集合R为空集，通知用户在某一验证区域内未搜索到该远程数据，定位失败；否则，集合R中概率Pr(x＝N_j)最大的网络节点N_j为最终定位结果，即目标x位于网络节点N_j，定位结束。

本发明构造了将时间延迟直接映射为地理位置的定位方法，不同于现有技术先将时间延迟映射为地理距离，再将地理距离映射为地理位置的方法。由于在实际的环境中，时间延迟与地理距离间的线性关系较弱，因此现有技术的误差较大，而本发明避免了这一映射，故降低了误差，精度较高。

下面通过仿真，对本发明的技术效果再作说明。

实施例8

远程数据存储位置验证方法的技术方案同实施例1-7。

验证远程数据存储位置的实验

在使用开发的系统进行实验时，选择我国除港澳台外所有省会城市，直辖市等共计36个城市作为网络节点与目标所在地。所使用的8台地标分布于北京，上海，成都等8个城市。

建立延迟匹配库

利用所有地标对各网络节点ip发送探测，共分10个时段进行，间隔1小时。每个时段内，8个地标对36个目标发送80次SYN探测，发送间隔为1分钟。其中有少数探测超时，记录为-1。

因为所收集的时间延迟中存在异常值，在建立延迟匹配库前，需对数据进行处理。每个地标——目标对拥有80个时间延迟数据，删除其中的过小值与过大值后，计算其余值的平均值，标准差得到正态分布概率密度函数。计算时间延迟相似度与时间延迟波动，建立延迟匹配库。

将上述所得延迟匹配库视为二维数组，地标节点作为其行索引，目标节点作为列索引。

使用三台地标定位

要强调的是，本发明定位时不能使用同一位置的多个地标。因为它们所得的结果相似度较高，会增加目标的权重，影响最终定位结果。

仅阐述位于北京，上海和成都的3台地标进行的定位，增加地标与使用不同地标的实验类似。定位时，各地标分别对同一目标发送挑战，等待目标响应。根据响应计算时间延迟，并利用正态分布的概率密度函数计算目标位于各城市(网络节点)的概率。按照本发明的方法进行计算，得到定位结果。依次对36个目标进行如上操作，得到实验数据。

数据表明，上述使用3台地标的实验正确率达到91.7％，有3个目标被错误定位，它们分别位于南昌，昆明，呼和浩特。

实验分别计算了每个网络节点的时间延迟波动与时间延迟相似度，参见图8。图中为了观察的直观性，取时间延迟相似度的自然对数。被错误定位的目标的特点是，其时间延迟波动(斜线填充)较大，而时间延迟相似度的自然对数(空白填充)较小。可以观察到，共有7个目标的时间延迟波动值大于1.9，其中3个是定位失败的目标(图中的黑色填充)。

这表明错误定位目标与地标间时间延迟的波动较大，且其它目标到地标间的时间延迟与错误定位目标到地标间的时间延迟相近。因此，目标被成功定位的概率与时间延迟波动呈负相关关系，而与延迟相似度呈正相关关系。

实施例9

远程数据存储位置验证方法的技术方案同实施例1-7。实验执行方式，条件及内容同实施例8。

将时间延迟相似度除以时间延迟波动得到定位正确率因子，参见图9，错误定位目标用黑色填充标出，可以发现，定位正确率因子小于2的目标共6个，其中3个为错误定位。而定位正确率因子大于2的所有目标均被正确定位。这表明本发明定义的定位正确率因子可以用来评估本发明定位的实际正确率。

计算被定位目标间的最短距离，可得该值平均为478km。去掉两个被正确定位的最远目标，该均值仅为330km。实验表明使用3个地标在90％以上的概率可区分相距330km的目标。并且其中16个目标间最短距离均小于330km，平均185km，它们均被正确定位，即正确率100％。实验也证明本发明以较低的成本实现了100～300km粒度下城市级别的定位。

本发明突破了基于CBG技术的方案所受的限制，即网络节点间的时间延迟需要与地理距离有较好的线性关系。而实际的网络环境中，该线性关系较弱，根据时间延迟计算所得的地理距离误差较大，导致距离较近的网络节点无法被区分。从实验数据上看，本发明在使用了3个地标的情况下，实现了百公里级别上的准确定位，相对于现有技术的定位精度有大幅度的提高。以本发明300km的误差相比于现有技术的800km，误差降低了62.5％。

与基于CBG的方案相比，本发明使用了更少的资源实现了更高的精度，大大降低了成本。增加地标数量，可提高定位的正确率。故3台地标以上的实验类似，不再列举。

当仅使用1台与2台地标时，定位的正确率仅有44.4％与66.7％。因此推荐使用3台或3台以上地标进行定位。

简而言之，本发明公开的一种远程数据存储位置的验证方法，主要解决现有技术在定位远程数据时存在的误差较大、成本高以及要求网络上时间延迟与地理距离近似为线性关系的问题。其实现方案是：计算时间延迟的正态分布的概率密度函数；计算网络节点间的时间延迟相似度；计算时间延迟波动；建立延迟匹配库；获取被定位目标x相对于各地标的时间延迟；各地标计算目标x位于各网络节点的概率；计算各地标的候选集合；计算所有候选集合中各网络节点的权重；计算权重最大网络节点的概率；得出远程数据存储位置的定位结果。换句话说，在本发明中所有地标对目标可能所在的网络节点发送多次探测，收集它们间的时间延迟，计算时间延迟的正态分布概率密度函数，建立延迟匹配库。定位时，各地标对目标发送请求。记录目标响应所需的时间延迟。根据时间延迟从延迟匹配库中计算目标可能所在网络节点的概率。最后依据概率计算结果。本发明仅需三台地标，便可实现城市级别的定位。不仅克服了时间延迟与地理距离在非线性关系下的误差，且所需服务器资源少。可用于定位云端数据或直接进行IP定位。

以上描述仅是本发明的一个具体实例，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种远程数据存储位置验证方法，其特征在于，包括有如下步骤：

(1)计算时间延迟的正态分布的概率密度函数：设定某一个远程数据，用户要求对其存储位置进行验证，设该远程数据存储位置为目标x，相对于目标x，将定位的范围限制于某一验证区域内，该验证区域内存在地理位置已知的节点；在每个地理位置已知的节点上有可访问的网络节点N，在所有地理位置已知节点中至少存在一台可控服务器L，简称地标，如果有多个地标，则不相互重合；令各地标L对所有已知网络节点N发送k次探测，以任意地标L_i与任意网络节点N_j为例进行说明，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数；计算地标L_i对网络节点N_j的k次探测所得时间延迟的平均值μ_ij与时间延迟的标准差σ_ij，可得地标L_i与网络节点N_j时间延迟的正态分布的概率密度函数f_ij(x)；

(2)计算网络节点间的时间延迟相似度：针对各网络节点，构造各网络节点对各地标的时间延迟平均值向量，其中网络节点N_j针对所有地标的向量为(μ_1j,μ_2j,…,μ_ij,…,μ_nj)，其中元素μ_ij表示地标L_i与网络节点N_j的平均时间延迟；使用闵可夫斯基距离计算网络节点N_j与其它所有网络节点的距离，取它们的最小值，该值称为网络节点N_j的时间延迟相似度μ_j，1≤i≤n，n为地标总数；

(3)计算时间延迟波动：针对各网络节点，构造各网络节点对各地标的时间延迟标准差向量，其中网络节点N_j针对所有地标的向量为(σ_1j,σ_2j,…,σ_ij,…,σ_nj)，其中σ_ij为地标L_i与网络节点N_j之间时间延迟的标准差；对网络节点N_j针对所有地标的向量的所有元素求和，并除以地标总数n，得网络节点N_j针对所有地标的时间延迟波动σ_j，1≤i≤n；

(4)建立延迟匹配库：用正态分布概率密度函数f_ij(x)，时间延迟相似度μ_j和时间延迟波动σ_j共建延迟匹配库；

(5)获取被定位目标x相对于各地标的时间延迟：远程数据存储于目标x，目标x在未确定位置之前，视为一个网络节点；各地标与目标x执行PDP协议，用地标L_i进行说明；地标L_i向目标x发送挑战并开始计时，目标x在接收到挑战后在响应中添加执行PDP协议所用时间θ_ix，并响应地标L_i；若地标L_i收到响应，得到从挑战发出到目标x响应的总时间延迟τ_ix，以及目标x所添加执行PDP协议所用时间θ_ix，计算从挑战发出到目标x响应的总时间延迟与执行PDP协议所用时间之差，即τ_ix-θ_ix，得到地标L_i与目标x间的时间延迟t_ix，1≤i≤n，n为地标总数；所有地标均执行该协议，得到所有地标与目标x的时间延迟；若地标L_i未收到响应，则设置地标L_i与目标x间的时间延迟t_ix＝-1；

(6)各地标计算目标x位于各网络节点的概率：地标L_i将它与目标x间的时间延迟t_ix代入地标L_i与网络节点N_j的正态分布概率密度函数f_ij(x)，得到目标x位于网络节点N_j的概率Pr_i(x＝N_j)，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数；所有地标对所有网络节点均执行该计算，得到目标x位于各网络节点的概率；

(7)计算各地标的候选集合：设候选集合P_i是地标L_i定位目标x的中间结果；设置阈值δ，当目标x位于网络节点N_j的概率Pr_i(x＝N_j)大于δ时，将网络节点N_j与该概率Pr_i(x＝N_j)加入地标L_i的候选集合P_i，1≤i≤n，1≤j≤m，n为地标总数，m为网络节点总数；所有地标均执行该计算，得到所有地标各自的候选集合；

(8)计算所有候选集合中各网络节点的权重：各地标将所有候选集合发送至中央服务器CL，中央服务器CL统计各网络节点在所有候选集合中出现的总次数，记网络节点N_j的权重为W_j；所述中央服务器CL的确定是或选择某个地标作为中央服务器CL，或另部署一台普通服务器作为中央服务器CL；

(9)计算权重最大网络节点的概率：中央服务器CL选出权重的最大的网络节点；如果权重最大的网络节点有多个，计算目标x位于这些网络节点的最大概率，将上述网络节点及其最大概率加入集合R；

(10)得出定位结果：若集合R为空集，则定位失败；否则，集合R不为空集，集合R中概率最大的网络节点N_j为最终定位结果，完成远程数据存储位置验证。

2.根据权利要求1所述的远程数据存储位置验证方法，其中步骤(1)中所述的计算地标与网络节点间时间延迟的正态分布的概率密度函数，包括如下步骤：

1a)计算步骤(1)所得集合T_ij中元素的均值μ_ij与标准差σ_ij，T_ij代表地标L_i对网络节点N_j发送k次探测所得时间延迟的集合，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数；标准差的公式为：

K为集合T_ij中元素的个数，t_ijs为地标L_i对网络节点N_j的第s次探测结果；

1b)得到集合T_ij的均值μ_ij与标准差σ_ij，按如下公式计算：

其中1≤i≤n，1≤j≤m；n与m分别为地标和网络节点总数；f_ij(x)即为地标L_i与网络节点N_j的时间延迟正态分布的概率密度函数。

3.根据权利要求1所述的远程数据存储位置验证方法，其中步骤(2)中所述的计算网络节点间的时间延迟相似度，包括如下步骤：

2a)对于网络节点N_j，根据步骤(1)所得时间延迟的平均值，构造网络节点N_j对所有地标的时间延迟平均值向量(μ_1j,μ_2j,…,μ_ij,…,μ_nj)，其中μ_ij为地标L_i与网络节点N_j时间延迟的平均值，1≤i≤n，1≤j≤m，n与m分别为地标和网络节点总数；

2b)利用闵可夫斯基距离计算网络节点N_j与其余m-1个网络节点间时间延迟平均值向量的距离，得m-1个结果，取最小值作为网络节点N_j的时间延迟相似度μ_j；闵可夫斯基距离公式为：

4.根据权利要求1所述远程数据存储位置验证方法，其中步骤(6)中所述的各地标计算目标x位于各网络节点的概率，包括如下步骤：

Pr_i(x＝N_j)＝f_ij(t_ix)/f_ij(μ_ij)

5.根据权利要求1所述的远程数据存储位置验证方法，其中步骤(7)中所述的计算各地标的候选集合，包括如下步骤：

7a)设置阈值δ为任意小于1大于0的值；

7b)若地标L_i所得目标x位于网络节点N_j的概率Pr_i(x＝N_j)>δ，则将网络节点N_j和该概率Pr_i(x＝N_j)加入至地标L_i的候选集合P_i，即P_i＝{(N_j,Pr_i(x＝N_j))|Pr_i(x＝N_j)>δ，1≤j≤m}，1≤i≤n；其中n与m分别为地标和网络节点的总数。

6.根据权利要求1所述的远程数据存储位置验证方法，其特征在于，其中步骤(9)中所述计算权重最大网络节点的概率，包括如下步骤：

9a)中央服务器CL计算权重的最大值W_max＝max(W₁,W₂,…,W_j,…,W_m)，1≤j≤m，m为网络节点总数，W_j为网络节点N_j的权重，max指取括号中元素的最大值；

其中1≤i≤n，n为地标总数；Pr_i(x＝N_j)为地标L_i所得目标x位于网络节点N_j的概率；