CN107391083A

CN107391083A - 一种空间异常信息的复数变换隐藏及复原方法

Info

Publication number: CN107391083A
Application number: CN201710457348.7A
Authority: CN
Inventors: 首照宇; 刘阿康; 邹风波; 程夏威; 张彤; 赵晖; �田�浩; 莫建文
Original assignee: GUILIN YUHUI INFORMATION TECHNOLOGY Co Ltd; Guilin University of Electronic Technology
Current assignee: GUILIN YUHUI INFORMATION TECHNOLOGY Co Ltd; Guilin University of Electronic Technology
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2017-11-24

Abstract

本发明公开了一种空间异常信息的复数变换隐藏及复原方法，其特征是，包括如下步骤：1）计算空间数据对象的局部密度和距离相异度；2）求解空间数据对象的异常程度系数；3）根据Top‑N选取异常数据对象；4）构造复数数据及复数因子并进行复数变换隐藏；5）发送复数变换集及复数因子数据集；6）选取异常信息二维值；7）逆变换。这种方法是异常信息隐私保护的一种创新方法，这种方法能简化异常信息处理过程、降低数据处理量，并且确保数据发送方发送的数据信息和参数量最少，保证局部异常数据在信息共享和传输过程中的安全性和信息的完整性，以及被隐藏的局部异常数据能够准确复原。

Description

一种空间异常信息的复数变换隐藏及复原方法

技术领域

本发明涉及数据挖掘和数据管理领域，具体是一种空间异常信息的复数变换隐藏及复原方法。

背景技术

异常数据检测是数据挖掘和数据管理领域中一个非常重要的研究问题，其主要目标是从复杂数据环境中快速准确地检测和发现观测数据中不符合正常(期望)行为的异常数据，为用户深入分析和理解数据提供支撑。近年来，异常检测在信用卡盗刷、股票内幕交易、网络入侵、医疗健康、军事侦察和关键系统保障等多个领域都有着愈来愈多的应用需求。

面对不断增长的复杂数据集，异常数据反映了不同的形成机制，不再是通常意义上的噪声数据，可能隐含重要的价值，随意地删除丢弃异常数据可能会导致隐藏在数据内部中的反映重要知识的信息丢失。异常检测在多个研究和应用领域中已经被证明是一个非常重要的课题，如何有效地挖掘出其中隐藏的异常数据信息并分析其背后的机制有着重要的科学及工程意义。

现有的异常检测方法主要有基于分类、基于最近邻和基于聚类的异常检测方法，目前大部分学者的研究都针对基于最近邻和基于聚类的异常检测方法。在基于最近邻的方法中，Ester et al.提出的基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)取得了令人瞩目的成功，其基本思想是：聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值，该算法是一种基于高密度连通区域的、基于密度的聚类算法，能够将具有足够高密度的区域划分为簇，并在具有噪声的数据中发现任意形状的簇，但是k参数很难确定，且对异常值非常敏感；Bhattetal.提出了基于局部密度的异常检测方法(Local Outlier Factor，LOF)，该方法已经成为最受欢迎的异常检测方法之一，它是通过数据对象的最近邻局部密度来计算异常因子，从而衡量每个对象的异常度，但是LOF方法在检测异常的过程中，遍历整个数据集以计算每个点的LOF值，使得算法运算速度慢；同时，由于正常数据点的数量一般远远多于异常点的数量，而LOF方法通过比较所有数据点的LOF值判断异常程度，产生了大量没必要的计算，造成时间成本太高，又由于中间结果的存储而浪费空间资源。

在前期的异常数据检测之后，异常数据在发布或分享时，容易被具有恶意的第三方异常检测方法获取，数据发送方无法保证局部异常数据在信息共享和传输过程中的安全性和信息的完整性。

发明内容

本发明的目的是针对现有技术的不足，而提供一种空间异常信息的复数变换隐藏及复原方法。这种方法是异常信息隐私保护的一种创新方法，这种方法能简化异常信息处理过程，降低数据处理量，并且确保数据发送方发送的数据信息和参数量最少，保证局部异常数据在信息共享和传输过程中的安全性和信息的完整性，以及被隐藏的局部异常数据能够准确复原。

实现本发明目的的技术方案是：

一种空间异常信息的复数变换隐藏及复原方法，包括如下步骤：

1)计算空间数据对象的局部密度和距离相异度：数据发送方根据距离度量计算空间数据对象的局部密度和距离相异度；

2)求解空间数据对象的异常程度系数：根据步骤1)计算所得的局部密度和距离相异度，计算每个空间数据对象的异常程度系数，标记出候选的异常数据对象；

3)根据Top-N选取异常数据对象：针对步骤2)中候选的异常数据对象，确定Top-N候选的异常数据对象为最终需变换的异常数据对象；

4)构造复数数据及复数因子并进行复数变换隐藏：根据步骤3)中所选出的异常数据对象，构造复数数据及相应的复数因子，进行复数变换隐藏；

5)发送复数变换集及复数因子数据集：完成上述步骤1)-4)之后，数据发送方发送变换数据集及复数因子数据集；

6)选取异常信息二维值：数据接收方根据复数因子数据集中的异常编号信息选取异常信息二维值；

7)逆变换：数据接收方根据步骤6)中获得的异常信息二维值，构造局部复数数据及逆变换因子，进行逆变换，完成数据的复原。

步骤1)中所述局部密度为

步骤1)中所述距离相异度为

其中表示的一个降序排列的下标，满足ρ_q1≥ρ_q2≥ρ_q3≥Λ≥ρ_qN，假设一个数据对象o的局部密度最大时，那么数据对象o的距离相异度取最大的d_max(o,p),p∈D；反之，在所有局部密度大于o的数据对象中，数据对象o的距离相异度取最小的d_min(o,p),p∈D。

步骤2)中所述异常程度系数计算公式为：

异常程度系数被归一化至[0,1]范围内，当ρ_i越小，δ_i越大时，ODC(i)值越小，表示该数据对象的异常程度越大。

步骤3)中所述的异常数据对象为步骤2)中所求的ODC(i)进行升序排列之后，选取Top-N候选的异常数据对象为最终需变换的异常数据对象，此中选取的Top-N是根据整体的ODC(i)分布进行取值，包含异常程度系数较小的异常数据对象也包含部分正常数据对象，以此达到更高级别的异常信息隐藏安全性。

步骤4)中所述的复数变换隐藏为：

T＝D×C，其中D指的是原始数据集合中任意两个特征所形成的2×n的一个矩阵数据，n为原始数据集的数据个数，T是经复数变换隐藏处理之后所形成的2×n的数据集，C表示复数因子。

复数因子根据步骤2)中所求出的每个空间数据对象的局部密度ρ_i和距离相异度δ_i构造，涉及的复数因子计算公式为：

j为复数单位，

根据此公式构造的C(i)中，δ_i越大，值越小，范围在(0,1]之间，因此复数因子C(i)的模值很小，也作为原始数据的尺度变换进行相应的复数变换隐藏。

步骤5)中所述复数因子集包括异常数据编号、局部密度和距离相异度。

步骤6)中所述选取的异常信息二维值包括变换数据集中的数据也包括复数因子集中的数据。

步骤7)中所述的逆变换是对复数变换隐藏的数据进行复原，逆变换过程可以表示为:D'＝T×C'，其中涉及的逆变换因子计算公式为：

j为复数单位，

局部密度ρ_i和距离相异度δ_i需与异常编号信息进行一一对应，逆变换因子C'(i)中的为复数因子模值的平方，这种构造的前提就是保证被隐藏的异常数据信息能被准确无误地复原。

上述步骤中，步骤1)-3)为空间异常信息的异常检测，步骤4)-5)为空间异常信息的复数变换隐藏，步骤6)-7)为空间异常信息的数据接收方的数据复原，并且步骤1)-5)是数据发送方完成的工作。

这种方法涉及的局部密度ρ_i和距离相异度δ_i，这两个参数是整个方法中的重要参数，根据异常检测本身的特点，异常程度系数即是由这两个参数构造，后续过程中的复数因子和逆变换因子都与此参数相关。这种方法中选取Top-N候选的异常数据对象进行空间异常信息复数变换隐藏，简化了整个算法的异常信息处理过程，降低了数据处理量，并且确保数据发送方发送的数据信息和参数量最少。

这种方法是异常信息隐私保护的一种创新方法，这种方法能简化异常信息处理过程、降低数据处理量，并且确保数据发送方发送的数据信息和参数量最少，保证局部异常数据在信息共享和传输过程中的安全性和信息的完整性，以及被隐藏的局部异常数据能够准确复原。

附图说明

图1为实施例的流程示意图；

图2为实施例中的局部密度示意图；

图3a为实施例中的数据对象分布图；

图3b为实施例中的局部密度和距离相异度关系图；

图4为实施例中的复数形式；

图5a为实施例中的人工数据集上的异常信息复数变换隐藏及复原实验仿真中异常程度系数图；

图5b为实施例中的异常检测标识图，其中Top-N＝60；

图5c为实施例中的异常信息复数变换隐藏后的数据图；

图5d为实施例中的数据接收方异常信息复原图；

图5e为实施例中变换后的数据异常程度系数图；

图5f为实施例中变换后的数据异常检测标识图，其中Top-N＝60；

图6a为实施例中的公共数据集上的异常信息复数变换隐藏及复原实验仿真中异常程度系数图；

图6b为实施例中异常检测标识图，其中Top-N＝32；

图6c为实施例中异常信息复数变换隐藏后的数据图；

图6d为实施例中数据接收方异常信息复原图；

图6e为实施例中变换后的数据异常程度系数图；

图6f为实施例中变换后的数据异常检测标识图，其中Top-N＝60；

表1为实施例中数据复数变换隐藏前后异常检测对比。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种空间异常信息的复数变换隐藏及复原方法，包括如下步骤：

1)计算空间数据对象的局部密度和距离相异度：数据发送方根据距离度量计算空间数据对象的局部密度和距离相异度，具体为：

数据发送方对原始空间数据集进行处理，距离度量设定为：X＝{x₁,x₂,Λx_n}，Y＝{y₁,y₂,Λy_n}，其中X，Y是两个数据对象，n是数据对象的个数，那么X和Y的距离度量公式为：

局部密度计算时还使用到k近邻距离，对k近邻距离描述如下：对于任意自然数k，定义对象p的k距离k-distance(p)为对象p和某个对象o距离d(p,o)(p∈D),D表示数据集合，这里的对象o满足以下两个条件：

(1)至少存在k个对象o'∈D\{p}满足d(p,o')≤d(p,o)；

(2)至多存在k-1个对象o'∈D\{p}满足d(p,o')<d(p,o)；

基于上述的k近邻距离描述，根据距离度量来计算每个数据对象的局部密度ρ_i，计算公式如下：

如图2所示，数据对象o的局部密度与数据对象o的k距离领域内的数据对象有关，而忽略了与o较远的数据对象点，对公式(1)来说，较远的数据点c对o点的局部密度影响非常小；

再采用如下公式计算数据对象的距离相异度δ_i：

其中表示的一个降序排列的下标，满足ρ_q1≥ρ_q2≥ρ_q33Λ≥ρ_qN。δ_i表示第i(i∈D_s)个数据对象的距离相异度，距离相异度是通过本实施例设计的一个新的度量，即数据对象之间的相异度度量，由该公式可知，假设一个数据对象o的局部密度最大时，那么数据对象o的距离相异度取最大的d_max(o,p),p∈D；反之，在所有局部密度大于o的数据对象中，数据对象o的距离相异度取最小的d_min(o,p),p∈D；

这里所述的局部密度和距离相异度的求解方法，采用聚类思想求解的，其关键就在于聚类思想中对聚类中心的刻画，聚类中心同时具有以下两个特点：①本身的局部密度大，即它与密度均不超过它的邻近点包围；②与其他密度更大的数据点之间的“距离相异度”相对更大；

如图3a所示，包含28个数据对象，图3b是根据计算公式得到的每个数据对象的局部密度和距离相异度，图3a中标识的16、17数据对象，可以判断为异常点，从图3b可知，标识的16、17数据对象的局部密度小，而它的距离相异度大；

异常程度系数计算公式如下所示：

异常程度系数被归一化至[0,1]范围内，当ρ_i越小，δ_i越大时，ODC(i)值越小，表示该数据对象的异常程度越大；

这里所使用的异常数据对象，即为步骤2)中所求的ODC(i)进行升序排列之后，选取Top-N候选的异常数据对象为最终需变换的异常数据对象，此中选取的Top-N是根据整体的ODC(i)分布进行取值，包含异常程度系数较小的异常数据对象也包含部分正常数据对象，以此达到更高级别的异常信息隐藏安全性；

步骤1)-3)为空间异常信息的异常检测，是为了更好地对异常信息进行隐藏，本例中异常检测过程有三个显著的优点，第一点是不需要先验知识，利用局部密度峰值能够计算距离相异度，是一种典型的非监督学习方法；第二点是设置的参数少，只需要一个k距离，有较好的适应性；第三点是不需要对所有数据对象进行异常判定，利用了异常程度系数Top-N特性，节约了时间开销；

选取空间异常数据对象中的二维特征数据来构造复数数据D，并根据公式构造相应的复数因子C(i)，然后进行异常数据对象的复数变换来隐藏异常信息，复数变换隐藏为：

T＝D×C，其中D＝[A_p,A_q]^T指的是原始数据集合中任意的第p，q个特征所形成的2×n的一个矩阵数据，n为原始数据集的数据个数，1≤p,q≤m，m为原始数据集的特征个数，A_p,A_q分别对应的是所有数据集的第p和q个特征形成的1×n的一个向量，T为复数变换隐藏处理之后所形成的2×n的数据集，C表示复数因子；

复数因子是根据步骤2)中所求出的每个空间数据对象的局部密度ρ_i和距离相异度δ_i构造，具体的复数因子公式如下所示：

j为复数单位，

根据此公式构造的C(i)中，δ_i越大，值越小，大致范围在(0,1]之间，因此复数因子C(i)的模值很小，也作为原始数据的尺度变换进行相应的复数变换隐藏；

复数变换隐藏涉及的理论依据如下：任何复数a+bj(j为复数单位，即j²＝-1)，都可以写成旋转半径r与横轴夹角θ的形式，如图4所示，两个复数相乘，就等于旋转半径相乘、旋转角度相加，证明过程如下：假定现有两个复数a+bi和c+di，可以将它们如下：a+bj＝r₁*(cosα+j sinα)，c+dj＝r₂*(cosβ+j sinβ)，则

(a+bj)(c+dj)＝r₁*(cosα+j sinα)*r₂*(cosβ+j sinβ)

＝r₁*r₂*(cosαcosβ-sinαsinβ+j(cosαsinβ+sinαcosβ))

＝r₁*r₂*(cos(α+β)+j sin(α+β))

此步骤中还涉及到空间异常数据对象的复数数据的构造，空间数据对象即是多维数据对象，复数概念本身定义在二维数据中，现在将问题扩展到多维数据复数变换隐藏中，m表示多维特征属性的个数，从多维数据中选择有效维度，利用有效维度和较少数据的本地特征进行复数变换隐藏，按照以下的规则:

①当m为偶数时，k'＝m/2；

②当m为奇数时，k'＝(m+1)/2；

将特征变换为k'组，组成k'组都能够包含两个特征数据的子集，然后，分别对这些数据子集实施异常信息复数变换隐藏处理，最后通过合并得到变换之后的数据集合；

变换数据集是经复数变换隐藏处理之后所形成的数据集，是可以公开传输使用的；复数因子集包括异常数据编号、局部密度和距离相异度，直接进行发送，数据接收方收到全部的数据信息之后，根据此中的复数因子集进行数据复原，这两个数据集分开独立传送，保证数据信息的安全性；

步骤4)-5)为空间异常信息的复数变换隐藏，并且上述步骤1)-5)是数据发送方完成的工作；

6)选取异常信息二维值：数据接收方根据复数因子集中的异常编号信息选取异常信息二维值；

选取的异常信息二维值包括变换数据集中的数据也包括复数因子集中的数据；

7)逆变换：数据接收方根据步骤6)中获得的异常信息二维值，构造局部复数数据及逆变换因子，进行逆变换，从而完成数据的复原。

本例的数据复原方法跟步骤4)中的复数变换隐藏密不可分，逆变换是对复数变换隐藏的数据进行复原，逆变换过程可以表示为:D'＝T×C'，其中涉及的逆变换因子计算公式为：

j为复数单位，

局部密度ρ_i和距离相异度δ_i需与异常编号信息进行一一对应，逆变换因子C'(i)中的为复数因子模值的平方，这里构造的前提就是保证下式成立：

理论分析可知，D'＝D，即被隐藏的异常数据信息能被准确无误地复原；

步骤6)-7)为空间异常信息的数据接收方的数据复原，是数据接收方要完成的工作。

本实施例的实验效果可以通过仿真结果进一步说明：

考虑可视化效果更好，分别选取人工数据集和公共数据集数据进行异常信息复数变换隐藏及复原实验仿真，图中圆圈表示根据Top-N选取的异常数据对象的异常程度较大，圆圈附近显示其编号。

图5a-5f是人工数据集上的异常信息复数变换隐藏及复原的实验仿真，此人工数据集包含800个数据对象，比较图5b和5c可知，检测出的部分异常信息被隐藏到正常数据集中，另外的异常标识“位置”信息也都发生了变化，因此数据间隐含的某种关联就发生了变化；比较5a和5e、图5c和5f可知，采用本实施例的异常检测方法再次检测，这两次的异常检测效果明显不同，其对比结果如表1所示；尽管仍有部分数据被检测为异常，但检测到的异常信息已经发生很大地变化，异常程度系数的排序及取值发生了很大地改变，由此验证了本实施例的异常信息的复数变换隐藏方法的有效性和可行性，达到了很好的预期效果；比较5b和5d可知，数据接收方能准确无误地复原异常数据对象。图6a-6f表示公共数据集上的异常信息复数变换隐藏实验仿真，此公共数据集Ionosphere是雷达系统数据收集器收集的电离层数据，包含351个数据，34个维度属性，本实验仿真部分选取其中的两维数据进行验证，可视化效果比较明显；比较图6b和6c可知，检测出的部分异常信息被隐藏到正常数据集中，另外的异常标识“位置”信息也都发生了变化，因此数据间的隐含的某种关联就发生了变化；比较图6a和6e、图6c和6f可知，用本实施例的异常检测方法再次检测，部分异常数据被检测出来很相像，但这两次的异常检测效果还是不同的，其对比结果如表1所示；这里需要说明的是，本实验只选取了多维属性中的两维数据进行仿真实验的，因多维属性数据之间的交叉性和关联性很强，经复数变换隐藏处理之后，空间异常数据特征依然能被很好地隐藏，因此本实施例的异常信息的复数变换隐藏方法依然具有有效性和可行性；比较图6b和6d可知，数据接收方能准确无误地复原异常数据对象。

表1

Claims

1.一种空间异常信息的复数变换隐藏及复原方法，其特征是，包括如下步骤：

2.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤1)中所述局部密度为

3.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤1)所述距离相异度为

其中表示的一个降序排列的下标，满足假设一个数据对象o的局部密度最大时，那么数据对象o的距离相异度取最大的d_max(o,p),p∈D；反之，在所有局部密度大于o的数据对象中，数据对象o的距离相异度取最小的d_min(o,p),p∈D。

4.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤2)中所述异常程度系数计算公式为：

<mrow> <mi>O</mi> <mi>D</mi> <mi>C</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mfrac> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> </mfrac> <mo>)</mo> </mrow> </mrow> </msup> </mrow>

5.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤3)中所述的异常数据对象为步骤2)中所求的ODC(i)进行升序排列之后，选取Top-N候选的异常数据对象为最终需变换的异常数据对象。

6.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤4)中所述的复数变换隐藏为：

7.根据权利要求1或4所述的空间异常信息的复数变换隐藏及复原方法，其特征是，复数因子根据步骤2)中所求出的每个空间数据对象的局部密度ρ_i和距离相异度δ_i构造，涉及的复数因子计算公式为：

j为复数单位，

公式构造的C(i)中，δ_i越大，值越小，范围在(0,1]之间。

8.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤5)中所述复数因子集包括异常数据编号、局部密度和距离相异度。

9.根据权利要求1所述的空间异常信息的复数变换隐藏及复原方法，其特征是，步骤7)中所述的逆变换是对复数变换隐藏的数据进行复原，逆变换过程可以表示为:D'＝T×C'，其中涉及的逆变换因子计算公式为：

j为复数单位，

局部密度ρ_i和距离相异度δ_i需与异常编号信息进行一一对应，逆变换因子C'(i)中的为复数因子模值的平方。