CN112257807A

CN112257807A - 一种基于自适应优化线性邻域集选择的降维方法及系统

Info

Publication number: CN112257807A
Application number: CN202011201551.6A
Authority: CN
Inventors: 吴俊华; 曹佳彬; 李光顺; 郑天歌; 王茂励; 任新荣; 于海莉; 禹继国; 成秀珍
Original assignee: Qufu Normal University
Current assignee: Qufu Normal University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-22
Anticipated expiration: 2040-11-02
Also published as: CN112257807B

Abstract

本发明涉及一种基于自适应优化线性邻域集选择的降维方法及系统。该方法包括：获取边缘设备模块发送的通信数据；判断所述通信数据是否大于等于通信上限阈值；若是，则对所述通信数据进行降维处理，得到降维后的通信数据；将所述降维后的通信数据上传到云服务器；若否，则判断所述通信数据是否大于等于通信下限阈值；若是，则将所述通信数据直接上传到云服务器；若否，则将所述通信数据过滤。本发明能够有效避免流形结构的变形，获得更好的嵌入效果，提高数据传输效率和用户体验。

Description

一种基于自适应优化线性邻域集选择的降维方法及系统

技术领域

本发明涉及边缘计算领域，特别是涉及一种基于自适应优化线性邻域集选择的降维方法及系统。

背景技术

随着物联网和云服务的发展，边缘计算作为一种新的数据处理模式应运而生，它将传统的云计算模型扩展到了网络的边缘。最近的研究表明，到2025年，将有超过500亿个终端和设备连接到互联网上，超过50％的数据需要在网络边缘进行分析、处理和存储。因此提出了一个数据降维中心，通过部署在网络边缘提供实时数据计算、存储等功能。于它靠近用户和数据源，海量数据不再需要直接上传到云服务器进行处理，大大降低了网络时延，提高了用户体验。对于数据降维问题，传统的方法，如主成分分析(PCA)和线性判别分析(LDA)，通常假设数据具有低维的线性分布。然而，这些方法很少考虑真实数据的表示维数与本质特征维数之间的非线性关系。为了解决这一问题，流形学习方法近年来被提出，并逐渐成为数据特征提取领域的热点问题。这种方法假设高维数据分布在本质上是低维的非线性流形上，并且基于原始数据表示空间和低维流形的不变特征，对维数进行非线性降维。代表性算法包括基于谱分析的算法、Isomap、LLE、KPCA、Laplacian和Hessian。

与传统的PCA和LDA方法相比，LLE注重保持样本的局部线性特征。LLE在图像识别、高维数据可视化等领域得到了广泛的应用，因为它在降维过程中保持了样本的局部特征，其主要思想是寻找每个样本点的k个最近邻点。然后，从每个采样点的最近邻点计算其局部重建权重矩阵。最后，利用采样点及其相邻点的局部重建权值矩阵计算采样点的输出值。可以看出，线性关系只在样本附近起作用，而远离样本的样本对局部线性关系没有影响。因此，降维的复杂性大大降低。它的主要特点是在不改变局部数学性质的情况下，使全局非线性逼近局部线性。它通过局部邻域提供整体信息，并最终反映数据集的几何特征。

Guan等人基于工作模式分析比较和评估了四种数据驱动方法。讨论了Hilbert变换和随机减量技术在模态阻尼比识别中的应用。Li等人提出了边缘设备之间协作的计算方案。采用Kruskal算法计算边缘节点的任务分配延迟。Yang等人引入异构无线传感器网络，在传感器网络中部署健壮的存储节点，并通过编码技术利用数据冗余来提高数据存储的可靠性。这些方法为任务分配算法提供了思路。

Aazam等人提出了一种基于光纤陀螺的微数据中心物联网动态资源估算和定价模型。然而，数据去噪并没有实现。为此，Wang等人提出了列高阶奇异值分解算法，实现了代表大数据的张量的降维、提取和降噪。然而，数据传输的安全性却被忽视了。为此，Tang等人对最新的保护技术进行了总结和分析。本文描述了云环境下数据服务外包的安全威胁和需求。

Su等人提出了一种基于增量增强有监督局部线性嵌入(I-ESLLE)和自适应最近邻分类器(ANNC)的故障诊断方法。其中，低维故障样本被引入到该算法中故障类型识别的神经网络。Qin等人提出了一种基于谱子空间和LLE算法的相似性度量方法SSLLE。通过引入测地线对LLE算法进行了改进，用以解决高维空间中欧氏距离的测量问题。然而，使用单一的权值向量来构造线性结构并不能达到很好的嵌入效果。项等从局部线性变换的角度给出了LLE算法和LTSA算法的回归公式。但可能导致流形结构的变形。

发明内容

本发明的目的是提供一种基于自适应优化线性邻域集选择的降维方法及系统，能够有效避免流形结构的变形，获得更好的嵌入效果，提高数据传输效率和用户体验。

为实现上述目的，本发明提供了如下方案：

一种基于自适应优化线性邻域集选择的降维方法，所述基于自适应优化线性邻域集选择的降维方法应用于一种数据处理系统，所述数据处理系统包括依次连接的边缘设备模块、数据收集模块、降维中心模块和云服务器，所述数据收集模块用于收集所述边缘设备模块发送的通信数据，所述降维中心用于将所述数据收集模块存储的通信数据进行降维，并将降维后的通信数据发送至云服务器，所述降维方法包括：

获取边缘设备模块发送的通信数据；

判断所述通信数据是否大于等于通信上限阈值；

若是，则对所述通信数据进行降维处理，得到降维后的通信数据；

将所述降维后的通信数据上传到云服务器；

若否，则判断所述通信数据是否大于等于通信下限阈值；

若是，则将所述通信数据直接上传到云服务器；

若否，则将所述通信数据过滤。

可选地，所述对所述通信数据进行降维处理，得到降维后的通信数据，具体包括：

对所述通信数据采用基于自适应优化线性邻域集选择的多组权局部线性嵌入算法进行降维，得到降维后的通信数据。

可选地，所述对所述通信数据采用基于自适应优化线性邻域集选择的多组权局部线性嵌入算法进行降维，得到降维后的通信数据，具体包括：

输入通信数据X＝{x₁,x₂,…,x_n},x_i∈R^D，初始邻域k；

根据输入的通信数据的样本集确定每一个与其他所有点的欧氏距离，然后选择最近的k个样本点作为最近邻点，确定邻域；

计算每一个样本点x_i所在初始邻域的局部流形弯曲度和离散系数；

将所述局部流形弯曲度和所述离散系数归一化；

根据归一化后的局部流形弯曲度和离散系数，确定最终度量值λ_i，依次计算出所有样本点的平均度量值

根据所述平均度量值调整每个点最终的邻域大小值；

计算样本点x_i与近邻点的重构权值，得到k_i-r_i个线性无关的权重向量

根据所述权重向量求解数据集的低维嵌入数据Y，所述低维嵌入数据Y为降维后的通信数据。

一种基于自适应优化线性邻域集选择的降维系统，包括：

通信数据获取模块，用于获取边缘设备模块发送的通信数据；

第一判断模块，用于判断所述通信数据是否大于等于通信上限阈值；

降维处理模块，用于当所述通信数据大于等于通信上限阈值时，对所述通信数据进行降维处理，得到降维后的通信数据；

第一数据上传模块，用于将所述降维后的通信数据上传到云服务器；

第二判断模块，用于当所述通信数据小于通信上限阈值时，判断所述通信数据是否大于等于通信下限阈值；

第二数据上传模块，用于当所述通信数据大于等于通信下限阈值时，将所述通信数据直接上传到云服务器；

数据过滤模块，用于当所述通信数据小于通信下限阈值时，将所述通信数据过滤。

可选地，所述降维处理模块，具体包括：

降维处理子模块，用于对所述通信数据采用基于自适应优化线性邻域集选择的多组权局部线性嵌入算法进行降维，得到降维后的通信数据。

可选地，所述降维处理子模块，具体包括：

通信数据输入单元，用于输入通信数据X＝{x₁,x₂,…,x_n},x_i∈R^D，初始邻域k；

邻域确定单元，用于根据输入的通信数据的样本集确定每一个与其他所有点的欧氏距离，然后选择最近的k个样本点作为最近邻点，确定邻域；

局部流形弯曲度、离散系数确定单元，用于计算每一个样本点x_i所在初始邻域的局部流形弯曲度和离散系数；

归一化单元，用于将所述局部流形弯曲度和所述离散系数归一化；

平均度量值确定单元，用于根据归一化后的局部流形弯曲度和离散系数，确定最终度量值λ_i，依次计算出所有样本点的平均度量值

邻域调整单元，用于根据所述平均度量值调整每个点最终的邻域大小值；

权重向量计算单元，用于计算样本点x_i与近邻点的重构权值，得到k_i-r_i个线性无关的权重向量

降维后的通信数据确定单元，用于根据所述权重向量求解数据集的低维嵌入数据Y，所述低维嵌入数据Y为降维后的通信数据。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过设置上下阈值。当数据维数小于下限阈值时，将数据过滤掉，提高数据的平均值，降低数据波动的程度。当数据维度介于上限阈值q_max和下限阈值q_min之间时，它们直接保存到云服务器。当数据维数大于较大阈值时，传输到降维中心对数据进行降维处理。本发明采用基于自适应优化线性邻域集选择的多组权局部线性嵌入算法，根据流形弯曲度和样本密度实现邻域值的动态选择，该方法可以处理各种不规则的真实数据，增强算法对数据集处理的鲁棒性。同时对于隐藏在高维空间中的多维流行，只采用单一的权向量来构造线性结构是不够的，为此，采用多组线性无关的权值来构造局部线性结构，能够得到更好的嵌入结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据处理系统组成结构图；

图2为本发明基于自适应优化线性邻域集选择的降维方法流程图；

图3为流行弯度对邻域大小的影响示意图；

图4为样本稀疏度对邻域大小的影响示意图；

图5为测地距离与欧氏距离的比例与流行弯曲度的关系示意图；

图6为LLE算法和AMLLE算法降维效果比较示意图一；

图7为Swiss-roll上AMLLE和LLE执行时间比较示意图；

图8为LLE算法和AMLLE算法降维效果比较示意图二；

图9为AMLLE和LLE在S-sphere上的执行时间比较示意图；

图10为LLE算法和AMLLE算法降维效果比较示意图三；

图11为AMLLE和LLE在S-sphere上的执行时间比较示意图；

图12为本发明基于自适应优化线性邻域集选择的降维系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明基于边缘计算和云计算的合作需求。边缘计算与云计算的合作是至关重要的。随着越来越多的数据在边缘层生成，将数据传输到云服务器可以节省边缘节点的能量，但可能会增加延迟。在边缘层可以部署数据收集中心对无效数据进行过滤，降低数据传输的维数，有利于减少节点的能量损失，提高传输效率。因此，有必要提高边缘节点的鲁棒性，降低边缘层的维数。

基于上述启发，首先设计了一个如图1所示的四层数据处理系统。任务分配算法是保证当节点被破坏时，其他节点可以继续执行该节点的任务。降维算法中，设置两个阈值进行数据过滤，根据流形弯曲度和样本密度实现邻域值的动态选择，增强算法对数据集处理的鲁棒性。采用多组线性无关的权值构造局部线性结构，得到更好的嵌入结果。实验结果表明，该方法能有效地提高降维效果。

A.局部线性嵌入原理

LLE的主要思想是：在一组高维数据集中，在高维空间和嵌入的低维空间中，数据的局部邻域之间的关系应该保持不变。简言之，高维数据空间中的采样点可以用局部域中的点线性表示，局部域的权重可以保持不变，并且可以对原始数据点进行重构，以使重构误差最小化。

LLE的具体方法如图3所示。设x＝{x₁,x₂,…,x_n}为高维欧氏空间R^D中的数据集。x_i是数据点的坐标。数据集是在d维的低维空间中。(d＜D，通常为d＜＜D)。找到一个X的低维嵌入映射，使其能够转换为一个低维嵌入空间R^d，使数据携带的信息不丢失，并保护良好的结构性质。因此，设R^d上的低维嵌入空间为y＝{y₁,y₂,…,y_n}。y_i是嵌入的数据点坐标。

首先建立一种数据处理系统，所述数据处理系统包括依次连接的边缘设备模块、数据收集模块、降维中心模块和云服务器，所述数据收集模块用于收集所述边缘设备模块发送的通信数据，所述降维中心用于将所述数据收集模块存储的通信数据进行降维，并将降维后的通信数据发送至云服务器。边缘设备模块可以通过无线信道相互通信。边缘节点可以联系多个移动终端设备，云服务器可以联系多个边缘节点。边缘设备模块和边缘节点分别用来生成和收集数据。降维中心过滤并缩小数据的维度。云服务器对数据进行备份和处理。首先，边缘设备模块产生数据并发送给边缘节点，边缘节点将采集到的数据传输到数据收集中心。然后，为了防止边缘节点因环境等原因而停止工作时的影响，建立了一个任务分配算法(在此不做赘述)，以保证当节点受损时，其他节点可以继续执行任务。之后，降维中心对数据进行过滤和降维处理。由于环境的影响和设备本身的状况，会出现干扰数据、错误数据和不完整数据，导致数据维数过小。因此，设置了一个大阈值和一个小阈值。当数据维数小于小阈值时，将数据过滤掉，提高数据的平均值，降低数据波动的程度。当数据维度介于大阈值q_max和小阈值q_min之间时，直接保存到云服务器。当数据维数大于较大阈值时，采用降维算法对数据进行降维处理。

图2为本发明基于自适应优化线性邻域集选择的降维方法流程图。如图2所示，一种基于自适应优化线性邻域集选择的降维方法包括：

步骤101：获取边缘设备模块发送的通信数据。将所述通信数据存储在所述数据收集模块。

步骤102：判断所述通信数据是否大于等于通信上限阈值。

步骤103：若是，则对所述通信数据进行降维处理，得到降维后的通信数据，具体包括：

设输入的原始数据集为X＝{x₁,x₂,…,x_n},x_i∈R^D，降维后映射到新的数据集Y＝{y₁,y₂,…,y_n},y_i∈R^d，初始邻域大小为k，具体算法步骤如下：

(1)输入初始数据集X＝{x₁,x₂,…,x_n},x_i∈R^D，初始邻域k。

(2)计算邻域。根据输入的样本集确定每一个与其他所有点的欧氏距离，然后选择最近的k个样本点作为最近邻点。

(3)根据公式

和公式

计算每一个样本点x_i所在初始邻域的局部流形弯曲度c和离散系数v_s的大小，将它们归一化，然后将两个度量值相乘得到最终度量值λ_i，最后计算出所有样本点的平均值

(4)根据步骤(3)计算得到的结果调整每个点最终的邻域大小值，即

(5)计算样本点x_i与近邻点的重构权值，得到k_i-r_i个线性无关的权重向量

(6)用权重向量求解数据集的低维嵌入Y，

(7)输出Y。

在数据维数较低的情况下进行降维，会增加设备能耗，浪费带宽资源，而数据维数过高又会加重降维中心的处理负担，增加传输延迟。因此对收集到的数据维数大小进行规范有助于快速、准确实现降维。邻域选择是进行局部线性嵌入算法的关键。数据点的邻域集k过小，则会把连续的拓扑空间构造成多个分离的子图，造成部分点之间失去联系，无法反映全局的特性；如果k选择太大，则会与邻域局部线性的假设条件矛盾，并且会导致短路现象。因此需要通过邻域优化来解决邻域选择问题。考虑到邻域集大小的选择与数据集的空间分布有关，根据数据的样本密度和流形弯曲度来选择值，则算法可以处理各种不规则的真实数据，增强算法的鲁棒性。对于隐藏在高维空间中的一维流行，采用单一权向量就能得到很理想的嵌入结果。但是对于高于一维的流行，只采用单一的权向量来构造线性结构是不够的，因为高于一维的流行，单个权值不足以反映出流行上复杂的几何结构，如果采用多组线性无关的权值来构造局部线性结构，能够得到更好的嵌入结果。

A.基于流形弯曲度和样本稀疏度的邻域选择算法

传统的局部线性嵌入每一个数据点的邻域大小都是相同的，这仅仅对均匀的流形结构有效，即假设数据集的样本密度和流形弯曲度都是统一的。而从直观上看，从图3可以看出，流形弯曲度大的样本点的邻域大小应该选择小一些，而流形弯曲度小的样本点的邻域大小应该选择大一些，尽量满足局部线性超平面的假设条件；从图4可以看出，采样密度大的区域的样本点的邻域应该大一些，采样密度小的区域的样本点的邻域应该小一些，尽量使邻域之间有交叠产生，利于信息的传递。关键问题就在于如何用量化的数学指标来判断流形的弯曲性以及样本的采用密度。

对于流形弯曲度的量化，采用侧地距离与欧式距离之间的关系来动态确定每一个点的流形弯曲度，用每一个点所在的初始邻域的离散系数来确定每一个点的采样密度。从几何意义上看，如图5所示，图中A和B之间的欧式距离定义为e_AB，A和B之间的侧地距离AEB定义为g_AB，不难看出，g_AB/e_AB＞g_CD/e_CD，也就是说，两个数据点之间的侧地距离与它们的欧氏距离的比值越大，说明这两点之间的局部流形越弯曲，反之，若它们的比值越小，则这两点之间的局部流形越平坦。用流形上两点之间的最短距离来近似两点之间的测地距离，假设X是高维的观测数据，k为初始邻域大小，X中的任意点为x_i，其k邻域构成的数据集为X_i，假设x_a和x_b属于X_i，x_a和x_b之间的欧氏距离是d_e(x_a,x_b)，x_a和x_b之间的测地距离是d_g(x_a,x_b)，则x_i所在邻域的局部流形弯曲度的度量是：

对于样本稀疏度的度量，采用初始邻域数据集的离散系数v_s表示。其公式表示如下：

其中，

通过上面的两个度量公式，就能够根据每一个样本点附近的样本分布情况来计算得到这个样本点的流形弯曲度和样本密度。前面已经分析得到了样本的邻域大小是和这两个度量公式同时相关的，根据公式的定义，c越小表示流形弯曲度越小，则k值越大，c越大表示流形弯曲度越大，则k值越小；v_s越小表示样本的密度越大，也就是说样本点越分布得密集，则k值越大；v_s越大表示样本的密度越小，也就是说样本点越分散，则k值越小；也就是说c和v_s的大小和邻域值的大小是成反比的。因此考虑将这两个公式通过相乘的方式组合在一起。首先归一化两个指标，并设归一化后的c和v_s的乘积为λ，样本x_i的度量值为λ_i，所有样本点的平均值为

根据反比关系，可以考虑样本点x_i的邻域大小

其中k表示初始邻域值。通过这种方式，实现了基于流形弯曲度和样本稀疏度的自适应邻域优化选择。

B.采用多组线性无关的权值构造局部线性结构，获得更好的嵌入结果

对于每一个样本点x_i和它的邻域集{x_j,j∈X_i}，通过求解最优化问题

构造x_i同邻域点之间的局部线性关系。用w_i表示由局部权w_ij,j∈X_i构成的局部权向量，用I_k表示所有分量为1的k维列向量，表示为：

然后，由

得到

当G_i的零空间与I_k不正交时，统一的零空间矢量G_i可以得到w_i。否则，

式中f_i是线性系统的解。

LLE算法在线性系统中加入一个小正数γ，然后通过求解正则化线性系统，以获得局部的权重。

当G_i有一个小的奇异值向量时，根据奇异值定理：

定理：如果，G∈R^m×k,σ₁(G)≥L≥σ_k(G)是G的k个奇异值。对于r＜k，存在k-r个线性无关向量w^(j)，其中j＝1,…,k-r使得：

并且对于W_*＝[w⁽¹⁾,…,w^(k-r)]有：

把定理中的G变为G_i，然后可以得到k_i-r_i(k_i＝|j_i|是邻域点的数目)个线性无关的权重向量

即：

式中，

是

的最优解，

是对应于G_i的k_i-r_i最小奇异值的右奇异值向量，

并且h_i如下表示。

h_i＝0,h_i0＝0 (13)

C.计算低维嵌入空间数据集

寻找一个低维嵌入{y₁,…,y_n}，其中y_i∈R^d，能够保持x_i和其邻域点之间更强的线性结构，也就是极小化下列的嵌入价值函数：

记

为局部权矩阵，将它嵌入到n维空间。记为

有：

其中，

I_i＝X_i∪{i}，ε(Y)可以重写为：

其中

步骤104：将所述降维后的通信数据上传到云服务器。

步骤105：若否，则判断所述通信数据是否大于等于通信下限阈值。

步骤106：若是，则将所述通信数据直接上传到云服务器。

步骤107：若否，则将所述通信数据过滤。

为了验证本方法的有效性，在不丧失通用性的前提下，为了简单起见，在本系统中使用10个移动终端设备、10个边缘节点和1个云服务器的情况。它可以扩展到更多的移动终端设备、边缘节点和云服务器，结果类似。虽然云服务器有丰富的计算资源，但不能将所有新任务分配给云服务器。在任务分配算法中，

是任务执行标志。标志值为1时，任务在移动终端设备层执行。值为2表示任务在边缘节点层执行。值为3表示任务在云服务器层执行。如果任务t未分配，则其值

为0。在这里，按照移动节点在损坏率为0、10％、20％进行分组，边缘节点在损坏率为0、20％、40％进行分组。假设设备当前CPU利用率为50％，每个边缘设备模块和边缘节点计算资源分别为4和20，任务长度为2。边缘设备模块层和边缘节点层最大工作负载为20和50

首先，在移动终端设备层，根据实际经验，设备损坏率一般在20％以内，不同任务负载可能会影响任务完成率。在这里假设有任务工作负载为16，因此需要占用8个终端设备。在设备损坏率为0的情况下，任务分配算法(TAA)和随机分配算法完成率都为100％。在设备损坏率为10％的情况下，根据概率求得TAA算法和随机分配算法完成率分别为100％，90.6％。在设备损坏率为20％的情况下，根据概率求得任务分配算法(TAA)和随机分配算法完成率分别为100％，64.4％。因此，TAA算法比随机分配算法任务完成率平均提高约15％。

随后，在边缘节点层，根据实际经验，节点损坏率一般在40％以内，不同任务负载可能会影响任务完成率。在这里假设任务工作负载为20，边缘节点原有工作负载为10，因此需要占用3个边缘节点。在设备损坏率为0的情况下，任务分配算法(TAA)和随机分配算法完成率都为100％。在设备损坏率为20％的情况下，根据概率求得TAA算法和随机分配算法完成率分别为100％，80％。在设备损坏率为40％的情况下，根据概率求得TAA算法和随机分配算法完成率分别为100％，40％。因此，TAA算法比随机分配算法任务完成率平均提高约36％。

为了验证该方法在数据降维中的有效性，将AMLLE算法和LLE算法应用于三个人工生成的数据集：Swiss-roll、S-curve和S-sphere。每个数据集由2000个数据点组成。根据以往经验，设置初始邻域为10.使用matlab2018a在一台装有奔腾双核CPU的计算机上进行了广泛的仿真，并运行Windows操作系统，以验证提出的方法的性能。

图6(a)显示了数据集的原始几何结构。使用AMLLE和LLE对(b)进行降维，得到图6(c)和(d)中的降维结果。然后进行定性分析。从这些图中可以看出，两种算法都可以分离出瑞士Roll数据集，但与LLE相比，AMLLE使点分布更加均匀和规则，并达到最佳性能。图6(d)降维后AMLLE的点分布大于图6(c)中LLE的点分布。根据这些数据集的特点，假设较大的阈值q_max为500，较小的阈值q_min为100。在图7中，x轴是数据的维数，y轴是执行时间。可以看出，算法的执行时间随着数据维数的增加而增加。结果表明，AMLLE算法的平均执行时间比LLE算法提高了16％。算法执行时间是度量降维算法的一个重要指标。因为当数据量较大时，算法执行时间较长，这将严重影响数据处理效率和用户体验。因此AMLLE算法优于LLE算法。

虽然本例中使用的数据集与前一个不同，但得到了类似的结果。图8(a)显示了数据集的原始几何结构。使用AMLLE和LLE对(b)进行降维，得到图8(c)和(d)中的降维结果。通过观察图形可以看出，这两种算法都可以分离S曲线数据集，但使用了多个重构权重向量，并引入了误差权重和阈值设置的方法，有效地缩短了执行时间。结果表明，该算法的平均执行时间比图8算法高。算法执行时间是度量降维算法的一个重要指标。AMLLE算法的执行时间优于LLE算法，可以有效地提高数据处理效率和用户体验。这一观察揭示了一个重要事实：在从高维到低维的转换过程中，初始数据集的几何内容丢失，成为一种更容易被人眼捕捉和识别的结构。

图10(a)示出了数据集的原始几何结构。使用AMLLE和LLE进行降维，得到的降维结果分别如图10(c)和图10(d)。通过对这些图的观察，可以清楚地看出这两种算法都可以分离s球数据集，但AMLLE的性能最好。降维后，图10(d)中AMLLE的点分布比图10(c)中LLE的点分布更加标准化。仍然假设较大的阈值qmax为500，较小的阈值qmin为100。图11为AMLLE和LLE在S-sphere上的执行时间比较示意图。从实验中可以看出，AMLLE算法的平均执行时间比LLE算法高17.8％。

综上，对于这三类数据集，LLE降维结果不能有效地揭示数据集的真实几何特征，改进的AMLLE方法能够大致反映数据点之间的位置关系。该算法的主要成功之处在于降维后保持了梯度和准矩形形状。在非理想情况下，如非均匀采样、噪声采样、邻域大小的非最优选择等，结果可能会出现偏差。表5为降维实验结果各数值指标的平均值和标准差。AMLLE算法的嵌入误差最大。可以看出，AMLLE方法得到了较好的降维效果。如表1所示：

表1 LLE与AMLLE降维指标的比较

本发明提出了一种基于自适应优化线性邻域集选择的降维方法。该算法引入阈值进行数据过滤。根据流形弯曲度和样本密度引入到局部线性嵌入算法中，实现邻域值的动态选择，增强算法对数据集处理的鲁棒性。采用多组线性无关的权值构造局部线性结构，以便得到更好的嵌入结果。通过三组实验数据进一步验证了算法的有效性。与LLE相比，AMLLE在三个数据集上的执行时间平均减少了17％。

图12为本发明基于自适应优化线性邻域集选择的降维系统结构图。如图12所示，一种自适应优化线性邻域集选择的降维系统包括：

通信数据获取模块201，用于获取边缘设备模块发送的通信数据；

第一判断模块202，用于判断所述通信数据是否大于等于通信上限阈值；

降维处理模块203，用于当所述通信数据大于等于通信上限阈值时，对所述通信数据进行降维处理，得到降维后的通信数据；

第一数据上传模块204，用于将所述降维后的通信数据上传到云服务器；

第二判断模块205，用于当所述通信数据小于通信上限阈值时，判断所述通信数据是否大于等于通信下限阈值；

第二数据上传模块206，用于当所述通信数据大于等于通信下限阈值时，将所述通信数据直接上传到云服务器；

数据过滤模块207，用于当所述通信数据小于通信下限阈值时，将所述通信数据过滤。

所述降维处理模块203，具体包括：

所述所述降维处理子模块，具体包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于自适应优化线性邻域集选择的降维方法，其特征在于，所述基于自适应优化线性邻域集选择的降维方法应用于一种数据处理系统，所述数据处理系统包括依次连接的边缘设备模块、数据收集模块、降维中心模块和云服务器，所述数据收集模块用于收集所述边缘设备模块发送的通信数据，所述降维中心用于将所述数据收集模块存储的通信数据进行降维，并将降维后的通信数据发送至云服务器，所述降维方法包括：