CN111008668B

CN111008668B - 一种数据奇异点的识别方法、装置、设备和介质

Info

Publication number: CN111008668B
Application number: CN201911249582.6A
Authority: CN
Inventors: 柯景耀; 潘燕峰; 潘征; 刘岚; 万瑛娴
Original assignee: Shanghai Entropy Microelectronics Technology Co ltd
Current assignee: Shanghai Entropy Microelectronics Technology Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2023-09-26
Anticipated expiration: 2039-12-09
Also published as: CN111008668A

Abstract

本发明实施例公开了一种数据奇异点的识别方法、装置、设备和介质，该方法包括：在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点。本发明实施例的技术方案，通过数据集合在同维空间凸区域的几何分布规律来表达数据集合之间的映射关系，继而能够基于几何视图中的奇异点特征，来识别异常的数据点。由此避免了异常数据点在后续使用过程中导致的错误。

Description

一种数据奇异点的识别方法、装置、设备和介质

技术领域

本发明实施例涉及机器学习技术，尤其涉及一种数据奇异点的识别方法、装置、设备和介质。

背景技术

随着机器学习的兴起，神经网络作为一种有效的处理数据的工具，在学术界与商业中被大量地使用。

深度学习可以归结于两条定律：一是流形分布定律，即自然界中同一类别的高维数据，往往集中在某个低维流形附近；二是聚类分布定律，即这个高维数据类别中不同的子类数据对应着流形上的不同概率分布，这些分布之间的距离大到足够将这些子类区分。因此，深度学习的基本任务就在于从数据中学习流形结构，建立流形的参数表达和变换概率分布。具体可参见《计算机辅助几何设计(Computer Aided Geometric Design)》于2019年1月，68卷第1-21页(Volume 68，January 2019，Pages 1-21)发表的论文《最优传输及生成模型的几何视图(A geometric view of optimal transportation and generativemodel)》，作者雷娜，苏科华，..，丘成桐，顾险峰(Na Lei，Kehua Su，Li Cui，Shing-TungYau，Xianfeng David Gu)。

现有的AE-OT模型，其中的AF(AutoEncode，自动编码器)包括两部分，编码器(Encoder)和解码器(Decoder)。编码器用于压缩数据，将高维数据压缩至低维的隐空间(Latent Space)，解码器用于恢复数据，将隐空间的数据恢复成为高维数据。

OT(最优传输，Optimal Transport)模型是用于表示两个数据分布之间的映射关系，并且通过训练使得映射关系满足最优传输理论。最优传输理论是将两个数据分布的某种距离，通过计算求解该距离的最优解。例如Wasserstein距离等。

通过训练得到的映射关系，可以用于生成伪数据，但是，在生成伪数据时，并非所有数据分布中的数据点，均能够生成正确的伪数据。如何能够有效剔除这些数据点是现有技术的研究方向之一。

发明内容

本发明实施例提供一种数据奇异点的识别方法、装置、设备和介质，以实现对异常数据的有效识别。

第一方面，本发明实施例提供了一种数据奇异点的识别方法，该方法包括：

在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；

针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点；

其中，所述已训练映射关系为：在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时，所述空间凸区域的各胞腔满足最优距离约束。

第二方面，本发明实施例还提供了一种数据奇异点的识别装置，该装置包括：

数据集合确定模块，用于在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；

奇异点识别模块，用于针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点；

其中，所述已训练映射关系为：在所述第一数据集合的数据点和所述第一数据集合的数据点之间满足所述已训练映射关系时，所述空间凸区域的各胞腔满足最优距离约束。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明第一方面实施例所提供的数据奇异点的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面实施例所提供的数据奇异点的识别方法。

本发明实施例的技术方案，通过数据集合在同维空间凸区域的几何分布规律来表达数据集合之间的映射关系，继而能够基于几何视图中的奇异点特征，来识别异常的数据点。由此避免了异常数据点在后续使用过程中导致的错误。

附图说明

图1为本发明实施例所适用的数据分布映射关系的几何关系示意图；

图2为本发明实施例一提供的一种数据奇异点的识别方法的流程图；

图3为本发明实施例所适用的空间凸区域中奇异点示意图；

图4为本发明实施例二所提供的一种数据奇异点的识别方法的流程图；

图5为本发明实施例三所提供的一种数据奇异点的识别方法的流程图；

图6为本发明实施例四所提供的一种数据奇异点的识别方法的流程图；

图7为本发明实施例五提供的一种数据奇异点的识别装置的结构示意图；

图8为本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

为了能够清楚的介绍本发明实施例的技术方案，首先介绍两个数据分布之间的映射关系。映射关系模型，具体用于表征第一数据分布和第二数据分布之间的映射关系，所述第一数据分布和第二数据分布为同维数据分布。在实际使用场景中，第二数据分布一般是对应有实际意义的数据集合，例如，一个图像数据集合，每个图像的像素矩阵特征可以降维对应至一个数据向量，即一个数据点。而实际意义数据集合的数据分布是无明显规律的，这也是需要学习或预测的目标。第一数据分布则是有设定分布规律的可计算的数据分布，例如高斯分布或均匀分布等已知任意规律的数据分布。在空间凸区域上指定第一数据分布，空间凸区域中的每个胞腔与所述第二数据分布对应的第二数据集合的各数据点一一对应，通过训练，获取能够表征从第一数据分布至第二数据分布之间的映射关系。在训练过程中，可以按照所述设定分布规律确定第一数据集合的各个数据点，从而进行训练计算。第一数据集合和第二数据集合的数据点个数可以不相同。

同维空间凸区域可以记为D维凸区域，例如，空间凸区域为D维超方体或D维球体，其中，D为大于等于2的自然数。如图1所示，超方体Ω是一个单位圆盘，被分割为n个胞腔，n是第二数据集合的数据点数量。图1中位于超方体Ω上方的是比该超方体高一个维度的高维空间，高维空间中的每个超平面π_i(h)投影在圆盘中对应一个胞腔W_i(h)，每个超平面可以由一个超平面方程来确定，其中，h为各个超平面与胞腔之间高度的向量，即，h＝(h₁，h_i，…，h_n)。圆盘中的每个胞腔W_i(h)通过映射关系对应于第二数据集合Y中的一个数据点y_i。

圆盘中胞腔的体积可以由胞腔的中心点和高度向量h来确定，当各胞腔体积相等时，则圆盘中胞腔的分布符合第一数据分布与第二数据分布之间的最优映射关系，即映射关系模型训练完成。映射关系可记为T：Ω→Y。该映射关系具体可表征为高度向量h＝(h₁，h₂，...，h_n)与胞腔重心c＝(c₁，c₂，...，c_n)。

实施例一

图2为本发明实施例一提供的一种数据奇异点的识别方法的流程图，由前述介绍可知，空间凸区域到第二数据集合之间建立了映射关系，在空间凸区域上指定了一个可计算的第一数据分布。但是，空间凸区域中会存在一些诸如洞或线的异常位置，这些异常位置将无法正确对应至第二数据集合的数据点，所以需要识别出这样的异常位置集合。本实施例中，可基于第一数据集合的数据点在同维空间凸区域中分布的几何特征，来识别空间凸区域中的异常位置，对应这些位置的数据点作为异常数据点。当选择了足够多的第一数据集合的数据点时，则能够确定该空间凸区域所对应的奇异点集。在实际应用中，也可以针对需要使用的第一数据集合的数据点去判断是否为奇异点。该方法具体包括如下步骤：

S110、在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；

S120、针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点；

在本实施例中，设定分布规律为该已训练映射关系在训练过程中所采用的第一数据集合的分布规律，包括但不限于均匀分布或高斯分布等任意可计算的数据分布。空间凸区域为与各数据集合同维空间中的凸区域，可以是D维超方体或D维球体，其中，D为大于等于2的自然数。

以圆盘作为空间凸区域为例，如图3所示，已训练映射关系的圆盘中胞腔分布如图3中左侧所示，图3中右侧示出的是第二数据集合Y。第二数据集合Y通常为不规则数据分布的数据集，因此其对应的同维空间区域可能是非凸的，内部有洞的情况。圆盘中胞腔与第二数据分布之间的最优传输映射，可以看成是将第二数据集Y规整到圆盘Ω上，第二数据集Y上的洞被对应压成圆盘的某个点x₀，非凸部分被压成圆盘一些线，例如为线γ₀，γ₁，γ₂和γ₃。这些点与线统称为奇异点集。因此，本发明实施例通过计算复杂数据分布的奇异点集，可以通过奇异点集去刻画复杂数据分布。即通过奇异点集的识别，来确定奇异点可能对应的不正确的数据点，从而将其剔除。本发明实施例所针对的是基于几何视图的最优传输映射关系，因此可利用几何视图中的奇异点来确定异常的数据点。

实施例二

图4为本发明实施例二所提供的一种数据奇异点的识别方法的流程图，本实施例以上述实施例为基础，提供了一种计算确定奇异点的具体方式。该方法具体包括：

S410、在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；

具体的，设定分布规律为在训练映射关系模型中所采用的第一数据集合的分布规律。空间凸区域中的胞腔分布即满足已训练完成的映射关系，以超方体作为空间凸区域为例，具体表征为超方体与高维空间之间的高度向量h＝(h₁，h₂，...，h_n)，以及超方体中的胞腔重心c＝(c₁，c₂，...，c_n)。在本步骤中，按照设定分布规律，在该空间凸区域中确定一个第一数据集合，与训练过程中所确定的第一数据集合的数据点可以不同。

S420、针对所述第一数据集合X中的每个数据点x，确定在所述空间凸区域的高维空间中所对应π(x)最大的两个超平面π_i与π_j，分别对应于数据点y_i与y_j；其中，i∈{1，...，n}，j∈{1，...，n}，n为第二数据集合Y中数据点的个数；

在本步骤中，需要针对第一数据集合X中的每个数据点分别进行奇异点判断。对于训练过程中所采用的第二数据集合Y的各个数据点y_k，k＝1，...，n，由于映射关系已经训练完成，因此胞腔分布是确定的。当第一数据集合X的数据点确定时，则π_k(x)也是可确定。

具体的，参考图1所示，当通过训练使得两个数据分布之间的映射关系确定时，高维空间中对应于各个胞腔的超平面的方程即已经确定，共包括n个超平面方程。胞腔是这些超平面的上包络的投影。当将数据点x的值代入n个超平面方程时，可确定n个π(x)的值，其中最大值对应的超平面π_i，即为数据点x所在胞腔，其次大的值对应的超平面π_j，为数据点x所在胞腔的相邻胞腔。这两个胞腔分别对应第二数据集合中的两个数据点y_i与y_j。

S430、计算所述超平面π_i与π_j之间的夹角θ_x；

可采用任意已有的平面法向量计算方式进行计算夹角θ_x。

可选的，夹角θ_x的具体计算方式如下：

1)计算所述超平面π_i与π_j各自对应的法向量，由于分别对应于数据点y_i与y_j，因此可记为n_i＝(y_i，-1)与n_j＝(y_j，-1)。

2)根据两个所述法向量，计算两个超平面法向量之间的夹角θ_ij；

3)根据所述夹角θ_ij计算两个所述超平面π_i与π_j之间的超平面夹角θ_x，即θ_x＝π-θ_ij。

S440、当所述超平面夹角θ_x小于设定角度阈值时，则确定所述第一数据集合中的该数据点x为奇异点，否则不是奇异点。

上述操作中，当超平面夹角很小时，表明所对应的胞腔可能是线状或洞等异常几何形状。

本实施例的技术方案，通过计算超平面夹角，来确定可能出现的异常区域(例如洞或线)，从而对应至第一数据集合中的异常数据点，作为奇异点。当第一数据集合所取的数据点较多时，就可识别出奇异点集。

实施例三

图5为本发明实施例三所提供的一种数据奇异点的识别方法的流程图，本实施例以上述实施例为基础，提供了另一种计算确定奇异点的具体方式。该方法具体包括：

S510、在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；

该步骤的解释同前，不再赘述。

S520、针对所述第一数据集合X中的每个数据点x，确定在空间凸区域中对应的胞腔以及方体/>

S530、确定所述胞腔的所有在方体/>内相邻的胞腔/>其中，1≤k≤M_x，M_x为相邻胞腔数；

对于确定相邻胞腔的方式，具体可以执行如下操作：

1)在所述方体内按照所述设定分布规律进行采样，获取采样点为{x₁，x₂，...}，其中，所述设定分布规律为所述第一数据集合所采用的数据分布规律，例如，均匀采样等；

2)根据落入所述空间凸区域各胞腔中的采样点坐标，确定采样点所落入的胞腔，进而将该胞腔作为所述胞腔的相邻胞腔/>

上述方案中，所述方体是以所述数据点x为中心、设定边长l的凸区域。小凸区域/>例如为一个小圆盘区域。边长l的具体数值可通过二分法来确定合适长度，具体的，所述设定边长l的确定方式包括：

S1.计算标准边长其中d为所述空间凸区域的维数；

S2.设边长上界为l_up＝l₀/2，边长下界为l_low＝0；

S3.设边长在所述空间凸区域里，按设定分布规律，采样P个点/>对于每个采样点/>计算/>被所有胞腔划分出来的最大体积与/>的体积的比例v_i；

S4.统计所有的v_i，若#{i|v_i＞0.98}＞P/35，令l_up＝l；若#{i|v_i＞0.98}＜P/75，令l_low＝l；

S5.重复步骤S3～S4直至P/75＜#{i|v_i＞0.98}＜P/35时，确定所述设定边长l的取值。

S540、根据所述已训练映射关系，确定所述胞腔和相邻胞腔/>在所述第二数据集合中对应的数据点/>和/>

S550、计算所述数据点和/>之间的距离；

如果数据点和/>是向量，则例如可以计算其欧式距离，/>

S560、如果所述距离大于设定距离阈值，则确定胞腔对为奇异胞腔对；

S570、当数据点x具有至少一个奇异胞腔对时，则所述数据点x为奇异点，否则不是奇异点。

本实施例所采用的原理在于，如果胞腔为相邻胞腔，而对应的第二数据集合中的数据点距离较远，在基于映射关系进行插值处理时是不适应的，所以确定为奇异点进行排除。插值后映射的Lipschitz导数很大，导致映射不连续，这是不合理的现象，因此需要排除这样的奇异点。

实施例四

图6为本发明实施例四所提供的一种数据奇异点的识别方法的流程图，本实施例以前述实施例所提供技术方案为基础，进一步提供了采用本发明实施例方案的应用场景，具体包括：

S610、在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；

S620、针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点；

S630、从所述第一数据集合中剔除奇异点；

S640、基于更新后的第一数据集合和所述第二数据集合的数据点，根据所述已训练映射关系，生成伪数据。

已训练映射关系反映的是设定分布规律，与第二数据集合的第二数据分布之间的映射关系。因此，在确定了新的符合设定分布规律的第一数据集合的数据点后，可以通过映射关系，计算确定对应的符合第二数据分布的数据点，即作为第二数据集合的伪数据。映射关系具体采用高度向量和胞腔重心向量的离散点表达，因此可一步通过插值计算来完整映射关系的数据连续性。

本发明实施例的一种应用场景例如是，所述第二数据集合的每个数据点为基于图像的像素阵列确定的图像向量。具体是，每副图像由像素构成，像素特征例如为灰度值，将图像所有像素灰度值按顺序排列即构成该图像的图像向量。当然，图像的像素数量过多，可以进一步进行设定算法的降维处理，以能够表征图像内容即可。

在机器学习技术领域中，对于机器学习模型的训练来说，训练样本是必不可少的。然而，真实的训练样本并不容易大量获得，因此，可采用本发明实施例所提供的方案，来产生伪数据。将伪数据的图像作为训练样本，能够符合原有图像集合中的数据分布规律。

实施例五

图7为本发明实施例五提供的一种数据奇异点的识别装置的结构示意图，该装置可以由软件和/或硬件来实现，该装置具体包括：数据集合确定模块710和奇异点识别模块720。其中，数据集合确定模块710，用于在空间凸区域中，确定满足设定分布规律的第一数据集合中的各个数据点；奇异点识别模块720，用于针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点。所述已训练映射关系为：在所述第一数据集合的数据点和所述第一数据集合的数据点之间满足所述已训练映射关系时，所述空间凸区域的各胞腔满足最优距离约束。

上述装置的技术方案中，奇异点识别模块的具体实现可以通过多种方式来确定，能够基于空间凸区域的几何特性来反映异常位置的胞腔。其中一种方式中，奇异点识别模块具体包括：

超平面确定单元，用于针对所述第一数据集合X中的每个数据点x，确定在所述空间凸区域的高维空间中所对应π(x)最大的两个超平面π_i与π_j，分别对应于数据点y_i与y_j；其中，i∈{1，...，n}，j∈{1，...，n}，n为第二数据集合Y中数据点的个数；

夹角计算单元，用于计算所述超平面π_i与π_j之间的夹角θ_x；

奇异点判断单元，用于当所述超平面夹角θ_x小于设定角度阈值时，则确定所述第一数据集合中的该数据点x为奇异点，否则不是奇异点。

在另一种方式中，奇异点识别模块具体包括：

胞腔和方体确定单元，用于针对所述第一数据集合X中的每个数据点x，确定在空间凸区域中对应的胞腔以及方体/>

相邻胞腔确定单元，用于确定所述胞腔的所有在方体/>内相邻的胞腔/>其中，1≤k≤M_x，/>M_x为相邻胞腔数；

数据点映射单元，用于根据所述已训练映射关系，确定所述胞腔和相邻胞腔在所述第二数据集合中对应的数据点/>和/>

数据点距离计算单元，用于计算所述数据点和/>之间的距离；

奇异胞腔对确定单元，用于如果所述距离大于设定距离阈值，则确定胞腔对为奇异胞腔对；

奇异点确定单元，用于当数据点x具有至少一个奇异胞腔对时，则所述数据点x为奇异点，否则不是奇异点。

在上述第二中方式中，数据点距离计算单元具体用于计算所述数据点和/>之间的欧式距离。

可选的，相邻胞腔确定单元，具体用于在所述方体内按照所述设定分布规律进行采样，获取采样点为{x₁，x₂，...}；根据落入所述空间凸区域各胞腔中的采样点坐标，确定采样点所落入胞腔，作为所述胞腔/>的相邻胞腔/>

上述方案中，所述方体是以所述数据点x为中心、设定边长l的凸区域，所述设定边长l的确定方式包括：

S1、计算标准边长其中d为所述空间凸区域的维数；

S2、设边长上界为l_up＝l₀/2，边长下界为l_low＝0；

S3、设边长在所述空间凸区域里，按所述设定分布规律，采样P个点/>对于每个采样点/>计算/>被所有胞腔划分出来的最大体积与/>的体积的比例v_i；

S4、统计所有的比例v_i，若#{i|v_i＞0.98}＞P/35，则令l_up＝l；若#{i|v_i＞0.98}＜P/75，则令l_low＝l；

S5.重复执行步骤S3～S4直至，P/75＜#{i|v_i＞0.98}＜P/35时，确定所述设定边长l的取值。

基于上述各种方式进行奇异点识别的装置中，可选的是，所述空间凸区域为D维超方体或D维球体，其中，D为大于等于2的自然数。所述设定分布规律包括：均匀分布或高斯分布。

本发明实施例的技术方案可用于多种实际场景，优选是，该装置还包括：

奇异点剔除模块，用于识别所述数据点是否为奇异点之后，从所述第一数据集合中剔除奇异点；

伪数据生成模块，用于基于更新后的第一数据集合和所述第二数据集合的数据点，根据所述已训练映射关系，生成伪数据。

例如，所述第二数据集合的每个数据点为基于图像的像素阵列确定的图像向量，即为一种实际的应用场景。

本发明实施例所提供的数据奇异点的识别装置，可具有执行本发明任意实施例所提供数据奇异点的识别方法的功能模块，具备相应的功能和有益效果。

实施例六

图8为本发明实施例六提供的一种电子设备的结构示意图，如图8所示，该电子设备包括处理器80、存储器81、输入装置82和输出装置83；处理器80的数量可以是一个或多个，图中以一个处理器80为例；电子设备中的处理器80、存储器81、输入装置82和输出装置83可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器81作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的数据奇异点的识别方法的程序指令或模块(例如，数据奇异点的识别装置中的数据集合确定模块和奇异点识别模块)。处理器80通过运行存储在存储器81中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的数据奇异点的识别方法。

存储器81可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器81可进一步包括相对于处理器80远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置82可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置83可包括显示屏等显示设备。

实施例七

本发明实施例七还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种数据奇异点的识别方法，该方法包括：

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的数据奇异点的识别方法中的相关操作.

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据奇异点的识别方法，其特征在于，包括：

其中，所述已训练映射关系为：在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时，所述空间凸区域的各胞腔满足最优距离约束；

所述第二数据集合的每个数据点为基于图像的像素阵列确定的图像向量；

针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点包括：

针对所述第一数据集合中的每个数据点/>，确定在空间凸区域中对应的胞腔/>以及方体/>；

确定所述胞腔的所有在方体/>内相邻的胞腔/>，其中，/>，，/>为相邻胞腔数；

根据所述已训练映射关系，确定所述胞腔和相邻胞腔/>在所述第二数据集合中对应的数据点/>和/>；

计算所述数据点和/>之间的距离；

如果所述距离大于设定距离阈值，则确定胞腔对为奇异胞腔对；

当数据点具有至少一个奇异胞腔对时，则所述数据点/>为奇异点，否则不是奇异点。

2.根据权利要求1所述的方法，其特征在于，针对所述第一数据集合中的每个数据点，根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系，识别所述数据点是否为奇异点包括：

针对所述第一数据集合X中的每个数据点，确定在所述空间凸区域的高维空间中所对应/>最大的两个超平面/>与/>，分别对应于数据点/>与/>；其中，/>，，/>为第二数据集合/>中数据点的个数；

计算所述超平面与/>之间的夹角/>；

当所述超平面夹角小于设定角度阈值时，则确定所述第一数据集合中的该数据点/>为奇异点，否则不是奇异点。

3.根据权利要求1所述的方法，其特征在于，计算所述数据点和/>之间的距离包括：

计算所述数据点和/>之间的欧式距离。

4.根据权利要求1所述的方法，其特征在于，确定所述胞腔的所有在方体/>内相邻的胞腔/>包括：

在所述方体内按照所述设定分布规律进行采样，获取采样点为/>；

根据落入所述空间凸区域各胞腔中的采样点坐标，确定采样点所落入胞腔，作为所述胞腔的相邻胞腔/>。

5.根据权利要求1或4所述的方法，其特征在于，所述方体是以所述数据点/>为中心、设定边长/>的凸区域，所述设定边长/>的确定方式包括：

S1、计算标准边长，其中/>为所述空间凸区域的维数；

S2、设边长上界为，边长下界为/>；

S3、设边长，在所述空间凸区域里，按所述设定分布规律，采样/>个点，对于每个采样点/>，计算/>被所有胞腔划分出来的最大体积/>与的体积的比例/>；

S4、统计所有的比例，若/>，则令/>；若，则令/>；

S5、重复执行步骤S3~S4 直至，时，确定所述设定边长/>的取值。

6.根据权利要求1所述的方法，其特征在于，所述空间凸区域为D维超方体或D维球体，其中，D为大于等于2的自然数。

7.根据权利要求1所述的方法，其特征在于，所述设定分布规律包括：均匀分布或高斯分布。

8.根据权利要求1所述的方法，其特征在于，识别所述数据点是否为奇异点之后，还包括：

从所述第一数据集合中剔除奇异点；

基于更新后的第一数据集合和所述第二数据集合的数据点，根据所述已训练映射关系，生成伪数据。

9.一种数据奇异点的识别装置，其特征在于，包括：

其中，所述已训练映射关系为：在所述第一数据集合的数据点和所述第二数据集合的数据点之间满足所述已训练映射关系时，所述空间凸区域的各胞腔满足最优距离约束；

所述奇异点识别模块具体包括：

胞腔和方体确定单元，用于针对所述第一数据集合中的每个数据点/>，确定在空间凸区域中对应的胞腔/>以及方体/>；

相邻胞腔确定单元，用于确定所述胞腔的所有在方体/>内相邻的胞腔/>，其中，/>，/>，/>为相邻胞腔数；

数据点映射单元，用于根据所述已训练映射关系，确定所述胞腔和相邻胞腔/>在所述第二数据集合中对应的数据点/>和/>；

奇异点确定单元，用于当数据点具有至少一个奇异胞腔对时，则所述数据点/>为奇异点，否则不是奇异点。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的数据奇异点的识别方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的数据奇异点的识别方法。