CN111008668A - 一种数据奇异点的识别方法、装置、设备和介质 - Google Patents

一种数据奇异点的识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN111008668A
CN111008668A CN201911249582.6A CN201911249582A CN111008668A CN 111008668 A CN111008668 A CN 111008668A CN 201911249582 A CN201911249582 A CN 201911249582A CN 111008668 A CN111008668 A CN 111008668A
Authority
CN
China
Prior art keywords
data
point
data set
distribution
singular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911249582.6A
Other languages
English (en)
Other versions
CN111008668B (zh
Inventor
柯景耀
潘燕峰
潘征
刘岚
万瑛娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Entropy Microelectronics Technology Co Ltd
Original Assignee
Shanghai Entropy Microelectronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Entropy Microelectronics Technology Co Ltd filed Critical Shanghai Entropy Microelectronics Technology Co Ltd
Priority to CN201911249582.6A priority Critical patent/CN111008668B/zh
Publication of CN111008668A publication Critical patent/CN111008668A/zh
Application granted granted Critical
Publication of CN111008668B publication Critical patent/CN111008668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种数据奇异点的识别方法、装置、设备和介质,该方法包括:在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点。本发明实施例的技术方案,通过数据集合在同维空间凸区域的几何分布规律来表达数据集合之间的映射关系,继而能够基于几何视图中的奇异点特征,来识别异常的数据点。由此避免了异常数据点在后续使用过程中导致的错误。

Description

一种数据奇异点的识别方法、装置、设备和介质
技术领域
本发明实施例涉及机器学习技术,尤其涉及一种数据奇异点的识别方法、装置、设备和介质。
背景技术
随着机器学习的兴起,神经网络作为一种有效的处理数据的工具,在学术界与商业中被大量地使用。
深度学习可以归结于两条定律:一是流形分布定律,即自然界中同一类别的高维数据,往往集中在某个低维流形附近;二是聚类分布定律,即这个高维数据类别中不同的子类数据对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。因此,深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达和变换概率分布。具体可参见《计算机辅助几何设计(Computer Aided Geometric Design)》于2019年1月,68卷第1-21页(Volume 68,January 2019,Pages 1-21)发表的论文《最优传输及生成模型的几何视图(A geometric view of optimal transportation and generativemodel)》,作者雷娜,苏科华,..,丘成桐,顾险峰(Na Lei,Kehua Su,Li Cui,Shing-TungYau,Xianfeng David Gu)。
现有的AE-OT模型,其中的AF(AutoEncode,自动编码器)包括两部分,编码器(Encoder)和解码器(Decoder)。编码器用于压缩数据,将高维数据压缩至低维的隐空间(Latent Space),解码器用于恢复数据,将隐空间的数据恢复成为高维数据。
OT(最优传输,Optimal Transport)模型是用于表示两个数据分布之间的映射关系,并且通过训练使得映射关系满足最优传输理论。最优传输理论是将两个数据分布的某种距离,通过计算求解该距离的最优解。例如Wasserstein距离等。
通过训练得到的映射关系,可以用于生成伪数据,但是,在生成伪数据时,并非所有数据分布中的数据点,均能够生成正确的伪数据。如何能够有效剔除这些数据点是现有技术的研究方向之一。
发明内容
本发明实施例提供一种数据奇异点的识别方法、装置、设备和介质,以实现对异常数据的有效识别。
第一方面,本发明实施例提供了一种数据奇异点的识别方法,该方法包括:
在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
第二方面,本发明实施例还提供了一种数据奇异点的识别装置,该装置包括:
数据集合确定模块,用于在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
奇异点识别模块,用于针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据点和所述第一数据集合的数据点之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第一方面实施例所提供的数据奇异点的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第一方面实施例所提供的数据奇异点的识别方法。
本发明实施例的技术方案,通过数据集合在同维空间凸区域的几何分布规律来表达数据集合之间的映射关系,继而能够基于几何视图中的奇异点特征,来识别异常的数据点。由此避免了异常数据点在后续使用过程中导致的错误。
附图说明
图1为本发明实施例所适用的数据分布映射关系的几何关系示意图;
图2为本发明实施例一提供的一种数据奇异点的识别方法的流程图;
图3为本发明实施例所适用的空间凸区域中奇异点示意图;
图4为本发明实施例二所提供的一种数据奇异点的识别方法的流程图;
图5为本发明实施例三所提供的一种数据奇异点的识别方法的流程图;
图6为本发明实施例四所提供的一种数据奇异点的识别方法的流程图;
图7为本发明实施例五提供的一种数据奇异点的识别装置的结构示意图;
图8为本发明实施例六提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
为了能够清楚的介绍本发明实施例的技术方案,首先介绍两个数据分布之间的映射关系。映射关系模型,具体用于表征第一数据分布和第二数据分布之间的映射关系,所述第一数据分布和第二数据分布为同维数据分布。在实际使用场景中,第二数据分布一般是对应有实际意义的数据集合,例如,一个图像数据集合,每个图像的像素矩阵特征可以降维对应至一个数据向量,即一个数据点。而实际意义数据集合的数据分布是无明显规律的,这也是需要学习或预测的目标。第一数据分布则是有设定分布规律的可计算的数据分布,例如高斯分布或均匀分布等已知任意规律的数据分布。在空间凸区域上指定第一数据分布,空间凸区域中的每个胞腔与所述第二数据分布对应的第二数据集合的各数据点一一对应,通过训练,获取能够表征从第一数据分布至第二数据分布之间的映射关系。在训练过程中,可以按照所述设定分布规律确定第一数据集合的各个数据点,从而进行训练计算。第一数据集合和第二数据集合的数据点个数可以不相同。
同维空间凸区域可以记为D维凸区域,例如,空间凸区域为D维超方体或D维球体,其中,D为大于等于2的自然数。如图1所示,超方体Ω是一个单位圆盘,被分割为n个胞腔,n是第二数据集合的数据点数量。图1中位于超方体Ω上方的是比该超方体高一个维度的高维空间,高维空间中的每个超平面πi(h)投影在圆盘中对应一个胞腔Wi(h),每个超平面可以由一个超平面方程来确定,其中,h为各个超平面与胞腔之间高度的向量,即,h=(h1,hi,…,hn)。圆盘中的每个胞腔Wi(h)通过映射关系对应于第二数据集合Y中的一个数据点yi
圆盘中胞腔的体积可以由胞腔的中心点和高度向量h来确定,当各胞腔体积相等时,则圆盘中胞腔的分布符合第一数据分布与第二数据分布之间的最优映射关系,即映射关系模型训练完成。映射关系可记为T:Ω→Y。该映射关系具体可表征为高度向量h=(h1,h2,...,hn)与胞腔重心c=(c1,c2,...,cn)。
实施例一
图2为本发明实施例一提供的一种数据奇异点的识别方法的流程图,由前述介绍可知,空间凸区域到第二数据集合之间建立了映射关系,在空间凸区域上指定了一个可计算的第一数据分布。但是,空间凸区域中会存在一些诸如洞或线的异常位置,这些异常位置将无法正确对应至第二数据集合的数据点,所以需要识别出这样的异常位置集合。本实施例中,可基于第一数据集合的数据点在同维空间凸区域中分布的几何特征,来识别空间凸区域中的异常位置,对应这些位置的数据点作为异常数据点。当选择了足够多的第一数据集合的数据点时,则能够确定该空间凸区域所对应的奇异点集。在实际应用中,也可以针对需要使用的第一数据集合的数据点去判断是否为奇异点。该方法具体包括如下步骤:
S110、在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
S120、针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
在本实施例中,设定分布规律为该已训练映射关系在训练过程中所采用的第一数据集合的分布规律,包括但不限于均匀分布或高斯分布等任意可计算的数据分布。空间凸区域为与各数据集合同维空间中的凸区域,可以是D维超方体或D维球体,其中,D为大于等于2的自然数。
以圆盘作为空间凸区域为例,如图3所示,已训练映射关系的圆盘中胞腔分布如图3中左侧所示,图3中右侧示出的是第二数据集合Y。第二数据集合Y通常为不规则数据分布的数据集,因此其对应的同维空间区域可能是非凸的,内部有洞的情况。圆盘中胞腔与第二数据分布之间的最优传输映射,可以看成是将第二数据集Y规整到圆盘Ω上,第二数据集Y上的洞被对应压成圆盘的某个点x0,非凸部分被压成圆盘一些线,例如为线γ0,γ1,γ2和γ3。这些点与线统称为奇异点集。因此,本发明实施例通过计算复杂数据分布的奇异点集,可以通过奇异点集去刻画复杂数据分布。即通过奇异点集的识别,来确定奇异点可能对应的不正确的数据点,从而将其剔除。本发明实施例所针对的是基于几何视图的最优传输映射关系,因此可利用几何视图中的奇异点来确定异常的数据点。
实施例二
图4为本发明实施例二所提供的一种数据奇异点的识别方法的流程图,本实施例以上述实施例为基础,提供了一种计算确定奇异点的具体方式。该方法具体包括:
S410、在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
具体的,设定分布规律为在训练映射关系模型中所采用的第一数据集合的分布规律。空间凸区域中的胞腔分布即满足已训练完成的映射关系,以超方体作为空间凸区域为例,具体表征为超方体与高维空间之间的高度向量h=(h1,h2,...,hn),以及超方体中的胞腔重心c=(c1,c2,...,cn)。在本步骤中,按照设定分布规律,在该空间凸区域中确定一个第一数据集合,与训练过程中所确定的第一数据集合的数据点可以不同。
S420、针对所述第一数据集合X中的每个数据点x,确定在所述空间凸区域的高维空间中所对应π(x)最大的两个超平面πi与πj,分别对应于数据点yi与yj;其中,i∈{1,...,n},j∈{1,...,n},n为第二数据集合Y中数据点的个数;
在本步骤中,需要针对第一数据集合X中的每个数据点分别进行奇异点判断。对于训练过程中所采用的第二数据集合Y的各个数据点yk,k=1,...,n,由于映射关系已经训练完成,因此胞腔分布是确定的。当第一数据集合X的数据点确定时,则πk(x)也是可确定。
具体的,参考图1所示,当通过训练使得两个数据分布之间的映射关系确定时,高维空间中对应于各个胞腔的超平面的方程即已经确定,共包括n个超平面方程。胞腔是这些超平面的上包络的投影。当将数据点x的值代入n个超平面方程时,可确定n个π(x)的值,其中最大值对应的超平面πi,即为数据点x所在胞腔,其次大的值对应的超平面πj,为数据点x所在胞腔的相邻胞腔。这两个胞腔分别对应第二数据集合中的两个数据点yi与yj
S430、计算所述超平面πi与πj之间的夹角θx
可采用任意已有的平面法向量计算方式进行计算夹角θx
可选的,夹角θx的具体计算方式如下:
1)计算所述超平面πi与πj各自对应的法向量,由于分别对应于数据点yi与yj,因此可记为ni=(yi,-1)与nj=(yj,-1)。
2)根据两个所述法向量,计算两个超平面法向量之间的夹角θij
3)根据所述夹角θij计算两个所述超平面πi与πj之间的超平面夹角θx,即θx=π-θij
S440、当所述超平面夹角θx小于设定角度阈值时,则确定所述第一数据集合中的该数据点x为奇异点,否则不是奇异点。
上述操作中,当超平面夹角很小时,表明所对应的胞腔可能是线状或洞等异常几何形状。
本实施例的技术方案,通过计算超平面夹角,来确定可能出现的异常区域(例如洞或线),从而对应至第一数据集合中的异常数据点,作为奇异点。当第一数据集合所取的数据点较多时,就可识别出奇异点集。
实施例三
图5为本发明实施例三所提供的一种数据奇异点的识别方法的流程图,本实施例以上述实施例为基础,提供了另一种计算确定奇异点的具体方式。该方法具体包括:
S510、在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
该步骤的解释同前,不再赘述。
S520、针对所述第一数据集合X中的每个数据点x,确定在空间凸区域中对应的胞腔
Figure BDA0002308642460000096
以及方体
Figure BDA0002308642460000091
S530、确定所述胞腔
Figure BDA0002308642460000097
的所有在方体
Figure BDA0002308642460000092
内相邻的胞腔
Figure BDA0002308642460000093
其中,1≤k≤Mx
Figure BDA0002308642460000094
Mx为相邻胞腔数;
对于确定相邻胞腔的方式,具体可以执行如下操作:
1)在所述方体
Figure BDA0002308642460000095
内按照所述设定分布规律进行采样,获取采样点为{x1,x2,...},其中,所述设定分布规律为所述第一数据集合所采用的数据分布规律,例如,均匀采样等;
2)根据落入所述空间凸区域各胞腔中的采样点坐标,确定采样点所落入的胞腔,进而将该胞腔作为所述胞腔
Figure BDA0002308642460000101
的相邻胞腔
Figure BDA0002308642460000102
上述方案中,所述方体
Figure BDA0002308642460000103
是以所述数据点x为中心、设定边长l的凸区域。小凸区域
Figure BDA0002308642460000104
例如为一个小圆盘区域。边长l的具体数值可通过二分法来确定合适长度,具体的,所述设定边长l的确定方式包括:
S1.计算标准边长
Figure BDA0002308642460000105
其中d为所述空间凸区域的维数;
S2.设边长上界为lup=l0/2,边长下界为llow=0;
S3.设边长
Figure BDA0002308642460000106
在所述空间凸区域里,按设定分布规律,采样P个点
Figure BDA0002308642460000107
对于每个采样点
Figure BDA0002308642460000108
计算
Figure BDA0002308642460000109
被所有胞腔划分出来的最大体积与
Figure BDA00023086424600001010
的体积的比例vi
S4.统计所有的vi,若#{i|vi>0.98}>P/35,令lup=l;若#{i|vi>0.98}<P/75,令llow=l;
S5.重复步骤S3~S4直至P/75<#{i|vi>0.98}<P/35时,确定所述设定边长l的取值。
S540、根据所述已训练映射关系,确定所述胞腔
Figure BDA00023086424600001011
和相邻胞腔
Figure BDA00023086424600001012
在所述第二数据集合中对应的数据点
Figure BDA00023086424600001013
Figure BDA00023086424600001014
S550、计算所述数据点
Figure BDA00023086424600001015
Figure BDA00023086424600001016
之间的距离;
如果数据点
Figure BDA00023086424600001017
Figure BDA00023086424600001018
是向量,则例如可以计算其欧式距离,
Figure BDA0002308642460000111
S560、如果所述距离大于设定距离阈值,则确定胞腔对
Figure BDA0002308642460000112
为奇异胞腔对;
S570、当数据点x具有至少一个奇异胞腔对时,则所述数据点x为奇异点,否则不是奇异点。
本实施例所采用的原理在于,如果胞腔为相邻胞腔,而对应的第二数据集合中的数据点距离较远,在基于映射关系进行插值处理时是不适应的,所以确定为奇异点进行排除。插值后映射的Lipschitz导数很大,导致映射不连续,这是不合理的现象,因此需要排除这样的奇异点。
实施例四
图6为本发明实施例四所提供的一种数据奇异点的识别方法的流程图,本实施例以前述实施例所提供技术方案为基础,进一步提供了采用本发明实施例方案的应用场景,具体包括:
S610、在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
S620、针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
S630、从所述第一数据集合中剔除奇异点;
S640、基于更新后的第一数据集合和所述第二数据集合的数据点,根据所述已训练映射关系,生成伪数据。
已训练映射关系反映的是设定分布规律,与第二数据集合的第二数据分布之间的映射关系。因此,在确定了新的符合设定分布规律的第一数据集合的数据点后,可以通过映射关系,计算确定对应的符合第二数据分布的数据点,即作为第二数据集合的伪数据。映射关系具体采用高度向量和胞腔重心向量的离散点表达,因此可一步通过插值计算来完整映射关系的数据连续性。
本发明实施例的一种应用场景例如是,所述第二数据集合的每个数据点为基于图像的像素阵列确定的图像向量。具体是,每副图像由像素构成,像素特征例如为灰度值,将图像所有像素灰度值按顺序排列即构成该图像的图像向量。当然,图像的像素数量过多,可以进一步进行设定算法的降维处理,以能够表征图像内容即可。
在机器学习技术领域中,对于机器学习模型的训练来说,训练样本是必不可少的。然而,真实的训练样本并不容易大量获得,因此,可采用本发明实施例所提供的方案,来产生伪数据。将伪数据的图像作为训练样本,能够符合原有图像集合中的数据分布规律。
实施例五
图7为本发明实施例五提供的一种数据奇异点的识别装置的结构示意图,该装置可以由软件和/或硬件来实现,该装置具体包括:数据集合确定模块710和奇异点识别模块720。其中,数据集合确定模块710,用于在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;奇异点识别模块720,用于针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点。所述已训练映射关系为:在所述第一数据集合的数据点和所述第一数据集合的数据点之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
本发明实施例的技术方案,通过数据集合在同维空间凸区域的几何分布规律来表达数据集合之间的映射关系,继而能够基于几何视图中的奇异点特征,来识别异常的数据点。由此避免了异常数据点在后续使用过程中导致的错误。
上述装置的技术方案中,奇异点识别模块的具体实现可以通过多种方式来确定,能够基于空间凸区域的几何特性来反映异常位置的胞腔。其中一种方式中,奇异点识别模块具体包括:
超平面确定单元,用于针对所述第一数据集合X中的每个数据点x,确定在所述空间凸区域的高维空间中所对应π(x)最大的两个超平面πi与πj,分别对应于数据点yi与yj;其中,i∈{1,...,n},j∈{1,...,n},n为第二数据集合Y中数据点的个数;
夹角计算单元,用于计算所述超平面πi与πj之间的夹角θx
奇异点判断单元,用于当所述超平面夹角θx小于设定角度阈值时,则确定所述第一数据集合中的该数据点x为奇异点,否则不是奇异点。
在另一种方式中,奇异点识别模块具体包括:
胞腔和方体确定单元,用于针对所述第一数据集合X中的每个数据点x,确定在空间凸区域中对应的胞腔
Figure BDA0002308642460000141
以及方体
Figure BDA0002308642460000142
相邻胞腔确定单元,用于确定所述胞腔
Figure BDA0002308642460000143
的所有在方体
Figure BDA0002308642460000144
内相邻的胞腔
Figure BDA0002308642460000145
其中,1≤k≤Mx
Figure BDA0002308642460000146
Mx为相邻胞腔数;
数据点映射单元,用于根据所述已训练映射关系,确定所述胞腔
Figure BDA0002308642460000147
和相邻胞腔
Figure BDA0002308642460000148
在所述第二数据集合中对应的数据点
Figure BDA0002308642460000149
Figure BDA00023086424600001410
数据点距离计算单元,用于计算所述数据点
Figure BDA00023086424600001411
Figure BDA00023086424600001412
之间的距离;
奇异胞腔对确定单元,用于如果所述距离大于设定距离阈值,则确定胞腔对
Figure BDA00023086424600001413
为奇异胞腔对;
奇异点确定单元,用于当数据点x具有至少一个奇异胞腔对时,则所述数据点x为奇异点,否则不是奇异点。
在上述第二中方式中,数据点距离计算单元具体用于计算所述数据点
Figure BDA00023086424600001414
Figure BDA00023086424600001415
之间的欧式距离。
可选的,相邻胞腔确定单元,具体用于在所述方体
Figure BDA00023086424600001416
内按照所述设定分布规律进行采样,获取采样点为{x1,x2,...};根据落入所述空间凸区域各胞腔中的采样点坐标,确定采样点所落入胞腔,作为所述胞腔
Figure BDA00023086424600001417
的相邻胞腔
Figure BDA00023086424600001418
上述方案中,所述方体
Figure BDA00023086424600001419
是以所述数据点x为中心、设定边长l的凸区域,所述设定边长l的确定方式包括:
S1、计算标准边长
Figure BDA00023086424600001420
其中d为所述空间凸区域的维数;
S2、设边长上界为lup=l0/2,边长下界为llow=0;
S3、设边长
Figure BDA0002308642460000151
在所述空间凸区域里,按所述设定分布规律,采样P个点
Figure BDA0002308642460000152
对于每个采样点
Figure BDA0002308642460000153
计算
Figure BDA0002308642460000154
被所有胞腔划分出来的最大体积与
Figure BDA0002308642460000155
的体积的比例vi
S4、统计所有的比例vi,若#{i|vi>0.98}>P/35,则令lup=l;若#{i|vi>0.98}<P/75,则令llow=l;
S5.重复执行步骤S3~S4直至,P/75<#{i|vi>0.98}<P/35时,确定所述设定边长l的取值。
基于上述各种方式进行奇异点识别的装置中,可选的是,所述空间凸区域为D维超方体或D维球体,其中,D为大于等于2的自然数。所述设定分布规律包括:均匀分布或高斯分布。
本发明实施例的技术方案可用于多种实际场景,优选是,该装置还包括:
奇异点剔除模块,用于识别所述数据点是否为奇异点之后,从所述第一数据集合中剔除奇异点;
伪数据生成模块,用于基于更新后的第一数据集合和所述第二数据集合的数据点,根据所述已训练映射关系,生成伪数据。
例如,所述第二数据集合的每个数据点为基于图像的像素阵列确定的图像向量,即为一种实际的应用场景。
本发明实施例所提供的数据奇异点的识别装置,可具有执行本发明任意实施例所提供数据奇异点的识别方法的功能模块,具备相应的功能和有益效果。
实施例六
图8为本发明实施例六提供的一种电子设备的结构示意图,如图8所示,该电子设备包括处理器80、存储器81、输入装置82和输出装置83;处理器80的数量可以是一个或多个,图中以一个处理器80为例;电子设备中的处理器80、存储器81、输入装置82和输出装置83可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储器81作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据奇异点的识别方法的程序指令或模块(例如,数据奇异点的识别装置中的数据集合确定模块和奇异点识别模块)。处理器80通过运行存储在存储器81中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的数据奇异点的识别方法。
存储器81可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器81可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器81可进一步包括相对于处理器80远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置82可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置83可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据奇异点的识别方法,该方法包括:
在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据奇异点的识别方法中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种数据奇异点的识别方法,其特征在于,包括:
在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据分布和所述第二数据集合的数据分布之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
2.根据权利要求1所述的方法,其特征在于,针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点包括:
针对所述第一数据集合X中的每个数据点x,确定在所述空间凸区域的高维空间中所对应π(x)最大的两个超平面πi与πj,分别对应于数据点yi与yj;其中,i∈{1,...,n},j∈{1,...,n},n为第二数据集合Y中数据点的个数;
计算所述超平面πi与πj之间的夹角θx
当所述超平面夹角θx小于设定角度阈值时,则确定所述第一数据集合中的该数据点x为奇异点,否则不是奇异点。
3.根据权利要求1所述的方法,其特征在于,针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点包括:
针对所述第一数据集合X中的每个数据点x,确定在空间凸区域中对应的胞腔
Figure FDA0002308642450000021
以及方体
Figure FDA0002308642450000022
确定所述胞腔
Figure FDA0002308642450000023
的所有在方体
Figure FDA0002308642450000024
内相邻的胞腔
Figure FDA0002308642450000025
其中,1≤k≤Mx
Figure FDA0002308642450000026
Mx为相邻胞腔数;
根据所述已训练映射关系,确定所述胞腔
Figure FDA0002308642450000027
和相邻胞腔
Figure FDA0002308642450000028
在所述第二数据集合中对应的数据点
Figure FDA0002308642450000029
Figure FDA00023086424500000210
计算所述数据点
Figure FDA00023086424500000211
Figure FDA00023086424500000212
之间的距离;
如果所述距离大于设定距离阈值,则确定胞腔对
Figure FDA00023086424500000213
为奇异胞腔对;
当数据点x具有至少一个奇异胞腔对时,则所述数据点x为奇异点,否则不是奇异点。
4.根据权利要求3所述的方法,其特征在于,计算所述数据点
Figure FDA00023086424500000214
Figure FDA00023086424500000215
之间的距离包括:
计算所述数据点
Figure FDA00023086424500000216
Figure FDA00023086424500000217
之间的欧式距离。
5.根据权利要求3所述的方法,其特征在于,确定所述胞腔
Figure FDA00023086424500000218
的所有在方体
Figure FDA00023086424500000219
内相邻的胞腔
Figure FDA00023086424500000220
包括:
在所述方体
Figure FDA00023086424500000221
内按照所述设定分布规律进行采样,获取采样点为{x1,x2,...};
根据落入所述空间凸区域各胞腔中的采样点坐标,确定采样点所落入胞腔,作为所述胞腔
Figure FDA00023086424500000222
的相邻胞腔
Figure FDA00023086424500000223
6.根据权利要求3或5所述的方法,其特征在于,所述方体
Figure FDA0002308642450000031
是以所述数据点x为中心、设定边长l的凸区域,所述设定边长l的确定方式包括:
S1、计算标准边长
Figure FDA0002308642450000032
其中d为所述空间凸区域的维数;
S2、设边长上界为lup=l0/2,边长下界为llow=0;
S3、设边长
Figure FDA0002308642450000033
在所述空间凸区域里,按所述设定分布规律,采样P个点
Figure FDA0002308642450000034
对于每个采样点
Figure FDA0002308642450000035
计算
Figure FDA0002308642450000036
被所有胞腔划分出来的最大体积与
Figure FDA0002308642450000037
的体积的比例vi
S4、统计所有的比例vi,若#{i|vi>0.98}>P/35,则令lup=l;若#{i|vi>0.98}<P/75,则令llow=l;
S5、重复执行步骤S3~S4直至,P/75<#{i|vi>0.98}<P/35时,确定所述设定边长l的取值。
7.根据权利要求1所述的方法,其特征在于,所述空间凸区域为D维超方体或D维球体,其中,D为大于等于2的自然数。
8.根据权利要求1所述的方法,其特征在于,所述设定分布规律包括:均匀分布或高斯分布。
9.根据权利要求1所述的方法,其特征在于,识别所述数据点是否为奇异点之后,还包括:
从所述第一数据集合中剔除奇异点;
基于更新后的第一数据集合和所述第二数据集合的数据点,根据所述已训练映射关系,生成伪数据。
10.根据权利要求9所述的方法,其特征在于,所述第二数据集合的每个数据点为基于图像的像素阵列确定的图像向量。
11.一种数据奇异点的识别装置,其特征在于,包括:
数据集合确定模块,用于在空间凸区域中,确定满足设定分布规律的第一数据集合中的各个数据点;
奇异点识别模块,用于针对所述第一数据集合中的每个数据点,根据所述第一数据集合的数据分布和第二数据集合的数据分布之间的已训练映射关系,识别所述数据点是否为奇异点;
其中,所述已训练映射关系为:在所述第一数据集合的数据点和所述第二数据集合的数据点之间满足所述已训练映射关系时,所述空间凸区域的各胞腔满足最优距离约束。
12.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的数据奇异点的识别方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的数据奇异点的识别方法。
CN201911249582.6A 2019-12-09 2019-12-09 一种数据奇异点的识别方法、装置、设备和介质 Active CN111008668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911249582.6A CN111008668B (zh) 2019-12-09 2019-12-09 一种数据奇异点的识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911249582.6A CN111008668B (zh) 2019-12-09 2019-12-09 一种数据奇异点的识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111008668A true CN111008668A (zh) 2020-04-14
CN111008668B CN111008668B (zh) 2023-09-26

Family

ID=70115560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911249582.6A Active CN111008668B (zh) 2019-12-09 2019-12-09 一种数据奇异点的识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111008668B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028679A (zh) * 2023-03-28 2023-04-28 北京五一视界数字孪生科技股份有限公司 一种数据处理方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080253665A1 (en) * 2007-04-11 2008-10-16 Canon Kabushiki Kaisha Pattern identification apparatus and method thereof, abnormal pattern detection apparatus and method thereof, and program
CN108053065A (zh) * 2017-12-11 2018-05-18 武汉大学 一种基于gpu绘制的半离散最优传输方法及系统
CN109571481A (zh) * 2018-12-30 2019-04-05 深圳市越疆科技有限公司 一种关节奇异点处理方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080253665A1 (en) * 2007-04-11 2008-10-16 Canon Kabushiki Kaisha Pattern identification apparatus and method thereof, abnormal pattern detection apparatus and method thereof, and program
CN108053065A (zh) * 2017-12-11 2018-05-18 武汉大学 一种基于gpu绘制的半离散最优传输方法及系统
CN109571481A (zh) * 2018-12-30 2019-04-05 深圳市越疆科技有限公司 一种关节奇异点处理方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周宇明;苏科华;: "使用GPU渲染的离散最优传输算法", 计算机辅助设计与图形学学报, no. 05 *
魏莱;王守觉;徐菲菲;: "一种对奇异值不敏感的ISOMAP", 计算机应用, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028679A (zh) * 2023-03-28 2023-04-28 北京五一视界数字孪生科技股份有限公司 一种数据处理方法、装置及设备
CN116028679B (zh) * 2023-03-28 2023-05-30 北京五一视界数字孪生科技股份有限公司 一种数据处理方法、装置及设备

Also Published As

Publication number Publication date
CN111008668B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
WO2021237909A1 (zh) 一种表格还原方法、装置、设备及存储介质
CN110222705B (zh) 一种网络模型的训练方法以及相关装置
WO2023206944A1 (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN111931864B (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
CN109413023A (zh) 机器识别模型的训练及机器识别方法、装置、电子设备
CN112580668B (zh) 一种背景欺诈检测方法、装置及电子设备
CN113822278A (zh) 一种无受限场景车牌识别方法
CN110889437B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN107832794A (zh) 一种卷积神经网络生成方法、车系识别方法及计算设备
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN111325697B (zh) 一种基于张量本征变换的彩色图像修复方法
CN110489423A (zh) 一种信息抽取的方法、装置、存储介质及电子设备
CN115392937A (zh) 一种用户欺诈风险识别方法、装置、电子设备及存储介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN110020593B (zh) 信息处理方法及装置、介质及计算设备
CN111738319A (zh) 一种基于大规模样本的聚类结果评价方法及装置
CN111008668A (zh) 一种数据奇异点的识别方法、装置、设备和介质
EP1939796A2 (en) Data processing apparatus, data processing method data processing program and computer readable medium
CN116188917B (zh) 缺陷数据生成模型训练方法、缺陷数据生成方法及装置
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN113850238B (zh) 文档检测方法、装置、电子设备及存储介质
CN113052208B (zh) 基于视觉的煤岩识别方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant