CN114881102A

CN114881102A - 一种面向数值型数据的稀有类检测方法

Info

Publication number: CN114881102A
Application number: CN202210275566.XA
Authority: CN
Inventors: 何宇; 李刚强; 朱玉祥
Original assignee: Huanghuai University
Current assignee: Huanghuai University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-08-09

Abstract

本发明提出了一种面向数值型的稀有类检测方法。本发明首先对给定数据集进行主成分分析来确定构造近邻关系图所需的k值，进行k近邻图的构建；然后基于构造的k近邻图，统计每一个节点的入度和邻接边权集合，进而计算出数据集中每一个样本点的变化系数，再按照变化系数从大到小的顺序选择样本点进行问询，最终返回问询的样本点和问询得到的标签。本发明利用所提的变化系数指标来衡量数据集中数据样本分布的变化情况，进行稀有类检测，和其余的无先验稀有类检测方法相比效率更高，算法开销较低。同时通过自动选取k值的方法，有效提高了数据集中各个类的发现效率，并显著减少了发现数据中全部类所需要的询问次数。

Description

一种面向数值型数据的稀有类检测方法

技术领域

本发明属于数据库领域，涉及数据挖掘技术，尤其涉及一种面向数值型数据的稀有类检测技术。

背景技术

稀有类检测是数据挖掘中一项非常重要的工作，旨在从无标签数据集中发现存在哪些类别的数据，特别是稀有类的数据是否存在。稀有类数据虽然较主要类数据占比较少，但是更具现实意义。例如：金融系统中的海量交易虽然是正常的，但是有时会有少量不合法的交易利用系统漏洞或采取欺诈手段得以完成；互联网上的大量访问都是正常请求，但是也可能存在少量的恶意网络行为。除了可以用于以上实际问题，稀有类检测还可以从给定的无类别标签数据集中获得少量已分类数据样本，从而进一步用于构造分类器或用于半监督的学习方法，如协同训练与主动学习等。因此，稀有类检测在实际应用和理论研究中都具有广泛应用场景和较高研究价值。

由于稀有类数据样本过少且常常隐藏在主要类的数据分布中，传统的聚类、分类技术往往比较难快速、准确地检测出稀有类。因此,现有的稀有类检测算法一般是基于稀有类数据会形成紧实的簇、与其周边区域间存在数据分布上的较大差异等特征，通过分析数据集，将具有这些特征的数据样本选取出来作为稀有类的候选数据样本，向贴标者(如具有领域知识的人类专家)问询它们的真实类别标签。

现有方法进行选择候选样本点时大多依赖于数据的先验知识，比如数据集中包含多少类别的数据、每类数据在数据集中的大致比例，但是这些先验知识通常是难以获得的，导致其适用范围具有一定的局限性。而不依赖先验知识的选择方法在进行数据分析时通常具有较高的时间复杂度，时间开销过大。为了使得稀有类检测技术更好地服务于实际应用，需要探索新的方法能够减少稀有类检测时分析数据集的计算量，又减少发现数据集全部类时贴标者的贴标次数。

发明内容

为了解决上述技术问题，本发明提出了一种面向数值型数据的稀有类检测方法，利用稀有类数据样本在小范围内集中紧密出现所造成的局部数据分布突变这一特征，基于样本点数据之间的近邻关系来确定稀有类数据的可能分布区域，筛选出候选的样本点进行标签问询，定位稀有类数据。

本发明所采用的技术方案是：一种面向数值型的稀有类检测方法，其特征在于：

步骤1：定义需要检测稀有类的数据集为n行d列的矩阵D，其中n表示数据集中包含的样本点个数，d表示数据集的维度，矩阵D第i行第j列的元素D_ij表示数据集中的第i个样本点x_i的第j个维度的取值，1≤i≤n，1≤j≤d；定义数据集D的k近邻图是一个以样本点为节点的有向图G＝(V,E,W)，其中节点集合V＝{x₁,…,x_n}表示数据集中的n个样本点，E＝{x_i→x_p|x_p是距离x_i的最近k个点之一，1≤i≤n，1≤p≤n}(样本点之间的距离通过欧式距离来衡量)表示样本点之间k近邻关系边集合，W＝{dis(x_i,x_p)|x_i→x_p∈E，1≤i≤n，1p≤n}表示k近邻关系边集合上对应的权重，其中

表示样本x_i和x_j之间的欧式距离；

步骤2：将每个数据集中的每个样本点视作一个节点来构造k近邻图G＝(V,E,W)，其中k的取值通过对数据集D做主成分分析自动获取。

步骤3：计算每个样本点x_i在图G上的入度ID(x_i)，其中ID(x_i)的计算为：

其中E表示k近邻图G中的边集合；I(.)表示一个指示函数，(.)的条件成立时取值为1，不成立时取值为0；

步骤4：计算每个样本点x_i的邻接边权集合WS(x_i)，其中WS(x_i)的计算为：

WS(x_i)＝{W_pi|x_p→x_i∈E,1≤p≤n}∪{W_ip|x_i→x_p∈E,1≤p≤n}

其中E表示k近邻图G中的边集合；W_pi表示有向边x_p→x_i上的权重，即样本点x_p到x_i的欧式距离；W_ip表示有向边x_i→x_p上的权重，即样本点x_i到x_p的欧式距离；运算符∪表示将两个集合包含的所有元素合并在一起；

步骤5：计算每个样本点x_i的变化系数VC(x_i)，其中VC(x_i)的计算为：

KNN(x_i)＝{x_p|x_i→x_p∈E,1≤p≤n}

其中，ID(x_i)表示样本点x_i的入度；E表示k近邻图G中的边集合；KNN(x_i)表示距离样本点x_i最近的k个样本点集合；WS(x_i)表示样本点x_i的边权集合；|WS(x_i)|表示集合WS(x_i)中包含的元素个数；

步骤6：初始化一个集合

来记录候选的问询样本点和问询得到的样本标签；

步骤7：根据样本点变化系数取值从大到小的顺序对样本点进行排序，得到排序后的样本点集合为SV；

步骤8：当样本点标签可问询次数大于零时，选择SV集合中的第一个样本点，记为x_s，进行标签问询，记录问询得到的标签为l_s，更新C＝C∪{(x_s,l_s)}，同时将样本点x_s和距离x_s最近的k个样本点KNN(x_s)的变化系数都设置为-1，返回步骤7；当选择的样本点标签可问询次数为零时，返回候选的样本点和问询得到的样本标签集合C；

在步骤2中，对D做主成分分析自动获取k的取值的过程如下：

步骤2.1：计算D的每一列的均值，然后用D的每一列数据减去对应列的均值，得到的结果记为D′；

步骤2.2：计算D的协方差矩阵

其中D′^T表示矩阵D′的转置；

步骤2.3：计算协方差矩阵CovD的特征值；

步骤2.4：使用聚类个数为2的K-means算法对CovD的特征值进行聚类，将聚类后的两组元素中较大一组的元素包含的元素个数记为c，返回k＝2*c；

本发明进行稀有类检测时不需要对数据集有任何的先验知识，利用稀有类固有的特性来构建k近邻图，分析每个样本点在图上的变化系数来确定候选样本点进行贴标问询，确定稀有类数据是否存在，提高了数据集中各个类的发现效率，有效地减少了贴标者的工作量。

附图说明

图1：是本发明实施例的流程图。

图2：是本发明实施例中使用的数据集的前两个维度的分布。

图3：是本发明实施例中找到的第一个问询样本点。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

在本发明实施例中，使用了包含22个3维样本点的数据集，其中第一维度和第二维度详细的数据分布如图2所示，第三维度的取值均为0，其中D₁～D₂₀表示正常类数据，D₂₁～D₂₂表示的是稀有类数据。

图1中描述了本发明实施例的流程图，本发明提供了一种面向数值型数据的稀有类检测方法，定义需要检测稀有类的数据集为n行d列的矩阵D，其中n表示数据集中包含的样本点个数，d表示数据集的维度，矩阵D第i行第j列的元素D_ij表示数据集中的第i个样本点x_i的第j个维度的取值，1≤i≤n，1j≤d；定义数据集D的k近邻图是一个以样本点为节点的有向图G＝(V,E,W)，其中节点集合V＝{x₁,…,x_n}表示数据集中的n个样本点，E＝{x_i→x_p|x_p是距离x_i的最近k个点之一，1≤i≤n，1≤p≤n}(样本点之间的距离通过欧式距离来衡量)表示样本点之间k近邻关系边集合，W＝{dis(x_i,x_p)|x_i→x_p∈E，1≤i≤n，1≤p≤n}表示k近邻关系边集合上对应的权重，其中

表示样本x_i和x_j之间的欧式距离。

基于上述定义，所述方法包括以下步骤：

步骤1：通过对图2中的数据集做主成分分析得到k的取值为2，然后将每个数据集中的每个样本点视作一个节点来构造k近邻图G＝(V,E,W)。

步骤2：计算每个样本点x_i在图G上的入度ID(x_i)，其中ID(x_i)的计算为：

步骤3：计算每个样本点x_i的邻接边权集合WS(x_i)，其中WS(x_i)的计算为：

WS(x_i)＝{W_pi|x_p→x_i∈E,1≤p≤n}∪{W_ip|x_i→x_p∈E,1≤p≤n}

步骤4：计算每个样本点x_i的变化系数VC(x_i)，得到图2中各个样本的变化系数取值如表1所示，其中VC(x_i)的计算为：

KNN(x_i)＝{x_p|x_i→x_p∈E,1≤p≤n}

其中ID(x_i)表示样本点x_i的入度；E表示k近邻图G中的边集合；KNN(x_i)表示距离样本点x_i最近的k个样本点集合；WS(x_i)表示样本点x_i的边权集合；|WS(x_i)|表示集合WS(x_i)中包含的元素个数；

表1实验数据的变化系数

样本编号	变化系数	样本编号	变化系数
				D<sub>22</sub>	1.3481035659541087	D<sub>20</sub>	0.06505681649749315
D<sub>21</sub>	1.294023687371987	D<sub>9</sub>	0.058327848884669894
				D<sub>5</sub>	1.2111195368031524	D<sub>7</sub>	0.05784503177837208
D<sub>12</sub>	0.11905964324516263	D<sub>2</sub>	0.05069001596607814
				D<sub>3</sub>	0.11304276674997367	D<sub>13</sub>	0.044808534460066086
D<sub>10</sub>	0.08988572989487431	D<sub>18</sub>	0.02246559034524755
				D<sub>17</sub>	0.08805365644925806	D<sub>16</sub>	0.02105190805911015
D<sub>4</sub>	0.07689921124320585	D<sub>8</sub>	0.016927129457539682
				D<sub>6</sub>	0.07041110643838852	D<sub>15</sub>	0.012250630437455688
D<sub>14</sub>	0.06802317811770134	D<sub>19</sub>	0.012016808400111254
				D<sub>1</sub>	0.06640747805540237	D<sub>11</sub>	0.007100987630983357

步骤4：初始化一个集合

来记录候选的问询样本点和问询得到的样本标签；

步骤5：根据样本点变化系数取值从大到小的顺序对样本点进行排序，得到排序后的样本点集合为SV；

步骤6：当样本点标签可问询次数大于零时，选择SV集合中的第一个样本点，记为x_s，进行标签问询，记录问询得到的标签为l_s，更新C＝C∪{(x_s,l_s)}，同时将样本点x_s和距离x_s最近的k个样本点KNN(x_s)的变化系数都设置为-1，返回步骤5；当选择的样本点标签可问询次数为零时，返回候选的样本点和问询得到的样本标签集合C；

请见图3，是本发明实施例实验数据集上进行问询的第一个样本点D₂₂，可以看出在该实施例上本发明能够仅需一次问询就可以确定稀有类数据。

本发明研究了一种面向数值型数据的稀有类检测方法，通过建立数据集的k近邻图，计算每个节点的变化系数，并循环选取变化系数最大的节点供专家进行标注，从而确定数据集中包含的数据类别，并找出稀有类。该方法在运行时间上优于现有算法，且在稀有类检测准确率上具有优势。

应当理解的是，本说明未详细阐述的部分均属于现有技术，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向数值型的稀有类检测方法，其特征在于，包括以下步骤：

步骤1：定义需要检测稀有类的数据集为n行d列的矩阵D，其中n表示数据集中包含的样本点个数，d表示数据集的维度，矩阵D第i行第j列的元素D_ij表示数据集中的第i个样本点x_i的第j个维度的取值，1≤i≤n，1≤j≤d；定义数据集D的k近邻图是一个以样本点为节点的有向图G＝(V,E,W)，其中节点集合V＝{x₁,…,x_n}表示数据集中的n个样本点，E＝{x_i→x_p|x_p是距离x_i的最近k个点之一，1≤i≤n，1≤p≤n}(样本点之间的距离通过欧式距离来衡量)表示样本点之间k近邻关系边集合，W＝{dis(x_i,x_p)|x_i→x_p∈E，1≤i≤n1，1≤p≤n}表示k近邻关系边集合上对应的权重，其中

表示样本x_i和x_j之间的欧式距离；

步骤2：将每个数据集中的每个样本点视作一个节点来构造k近邻图G＝(V,E,W)，其中k的取值通过对数据集D做主成分分析自动获取；

WS(x_i)＝{W_pi|x_p→x_i∈E,1≤p≤n}∪{W_ip|x_i→x_p∈E,1≤p≤n}

KNN(x_i)＝{x_p|x_i→x_p∈E,1≤p≤n}

步骤6：初始化一个集合

来记录候选的问询样本点和问询得到的样本标签；

步骤8：当样本点标签可问询次数大于零时，选择SV集合中的第一个样本点，记为x_s，进行标签问询，记录问询得到的标签为l_s，更新C＝C∪{(x_s,l_s)}，同时将样本点x_s和距离x_s最近的k个样本点KNN(x_s)的变化系数都设置为-1，返回步骤7；当选择的样本点标签可问询次数为零时，返回候选的样本点和问询得到的样本标签集合C。

2.根据权利要求1所述的面向数值型的稀有类检测方法，其特征在于，其特征在于对D做主成分分析自动获取k的取值的过程如下：

步骤2.2：计算D的协方差矩阵

其中D′^T表示矩阵D′的转置；

步骤2.3：计算协方差矩阵CovD的特征值；

步骤2.4：使用聚类个数为2的K-means算法对CovD的特征值进行聚类，将聚类后的两组元素中较大一组的元素包含的元素个数记为c，返回k＝2*c。