CN114881102A - 一种面向数值型数据的稀有类检测方法 - Google Patents
一种面向数值型数据的稀有类检测方法 Download PDFInfo
- Publication number
- CN114881102A CN114881102A CN202210275566.XA CN202210275566A CN114881102A CN 114881102 A CN114881102 A CN 114881102A CN 202210275566 A CN202210275566 A CN 202210275566A CN 114881102 A CN114881102 A CN 114881102A
- Authority
- CN
- China
- Prior art keywords
- sample
- sample point
- data set
- data
- sample points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种面向数值型的稀有类检测方法。本发明首先对给定数据集进行主成分分析来确定构造近邻关系图所需的k值,进行k近邻图的构建;然后基于构造的k近邻图,统计每一个节点的入度和邻接边权集合,进而计算出数据集中每一个样本点的变化系数,再按照变化系数从大到小的顺序选择样本点进行问询,最终返回问询的样本点和问询得到的标签。本发明利用所提的变化系数指标来衡量数据集中数据样本分布的变化情况,进行稀有类检测,和其余的无先验稀有类检测方法相比效率更高,算法开销较低。同时通过自动选取k值的方法,有效提高了数据集中各个类的发现效率,并显著减少了发现数据中全部类所需要的询问次数。
Description
技术领域
本发明属于数据库领域,涉及数据挖掘技术,尤其涉及一种面向数值型数据的稀有类检测技术。
背景技术
稀有类检测是数据挖掘中一项非常重要的工作,旨在从无标签数据集中发现存在哪些类别的数据,特别是稀有类的数据是否存在。稀有类数据虽然较主要类数据占比较少,但是更具现实意义。例如:金融系统中的海量交易虽然是正常的,但是有时会有少量不合法的交易利用系统漏洞或采取欺诈手段得以完成;互联网上的大量访问都是正常请求,但是也可能存在少量的恶意网络行为。除了可以用于以上实际问题,稀有类检测还可以从给定的无类别标签数据集中获得少量已分类数据样本,从而进一步用于构造分类器或用于半监督的学习方法,如协同训练与主动学习等。因此,稀有类检测在实际应用和理论研究中都具有广泛应用场景和较高研究价值。
由于稀有类数据样本过少且常常隐藏在主要类的数据分布中,传统的聚类、分类技术往往比较难快速、准确地检测出稀有类。因此,现有的稀有类检测算法一般是基于稀有类数据会形成紧实的簇、与其周边区域间存在数据分布上的较大差异等特征,通过分析数据集,将具有这些特征的数据样本选取出来作为稀有类的候选数据样本,向贴标者(如具有领域知识的人类专家)问询它们的真实类别标签。
现有方法进行选择候选样本点时大多依赖于数据的先验知识,比如数据集中包含多少类别的数据、每类数据在数据集中的大致比例,但是这些先验知识通常是难以获得的,导致其适用范围具有一定的局限性。而不依赖先验知识的选择方法在进行数据分析时通常具有较高的时间复杂度,时间开销过大。为了使得稀有类检测技术更好地服务于实际应用,需要探索新的方法能够减少稀有类检测时分析数据集的计算量,又减少发现数据集全部类时贴标者的贴标次数。
发明内容
为了解决上述技术问题,本发明提出了一种面向数值型数据的稀有类检测方法,利用稀有类数据样本在小范围内集中紧密出现所造成的局部数据分布突变这一特征,基于样本点数据之间的近邻关系来确定稀有类数据的可能分布区域,筛选出候选的样本点进行标签问询,定位稀有类数据。
本发明所采用的技术方案是:一种面向数值型的稀有类检测方法,其特征在于:
步骤1:定义需要检测稀有类的数据集为n行d列的矩阵D,其中n表示数据集中包含的样本点个数,d表示数据集的维度,矩阵D第i行第j列的元素Dij表示数据集中的第i个样本点xi的第j个维度的取值,1≤i≤n,1≤j≤d;定义数据集D的k近邻图是一个以样本点为节点的有向图G=(V,E,W),其中节点集合V={x1,…,xn}表示数据集中的n个样本点,E={xi→xp|xp是距离xi的最近k个点之一,1≤i≤n,1≤p≤n}(样本点之间的距离通过欧式距离来衡量)表示样本点之间k近邻关系边集合,W={dis(xi,xp)|xi→xp∈E,1≤i≤n,1p≤n}表示k近邻关系边集合上对应的权重,其中表示样本xi和xj之间的欧式距离;
步骤2:将每个数据集中的每个样本点视作一个节点来构造k近邻图G=(V,E,W),其中k的取值通过对数据集D做主成分分析自动获取。
步骤3:计算每个样本点xi在图G上的入度ID(xi),其中ID(xi)的计算为:
其中E表示k近邻图G中的边集合;I(.)表示一个指示函数,(.)的条件成立时取值为1,不成立时取值为0;
步骤4:计算每个样本点xi的邻接边权集合WS(xi),其中WS(xi)的计算为:
WS(xi)={Wpi|xp→xi∈E,1≤p≤n}∪{Wip|xi→xp∈E,1≤p≤n}
其中E表示k近邻图G中的边集合;Wpi表示有向边xp→xi上的权重,即样本点xp到xi的欧式距离;Wip表示有向边xi→xp上的权重,即样本点xi到xp的欧式距离;运算符∪表示将两个集合包含的所有元素合并在一起;
步骤5:计算每个样本点xi的变化系数VC(xi),其中VC(xi)的计算为:
KNN(xi)={xp|xi→xp∈E,1≤p≤n}
其中,ID(xi)表示样本点xi的入度;E表示k近邻图G中的边集合;KNN(xi)表示距离样本点xi最近的k个样本点集合;WS(xi)表示样本点xi的边权集合;|WS(xi)|表示集合WS(xi)中包含的元素个数;
步骤7:根据样本点变化系数取值从大到小的顺序对样本点进行排序,得到排序后的样本点集合为SV;
步骤8:当样本点标签可问询次数大于零时,选择SV集合中的第一个样本点,记为xs,进行标签问询,记录问询得到的标签为ls,更新C=C∪{(xs,ls)},同时将样本点xs和距离xs最近的k个样本点KNN(xs)的变化系数都设置为-1,返回步骤7;当选择的样本点标签可问询次数为零时,返回候选的样本点和问询得到的样本标签集合C;
在步骤2中,对D做主成分分析自动获取k的取值的过程如下:
步骤2.1:计算D的每一列的均值,然后用D的每一列数据减去对应列的均值,得到的结果记为D′;
步骤2.3:计算协方差矩阵CovD的特征值;
步骤2.4:使用聚类个数为2的K-means算法对CovD的特征值进行聚类,将聚类后的两组元素中较大一组的元素包含的元素个数记为c,返回k=2*c;
本发明进行稀有类检测时不需要对数据集有任何的先验知识,利用稀有类固有的特性来构建k近邻图,分析每个样本点在图上的变化系数来确定候选样本点进行贴标问询,确定稀有类数据是否存在,提高了数据集中各个类的发现效率,有效地减少了贴标者的工作量。
附图说明
图1:是本发明实施例的流程图。
图2:是本发明实施例中使用的数据集的前两个维度的分布。
图3:是本发明实施例中找到的第一个问询样本点。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
在本发明实施例中,使用了包含22个3维样本点的数据集,其中第一维度和第二维度详细的数据分布如图2所示,第三维度的取值均为0,其中D1~D20表示正常类数据,D21~D22表示的是稀有类数据。
图1中描述了本发明实施例的流程图,本发明提供了一种面向数值型数据的稀有类检测方法,定义需要检测稀有类的数据集为n行d列的矩阵D,其中n表示数据集中包含的样本点个数,d表示数据集的维度,矩阵D第i行第j列的元素Dij表示数据集中的第i个样本点xi的第j个维度的取值,1≤i≤n,1j≤d;定义数据集D的k近邻图是一个以样本点为节点的有向图G=(V,E,W),其中节点集合V={x1,…,xn}表示数据集中的n个样本点,E={xi→xp|xp是距离xi的最近k个点之一,1≤i≤n,1≤p≤n}(样本点之间的距离通过欧式距离来衡量)表示样本点之间k近邻关系边集合,W={dis(xi,xp)|xi→xp∈E,1≤i≤n,1≤p≤n}表示k近邻关系边集合上对应的权重,其中 表示样本xi和xj之间的欧式距离。
基于上述定义,所述方法包括以下步骤:
步骤1:通过对图2中的数据集做主成分分析得到k的取值为2,然后将每个数据集中的每个样本点视作一个节点来构造k近邻图G=(V,E,W)。
步骤2:计算每个样本点xi在图G上的入度ID(xi),其中ID(xi)的计算为:
其中E表示k近邻图G中的边集合;I(.)表示一个指示函数,(.)的条件成立时取值为1,不成立时取值为0;
步骤3:计算每个样本点xi的邻接边权集合WS(xi),其中WS(xi)的计算为:
WS(xi)={Wpi|xp→xi∈E,1≤p≤n}∪{Wip|xi→xp∈E,1≤p≤n}
其中E表示k近邻图G中的边集合;Wpi表示有向边xp→xi上的权重,即样本点xp到xi的欧式距离;Wip表示有向边xi→xp上的权重,即样本点xi到xp的欧式距离;运算符∪表示将两个集合包含的所有元素合并在一起;
步骤4:计算每个样本点xi的变化系数VC(xi),得到图2中各个样本的变化系数取值如表1所示,其中VC(xi)的计算为:
KNN(xi)={xp|xi→xp∈E,1≤p≤n}
其中ID(xi)表示样本点xi的入度;E表示k近邻图G中的边集合;KNN(xi)表示距离样本点xi最近的k个样本点集合;WS(xi)表示样本点xi的边权集合;|WS(xi)|表示集合WS(xi)中包含的元素个数;
表1实验数据的变化系数
样本编号 | 变化系数 | 样本编号 | 变化系数 |
D<sub>22</sub> | 1.3481035659541087 | D<sub>20</sub> | 0.06505681649749315 |
D<sub>21</sub> | 1.294023687371987 | D<sub>9</sub> | 0.058327848884669894 |
D<sub>5</sub> | 1.2111195368031524 | D<sub>7</sub> | 0.05784503177837208 |
D<sub>12</sub> | 0.11905964324516263 | D<sub>2</sub> | 0.05069001596607814 |
D<sub>3</sub> | 0.11304276674997367 | D<sub>13</sub> | 0.044808534460066086 |
D<sub>10</sub> | 0.08988572989487431 | D<sub>18</sub> | 0.02246559034524755 |
D<sub>17</sub> | 0.08805365644925806 | D<sub>16</sub> | 0.02105190805911015 |
D<sub>4</sub> | 0.07689921124320585 | D<sub>8</sub> | 0.016927129457539682 |
D<sub>6</sub> | 0.07041110643838852 | D<sub>15</sub> | 0.012250630437455688 |
D<sub>14</sub> | 0.06802317811770134 | D<sub>19</sub> | 0.012016808400111254 |
D<sub>1</sub> | 0.06640747805540237 | D<sub>11</sub> | 0.007100987630983357 |
步骤5:根据样本点变化系数取值从大到小的顺序对样本点进行排序,得到排序后的样本点集合为SV;
步骤6:当样本点标签可问询次数大于零时,选择SV集合中的第一个样本点,记为xs,进行标签问询,记录问询得到的标签为ls,更新C=C∪{(xs,ls)},同时将样本点xs和距离xs最近的k个样本点KNN(xs)的变化系数都设置为-1,返回步骤5;当选择的样本点标签可问询次数为零时,返回候选的样本点和问询得到的样本标签集合C;
请见图3,是本发明实施例实验数据集上进行问询的第一个样本点D22,可以看出在该实施例上本发明能够仅需一次问询就可以确定稀有类数据。
本发明研究了一种面向数值型数据的稀有类检测方法,通过建立数据集的k近邻图,计算每个节点的变化系数,并循环选取变化系数最大的节点供专家进行标注,从而确定数据集中包含的数据类别,并找出稀有类。该方法在运行时间上优于现有算法,且在稀有类检测准确率上具有优势。
应当理解的是,本说明未详细阐述的部分均属于现有技术,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (2)
1.一种面向数值型的稀有类检测方法,其特征在于,包括以下步骤:
步骤1:定义需要检测稀有类的数据集为n行d列的矩阵D,其中n表示数据集中包含的样本点个数,d表示数据集的维度,矩阵D第i行第j列的元素Dij表示数据集中的第i个样本点xi的第j个维度的取值,1≤i≤n,1≤j≤d;定义数据集D的k近邻图是一个以样本点为节点的有向图G=(V,E,W),其中节点集合V={x1,…,xn}表示数据集中的n个样本点,E={xi→xp|xp是距离xi的最近k个点之一,1≤i≤n,1≤p≤n}(样本点之间的距离通过欧式距离来衡量)表示样本点之间k近邻关系边集合,W={dis(xi,xp)|xi→xp∈E,1≤i≤n1,1≤p≤n}表示k近邻关系边集合上对应的权重,其中表示样本xi和xj之间的欧式距离;
步骤2:将每个数据集中的每个样本点视作一个节点来构造k近邻图G=(V,E,W),其中k的取值通过对数据集D做主成分分析自动获取;
步骤3:计算每个样本点xi在图G上的入度ID(xi),其中ID(xi)的计算为:
其中E表示k近邻图G中的边集合;I(.)表示一个指示函数,(.)的条件成立时取值为1,不成立时取值为0;
步骤4:计算每个样本点xi的邻接边权集合WS(xi),其中WS(xi)的计算为:
WS(xi)={Wpi|xp→xi∈E,1≤p≤n}∪{Wip|xi→xp∈E,1≤p≤n}
其中E表示k近邻图G中的边集合;Wpi表示有向边xp→xi上的权重,即样本点xp到xi的欧式距离;Wip表示有向边xi→xp上的权重,即样本点xi到xp的欧式距离;运算符∪表示将两个集合包含的所有元素合并在一起;
步骤5:计算每个样本点xi的变化系数VC(xi),其中VC(xi)的计算为:
KNN(xi)={xp|xi→xp∈E,1≤p≤n}
其中,ID(xi)表示样本点xi的入度;E表示k近邻图G中的边集合;KNN(xi)表示距离样本点xi最近的k个样本点集合;WS(xi)表示样本点xi的边权集合;|WS(xi)|表示集合WS(xi)中包含的元素个数;
步骤7:根据样本点变化系数取值从大到小的顺序对样本点进行排序,得到排序后的样本点集合为SV;
步骤8:当样本点标签可问询次数大于零时,选择SV集合中的第一个样本点,记为xs,进行标签问询,记录问询得到的标签为ls,更新C=C∪{(xs,ls)},同时将样本点xs和距离xs最近的k个样本点KNN(xs)的变化系数都设置为-1,返回步骤7;当选择的样本点标签可问询次数为零时,返回候选的样本点和问询得到的样本标签集合C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275566.XA CN114881102A (zh) | 2022-03-21 | 2022-03-21 | 一种面向数值型数据的稀有类检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275566.XA CN114881102A (zh) | 2022-03-21 | 2022-03-21 | 一种面向数值型数据的稀有类检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881102A true CN114881102A (zh) | 2022-08-09 |
Family
ID=82666787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210275566.XA Withdrawn CN114881102A (zh) | 2022-03-21 | 2022-03-21 | 一种面向数值型数据的稀有类检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881102A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204820A (zh) * | 2023-04-24 | 2023-06-02 | 山东科技大学 | 一种基于稀有类挖掘的冲击危险性等级判别方法 |
-
2022
- 2022-03-21 CN CN202210275566.XA patent/CN114881102A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116204820A (zh) * | 2023-04-24 | 2023-06-02 | 山东科技大学 | 一种基于稀有类挖掘的冲击危险性等级判别方法 |
CN116204820B (zh) * | 2023-04-24 | 2023-07-21 | 山东科技大学 | 一种基于稀有类挖掘的冲击危险性等级判别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10467234B2 (en) | Differentially private database queries involving rank statistics | |
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
US7739284B2 (en) | Method and apparatus for processing data streams | |
JP4813744B2 (ja) | Web利用状況の解析によるユーザープロフィールの分類方法 | |
US20080037877A1 (en) | Automatic classification of objects within images | |
CN110866030A (zh) | 一种基于无监督学习的数据库异常访问检测方法 | |
García et al. | On first quartile journals which are not of highest impact | |
Sridevi et al. | Imputation for the analysis of missing values and prediction of time series data | |
Aghabozorgi et al. | Incremental clustering of time-series by fuzzy clustering | |
CN109359135B (zh) | 一种基于分段权重的时间序列相似性搜索方法 | |
Chen et al. | Hard sample mining makes person re-identification more efficient and accurate | |
CN104794222A (zh) | 网络表格语义恢复方法 | |
CN114881102A (zh) | 一种面向数值型数据的稀有类检测方法 | |
CN115018545A (zh) | 基于用户画像与聚类算法的相似用户分析方法及系统 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
CN111612531B (zh) | 一种点击欺诈的检测方法及系统 | |
CN112465016A (zh) | 基于最优劣距的部分多标记学习方法 | |
Wang et al. | A mixture model-based clustering method for fundamental diagram calibration applied in large network simulation | |
CN111639673A (zh) | 一种处理混合特征数据的自解释规约建模方法 | |
Dalatu et al. | Hybrid distance functions for K-Means clustering algorithms | |
Yang et al. | Adaptive density peak clustering for determinging cluster center | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
Raghavan et al. | Techniques for measuring the stability of clustering: a comparative study | |
Zhang et al. | A Weighted KNN Algorithm Based on Entropy Method | |
Lu et al. | K‐Nearest Neighbor Intervals Based AP Clustering Algorithm for Large Incomplete Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220809 |