CN107798338B

CN107798338B - 一种大数据密集支撑点快速选取方法

Info

Publication number: CN107798338B
Application number: CN201710898511.3A
Authority: CN
Inventors: 许红龙
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2021-03-26
Anticipated expiration: 2037-09-28
Also published as: CN107798338A

Abstract

本发明公开了一种大数据密集支撑点快速选取方法，包括以下步骤：数据集规模判断步骤；截断距离dc计算步骤；密集支撑点p0获取步骤。本发明首先通过对数据集D的规模进行判断，对大规模的数据集D进行缩减有效减少后续的运算次数；其中本发明在整个运算过程中，完全是基于对象间的距离，实际设计时实现难度低，通用性强，能从数据集中密集的区域获取密集支撑点。本发明用于从数据集中获取密集支撑点。

Description

一种大数据密集支撑点快速选取方法

技术领域

本发明涉及数据挖掘领域，更具体地说涉及一种大数据的密集支撑点选取方法。

背景技术

现有的很多数据处理技术，都是面向多维空间的，仅适用于多维数据，难以应用于图像、音频视频、蛋白质等复杂的数据类型，这正是大数据时代常见的多样性挑战。

度量空间算法是一种面向于上述复杂数据类型的数据处理算法，其中所述度量空间算法又包括密集支撑点选取步骤，良好的密集支撑点有利于建立更高效的索引，加快搜索过程，更有效地排除非目标对象或者非离群点等。

常用的密集支撑点选取方法有两种，第一种是近似密集区域支撑点选取算法，该算法随机选取临时参考点，搜索数据集中与其距离最远的对象，以该对象为基点，计算数据集中各个对象与参考点的距离，按照从小到大的顺序排序，采用“等距划分+数量中点”的方法，取各段中位点加入支撑点候选集。计算每个段的对象数量，再对对象数量按从大到小的顺序排序。对于对象数量相等的分段，比较获得这些分段之中与参考点距离最近的分段，取其数量中点作为第一个支撑点，但是这种算法具体选取过程决定了其选取结果不够准确，可能把密集程度不高的支撑点也作为密集支撑点选取；第二种是暴力精确计算方法，即在确定密集的标准，或称密度值(例如以某给定距离值的范围内近邻数量多者为密集)之后，计算数据集里每个对象的密度值，最终得出最密集的对象(即给定距离值的范围内近邻数量最多者)。这种方法显然最为精确，但是时间开销也是最大的。

发明内容

本发明要解决的技术问题是：提供一种时间开销小的大数据密集支撑点精确选取方法。

本发明解决其技术问题的解决方案是：

一种大数据密集支撑点快速选取方法，包括以下步骤：

数据集规模判断步骤：读取数据集D，新建数据集D’，判断数据集D的规模大小，若数据集D为小规模数据集，将数据集D中所有的对象添加到数据集D’中，若数据集D为大规模数据，将从数据集D中抽取若干个对象添加到数据集D’中；

截断距离dc计算步骤：在数据集D’中随机选取对象作为基准点pr，计算数据集D’所有对象与基准点pr的距离，根据所有对象与基准点pr的距离，计算截断距离dc；

密集支撑点p0获取步骤：计算数据集D’所有对象的dc近邻对象数量，所述dc近邻对象数量最大的对象，即为数据集D的密集支撑点p0，输出所述密集支撑点p0。

作为上述技术方案的进一步改进，所述数据集规模判断步骤包括以下步骤：

步骤A1：读取数据集D，新建数据集D’；

步骤A2：设定规模界限，若数据集D中对象数量大于规模界限，则将数据集D定义为大规模数据集，否则将数据集D定义为小规模数据集；

步骤A3：若数据集D为小规模数据集，则将数据集D中所有的对象添加到数据集D’中，若数据集D为大规模数据集，则通过均匀抽样或者随机抽样的方式，从数据集D中抽取对象添加到数据集D’中，抽取对象的数量与规模界限数值一致。

作为上述技术方案的进一步改进，所述截断距离dc计算步骤的第一实施方式，包括以下步骤：

步骤B1：设定截断距离参数u，所述截断距离参数u数值范围为0.1至0.2之间；

步骤B2：在数据集D’中随机选取一对象作为基准点pr，计算数据集D’所有对象与基准点pr的距离，记为第一距离；

步骤B3：设定参数r，取数据集D’所有对象的第一距离中的最大值赋给参数r，所述截断距离参数dc＝ur。

基于上述实施方式，所述密集支撑点p0获取步骤包括以下步骤：

步骤C1：逐一获取数据集D’的各个对象O，定义对象O的dc近邻对象数量为M，并初始化为0；

步骤C2：逐一读取数据集D’的其他对象X，计算对象O第一距离与对象X第一距离的差的绝对值；

步骤C3：若所述对象O第一距离与对象X第一距离的差的绝对值小于截断距离dc，计算对象O与对象X间的距离，记为第二距离，若大于截断距离dc，则认为对象X不可能是对象O的dc近邻对象，无需计算对象O与对象X间的距离，跳转到步骤C5；

步骤C4：若第二距离小于截断距离dc，对象O的dc近邻对象数量自加1；

步骤C5：获取下一个对象X，返回步骤C2，直到数据集D’全部对象读取完毕；

步骤C6：获取下一个对象O，返回步骤C1；

步骤C7：输出dc近邻对象数量最多的对象O，即为数据集D的密集支撑点p0。

作为上述技术方案的进一步改进，所述截断距离dc计算步骤的第二实施方式，包括以下步骤：

步骤b2：在数据集D’中随机选取多个对象作为基准点pr1、基准点pr2……基准点prn，建立第一数组，计算各个基准点与数据集D’所有对象的距离，记为第三距离，将各个基准点的第三距离的最大值存入第一数组中；

步骤b3：设定参数r，取第一数组的最小值赋给参数r，所述截断距离参数dc＝ur。

步骤c2：逐一读取数据集D’的其他对象X，对于同一个基准点，计算对象O第三距离与对象X第三距离的差的绝对值；

步骤c3：对于所有的基准点，若所述对象O第三距离与对象X第三距离的差的绝对值均小于截断距离dc，计算对象O与对象X间的距离，记为第四距离，若对于某个基准点，所述对象O第三距离与对象X第三距离的差的绝对值大于截断距离dc，则认为对象X不可能是对象O的dc近邻对象，无需计算对象O与对象X间的距离，跳转到步骤c5；

步骤c4：若第四距离小于截断距离dc，对象O的dc近邻对象数量自加1；

步骤c6：获取下一个对象O，返回步骤c1；

在步骤c2和步骤c3中，计算对象O第三距离与对象X第三距离的差时，对象O的第三距离与对象X的第三距离，是基于同一个基准点(如基准点pr1)计算的。

本发明的有益效果是：本发明首先通过对数据集D的规模进行判断，对大规模的数据集D进行缩减有效减少后续的运算次数；其中本发明在整个运算过程中，完全是基于对象间的距离，实际设计时实现难度低，通用性强，能从数据集中密集的区域获取密集支撑点。本发明用于从数据集中获取密集支撑点。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单说明。显然，所描述的附图只是本发明的一部分实施例，而不是全部实施例，本领域的技术人员在不付出创造性劳动的前提下，还可以根据这些附图获得其他设计方案和附图。

图1是本发明的步骤流程图；

图2是本发明的数据集规模判断步骤实施例流程图；

图3是本发明的截断距离dc计算步骤以及密集支撑点p0获取步骤的第一实施方式流程图；

图4是本发明的截断距离dc计算步骤以及密集支撑点p0获取步骤的第二实施方式流程图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

参照图1～图4，本发明创造公开了一种大数据密集支撑点快速选取方法，包括以下步骤：

具体地，本支撑点选取方法首先限制了数据集D的规模，若数据集D规模较小，则在后续的步骤中可逐个计算每个对象的dc近邻对象数量，而实际应用中，数据集D是小规模数据集的概率极低，此时需要从数据集D中以均匀抽样或者随机抽样的方式抽取若干个对象，组成新的数据集D’，从而在最大程度上减少后续步骤的运算量，极大地降低时间开销；之后通过计算数据集D’中各个对象基于基准点pr的距离，得到参数截断距离dc，最后计算数据集D’中所有对象的dc近邻数据数量，dc近邻数据数量最大对象即为数据集D’的密集支撑点p0，其中所述dc近邻数据数量表示以数据集D’一对象为中心，以截断距离dc为半径的区域内其他对象的数量，本发明通过所述截断距离dc作为定位数据集D’密集区域的依据，避免所选取的密集支撑点p0出现在非密集区域。

本发明首先通过对数据集D的规模进行判断，对大规模的数据集D进行缩减有效减少后续的运算次数；其中本发明在整个运算过程中，完全是基于对象间的距离，实际设计时实现难度低，通用性强，能从数据集中密集的区域获取密集支撑点。

参照图2，进一步作为优选的实施方式，本发明创造具体实施方式中，通过如下步骤对数据集D’的规模大小进行判断，所述数据集规模判断步骤包括以下步骤：

步骤A1：读取数据集D，新建数据集D’；

具体地，所述本发明创造具体实施例中，所述规模界限为1000，当数据集D中对象数量小于1000，则认为是小规模数据集，即使逐个计算数据集D各个对象的dc近邻对象数量，计算次数也不会太多；但数据集D中对象数量大于1000，则认为是大规模数据集，若逐个计算数据集D各个对象的dc近邻对象数量，计算次数过多，需要从数据集D中抽取通过均匀抽样或者随机抽样的方式抽取固定数量的对象，以减少数据集D的规模大小，降低计算时间开销。

参照图3，本发明创造中所述截断距离dc计算步骤的第一实施方式，包括以下步骤：

基于上述截断距离dc计算步骤的第一实施方式，所述密集支撑点p0获取步骤包括以下步骤：

步骤C6：获取下一个对象O，返回步骤C1；

具体地，本发明创造第一实施方式，在计算数据集D’中的一个对象的dc近邻数量时，定义该对象为对象O，对象O以外的其他对象定义为对象X。本步骤中，首先逐次选定一个对象O，再计算所有的对象X与对象O的距离，计算对象O的dc近邻数量。但是本方法在计算对象X与对象O的距离之前，首先通过步骤C2和步骤C3判断对象X是否是对象O的dc近邻对象，如果不是，就无需计算对象X与对象O的距离，减少整个过程的计算次数，降低计算时间开销。

参照图4，本发明创造中所述截断距离dc计算步骤的第二实施方式，包括以下步骤：

基于上述截断距离dc计算步骤的第二实施方式，所述密集支撑点p0获取步骤包括以下步骤：

步骤c6：获取下一个对象O，返回步骤c1；

具体地，本发明创造中，所述选取方法第一实施方式和第二实施方式之间的区别在与，第一实施方式中选取的是一个基准点，而第二实施方式中选取多个基准点，相比较而言，本方法第二实施方式选取多个基准点，虽然在一定程度上增加了第三距离的计算次数，但是却能更大幅度地减少第四距离的计算次数。选取多个基准点，通常能减少总的距离计算次数。

以上对本发明的较佳实施方式进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变型或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种大数据密集支撑点快速选取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种大数据密集支撑点快速选取方法，其特征在于，所述数据集规模判断步骤包括以下步骤：

步骤A1：读取数据集D，新建数据集D’；

3.根据权利要求2所述的一种大数据密集支撑点快速选取方法，其特征在于，所述截断距离dc计算步骤包括以下步骤：

4.根据权利要求3所述的一种大数据密集支撑点快速选取方法，其特征在于，所述密集支撑点p0获取步骤包括以下步骤：

步骤C3：若所述对象O第一距离与对象X第一距离的差的绝对值小于截断距离dc，计算对象O与对象X间的距离，记为第二距离，若所述对象O第一距离与对象X第一距离的差的绝对值大于截断距离dc，则认为对象X不可能是对象O的dc近邻对象，无需计算对象O与对象X间的距离，跳转到步骤C5；

步骤C6：获取下一个对象O，返回步骤C1；

5.根据权利要求2所述的一种大数据密集支撑点快速选取方法，其特征在于，所述截断距离dc计算步骤包括以下步骤：

6.根据权利要求5所述的一种大数据密集支撑点快速选取方法，其特征在于，所述密集支撑点p0获取步骤包括以下步骤：

步骤c6：获取下一个对象O，返回步骤c1；