CN111177190B - 数据处理方法、装置、电子设备及可读存储介质 - Google Patents

数据处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111177190B
CN111177190B CN201811348720.1A CN201811348720A CN111177190B CN 111177190 B CN111177190 B CN 111177190B CN 201811348720 A CN201811348720 A CN 201811348720A CN 111177190 B CN111177190 B CN 111177190B
Authority
CN
China
Prior art keywords
partition
data
data samples
feature dimension
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811348720.1A
Other languages
English (en)
Other versions
CN111177190A (zh
Inventor
郝龙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201811348720.1A priority Critical patent/CN111177190B/zh
Publication of CN111177190A publication Critical patent/CN111177190A/zh
Application granted granted Critical
Publication of CN111177190B publication Critical patent/CN111177190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种数据处理方法、装置、电子设备及可读存储介质,该方法包括:根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。该方法可以在保证算法准确率的情况下,提高算法输出效率。

Description

数据处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及大数据技术,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
随着计算机和信息技术的迅猛发展和普及应用,行业应用所产生的数据爆炸性的增长,数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了传统的单机系统的处理能力。
目前,大多数应用都是通过MapReduce(一种编程模型)等并行化技术来解决海量数据的处理性能问题,Spark(一种通用并行化框架)就是其中的一种并行化框架。同时,由于海量数据中大多数是未经过标注和整理的,因此,只能通过无监督的学习方法进行学习。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种具有代表性的基于密度的无监督聚类算法。目前已知的使用spark实现DBSCAN的算法有两种:
一种是将数据随机分成多份,然后对每一份数据进行单机DBSCAN聚类,但是由于DBSCAN对算法参数是敏感的,划分后的多份数据集可能具有不同的算法参数,导致最后聚类结果有误。同时该算法通过对不同的类簇求平均得到聚类中心,但是数据形状有时具有环形的形态,对于此类数据该算法将使得类心求解完全错误,最后导致聚类结果有误。
另外一种是通过计算特征维度最长的上边界和下边界均值的空间划分数据的方式,由于基于特征维度最长维度的上边界和下边界均值存在数据无法平均分配的缺陷,导致并行化时其中某一个节点的数据量可能占总数据量的一半以上,导致程序失败和失去了并行意义。
发明内容
有鉴于此,本申请提供一种数据处理方法及其装置。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种数据处理方法,包括:
根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
根据本申请实施例的第二方面,提供一种数据处理装置,包括:
划分单元,用于根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
聚类单元,用于分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
合并单元,用于对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述数据处理方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述数据处理方法。
本申请实施例的数据处理方法,通过根据数据集中的数据样本的特征维度的方差对数据集中的数据样本进行分区划分,并分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果,进而,对各分区的聚类结果进行合并,以得到数据集的聚类结果,保证了各分区样本数量的在同一量级水平,从而在保证算法准确率的情况下,提高了算法输出效率。
附图说明
图1是本申请一示例性实施例示出的一种ε邻域的架构示意图;
图2是本申请一示例性实施例示出的一种数据处理方法的流程示意图;
图3是本申请又一示例性实施例示出的一种数据处理方法的流程示意图;
图4是本申请一示例性实施例示出的一种相邻partition的示意图;
图5A和图5B是本申请一示例性实施例示出的聚类结果的示意图;
图6是本申请一示例性实施例示出的一种数据处理装置的结构示意图;
图7是本申请有一示例性实施例示出的一种数据处理装置的结构示意图;
图8是本申请有一示例性实施例示出的一种数据处理装置的结构示意图;
图9是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面先对本申请实施例涉及的部分名称进行简单解释。
1、ε邻域:给定对象(数据样本)半径ε内的区域称为该对象的ε邻域。
2、核心对象:如果给定对象ε邻域内的样本点数大于等于MinPts(预设参数,可以根据实际应用场景设定),则称该对象为核心对象。
3、边界对象:本身不属于核心对象,但是属于核心对象ε邻域内的对象。
4、直接密度可达:给定一个对象集合D,若对象p在对象q的ε邻域内,且q是一个核心对象,则对象p从对象q出发直接密度可达。
5、密度可达:对于对象集合D,若存在一个对象链P1,P2,…Pn,P1=q,Pn=p,对于Pi∈D(1≤i≤n),Pi+1从Pi直接密度可达,则对象p从对象q出发密度可达。
6、密度相连:存在对象集合D中的对象o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相连。
7、无法从任何对象密度可达的点属于异常点(也可以称为噪声点)。
举例来说,请参见图1,假设MinPts=3,ε为圆的半径,则对象A和对象D均为核心对象,对象B和对象C为边界对象,对象N为异常点。
对象D从对象A出发直接密度可达,对象A从对象D出发直接密度可达;对象B从对象D出发密度可达;对象B和对象C密度相连。
为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图2,为本申请实施例提供的一种数据处理方法的流程示意图,如图2所示,该数据处理方法可以包括以下步骤:
步骤S200、根据数据集中的数据样本的特征维度的方差对数据集中的数据样本进行分区划分。
本申请实施例中,为了保证样本数据的均匀切分,可以根据数据集中的数据样本的特征维度的方差对数据集中的数据样本进行分区(partition)划分,以使每一个分区中的数据样本数量保持在同一量级水平,以便在保证算法准确率的情况下,大大加速了算法结果的输出。
在本申请其中一个实施例中,上述根据数据集中的数据样本的特征维度的方差对数据集中的数据样本进行分区划分,可以包括:
根据数据集中的数据样本的各特征维度中方差最大的特征维度对数据集中的数据样本进行分区划分,直至达到预设分区划分要求。
在该实施例中,可以根据方差最大化原则选择用于分区划分的特征维度,并根据方差最大的特征维度对数据集中的数据样本进行分区划分,直至分区划分结果达到预设分区划分要求。
其中,该预设分区划分要求可以包括但不限于分区划分次数、分区中数据样本的数量等。
在一个示例中,上述依次根据数据集中的数据样本的各特征维度中方差最大的特征维度对数据集中的数据样本进行分区划分,直至达到预设分区划分要求,可以包括:
分别确定数据集中的数据样本的各特征维度的方差;
根据方差最大的特征维度以及用于确定该方差的数据样本的上下界,确定该特征维度的分位点;
根据该特征维度的分位点对所述数据集中的数据样本进行分区划分;
若存在样本数量大于预设样本数量阈值的分区,则确定该分区中的数据样本的各特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的数据样本的上下界确定该特征维度的分位点;
根据该特征维度的分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
在该示例中,当需要对数据集中的数据样本进行分区划分时,可以先将整个数据集作为一个分区,分别确定数据集中的数据样本的各特征维度的方差。
其中,可以通过列表(本文中称为方差列表)记录数据集中的数据样本的各特征维度的方差,该方差列表中可以记录所确定的方差之外,还可以记录包含用于确定方差的特征维度的上下界(即最大值和最小值)以及特征维度的索引值。
在该示例中,确定了数据集中的数据样本的各特征维度的方差之后,可以根据方差最大的特征维度以及用于确定该方差的特征维度的上下界,确定该特征维度的分位点,并根据所确定的分位点对数据集中的数据样本进行分区划分。
其中,当通过方差列表记录数据集中的数据样本的各特征维度的方差时,可以在根据某特征维度进行分区划分之后,将该特征维度的方差从方差列表中删除。
在该示例中,以预设分区划分要求为分区中的样本数量小于等于预设样本数量阈值(分区数据样本的数量的最大值)为例。
对数据样本进行分区划分之后,可以判断各分区中的样本数量是否均小于等于预设样本数量阈值;若是,则确定分区划分结果满足预设分区划分要求,分区划分完成。
若存在样本数量大于预设样本数量阈值的分区,则可以确定该分区中的数据样本的特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的特征维度的上下界确定该特征维度的分位点,进而,根据该分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
步骤S210、分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果。
本申请实施例中,按照步骤S200中的方式对数据集中的数据样本进行分区划分之后,可以并行对各分区内的数据样本进行聚类,以得到各分区的聚类结果。
例如,可以分别在各分区内使用DBSCAN算法对分区内的数据样本进行聚类。
其中,对于任一分区,使用DBSCAN算法对该分区内的数据样本进行聚类时,可以扫描整个分区内的数据样本,找到任意一个核心对象,并对该核心对象进行扩充。扩充的方法是寻找从该核心对象出发的所有密度相连的数据样本。遍历该核心对象的ε邻域内的所有核心对象,寻找与这些核心对象密度相连的数据样本,直到没有可以扩充的数据样本为止。最后聚类成的簇的边界节点都是非核心对象。之后就是重新扫描分区内的数据样本(不包括之前寻找到的簇中的任何数据样本),寻找没有被聚类的核心样本,再重复上面的步骤,对该核心点进行扩充直到数据集中没有新的核心对象为止,其具体实现将在下文中结合具体实例进行说明,本申请实施例在此不做赘述。
步骤S220、对各分区的聚类结果进行合并,以得到数据集的聚类结果。
本申请实施例中,考虑到步骤S210中仅在各分区内对数据样本进行了聚类,并未考虑不同分区之间的满足聚类要求的数据样本,因此,为了保证算法准确性,对各分区内的数据样本进行聚类之后,还需要对各分区的聚类结果进行合并,以得到整个数据集的聚类结果。
在本申请其中一个实施例中,上述对各分区的聚类结果进行合并,可以包括:
查询处于相邻分区边界线ε邻域内的数据样本;
遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同分区的数据样本对;
若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并。
其具体实现将在下文中结合具体实例进行说明,本申请实施例在此不做赘述。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
请参见图3,在该实施例中,数据处理主要流程如下:
一、初始化Spark上下文
在该实施例中,初始化Spark上下文主要包括DBSCAN参数初始化。
其中,Dbscan算法需要输入两个参数,一个参数为ε,代表该算法的ε邻域的半径。另一个参数为MinPts,代表ε邻域中样本数量的最小值。
其中,Spark并行化需要输入一个参数M,代表每个partition中样本数量的最大值。
二、特征维度分位点的计算
在该实施例中,为了分布式计算特征维度的分位点,可以采用Greenwald-Khanna算法,该算法可以根据给定误差计算近似分位点,从而提高计算速度。通过给定误差e和分位点
Figure BDA0001864384510000081
只需要给定排序区间/>
Figure BDA0001864384510000082
任意元素即可,其中summary代表排序后的索引区间,N代表数据的总数。给定区间内任意元素,都满足排序误差≤e*N的要求。具体定义如下:
1)summary构建过程
定义一种基于相对距离的元组结构为(vi,gi,Δi),其中vi为summary i的最小值(即summary i的下边界)对应的数值(特征维度的数值)。而gi和Δi满足以下公式:
Figure BDA0001864384510000091
Figure BDA0001864384510000092
其中,rmin(vi)为summary i的下边界,rmax(vi)为summary i的上边界,s为所构建的summary的数量;
其中,summary i的下边界大于summary i-1的上边界。
2)分位数查询过程
待上述summary结构构建好之后,接下来查询任意的分位点
Figure BDA0001864384510000094
(如0.5、0.25或0.75等),通过/>
Figure BDA0001864384510000093
(下文中描述为r)计算该分位点的索引位置,通过在所构建的summary中寻找最小的j,使得rmax(vj)>r+e,若寻找到满足条件的j,则返回vj-1,否则返回vs-1
三、partition的构建
1)初始时,所有的数据样本构成一个最大的partition,然后计算所有数据样本的所有特征维度的方差,并将计算的方差存储到方差列表中,其中,方差列表还包括计算方差的特征维度的上下界和特征维度的索引值;
2)找到方差最大的特征维度和用于计算该方差的特征维度的上下界,从上一个步骤(特征维度分位点的计算)获取该特征维度的分位点,并从方差列表中删除该方差;
3)根据所获取的特征维度的分位点和特征维度对数据样本进行partition划分,形成新的partition,然后计算各新的分隔后的partition中的数据样本的所有特征维度的方差,并加入到方差列表中;
4)若存在partition中数据样本的数量大于M,则依次迭代步骤2)和3),直至各partition中数据样本的数量均小于等于M。
四、数据样本的ε邻域内数据样本的数量统计
1)计算同一个partition中每个数据样本的ε邻域内的数据样本的数量;
a)计算所有数据样本到原点(0,0,...,0)的距离;
b)根据如下公式确定数据样本是否属于其他数据样本的ε邻域(0代表不属于,1代表属于):
Figure BDA0001864384510000101
其中,dist代表两点之间的距离,pi代表对象i的坐标,pj代表j点的坐标,O代表原点的坐标,ε代表ε邻域的半径。
2)计算不同partition中ε邻域内的数据样本的数量
a)查询相邻partition边界线ε邻域内的数据样本;其中,相邻partition边界线ε邻域内的数据样本是指相邻partition对中到相邻partition边界线(相邻partition对之间的边界线)距离小于等于ε的数据样本;
b)根据公式(3)确定相邻partition边界线ε邻域内各数据样本是否属于其他partition中的数据样本的ε邻域。
举例来说,请参见图4,假设partition A和partition B为相邻partition对,AB为相邻partition边界线,AB的ε邻域内的数据样本包括partitionA或partition B中到AB的距离小于ε的数据样本,即L1与L2之间的数据样本。
在该示例中,可以根据公式(3)确定AB的ε邻域内的各数据样本是否属于其他partition中的数据样本的ε邻域。
例如,对于AB的ε邻域内的partition A中的任一数据样本,判断其是否属于partition B中的任一数据样本的ε邻域;或,对于AB的ε邻域内的partition B中的任一数据样本,判断其是否属于partition A中的任一数据样本的ε邻域。
3)合并1)和2)中的计算结果,得到每个数据样本的ε邻域内数据样本的数量N∈(x)。
仍以上一示例为例,对于AB的ε邻域内的partition A中的任一数据样本(假设为数据样本a),假设在partition A中存在3个数据样本属于数据样本a的ε邻域,在partitionB中存在2个数据样本属于数据样本a的ε邻域,则数据样本a的ε邻域内的数据样本的数量为5。
五、partition内实施Dbscan算法
输入:样本集D=(x1,x2,...,xm),邻域参数(ε,MinPts);
输出:簇划分C。
1)初始化核心对象集合
Figure BDA0001864384510000111
初始化聚类簇数k=0,初始化未访问样本集合Γ=D,簇划分/>
Figure BDA0001864384510000112
2)对于j=1,2,...,m,按下面的步骤找出所有的核心对象:
a)判断样本数据的特征维度大小(即特征维度的数量),若样本数据的特征维度大小大于阈值θ,使用暴力求解的方式寻找数据样本xj的ε邻域子样本集Nε(xj);若特征维度大小小于等于阈值θ,使用构建树的方式构建kd树,遍历所有数据样本寻找数据样本xj的ε邻域子样本集Nε(xj);
b)若子样本集样本数量满足|Nε(xj)|≥MinPts,将数据样本xj加入核心对象样本集合:Ω=Ω∪{xj};
3)如果核心对象集合
Figure BDA0001864384510000113
则算法结束,否则转入步骤4);
4)在核心对象集合Ω中,随机选择一个核心对象o,初始化当前簇核心对象队列Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o},更新未访问样本集合Γ=Γ-{o};
5)如果当前簇核心对象队列
Figure BDA0001864384510000114
则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,...,Ck},更新核心对象集合Ω=Ω-Ck,转入步骤3);
6)在当前簇核心对象队列Ωcur中取出一个核心对象o′,通过邻域距离阈值ε找出所有的ε邻域子样本集Nε(o′),令Δ=Nε(o′)∩Γ,更新当前簇样本集合Ck=Ck∪Δ,更新未访问样本集合Γ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5)。
输出结果为:簇划分C={C1,C2,...,Ck}。
六、所有partition聚类结果合并
1)首先找出所有处于相邻partition边界线ε邻域内的数据样本。
2)遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同partition的数据样本对,若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并,以得到全局的聚类结果。
其中,所有partition聚类结果合并前后的聚类结果示意图可以分别如图5A和图5B所示。
本申请实施例中,通过根据数据集中的数据样本的特征维度的方差对数据集中的数据样本进行分区划分,并分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果,进而,对各分区的聚类结果进行合并,以得到数据集的聚类结果,保证了各分区样本数量的在同一量级水平,从而在保证算法准确率的情况下,提高了算法输出效率。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图6,为本申请实施例提供的一种数据处理装置的结构示意图,如图6所示,该数据处理装置可以包括:
划分单元610,用于根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
聚类单元620,用于分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
合并单元630,用于对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
在一种可选的实施方式中,所述划分单元610,具体用于根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求。
在一种可选的实施方式中,如图7所示,所述装置还包括:
确定单元640,用于分别确定所述数据集中的数据样本的各特征维度的方差;
所述确定单元640,还用于根据方差最大的特征维度以及用于确定该方差的特征维度的上下界,确定该特征维度的分位点;
所述划分单元610,具体用于根据该特征维度的分位点对所述数据集中的数据样本进行分区划分;
所述确定单元640,还用于若存在样本数量大于预设样本数量阈值的分区,则确定该分区中的数据样本的各特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的特征维度的上下界确定该特征维度的分位点;
所述划分单元610,还具体用于根据该特征维度的分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
在一种可选的实施方式中,如图8所示,所述装置还包括:
构建单元650,用于构建排序后的索引区间;其中,所述排序后的索引区间的相邻边界依次递增;
查询单元660,用于根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引;
所述确定单元640,具体用于根据该特征维度的分位点的索引确定该特征维度的分位点。
在一种可选的实施方式中,所述查询单元660,具体用于在所述排序后的索引区间中查询目标索引区间,其中,所述目标索引区间为下边界对应的特征维度的数值大于给定分位点与数据样本数量之积与给定误差的和的最小索引区间;
所述确定单元640,具体用于若存在所述目标索引区间,则将所述目标索引区间的上一索引区间的下边界对应的特征维度的数值作为该特征维度的分位点;
所述确定单元640,还具体用于若不存在所述目标索引区间,则将最大索引区间的下边界对应的特征维度的数值作为该特征维度的分位点。
在一种可选的实施方式中,所述聚类单元620,具体用于对于任一分区,确定该分区中的核心对象;对于任一核心对象,将从该核心对象出发密度可达的其他数据样本聚类到该核心对象对应的簇;其中,一个数据样本最多属于一个簇。
在一种可选的实施方式中,所述合并单元630,具体用于查询处于相邻分区边界线ε邻域内的数据样本;遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同分区的数据样本对;若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并。
请参见图9,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器901、通信接口902、存储器903和通信总线904。处理器901、通信接口902以及存储器903通过通信总线904完成相互间的通信。其中,存储器903上存放有计算机程序;处理器901可以通过执行存储器903上所存放的程序,执行上文描述的数据处理方法。
本文中提到的存储器903可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器902可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
本申请实施例还提供了一种存储有计算机程序的机器可读存储介质,例如图9中的存储器903,所述计算机程序可由图9所示电子设备中的处理器901执行以实现上文描述的数据处理方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (16)

1.一种数据处理方法,其特征在于,包括:
根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分,包括:
根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求。
3.根据权利要求2所述的方法,其特征在于,所述依次根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求,包括:
分别确定所述数据集中的数据样本的各特征维度的方差;
根据方差最大的特征维度以及用于确定该方差的特征维度的上下界,确定该特征维度的分位点;
根据该特征维度的分位点对所述数据集中的数据样本进行分区划分;
若存在样本数量大于预设样本数量阈值的分区,则确定该分区中的数据样本的各特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的特征维度的上下界确定该特征维度的分位点;
根据该特征维度的分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据方差最大的特征维度以及用于确定该方差的数据样本的上下界,确定该特征维度的分位点,包括:
构建排序后的索引区间;其中,所述排序后的索引区间的相邻边界依次递增;
根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引,并根据该特征维度的分位点的索引确定该特征维度的分位点。
5.根据权利要求4所述的方法,其特征在于,所述根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引,并根据该特征维度的分位点的索引确定该特征维度的分位点,包括:
在所述排序后的索引区间中查询目标索引区间,其中,所述目标索引区间为下边界对应的特征维度的数值大于给定分位点与数据样本数量之积与给定误差的和的最小索引区间;
若存在所述目标索引区间,则将所述目标索引区间的上一索引区间的下边界对应的特征维度的数值作为该特征维度的分位点;
若不存在所述目标索引区间,则将最大索引区间的下边界对应的特征维度的数值作为该特征维度的分位点。
6.根据权利要求1所述的方法,其特征在于,所述分别对各分区内的数据样本进行聚类,包括:
对于任一分区,确定该分区中的核心对象;
对于任一核心对象,将从该核心对象出发密度可达的其他数据样本聚类到该核心对象对应的簇;其中,一个数据样本最多属于一个簇。
7.根据权利要求1所述的方法,其特征在于,所述对所述各分区的聚类结果进行合并,包括:
查询处于相邻分区边界线ε邻域内的数据样本;
遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同分区的数据样本对;
若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并。
8.一种数据处理装置,其特征在于,包括:
划分单元,用于根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
聚类单元,用于分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
合并单元,用于对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
9.根据权利要求8所述的装置,其特征在于,
所述划分单元,具体用于根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
确定单元,用于分别确定所述数据集中的数据样本的各特征维度的方差;
所述确定单元,还用于根据方差最大的特征维度以及用于确定该方差的特征维度的上下界,确定该特征维度的分位点;
所述划分单元,具体用于根据该特征维度的分位点对所述数据集中的数据样本进行分区划分;
所述确定单元,还用于若存在样本数量大于预设样本数量阈值的分区,则确定该分区中的数据样本的各特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的特征维度的上下界确定该特征维度的分位点;
所述划分单元,还具体用于根据该特征维度的分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
构建单元,用于构建排序后的索引区间;其中,所述排序后的索引区间的相邻边界依次递增;
查询单元,用于根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引;
所述确定单元,具体用于根据该特征维度的分位点的索引确定该特征维度的分位点。
12.根据权利要求11所述的装置,其特征在于,
所述查询单元,具体用于在所述排序后的索引区间中查询目标索引区间,其中,所述目标索引区间为下边界对应的特征维度的数值大于给定分位点与数据样本数量之积与给定误差的和的最小索引区间;
所述确定单元,具体用于若存在所述目标索引区间,则将所述目标索引区间的上一索引区间的下边界对应的特征维度的数值作为该特征维度的分位点;
所述确定单元,还具体用于若不存在所述目标索引区间,则将最大索引区间的下边界对应的特征维度的数值作为该特征维度的分位点。
13.根据权利要求8所述的装置,其特征在于,
所述聚类单元,具体用于对于任一分区,确定该分区中的核心对象;对于任一核心对象,将从该核心对象出发密度可达的其他数据样本聚类到该核心对象对应的簇;其中,一个数据样本最多属于一个簇。
14.根据权利要求8所述的装置,其特征在于,
所述合并单元,具体用于查询处于相邻分区边界线ε邻域内的数据样本;遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同分区的数据样本对;若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
CN201811348720.1A 2018-11-13 2018-11-13 数据处理方法、装置、电子设备及可读存储介质 Active CN111177190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811348720.1A CN111177190B (zh) 2018-11-13 2018-11-13 数据处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811348720.1A CN111177190B (zh) 2018-11-13 2018-11-13 数据处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111177190A CN111177190A (zh) 2020-05-19
CN111177190B true CN111177190B (zh) 2023-05-30

Family

ID=70646232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811348720.1A Active CN111177190B (zh) 2018-11-13 2018-11-13 数据处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111177190B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112769896B (zh) * 2020-12-21 2023-07-18 北京中科网威信息技术有限公司 分布式节点优化方法及系统、电子设备及存储介质
CN115017215B (zh) * 2022-08-05 2022-12-09 阿里巴巴(中国)有限公司 数据处理方法及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025574A2 (en) * 2000-09-22 2002-03-28 Http Insights Limited Data clustering methods and applications
CN102341824A (zh) * 2009-03-04 2012-02-01 公立大学法人大阪府立大学 图像数据库编辑方法、图像数据库编辑程序和图像检索方法
CN103606164A (zh) * 2013-12-03 2014-02-26 西安电子科技大学 基于高维三重马尔可夫场的sar图像分割方法
CN106610987A (zh) * 2015-10-22 2017-05-03 杭州海康威视数字技术股份有限公司 视频图像检索方法、装置及系统
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法
CN108062722A (zh) * 2017-12-13 2018-05-22 贵州大学 基于风速变异系数的山地风电场模型风机机械功率计算方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834278B2 (en) * 2001-04-05 2004-12-21 Thothe Technologies Private Limited Transformation-based method for indexing high-dimensional data for nearest neighbour queries
US20110055145A1 (en) * 2009-04-17 2011-03-03 Johnson Eric A Method and apparatus for insightful dimensional clustering
US9262808B2 (en) * 2013-02-07 2016-02-16 Mitsubishi Electric Research Laboratories, Inc. Denoising of images with nonstationary noise
US20150248472A1 (en) * 2014-02-28 2015-09-03 Xiaomi Inc. Clustering method, apparatus, and terminal apparatus
US9703856B2 (en) * 2014-07-07 2017-07-11 Sap Se Hilbert curve partitioning for parallelization of DBSCAN
US10650008B2 (en) * 2016-08-26 2020-05-12 International Business Machines Corporation Parallel scoring of an ensemble model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025574A2 (en) * 2000-09-22 2002-03-28 Http Insights Limited Data clustering methods and applications
CN102341824A (zh) * 2009-03-04 2012-02-01 公立大学法人大阪府立大学 图像数据库编辑方法、图像数据库编辑程序和图像检索方法
CN103606164A (zh) * 2013-12-03 2014-02-26 西安电子科技大学 基于高维三重马尔可夫场的sar图像分割方法
CN106610987A (zh) * 2015-10-22 2017-05-03 杭州海康威视数字技术股份有限公司 视频图像检索方法、装置及系统
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法
CN108062722A (zh) * 2017-12-13 2018-05-22 贵州大学 基于风速变异系数的山地风电场模型风机机械功率计算方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
潘罗平.基干健康评估和劣化趋势预测的水电机组故障诊断系统研究.中国博士学位论文全文数据库.2014,(第第2期期),参见正文第51-74页. *
王佳玉 ; 张振宇 ; 褚征 ; 吴晓红 ; .一种基于轨迹数据密度分区的分布式并行聚类方法.中国科学技术大学学报.2018,(第01期),正文2-4页. *
王荣荣 ; 傅秀芬 ; .一种改进的m_(pts)-HDBSCAN算法.广东工业大学学报.2014,(第03期),正文第2-4页. *
赵永彬 ; 陈硕 ; 刘明 ; 王佳楠 ; 贲驰 ; .采用分布式DBSCAN算法的用电行为分析.小型微型计算机系统.2018,(第05期),正文3-5页. *
闫琦.基于高分辨率遥感影像的典型地震次生地质灾害快速智能提取.中国优秀硕士学位论文全文数据库.2018,(第第2期期),正文第28-36页. *

Also Published As

Publication number Publication date
CN111177190A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Fu et al. Fast approximate nearest neighbor search with the navigating spreading-out graph
Cheng et al. Efficient processing of distance queries in large graphs: a vertex cover approach
US10191998B1 (en) Methods of data reduction for parallel breadth-first search over graphs of connected data elements
WO2019201081A1 (zh) 用于估计观测变量之间的因果关系的方法、装置和系统
JP6608972B2 (ja) ソーシャルネットワークに基づいてグループを探索する方法、デバイス、サーバ及び記憶媒体
CN109656798B (zh) 基于顶点重排序的超级计算机大数据处理能力测试方法
CN111400555B (zh) 图数据查询任务处理方法、装置、计算机设备和存储介质
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN111241350B (zh) 图数据查询方法、装置、计算机设备和存储介质
CN111651641B (zh) 一种图查询方法、装置及存储介质
CN111177190B (zh) 数据处理方法、装置、电子设备及可读存储介质
JP5711171B2 (ja) データ検索装置、データ検索方法、及びデータ検索プログラム
JP5506711B2 (ja) 類似ノード検索装置及び方法及びプログラム
CN108204821A (zh) 一种路径规划方法及装置
CN110083732B (zh) 图片检索方法、装置及计算机存储介质
Chehreghani Efficient computation of pairwise minimax distance measures
CN103345509B (zh) 获取路网上复反向最远邻居的层次分区树方法及系统
CN108198084A (zh) 一种复杂网络重叠社区发现方法
CN108011735A (zh) 社区发现方法及装置
Yoo et al. Finding N-most prevalent colocated event sets
JP6789253B2 (ja) 検索装置、検索方法、およびプログラム
WO2019185037A1 (zh) 用于处理数据集的方法、系统和存储介质
JP6577922B2 (ja) 検索装置、方法、及びプログラム
Abeywickrama et al. Bipartite matching: What to do in the real world when computing assignment costs dominates finding the optimal assignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant