CN112215247A - 对特征向量进行聚类的方法、装置及电子设备 - Google Patents
对特征向量进行聚类的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112215247A CN112215247A CN201910620718.3A CN201910620718A CN112215247A CN 112215247 A CN112215247 A CN 112215247A CN 201910620718 A CN201910620718 A CN 201910620718A CN 112215247 A CN112215247 A CN 112215247A
- Authority
- CN
- China
- Prior art keywords
- feature
- cluster
- distance
- feature vector
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 348
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
公开了一种对特征向量进行聚类的方法,包括:确定多个待聚类图像中每个所述待聚类图像的特征向量;根据多个所述特征向量之间的距离近似关系,确定每个所述特征向量所在的簇;其中,所述簇是距离相近的一组所述特征向量的集合,每个所述特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近;根据每个所述特征向量与每个所述簇之间的距离,确定与每个所述特征向量类型相同的特征向量。一种对特征向量进行聚类的装置包括:特征向量确定模块、簇确定模块和聚类模块。本申请不需要计算每个特征向量与其他特征向量之间的距离,可以大幅减少计算量,提高算法的计算速度,对于任何维度、规模的数据,都可以在需求的时间内完成。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种对特征向量进行聚类的方法、装置及电子设备。
背景技术
随着深度学习在计算机视觉等很多领域取得突破性进展,机器学习和人工智能取得了长足的进步。与此同时,也带来了一个问题,如何对深度学习模型、尤其是深度度量学习模型得到的特征向量进行聚类。
发明内容
为了解决上述技术问题,本申请实施例提供了一种对特征向量进行聚类的方法、装置及电子设备。
根据本申请的一个方面,提供了一种对特征向量进行聚类的方法,包括:确定多个待聚类图像中每个所述待聚类图像的特征向量;根据多个所述特征向量之间的距离近似关系,确定每个所述特征向量所在的簇;其中,所述簇是距离相近的一组所述特征向量的集合,每个所述特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近;根据每个所述特征向量与每个所述簇之间的距离,确定与每个所述特征向量类型相同的特征向量。
根据本申请的另一个方面,提供了一种对特征向量进行聚类的装置,包括:特征向量确定模块,用于确定多个待聚类图像中每个所述待聚类图像的特征向量;簇确定模块,用于根据多个所述特征向量之间的距离近似关系,确定每个所述特征向量所在的簇;其中,所述簇是距离相近的一组所述特征向量的集合,每个所述特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近;聚类模块,根据每个所述特征向量与每个所述簇之间的距离,确定与每个所述特征向量类型相同的特征向量。
根据本申请的另一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的方法。
根据本申请的另一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的方法。
本申请实施例提供的对特征向量进行聚类的方法,通过将每个特征向量分别作为当前特征向量,确定当前特征向量对应的特征点与每个簇的中心点的距离,根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量,不需要计算每个特征向量与其他特征向量之间的距离,可以大幅减少计算量,提高算法的计算速度,对于任何维度、规模的数据,都可以在需求的时间内完成。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的对特征向量进行聚类的方法的流程示意图。
图2是本申请一示例性实施例提供的根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量的流程示意图。
图3是本申请一示例性实施例提供的根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量的流程示意图。
图4是本申请一示例性实施例提供的根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇的流程示意图。
图5是本申请一示例性实施例提供的重新确定K个簇中每个簇的中心点和特征点的流程示意图。
图6是本申请一示例性实施例提供的对特征向量进行聚类的簇的示意图;
图7是本申请一示例性实施例提供的对特征向量进行聚类的装置的结构示意图。
图8是本申请一示例性实施例提供的聚类模块的结构示意图。
图9是本申请一示例性实施例提供的聚类单元的结构示意图。
图10是本申请一示例性实施例提供的簇确定模块的结构示意图。
图11是本申请一示例性实施例提供的确定单元的结构示意图。
图12是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
对特征向量进行聚类,这个问题在大规模人脸识别、商品识别、行人识别等应用领域中不断凸显。目前,业界常采用基于密度的聚类算法对特征向量进行聚类。然而,基于密度的聚类算法仅仅在低维、小规模数据上取得了较好的聚类效果,在高维、大规模数据上由于维数灾难(curse of dimension)和时间复杂度这二者的因素,导致百万级以上数据规模的聚类问题都无法在需求的时间内完成。
针对上述技术问题,本申请的基本构思是提出一种对特征向量进行聚类的方法、装置及电子设备,确定多个待聚类图像中每个待聚类图像的特征向量,根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇,根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量,通过建立特征向量的簇,将簇作为索引结构,根据每个特征向量与每个簇之间的距离,即可确定与每个特征向量类型相同的特征向量,不需要计算每个特征向量与其他特征向量之间的距离,可以大幅减少计算量,提高算法的计算速度,对于任何维度、规模的数据,都可以在需求的时间内完成。
需要说明的是,本申请的应用范围不局限于车载电子技术领域。例如,本申请实施例提及的技术方案还可以应用于其他智能可移动设备,具体用于对智能可移动设备提供图像技术支持。
下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1是本申请一示例性实施例提供的对特征向量进行聚类的方法的流程示意图。本申请实施例提供的对特征向量进行聚类的方法可应用到汽车的图像处理技术领域,亦可应用到智能机器人的图像处理类功能领域。如图1所示,本申请实施例提供的对特征向量进行聚类的方法包括如下步骤:
步骤101,确定多个待聚类图像中每个待聚类图像的特征向量。
需要说明的是,待聚类图像可以是RGB图像、灰度图像等,对此不做限定。一个待聚类图像对应一个特征向量,一个特征向量可以是256维的浮点数,比如{0.22,0.23,0.12,...,0.35}。
步骤102,根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇。
其中,簇是距离相近的一组特征向量的集合,每个特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近。
需要说明的是,两个特征向量之间的距离有欧式距离(也叫L2距离)、L1距离等,一般采用欧式距离。例如:有2个低维(例如2维)的特征向量,(x1,y1)、(x2,y2),这两个特征向量之间的欧式距离d就是
步骤103,根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量。
需要说明的是,确定与每个特征向量类型相同的特征向量,从而可以确定类型相同的待聚类图像。
本申请实施例所提及的对特征向量进行聚类的方法,确定多个待聚类图像中每个待聚类图像的特征向量,根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇,根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量,通过建立特征向量的簇,将簇作为索引结构,根据每个特征向量与每个簇之间的距离,即可确定与每个特征向量类型相同的特征向量,因此不需要计算每个特征向量与其他特征向量之间的距离,可以大幅减少计算量,提高算法的计算速度,对于任何维度、规模的数据,都可以在需求的时间内完成。
图2是本申请一示例性实施例提供的根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图2所示实施例,下面着重叙述图2所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图2所示,在本申请实施例提供的对特征向量进行聚类的方法中,根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量(即步骤103),包括:
步骤1031,将每个特征向量分别作为当前特征向量,确定当前特征向量对应的特征点与每个簇的中心点的距离。
具体地,将每个特征向量依次作为当前特征向量,依次确定出每个特征向量对应的特征点与每个簇的中心点的距离。例如:有5个特征向量,分别为第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量,依次将第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量作为当前特征向量,依次确定第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与每个簇的中心点的距离分别为10、20、12、23、11。
步骤1032,根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量。
例如:有5个特征向量,分别为第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量;有3个簇,分别为第一簇、第二簇、第三簇。第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与第一簇的中心点的距离分别为10、20、12、23、11;第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与第二簇的中心点的距离分别为12、19、10、24、11;第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与第三簇的中心点的距离分别为25、10、30、9、25。则根据第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点分别与第一簇、第二簇、第三簇的中心点的距离,确定类型相同的特征向量。
本申请实施例所提及的对特征向量进行聚类的方法,通过将每个特征向量分别作为当前特征向量,确定当前特征向量对应的特征点与每个簇的中心点的距离,根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量,根据每个特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量,可避免计算每二个特征向量之间的距离,因此可以节省计算空间,提高计算速度。
图3是本申请一示例性实施例提供的根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量的流程示意图。在本申请图2所示实施例的基础上延伸出本申请图3所示实施例,下面着重叙述图3所示实施例与图2所示实施例的不同之处,相同之处不再赘述。
如图3所示,在本申请实施例提供的根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量(即步骤1032),包括:
步骤10321,根据当前特征向量对应的特征点与每个簇的中心点的距离,确定预设个距离最近的簇。
例如:有5个特征向量,分别为第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量;有3个簇,分别为第一簇、第二簇、第三簇。第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与第一簇的中心点的距离分别为10、20、12、19、11;第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与第二簇的中心点的距离分别为12、19、10、24、11;第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与第三簇的中心点的距离分别为25、10、30、9、25。设置预设个距离最近的簇为2个,则确定与第一特征向量距离最近的二个簇是第一簇、第二簇,确定与第二特征向量距离最近的二个簇是第二簇、第三簇,确定与第三特征向量距离最近的二个簇是第一簇、第二簇,确定与第四特征向量距离最近的二个簇是第一簇、第三簇,确定与第五特征向量距离最近的二个簇是第一簇、第二簇。
步骤10322,确定当前特征向量对应的特征点与预设个距离最近的簇中的每个特征点的距离。
例如:确定与第一特征向量距离最近的二个簇是第一簇、第二簇。第一簇中有3个特征点,第二簇中有4个特征点,确定第一特征向量与第一簇中的3个特征点的距离分别是10、5、2,确定第一特征向量与第二簇中的4个特征点的距离分别是1、3、15、6。
步骤10323,根据当前特征向量对应的特征点与预设个距离最近的簇中的每个特征点的距离,确定预设个距离最近的簇中的与当前特征向量类型相同的特征向量。
例如:确定第一特征向量与第一簇中的3个特征点的距离分别是10、5、2,确定第一特征向量与第二簇中的4个特征点的距离分别是1、3、15、6。预设距离小于等于5的为类型相同的特征向量,则与第一特征向量类型相同的特征向量是第一簇中的距离为5、2的特征点对应的特征向量、第二簇中的距离为1、3的特征点对应的特征向量。
本申请实施例所提及的对特征向量进行聚类的方法,根据当前特征向量对应的特征点与每个簇的中心点的距离,确定预设个距离最近的簇,确定当前特征向量对应的特征点与预设个距离最近的簇中的每个特征点的距离,根据当前特征向量对应的特征点与预设个距离最近的簇中的每个特征点的距离,确定预设个距离最近的簇中的与当前特征向量类型相同的特征向量,只需要根据与预设个距离最近的簇中的每个特征点的距离,即可确定与当前特征向量类型相同的特征向量,不需要计算与所有的簇中的特征点的距离,可以进一步地减少计算量,进一步地提高计算速度。
图4是本申请一示例性实施例提供的根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图4所示实施例,下面着重叙述图4所示实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图4所示,在本申请实施例提供的对特征向量进行聚类的方法中,根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇(即步骤102),包括:
步骤1021,从多个特征向量对应的特征点中选择K个点作为初始的中心点,其中,所述K为自然数。
例如:有5个特征向量,分别为第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量,从5个特征向量对应的特征点中选择第一特征向量、第三特征向量对应的特征点作为初始的中心点。
步骤1022,确定每个特征向量对应的特征点与每个所述初始的中心点的距离。
例如:确定第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与中心点(第一特征向量对应的特征点)的距离分别是0、2、9、4、8;确定第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量对应的特征点与中心点(第三特征向量对应的特征点)的距离分别是9、10、0、8、1。
步骤1023,将每个特征向量对应的特征点和与其距离最近的每个初始的中心点组合,形成K个簇。
例如:根据上述步骤1022中第一特征向量、第二特征向量、第三特征向量、第四特征向量、第五特征向量各自对应的特征点与中心点的距离,确定第一特征向量、第二特征向量、第四特征向量对应的特征点为一个簇,确定第三特征向量、第五特征向对应的特征点为一个簇。
步骤1024,重新确定K个簇中每个簇的中心点和特征点。
具体地,根据任一簇中的所有特征点,重新计算该任一簇的中心点,然后再迭代执行为该任一簇分配属于该任一簇的特征点和更新该任一簇的中心点的步骤,直至该任一簇的中心点的变化很小,或者达到指定的迭代次数。
步骤1025,当满足预设终止确定条件时,将满足预设终止确定条件时,确定的每个簇的中心点和特征点作为每个簇的最终的中心点和特征点。
具体地,预设终止确定条件可以是该簇的中心点的变化小于预设变化阈值,或者达到指定的迭代次数。其中,预设变化阈值和指定的迭代次数可以根据实际应用状况进行设置,对此不做具体限定。
本申请实施例所提及的对特征向量进行聚类的方法,从多个特征向量对应的特征点中选择K个点作为初始的中心点,确定每个特征向量对应的特征点与每个初始的中心点的距离,将每个特征向量对应的特征点和与其距离最近的每个初始的中心点组合,形成K个簇,重新确定K个簇中每个簇的中心点和特征点,当满足预设终止确定条件时,将满足预设终止确定条件时,确定的每个簇的中心点和特征点作为每个簇的最终的中心点和特征点,可以快速确定出特征向量对应的特征点的簇,可以提升对特征向量进行聚类的速度。
图5是本申请一示例性实施例提供的重新确定K个簇中每个簇的中心点和特征点的流程示意图。在本申请图4所示实施例的基础上延伸出本申请所示实施例,下面着重叙述本申请图5所示实施例与图4所示实施例的不同之处,相同之处不再赘述。
在本申请实施例图5提供的对特征向量进行聚类的方法中,重新确定K个簇中每个簇的中心点和特征点(即步骤1024),包括:
步骤10241,计算簇中每个簇的特征点的均值。
具体地,将簇中每个簇的特征点的坐标进行求和后平均,得到簇中每个簇的特征点的均值。
步骤10242,将每个簇的特征点的均值作为每个簇的新的中心点。
具体地,将每个簇的特征点的均值作为每个簇的新的中心点,重新确定每个簇的特征点。
步骤10243,确定每个特征向量对应的特征点与每个所述新的中心点的距离。
具体地,每个特征向量对应的特征点与每个所述新的中心点的距离有欧式距离(也叫L2距离)、L1距离等,一般采用欧式距离。欧式距离的具体计算详见步骤102,此处不再赘述。
步骤10244,将每个特征向量对应的特征点划分在与其距离最近的新的中心点对应的簇。
具体地,将每个特征向量对应的特征点划分在与其距离最近的新的中心点对应的簇,与新的中心点构成簇。
本申请实施例所提及的对特征向量进行聚类的方法,计算簇中每个簇的特征点的均值,将每个簇的特征点的均值作为每个簇的新的中心点,确定每个特征向量对应的特征点与每个新的中心点的距离,将每个特征向量对应的特征点划分在与其距离最近的新的中心点对应的簇,通过将每个簇的特征点的均值作为每个簇的新的中心点,可以快速确定每个簇的新的中心点,从而确定簇,可以提高计算速度。
为了便于理解本申请,参见图6,是本申请一示例性实施例提供的对特征向量进行聚类的簇的示意图,如图6所示,①、②、③、④分别为4个中心点,与中心点①、中心点②、中心点③、中心点④在一个无规则圆圈内的特征点分别组成簇①、簇②、簇③、簇④。从图6可以看出,特征点A到中心点①、中心点②、中心点③、中心点④的距离中,特征点A到中心点①的距离是最小的,所以特征点A是簇①中的点。在计算距离矩阵的时候,不需要计算特征点A到其余所有特征点的距离,只需要先计算特征点A到各个簇的中心点的距离(如图中的线条a),再选择预设个距离最近的中心点所在的簇(本实施例中只选择与特征点A距离最近的一个中心点所在的簇),计算特征点A到这些簇中的所有特征点的距离即可(如图中线条b)。当对n个特征向量进行分类时,按现有技术的方法需要计算每个对应的特征特征向量点到其他各个特征向量对应的特征点的距离,即需要计算n-1次距离;当将n个特征向量对应的特征点先分成m个簇时,只需要计算m+t次距离(其中,m表示簇的数量,t表示m个簇中的所有特征点的数量之和)。一般来说,对于n=100W,可以假想为空间内有100W个特征点,(m+t)的值仅仅为n=100W的1%,距离计算量减少了约99%。并且,进一步地,可以从m个簇中选择R个距离最近的中心点所在的簇,只需要计算R+s(其中,R表示距离最近的簇的数量,s表示R个簇中的所有特征点的数量之和),从而计算距离的时间复杂度从采用现有技术的O(nlogn)降低到了O(nlogR),计算量减少为现有技术的1%~0.1%。与此同时,在绝大多数应用场景下,每个类别的图片分布差异不会非常极端,比如:地铁口的监控摄像头每月拍到的人脸数量,上班族里同一个人的抓拍图会出现30~60次(上下班都坐地铁的情况),假设这个地铁口每月的人流量50万人,除了地铁口的工作人员会被多次抓拍,导致其抓拍图的数量超过60(一般会远高于60,假设为100),假设这个地铁口的工作人员有10人,将每一个出现在该地铁口且被抓拍到的人视作一个样本,因此出现次数小于等于100的样本占据总样本的(500000-10)/500000*100%=99.998%,即,R设置为100对精度的影响仅仅约为十万分之一,若R取更大的值,其误差完全可以降低到万分之一甚至更低。所以采用本申请的方法,可以在几乎不损失密度聚类算法的准确度的前提下,将算法时间复杂度从平方阶优化到线性级别,大幅提升了算法的效率,提高了计算的速度。
需要说明的是,图6仅以4个簇以及4个特征点为例进行示例性说明,其个数并不能形成对本公开的限制,本公开中簇以及其中心点的数量由具体应用场景(如人脸识别、商品识别、行人识别等)中样本对应的特征向量的个数和距离确定。
示例性装置
图7是本申请一示例性实施例提供的对特征向量进行聚类的装置的结构示意图。本申请实施例提供的对特征向量进行聚类的装置可应用到汽车的图像处理领域,亦可应用到智能机器人的图像处理类功能领域。如图7所示,本申请实施例提供的对特征向量进行聚类的装置,包括:
特征向量确定模块201,用于确定多个待聚类图像中每个待聚类图像的特征向量;
簇确定模块202,用于根据多个特征向量之间的距离近似关系,确定每个特征向量所在的簇;其中,簇是距离相近的一组特征向量的集合,每个特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近;
聚类模块203,用于根据每个特征向量与每个簇之间的距离,确定与每个特征向量类型相同的特征向量。
图8是本申请一示例性实施例提供的聚类模块的结构示意图。在本申请图7所示实施例的基础上延伸出本申请图8所示实施例,下面着重叙述图8所示实施例与图7所示实施例的不同之处,相同之处不再赘述。
如图8所示,在本申请实施例提供的对特征向量进行聚类的装置中,聚类模块203包括:
距离确定单元2031,用于将每个特征向量分别作为当前特征向量,确定当前特征向量对应的特征点与每个簇的中心点的距离;
聚类单元2032,用于根据当前特征向量对应的特征点与每个簇的中心点的距离,确定与当前特征向量类型相同的特征向量。
图9是本申请一示例性实施例提供的聚类单元的结构示意图。在本申请图8所示实施例的基础上延伸出本申请图9所示实施例,下面着重叙述图9所示实施例与图8所示实施例的不同之处,相同之处不再赘述。
在本申请实施例提供的对特征向量进行聚类的装置中,聚类单元2032包括:
簇确定子单元20321,用于根据当前特征向量对应的特征点与每个簇的中心点的距离,确定预设个距离最近的簇;
距离确定子单元20322,用于确定当前特征向量对应的特征点与预设个距离最近的簇中的每个特征点的距离;
聚类子单元20323,用于根据当前特征向量对应的特征点与预设个距离最近的簇中的每个特征点的距离,确定预设个距离最近的簇中的与当前特征向量类型相同的特征向量。
图10是本申请一示例性实施例提供的簇确定模块的结构示意图。在本申请图7所示实施例的基础上延伸出本申请图10所示实施例,下面着重叙述图10所示实施例与图7所示实施例的不同之处,相同之处不再赘述。
如图10所示,在本申请实施例提供的对特征向量进行聚类的装置中,簇确定模块202包括:
选择单元2021,用于从多个特征向量对应的特征点中选择K个点作为初始的中心点,其中,所述K为自然数;
距离确定单元2022,用于确定每个特征向量对应的特征点与每个初始的中心点的距离;
组合单元2023,用于将每个特征向量对应的特征点和与其距离最近的每个初始的中心点组合,形成K个簇;
确定单元2024,用于重新确定K个簇中每个簇的中心点和特征点;
处理单元2025,用于当满足预设终止确定条件时,将满足预设终止确定条件时,确定的每个簇的中心点和特征点作为每个簇的最终的中心点和特征点。
图11是本申请一示例性实施例提供的确定单元的结构示意图。在本申请图10所示实施例的基础上延伸出本申请图11所示实施例,下面着重叙述图11所示实施例与图10所示实施例的不同之处,相同之处不再赘述。
如图11所示,在本申请实施例提供的对特征向量进行聚类的装置中,确定单元2024包括:
计算子单元20241,用于计算簇中每个簇的特征点的均值;
处理子单元20242,用于将每个簇的特征点的均值作为每个簇的新的中心点;
距离确定子单元20243,用于确定每个特征向量对应的特征点与每个所述新的中心点的距离;
划分子单元20244,用于将每个特征向量对应的特征点划分在与其距离最近的所述新的中心点对应的簇。
应当理解,图7至图11提供的对特征向量进行聚类的装置中的特征向量确定模块201、簇确定模块202和聚类模块203,以及聚类模块203中包括的距离确定单元2031、聚类单元2032,聚类单元2032中包括的簇确定子单元20321、距离确定子单元20322和聚类子单元20323,簇确定模块202中包括的选择单元2021、距离确定单元2022、组合单元2023、确定单元2024和处理单元2025,确定单元2024中包括的计算子单元20241、处理子单元20242、距离确定子单元20243和划分子单元20244的操作和功能可以参考上述图1至图5提供的对特征向量进行聚类的方法,为了避免重复,在此不再赘述。
示例性电子设备
图12图示了根据本申请实施例的电子设备的框图。
如图12所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的对特征向量进行聚类的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置113可以是摄像头或麦克风、麦克风阵列等,用于捕捉图像或声源的输入信号。在该电子设备是单机设备时,该输入装置113可以是通信网络连接器,用于从网络处理器接收所采集的输入信号。
此外,该输入设备113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图12中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的对特征向量进行聚类的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对特征向量进行聚类的方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种对特征向量进行聚类的方法,包括:
确定多个待聚类图像中每个所述待聚类图像的特征向量;
根据多个所述特征向量之间的距离近似关系,确定每个所述特征向量所在的簇;其中,所述簇是距离相近的一组所述特征向量的集合,每个所述特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近;
根据每个所述特征向量与每个所述簇之间的距离,确定与每个所述特征向量类型相同的特征向量。
2.根据权利要求1所述的方法,其中,根据每个所述特征向量与每个所述簇之间的距离,确定与每个所述特征向量类型相同的特征向量,包括:
将每个所述特征向量分别作为当前特征向量,确定所述当前特征向量对应的特征点与每个所述簇的中心点的距离;
根据所述当前特征向量对应的特征点与每个所述簇的中心点的距离,确定与所述当前特征向量类型相同的特征向量。
3.根据权利要求2所述的方法,其中,根据所述当前特征向量对应的特征点与每个所述簇的中心点的距离,确定与所述当前特征向量类型相同的特征向量,包括:
根据所述当前特征向量对应的特征点与每个所述簇的中心点的距离,确定预设个距离最近的簇;
确定所述当前特征向量对应的特征点与所述预设个距离最近的簇中的每个特征点的距离;
根据所述当前特征向量对应的特征点与所述预设个距离最近的簇中的每个特征点的距离,确定所述预设个距离最近的簇中的与所述当前特征向量类型相同的特征向量。
4.根据权利要求1所述的方法,其中,根据多个所述特征向量之间的距离近似关系,确定每个所述特征向量所在的簇,包括:
从多个所述特征向量对应的特征点中选择K个点作为初始的中心点,其中,所述K为自然数;
确定每个所述特征向量对应的特征点与每个所述初始的中心点的距离;
将每个所述特征向量对应的特征点和与其距离最近的每个所述初始的中心点组合,形成K个所述簇;
重新确定K个所述簇中每个所述簇的中心点和特征点;
当满足预设终止确定条件时,将满足所述预设终止确定条件时,确定的每个所述簇的中心点和特征点作为每个所述簇的最终的中心点和特征点。
5.根据权利要求4所述的方法,其中,重新确定K个所述簇中每个所述簇的中心点和特征点,包括:
计算所述簇中每个所述簇的特征点的均值;
将每个所述簇的特征点的均值作为每个所述簇的新的中心点;
确定每个所述特征向量对应的特征点与每个所述新的中心点的距离;
将每个所述特征向量对应的特征点划分在与其距离最近的所述新的中心点对应的簇。
6.一种对特征向量进行聚类的装置,包括:
特征向量确定模块,用于确定多个待聚类图像中每个所述待聚类图像的特征向量;
簇确定模块,用于根据多个所述特征向量之间的距离近似关系,确定每个所述特征向量所在的簇;其中,所述簇是距离相近的一组所述特征向量的集合,每个所述特征向量到其所在簇的中心点的距离与其到其他簇的中心点的距离相比,距离最近;
聚类模块,根据每个所述特征向量与每个所述簇之间的距离,确定与每个所述特征向量类型相同的特征向量。
7.根据权利要求6所述的装置,其中,所述聚类模块,包括:
距离确定单元,用于将每个所述特征向量分别作为当前特征向量,确定所述当前特征向量对应的特征点与每个所述簇的中心点的距离;
聚类单元,用于根据所述当前特征向量对应的特征点与每个所述簇的中心点的距离,确定与所述当前特征向量类型相同的特征向量。
8.根据权利要求7所述的装置,其中,所述聚类单元,包括:
簇确定子单元,用于根据所述当前特征向量对应的特征点与每个所述簇的中心点的距离,确定预设个距离最近的簇;
距离确定子单元,用于确定所述当前特征向量对应的特征点与所述预设个距离最近的簇中的每个特征点的距离;
聚类子单元,用于根据所述当前特征向量对应的特征点与所述预设个距离最近的簇中的每个特征点的距离,确定所述预设个距离最近的簇中的与所述当前特征向量类型相同的特征向量。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的对特征向量进行聚类的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-5任一所述的对特征向量进行聚类的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910620718.3A CN112215247A (zh) | 2019-07-10 | 2019-07-10 | 对特征向量进行聚类的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910620718.3A CN112215247A (zh) | 2019-07-10 | 2019-07-10 | 对特征向量进行聚类的方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112215247A true CN112215247A (zh) | 2021-01-12 |
Family
ID=74047560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910620718.3A Pending CN112215247A (zh) | 2019-07-10 | 2019-07-10 | 对特征向量进行聚类的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215247A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100202686A1 (en) * | 2009-02-10 | 2010-08-12 | Canon Kabushiki Kaisha | Image processing method, image processing apparatus, and program |
US20100202685A1 (en) * | 2009-02-06 | 2010-08-12 | Canon Kabushiki Kaisha | Image processing method, image processing apparatus, and program |
JP2012079187A (ja) * | 2010-10-05 | 2012-04-19 | Yahoo Japan Corp | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム |
US20160063321A1 (en) * | 2014-08-29 | 2016-03-03 | Ancestry.Com Operations Inc. | System and method for transcribing historical records into digitized text |
JP2016085490A (ja) * | 2014-10-22 | 2016-05-19 | 高田 健治 | 顔形態の評価システム及び評価方法 |
CN108805174A (zh) * | 2018-05-18 | 2018-11-13 | 广东惠禾科技发展有限公司 | 聚类方法及装置 |
CN109815788A (zh) * | 2018-12-11 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种图片聚类方法、装置、存储介质及终端设备 |
-
2019
- 2019-07-10 CN CN201910620718.3A patent/CN112215247A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100202685A1 (en) * | 2009-02-06 | 2010-08-12 | Canon Kabushiki Kaisha | Image processing method, image processing apparatus, and program |
US20100202686A1 (en) * | 2009-02-10 | 2010-08-12 | Canon Kabushiki Kaisha | Image processing method, image processing apparatus, and program |
JP2012079187A (ja) * | 2010-10-05 | 2012-04-19 | Yahoo Japan Corp | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム |
US20160063321A1 (en) * | 2014-08-29 | 2016-03-03 | Ancestry.Com Operations Inc. | System and method for transcribing historical records into digitized text |
JP2016085490A (ja) * | 2014-10-22 | 2016-05-19 | 高田 健治 | 顔形態の評価システム及び評価方法 |
CN108805174A (zh) * | 2018-05-18 | 2018-11-13 | 广东惠禾科技发展有限公司 | 聚类方法及装置 |
CN109815788A (zh) * | 2018-12-11 | 2019-05-28 | 平安科技(深圳)有限公司 | 一种图片聚类方法、装置、存储介质及终端设备 |
Non-Patent Citations (1)
Title |
---|
邹臣嵩;刘松;: "基于谱聚类的全局中心快速更新聚类算法", 计算机与现代化, no. 10, 15 October 2018 (2018-10-15), pages 6 - 11 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN108229419B (zh) | 用于聚类图像的方法和装置 | |
CN111414987A (zh) | 神经网络的训练方法、训练装置和电子设备 | |
CN111428805B (zh) | 显著性物体的检测方法、模型、存储介质及电子设备 | |
CN111242291A (zh) | 神经网络后门攻击的检测方法、装置和电子设备 | |
US11636667B2 (en) | Pattern recognition apparatus, pattern recognition method, and computer program product | |
CN110705602A (zh) | 大规模数据聚类方法、装置及计算机可读存储介质 | |
CN115809887B (zh) | 一种基于发票数据确定企业主要经营范围的方法和装置 | |
WO2022192291A1 (en) | Evolutional deep neural networks | |
CN115082920A (zh) | 深度学习模型的训练方法、图像处理方法和装置 | |
CN114187483A (zh) | 生成对抗样本的方法、检测器的训练方法及相关设备 | |
CN113449840A (zh) | 神经网络训练方法及装置、图像分类的方法及装置 | |
US20240012966A1 (en) | Method and system for providing a three-dimensional computer aided-design (cad) model in a cad environment | |
CN114139630A (zh) | 姿态识别方法、装置、存储介质和电子设备 | |
CN113780365A (zh) | 样本生成方法和装置 | |
CN112800217A (zh) | 基于向量关联性矩阵的政务事务处理报告的智能评估方法 | |
CN112016677A (zh) | 深度神经网络的训练方法、装置和电子设备 | |
US7457788B2 (en) | Reducing number of computations in a neural network modeling several data sets | |
CN111062944A (zh) | 网络模型训练方法及装置、图像分割方法及装置 | |
CN112215247A (zh) | 对特征向量进行聚类的方法、装置及电子设备 | |
EP1837807A1 (en) | Pattern recognition method | |
CN112907501B (zh) | 物体检测方法、装置及电子设备 | |
CN113496119B (zh) | 抽取表格中的元组数据的方法、电子设备和计算机可读介质 | |
CN110009625B (zh) | 基于深度学习的图像处理系统、方法、终端、及介质 | |
CN113642654A (zh) | 图像特征的融合方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |