CN112749748B - 基于归约的数据增量聚类方法、系统、介质及装置 - Google Patents

基于归约的数据增量聚类方法、系统、介质及装置 Download PDF

Info

Publication number
CN112749748B
CN112749748B CN202110049704.8A CN202110049704A CN112749748B CN 112749748 B CN112749748 B CN 112749748B CN 202110049704 A CN202110049704 A CN 202110049704A CN 112749748 B CN112749748 B CN 112749748B
Authority
CN
China
Prior art keywords
data
cluster
new
old
reduced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110049704.8A
Other languages
English (en)
Other versions
CN112749748A (zh
Inventor
周超
田国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Original Assignee
Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd filed Critical Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority to CN202110049704.8A priority Critical patent/CN112749748B/zh
Publication of CN112749748A publication Critical patent/CN112749748A/zh
Application granted granted Critical
Publication of CN112749748B publication Critical patent/CN112749748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于图像数据处理的技术领域,具体涉及一种基于归约的数据增量聚类方法、系统、介质及装置。本发明旨在解决当图像数据规模很庞大时,在实现搜索和遍历的步骤时存在对单机容量要求高、数据处理耗时长,导致图像增量聚类的效率低的问题。为此目的,本发明在将新增数据与历史数据进行聚类的过程中,只是通过归约新簇与归约老簇进行匹配或者聚类,而不是直接将所有的新增数据与历史数据进行聚类。从而,通过在新增的数据和历史数据聚类之前分别对各自的簇进行归约处理,减少了新增数据与历史数据聚类时的运算量以及降低了对运行内存的需求,并节约了聚类的时间成本和经济成本。

Description

基于归约的数据增量聚类方法、系统、介质及装置
技术领域
本发明属于图像数据处理的技术领域,具体涉及一种基于归约的数据增量聚类方法、系统、介质及装置。
背景技术
人员管理系统、视频监控系统等采集的人脸图像的数量一般呈指数增长,形成海量的人脸库。为了实现对人脸图像的管理、检索和查询,经常需要对人脸图像进行聚类。即当采集到新增加的人脸图像时,需要先对该新增的人脸图像进行特征识别,然后将其与属于同一类别的老的人脸图像进行归类并存储,该过程即涉及到图像增量聚类技术。
在现有的图像增量聚类技术中,主要采用连接传递的聚类算法,如DBSCAN算法等。在此类算法中,完成图像特征的最近邻矩阵(KNN)搜索和对最近邻矩阵的遍历都是必不可少的步骤。如果直接在图像增量数据与图像老数据混合后,进行全量最近邻矩阵搜索和最近邻矩阵遍历,则当后期的图像数据规模很庞大时,会在实现搜索和遍历的步骤时存在对单机容量要求高、数据处理耗时长,导致图像增量聚类的效率低的问题。
相应地,本领域需要一种改进的基于归约的数据增量聚类方法、系统、介质及装置来解决上述问题。
发明内容
为了解决或至少部分解决:当图像数据规模很庞大时,在实现搜索和遍历的步骤时存在对单机容量要求高、数据处理耗时长,导致图像增量聚类的效率低的问题。本发明提供了一种基于归约的数据增量聚类方法、系统、介质及装置。
第一方面,本发明提供了一种基于归约的数据增量聚类方法,包括:在数据库中新增数据后,对新增的数据进行聚类而获得一个或多个原始新簇;对所述原始新簇中的数据进行归约处理,得到归约新簇;对数据库中加入所述新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;将所述归约新簇与所述归约老簇进行匹配,得到与所述归约新簇匹配成功的归约老簇;根据所述归约新簇与匹配成功的归约老簇的对应关系,将所述原始新簇中的全部数据增加到原始老簇中,对于每个原始新簇匹配成功则新增到对应的原始老簇中,未匹配成功则作为原始老簇中独立的簇,从而完成对所述原始老簇的数据的更新。
作为本发明提供的上述方法的一种优选的技术方案,对新增的数据进行聚类而获得一个或多个原始新簇的步骤,包括:先对新增的数据进行全量搜索得到新数据近邻矩阵;所述新数据近邻矩阵由与一个新增的数据邻近的多个其他新增的数据组成;通过对所述新数据近邻矩阵的遍历分析并采用聚类算法对新增的数据进行聚类,以获得一个或多个所述原始新簇。
作为本发明提供的上述方法的一种优选的技术方案,对新增的数据进行全量搜索,得到新数据近邻矩阵的步骤,包括:先得到第一TopK最近邻矩阵,所述第一TopK最近邻矩阵由与新增的一个数据邻近的K个其他新增的数据组成;然后在所述第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据组成所述新数据近邻矩阵。
作为本发明提供的上述方法的一种优选的技术方案,对所述原始新簇中的数据进行归约处理,得到包含所述原始新簇中部分数据的归约新簇的步骤,包括:在所述原始新簇的数据中进行采样,从而得到包含所述原始新簇中部分数据的归约新簇。
作为本发明提供的上述方法的一种优选的技术方案,所述采样的方法包括随机采样和密度中心采样中的至少一种;或者,在进行采样时,所用的采样算法包括重要性采样和马尔科夫蒙特卡洛采样中的至少一种。
作为本发明提供的上述方法的一种优选的技术方案,将所述归约新簇与所述归约老簇进行匹配,得到与所述归约新簇匹配成功的归约老簇的步骤,包括:先将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵;所述老数据近邻矩阵由与所述新簇邻近的多个归约老簇组成;然后对所述老数据近邻矩阵进行遍历分析,以得到与所述归约新簇匹配成功的归约老簇。
作为本发明提供的上述方法的一种优选的技术方案,将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵的步骤,包括:先得第二TopK最近邻矩阵,所述第二TopK最近邻矩阵由与所述归约新簇最邻近的K个老簇组成;然后在所述第二TopK最近邻矩阵中选取满足第二搜索半径的归约老簇组成所述老数据近邻矩阵。
作为本发明提供的上述方法的一种优选的技术方案,在将所述原始新簇中的数据增加到对应的原始老簇中的步骤之后,所述方法还包括:对更新后的所述原始老簇中的数据进行归约处理,得到包含更新后的所述原始老簇中部分数据的新的归约老簇。
作为本发明提供的上述方法的一种优选的技术方案,在对新增的数据进行聚类而获得一个或多个原始新簇的步骤中,采用的聚类算法为K-means、DBSCAN、或层次聚类算法中的至少一种。
第二方面,本发明提供了一种基于归约的数据增量聚类系统,所述系统包括:聚类模块,用于在数据库中新增数据后,对新增的数据进行聚类而获得一个或多个原始新簇;归约模块,用于对所述原始新簇中的数据进行归约处理,得到归约新簇;所述归约模块还用于对数据库中加入所述新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;匹配模块,用于将所述归约新簇与所述归约老簇进行匹配,得到与所述归约新簇匹配成功的归约老簇;更新模块:用于根据所述归约新簇与匹配成功的归约老簇的对应关系,将所述原始新簇中的数据增加到对应的原始老簇中,完成对所述原始老簇中的数据的更新。
作为本发明提供的上述系统的一种优选的技术方案,所述聚类模块具体用于:先对新增的数据进行全量搜索,得到新数据近邻矩阵,所述新数据近邻矩阵由与一个新增的数据邻近的多个其他新增的数据组成;通过对所述新数据近邻矩阵的遍历分析并采用聚类算法对新增的数据进行聚类,以获得一个或多个所述原始新簇。
作为本发明提供的上述系统的一种优选的技术方案,所述聚类模块还具体用于:在对新增的数据进行全量搜索,得到新数据近邻矩阵中,先得到一TopK最近邻矩阵,所述一TopK最近邻矩阵由与新增的一个数据邻近的K个其他新增的数据组成;然后在所述第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据组成所述新数据近邻矩阵。
作为本发明提供的上述系统的一种优选的技术方案,所述归约模块具体用于:在所述原始新簇的数据中进行采样,从而得到包含所述原始新簇中部分数据的归约新簇。
作为本发明提供的上述系统的一种优选的技术方案,所述匹配模块具体用于:先将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵;所述老数据近邻矩阵由与所述新簇邻近的多个归约老簇组成;然后对所述老数据近邻矩阵进行遍历分析,以得到与所述归约新簇匹配成功的归约老簇。
作为本发明提供的上述系统的一种优选的技术方案,所述匹配模块还具体用于:在将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵中:先得到第二TopK最近邻矩阵,所述第二TopK最近邻矩阵由与所述归约新簇最邻近的K个老簇组成;然后在所述第二TopK最近邻矩阵中选取满足第二搜索半径的归约老簇组成所述老数据近邻矩阵。
第三方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行前述第一方面中任一技术方案所述的方法。
第四方面,本发明还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有多条程序代码,所述程序代码适于由所述处理器加载并运行以执行前述第一方面中任一技术方案所述的方法。
本发明提供的一种基于归约的数据增量聚类方法、系统、介质及装置,在数据库中新增数据后,先对新增的数据进行聚类而获得一个或多个原始新簇,然后对原始新簇中的数据进行归约处理,得到归约新簇;以及对数据库中加入新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;通过将归约新簇与归约老簇进行匹配,得到与归约新簇匹配成功的归约老簇,根据归约新簇与匹配成功的归约老簇的对应关系,将原始新簇中的数据增加到对应的原始老簇中,即可完成对原始老簇中的数据的更新。如此,在将新增数据与历史数据进行聚类的过程中,只是通过归约新簇与归约老簇进行匹配或者聚类,而不是直接将所有的新增数据与历史数据进行聚类。从而,通过在新增的数据和历史数据聚类之前分别对各自的簇进行归约处理,减少了新增数据与历史数据聚类时的运算量以及降低了对运行内存的需求,并节约了聚类的时间成本和经济成本。
此外,本发明提供的一种基于归约的数据增量聚类方法、系统、介质及装置,在对新增的数据进行全量搜索,得到与一个新增的数据邻近的多个其他新增的数据组成的新数据近邻矩阵时,通过先得到与新增的一个数据邻近的K个其他新增的数据组成的第一TopK最近邻矩阵,以在保证数据处理性能的同时降低对运行内存的需求,使得后续遍历分析的时间成本降低;然后在第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据并将其他近邻分数低的数据剔除,以组成新数据近邻矩阵,通过进一步减少数据,保证了后续遍历分析的处理效率。
附图说明
下面参照附图来描述本实施例的具体实施方式,附图中:
图1为本实施例的基于归约的数据增量聚类方法的主要流程示意图;
图2为本实施例的基于归约的数据增量聚类方法的详细流程示意图;
图3为本实施例的基于归约的数据增量聚类系统的主要模块结构图;
图4为本实施例提供的第一种终端设备的硬件结构示意图;
图5为本实施例提供的第二种终端设备的硬件结构示意图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。例如,虽然本实施例提供的一种基于归约的数据增量聚类方法、系统、介质及装置主要是为了解决在新增的图片数据的存储处理过程中遇到的问题,即最先为了应用于视频大数据系统中,但是该方法的应用对象非一成不变的,在不偏离本发明原理的条件下,本领域技术人员可以根据需要对其作出调整,以便适应具体的应用场合。例如,该基于归约的数据增量聚类方法还可以应用于语音数据和文字数据的存储处理系统中。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。
术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。当然,上述可以替换的实施方式之间、以及可以替换的实施方式和优选的实施方式之间还可以交叉配合使用,从而组合出新的实施方式以适用于更加具体的应用场景。
为了解决当图像数据规模很庞大时,在实现搜索和遍历的步骤时存在对单机容量要求高、数据处理耗时长,导致图像增量聚类的效率低的问题。本实施例提供了一种基于归约的数据增量聚类方法、系统、介质及装置。
第一方面
在本实施例提供的一种基于归约的数据增量聚类方法中,如图1所示,该方法包括:
S1、在数据库中新增数据后,对新增的数据进行聚类而获得一个或多个原始新簇。可以理解的是,在步骤S1中,先对新增的数据进行聚类,便于在之后的步骤中将分类好的原始新簇通过具体的匹配方法与原始老簇匹配。
在实现对新增的数据进行聚类而获得一个或多个原始新簇的步骤过程中,采用的聚类算法可以为K-means、DBSCAN、或层次聚类算法中的至少一种。其中,如图2所示,实现步骤S1的具体过程可以为:
S11、先对新增的数据进行全量搜索,得到新数据近邻矩阵,该新数据近邻矩阵由与一个新增的数据邻近的多个其他新增的数据组成。本领域技术人员可以理解的是,该过程包括:对新增的数据进行N:N的全量搜索,得到新增数据之间的近邻关系,结果为近邻矩阵。其中,检索数据和底库数据相同,均为新增的数据。
步骤S11具体包括:通过先得到第一TopK最近邻矩阵,该第一TopK最近邻矩阵由与新增的一个数据邻近的K个其他新增的数据组成,以在保证数据处理性能的同时,降低对运行内存的需求,使得后续遍历分析的时间成本降低;然后在第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据并将其他近邻分数低的数据剔除,以组成新数据近邻矩阵。如此,通过进一步筛除与一新增的数据的近邻度较差的历史数据,保证了后续遍历分析的处理效率。
S12、通过对新数据近邻矩阵的遍历分析并采用聚类算法对新增的数据进行聚类,以获得一个或多个原始新簇。其中,步骤S12可以通过kruakal algorithm(即克鲁斯卡尔算法)、Prim algorithm(即普里姆算法)中的任一种遍历算法来实现。该过程一般包括使用遍历算法对新数据近邻矩阵进行分析,生成最小生成树;再按照最小生成树采用如DBSCAN等聚类算法对新增的数据进行聚类。
S2、对原始新簇中的数据进行归约处理,得到归约新簇。
其中,步骤S2的实现过程可以为:在原始新簇的数据中进行采样,从而得到包含原始新簇中部分数据的归约新簇。进一步,在原始新簇的数据中进行采样的方法可以为随机采样和密度中心采样等。此外,在进行数据采样时,一般可以通过重要性采样和马尔科夫蒙特卡洛采样等采样算法来实现该过程。
可以理解的是,通过步骤S2得到归约新簇,来进行后续的聚类运算,由于降低了参与聚类运算的数据量,从而能够节约新增数据与历史数据进行聚类时对运行内存的要求。
S3、将归约新簇与归约老簇进行匹配,得到与归约新簇匹配成功的归约老簇。通过将归约新簇与归约老簇进行匹配,一方面能保证新增数据与历史数据聚类的效率,另一方面新增数据与历史数据聚类的准确度也较高。如图2所示,实现步骤S3的过程具体可以为:
S31、先将归约新簇中的数据(即新增的数据的一部分)作为检索数据并将归约老簇中的数据(即历史数据的一部分)作为底库数据进行单向搜索,得到老数据近邻矩阵;该老数据近邻矩阵由与新簇邻近的多个归约老簇组成。在步骤S31中,对归约新簇中包含的部分新增数据与归约老簇包含的部分历史数据进行M:N的单向搜索,得到数据的近邻关系,结果为老数据近邻矩阵。其中检索数据M和底库数据N不同,只进行M对N的近邻搜索。
步骤S31的具体实现过程可以为:先得到第二TopK最近邻矩阵,该第二TopK最近邻矩阵由与归约新簇最邻近的K个老簇组成,以在保证数据处理性能的同时降低对运行内存的需求,使得后续对老数据近邻矩阵遍历分析的时间成本降低,然后在第二TopK最近邻矩阵中选取满足第二搜索半径的归约老簇并将其他近邻分数低的归约老簇剔除,以组成老数据近邻矩阵。通过进一步筛除与一归约新簇的近邻度较差的归约老簇,保证了后续遍历分析的处理效率。
S32、然后对老数据近邻矩阵进行遍历分析,以得到与归约新簇匹配成功的归约老簇。即,完成了归约新簇和归约老簇的匹配或者聚类,同时也得到了对应于原始新簇与原始老簇的匹配关系。
S4、根据归约新簇与匹配成功的归约老簇的对应关系,将原始新簇中的数据增加到对应的原始老簇中,完成对原始老簇中的数据的更新。即,同时也得到新的原始老簇。
需要说明的是,当归约新簇与归约老簇匹配失败时,可以将归约新簇独立加入到数据库中作为新的底库数据,可以在后续作为归约老簇与新的归约新簇进行匹配。
本实施例提供的一种基于归约的数据增量聚类方法中,在数据库中新增数据后,先对新增的数据进行聚类而获得一个或多个原始新簇,然后对原始新簇中的数据进行归约处理,得到归约新簇;以及对数据库中加入新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;通过将归约新簇与归约老簇进行匹配,得到与归约新簇匹配成功的归约老簇,根据归约新簇与匹配成功的归约老簇的对应关系,将原始新簇中的数据增加到对应的原始老簇中,即可完成对原始老簇中的数据的更新。如此,在将新增数据与历史数据进行聚类的过程中,只是通过归约新簇与归约老簇进行匹配或者聚类,而不是直接将所有的新增数据与历史数据进行聚类。从而,通过在新增的数据和历史数据聚类之前分别对各自的簇进行归约处理,减少了新增数据与历史数据聚类时的运算量以及降低了对运行内存的需求,并节约了聚类的时间成本和经济成本。
需要说明的是,尽管上文详细描述了本实施例方法的详细步骤,但是,在不偏离本实施例的基本原理的前提下,本领域技术人员可以对上述步骤进行组合、拆分及调换顺序,如此修改后的实施范式并没有改变本实施例的基本构思,因此也落入本实施例的保护范围之内。例如,在图1中,由于在步骤S3中用到了归约老簇,所以在步骤S3之前需要预先得到归约老簇,将该步骤表示为S100,步骤S100包括:对数据库中加入新增数据之前的数据的原始老簇进行归约处理,得到归约老簇。需要说明的是,步骤S100可以在步骤S1、S2之前,也可以与步骤S1、S2同时进行。
作为本实施例提供的上述方法的一种优选的实施范式,如图2所示,在将原始新簇中的数据增加到对应的原始老簇中的步骤之后,该方法还包括:
S5、对更新后的原始老簇中的数据进行归约处理,得到包含更新后的原始老簇中部分数据的新的归约老簇。从而,在数据库中完成对原始老簇中的数据更新后即得到各原始老簇对应的新的归约老簇,以供后续在新增数据之后,直接与归约新簇进行匹配或者聚类。实质上,步骤S5起到了与步骤S100相同的作用,所以在图2中所示的实施例中,如果有步骤S5,可以将步骤S100取消。
进一步,本实施例的基于归约的数据增量聚类方法的优点具体还包括:
1)能对更大规模的数据进行聚类
对历史数据进行依据簇信息进行数据归约,将数据的规模控制到和档案数相关,而非和样本数相关,在实际场景中,档案数一般具有上限,如人口档案等,而样本数随着增量聚类的时间是不断增加的,如对于人脸的抓拍照,所以对历史数据的归约在大规模数据集中能很好的控制整体数据的规模;从而提升聚类的容量,处理更大规模的数据。
2)数据聚类速度更快
聚类速度的提升一方面来源于对于历史数据的归约,控制了数据规模;另一方面来源于将一次增量聚类拆分为两次聚类,即增量数据的全量聚类和增量数据与历史数据的聚类。
在实际运用中,增量数据往往来自于具有较高时间相关性和空间相关性的数据,如位置比较近的摄像头在一段时间采集到的数据,所以增量数据相互之间相关性较大,合并的概率较高,数据归约后的数据压缩率高;假设归约后的历史数据规模为m,增量数据规模为N,其中归约后的增量数据为n,(m>>N,N为n的7倍左右)则优化之前的搜索规模为N:(N+m)=N:N+N:m;而分两步聚类优化后规模为N:N+n:m,整体搜索规模降低,速度提升;分两步聚类的总体KNN(K-Nearest Neighbor,即K最近邻算法),K结果规模也小于优化前,对KNN的遍历速度也有较大提升。
3)提升了数据聚类的效果
对于增量聚类数据,因为时空相关性比较大,优先进行聚类合并,能有效降低大量历史数据对其的干扰,获得较好的合并效果。由于KNN结果队列TopK毕竟是有限的,且相对于整体数据规模而言很小。所以,对于增量数据与历史数据的聚类合并,通过对历史数据规模的控制,可以控制整体数据规模,提升容量和速度的同时,降低高分负例的比例和影响,从而获得较好的聚类性能。
第二方面
本实施例提供的一种基于归约的数据增量聚类系统中,如图3所示,该系统包括:聚类模块1、归约模块2、匹配模块3和更新模块4。具体地:
聚类模块1,用于在数据库中新增数据后,对新增的数据进行聚类而获得一个或多个原始新簇;归约模块2,用于对原始新簇中的数据进行归约处理,得到归约新簇;归约模块2还用于对数据库中加入新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;匹配模块3,用于将归约新簇与归约老簇进行匹配,得到与归约新簇匹配成功的归约老簇;更新模块4:用于根据归约新簇与匹配成功的归约老簇的对应关系,将原始新簇中的数据增加到对应的原始老簇中,完成对原始老簇中的数据的更新。
作为本实施例提供的上述系统的一种优选的实施范式,聚类模块1具体用于:先对新增的数据进行全量搜索,得到新数据近邻矩阵;该新数据近邻矩阵由与一个新增的数据邻近的多个其他新增的数据组成;通过对新数据近邻矩阵的遍历分析并采用聚类算法对新增的数据进行聚类,以获得一个或多个原始新簇。
作为本实施例提供的上述系统的一种优选的实施范式,聚类模块1还具体用于:在对新增的数据进行全量搜索,得到新数据近邻矩阵中,先得到第一TopK最近邻矩阵,该第一TopK最近邻矩阵由与新增的一个数据邻近的K个其他新增的数据组成;然后在第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据组成新数据近邻矩阵。
作为本实施例提供的上述系统的一种优选的实施范式,归约模块2具体用于:在原始新簇的数据中进行采样,从而得到包含原始新簇中部分数据的归约新簇。
作为本实施例提供的上述系统的一种优选的实施范式,匹配模块3具体用于:先将归约新簇中的数据作为检索数据并将归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵;所述老数据近邻矩阵由与新簇邻近的多个归约老簇组成;然后对老数据近邻矩阵进行遍历分析,以得到与归约新簇匹配成功的归约老簇。
作为本实施例提供的上述系统的一种优选的实施范式,匹配模块3还具体用于:在将归约新簇中的数据作为检索数据并将归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵中:先得到第二TopK最近邻矩阵,所述第二TopK最近邻矩阵由与归约新簇最邻近的K个老簇组成;然后在第二TopK最近邻矩阵中选取满足第二搜索半径的归约老簇组成老数据近邻矩阵。
需要说明的是,本实施例提供的基于归约的数据增量聚类系统与前述实施例1中的基于归约的数据增量聚类方法是相互对应的,故不再对本实施例中的系统进行赘述,关于该系统的说明请参见前述的第一方面中的内容。
要说明的是,上述实施例提供的基于归约的数据增量聚类系统,仅以上述各功能模块(如聚类模块1、归约模块2、匹配模块3、更新模块4等)的划分进行举例说明,在实际应用中,可以根据需要而将上述功能模块由不同的功能模块来完成,即将本发明实施例中的功能模块再分解或者组合,例如,上述实施例的功能模块可以合并为一个功能模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的功能模块名称,仅仅是为了进行区分,不视为对本实施例的不当限定。
第三方面
本领域的技术人员应当理解的是,在本实施例提供的一种计算机可读存储介质中,该存储介质存储有多条程序代码,该程序代码适于由处理器加载并运行以执行前述第一方面任一种实施方式中的基于归约的数据增量聚类方法。
该存储介质中包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
第四方面
在本实施例提供的一种计算机设备中,包括处理器和存储装置,存储装置适于存储多条程序代码,该程序代码适于由处理器加载并运行以执行如前述第一方面中任一实施方式的基于归约的数据增量聚类方法。
第五方面
本实施例主要通过一个应用于终端设备的场景中,对本发明的实现做进一步说明。终端设备的硬件结构如图4所示。该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图5为本申请的另一个实施例提供的终端设备的硬件结构示意图。图5是对图4在实现过程中的一个具体的实施例。如图5所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1的所述方法。第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息、图片、视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图5实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图4实施例中的输入设备的实现方式。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的保护范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (13)

1.一种基于归约的数据增量聚类方法,其特征在于,包括:
在数据库中新增数据后,对新增的数据进行聚类而获得一个或多个原始新簇;
对所述原始新簇中的数据进行归约处理,得到归约新簇;
对数据库中加入所述新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;
将所述归约新簇与所述归约老簇进行匹配,得到与所述归约新簇匹配成功的归约老簇;
根据所述归约新簇与匹配成功的归约老簇的对应关系,将所述原始新簇中的数据增加到对应的原始老簇中,完成对所述原始老簇中的数据的更新;
其中,所述数据库中的新增数据和所述新增数据之前的数据为图像数据;
将所述归约新簇与所述归约老簇进行匹配,得到与所述归约新簇匹配成功的归约老簇的步骤,包括:
先将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵;所述老数据近邻矩阵由与所述新簇邻近的多个归约老簇组成;
然后对所述老数据近邻矩阵进行遍历分析,以得到与所述归约新簇匹配成功的归约老簇。
2.根据权利要求1所述的方法,其特征在于,对新增的数据进行聚类而获得一个或多个原始新簇的步骤,包括:
先对新增的数据进行全量搜索,得到新数据近邻矩阵;所述新数据近邻矩阵由与一个新增的数据邻近的多个其他新增的数据组成;
通过对所述新数据近邻矩阵的遍历分析并采用聚类算法对新增的数据进行聚类,以获得一个或多个所述原始新簇。
3.根据权利要求2所述的方法,其特征在于,对新增的数据进行全量搜索,得到新数据近邻矩阵的步骤,包括:
先得到第一TopK最近邻矩阵,所述第一TopK最近邻矩阵由与新增的一个数据邻近的K个其他新增的数据组成;然后在所述第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据组成所述新数据近邻矩阵。
4.根据权利要求1所述的方法,其特征在于,对所述原始新簇中的数据进行归约处理,得到包含所述原始新簇中部分数据的归约新簇的步骤,包括:
在所述原始新簇的数据中进行采样,从而得到包含所述原始新簇中部分数据的归约新簇;
所述采样的方法包括随机采样和密度中心采样中的至少一种;或者,在进行采样时,所用的采样算法包括重要性采样和马尔科夫蒙特卡洛采样中的至少一种。
5.根据权利要求1所述的方法,其特征在于,将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵的步骤,包括:
先得到第二TopK最近邻矩阵,所述第二TopK最近邻矩阵由与所述归约新簇最邻近的K个老簇组成;然后在所述第二TopK最近邻矩阵中选取满足第二搜索半径的归约老簇组成所述老数据近邻矩阵。
6.根据权利要求1所述的方法,其特征在于,在将所述原始新簇中的数据增加到对应的原始老簇中的步骤之后,所述方法还包括:
对更新后的所述原始老簇中的数据进行归约处理,得到包含更新后的所述原始老簇中部分数据的新的归约老簇。
7.一种基于归约的数据增量聚类系统,其特征在于,所述系统包括:
聚类模块,用于在数据库中新增数据后,对新增的数据进行聚类而获得一个或多个原始新簇;
归约模块,用于对所述原始新簇中的数据进行归约处理,得到归约新簇;所述归约模块还用于对数据库中加入所述新增数据之前的数据的原始老簇进行归约处理,得到归约老簇;
匹配模块,用于将所述归约新簇与所述归约老簇进行匹配,得到与所述归约新簇匹配成功的归约老簇;
更新模块:用于根据所述归约新簇与匹配成功的归约老簇的对应关系,将所述原始新簇中的数据增加到对应的原始老簇中,完成对所述原始老簇中的数据的更新;
其中,所述数据库中的新增数据和所述新增数据之前的数据为图像数据;
所述匹配模块具体用于:
先将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵;所述老数据近邻矩阵由与所述新簇邻近的多个归约老簇组成;
然后对所述老数据近邻矩阵进行遍历分析,以得到与所述归约新簇匹配成功的归约老簇。
8.根据权利要求7所述的系统,其特征在于,所述聚类模块具体用于:
先对新增的数据进行全量搜索,得到新数据近邻矩阵;所述新数据近邻矩阵由与一个新增的数据邻近的多个其他新增的数据组成;
通过对所述新数据近邻矩阵的遍历分析并采用聚类算法对新增的数据进行聚类,以获得一个或多个所述原始新簇。
9.根据权利要求8所述的系统,其特征在于,所述聚类模块还具体用于:
在对新增的数据进行全量搜索,得到新数据近邻矩阵中,
先得到第一TopK最近邻矩阵,所述第一TopK最近邻矩阵由与新增的一个数据邻近的K个其他新增的数据组成;然后在所述第一TopK最近邻矩阵中选取满足第一搜索半径的新增的数据组成所述新数据近邻矩阵。
10.根据权利要求7所述的系统,其特征在于,所述归约模块具体用于:
在所述原始新簇的数据中进行采样,从而得到包含所述原始新簇中部分数据的归约新簇。
11.根据权利要求7所述的系统,其特征在于,所述匹配模块还具体用于:
在将所述归约新簇中的数据作为检索数据并将所述归约老簇中的数据作为底库数据进行单向搜索,得到老数据近邻矩阵中:
先得到第二TopK最近邻矩阵,所述第二TopK最近邻矩阵由与所述归约新簇最邻近的K个老簇组成;然后在所述第二TopK最近邻矩阵中选取满足第二搜索半径的归约老簇组成所述老数据近邻矩阵。
12.一种计算机可读存储介质,所述计算机可读存储介质中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至6中任一项所述的方法。
13.一种计算机设备,包括处理器和存储器,所述存储器中存储有多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至6中任一项所述的方法。
CN202110049704.8A 2021-01-14 2021-01-14 基于归约的数据增量聚类方法、系统、介质及装置 Active CN112749748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110049704.8A CN112749748B (zh) 2021-01-14 2021-01-14 基于归约的数据增量聚类方法、系统、介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110049704.8A CN112749748B (zh) 2021-01-14 2021-01-14 基于归约的数据增量聚类方法、系统、介质及装置

Publications (2)

Publication Number Publication Date
CN112749748A CN112749748A (zh) 2021-05-04
CN112749748B true CN112749748B (zh) 2023-11-07

Family

ID=75651928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110049704.8A Active CN112749748B (zh) 2021-01-14 2021-01-14 基于归约的数据增量聚类方法、系统、介质及装置

Country Status (1)

Country Link
CN (1) CN112749748B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886311A (zh) * 2019-01-25 2019-06-14 北京奇艺世纪科技有限公司 增量聚类方法、装置、电子设备和计算机可读介质
CN109933610A (zh) * 2019-02-18 2019-06-25 阿里巴巴集团控股有限公司 数据处理方法、装置、计算机设备及存储介质
CN110297935A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 图像检索方法、装置、介质及电子设备
CN110503117A (zh) * 2018-05-16 2019-11-26 北京京东尚科信息技术有限公司 数据聚类的方法和装置
CN110928957A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 数据聚类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101700340B1 (ko) * 2012-04-06 2017-01-26 에스케이플래닛 주식회사 대용량 데이터의 클러스터 결과 분석 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503117A (zh) * 2018-05-16 2019-11-26 北京京东尚科信息技术有限公司 数据聚类的方法和装置
CN110928957A (zh) * 2018-09-20 2020-03-27 阿里巴巴集团控股有限公司 数据聚类方法及装置
CN109886311A (zh) * 2019-01-25 2019-06-14 北京奇艺世纪科技有限公司 增量聚类方法、装置、电子设备和计算机可读介质
CN109933610A (zh) * 2019-02-18 2019-06-25 阿里巴巴集团控股有限公司 数据处理方法、装置、计算机设备及存储介质
CN110297935A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 图像检索方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN112749748A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN112613917B (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN112527816B (zh) 数据血缘关系解析方法、系统、计算机设备及存储介质
CN112162965B (zh) 一种日志数据处理的方法、装置、计算机设备及存储介质
CN111694840A (zh) 数据同步方法、装置、服务器及存储介质
CN108762898B (zh) 一种线程接口的管理方法、终端设备及计算机可读存储介质
CN111797351A (zh) 页面数据管理方法、装置、电子设备及介质
CN112860662B (zh) 自动化生产数据血缘关系建立方法、装置、计算机设备及存储介质
CN110765195A (zh) 一种数据解析方法、装置、存储介质及电子设备
CN112347192A (zh) 数据同步方法、装置、平台以及可读介质
CN113282611A (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
WO2017107679A1 (zh) 一种历史信息展示方法及装置
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
EP3343395B1 (en) Data storage method and apparatus for mobile terminal
CN115098537B (zh) 事务执行方法、装置、计算设备及存储介质
CN112671878B (zh) 一种区块链的信息订阅方法、装置、服务器和存储介质
CN112948467B (zh) 数据处理方法及装置、计算机设备和存储介质
US20230401215A1 (en) Event Sequences Search
CN117331956A (zh) 任务处理方法、装置、计算机设备及存储介质
CN112749748B (zh) 基于归约的数据增量聚类方法、系统、介质及装置
US10129328B2 (en) Centralized management of webservice resources in an enterprise
CN112801130B (zh) 图像聚类簇质量评估方法、系统、介质及装置
CN111427917A (zh) 搜索数据处理方法及相关产品
CN116595069A (zh) 一种基于大数据的过滤展示方法及系统
CN114547184A (zh) 人员信息同步方法、终端设备及存储介质
CN111858279A (zh) 浏览器用户行为追踪方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant