CN113792760A - 聚类分析方法、装置、计算机设备和存储介质 - Google Patents

聚类分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113792760A
CN113792760A CN202110955287.3A CN202110955287A CN113792760A CN 113792760 A CN113792760 A CN 113792760A CN 202110955287 A CN202110955287 A CN 202110955287A CN 113792760 A CN113792760 A CN 113792760A
Authority
CN
China
Prior art keywords
target object
cluster
data
cluster center
center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110955287.3A
Other languages
English (en)
Inventor
孟强
周峰
任海男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aibee Technology Co Ltd
Original Assignee
Beijing Aibee Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aibee Technology Co Ltd filed Critical Beijing Aibee Technology Co Ltd
Priority to CN202110955287.3A priority Critical patent/CN113792760A/zh
Publication of CN113792760A publication Critical patent/CN113792760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种聚类分析方法、装置、计算机设备和存储介质。所述方法包括:获取目标对象样本,目标对象样本中包括每一目标对象的数据集;对每一目标对象的数据集进行聚类分析,得到包含每一数据集对应的聚类中心的聚类中心集合;获取至少一个参考样本对应的簇中心,计算聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及簇中心的分类损失,得到每一目标对象数据特征的分类损失值;若分类损失值满足预设损失阈值,则确定目标对象的基于聚类中心的分类为最终聚类分类结果。采用本方法能够提高目标对象样本的聚类准确性和稳定性。

Description

聚类分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及分类识别技术领域,特别是涉及一种聚类分析方法、装置、计算机设备和存储介质。
背景技术
随着网络技术的蓬勃发展,数据体量越来越庞大,在对数据进行处理应用时,需要对数据进行分类规划。
传统的数据分类方法往往需要获知数据集中每一数据的数据信息,通过计算数据信息间的相似性,确定数据集的分类结果。
然而,网络平台上的各数据源端所拥有的数据信息可能涉及个人隐私,为了对隐私数据进行有效保护,无法将各数据源端间的数据信息进行全面共享。若仅针对可以获取到的数据进行数据分类规划,数据信息有限,其分类效果较差。
发明内容
基于此,有必要针对上述技术问题,提供一种聚类分析方法、装置、计算机设备和存储介质。
一种聚类分析方法,所述方法包括:
获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;
对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;
获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象的所述数据特征的分类损失值;
若所述分类损失值满足预设损失阈值,则确定所述目标对象的基于所述聚类中心的分类为最终聚类分类结果。
在其中一个实施例中,获取至少一个参考样本对应的簇中心,包括:
获取非本地终端设备生成的至少一个参考样本对应的簇中心;
其中,所述非本地终端设备生成所述簇中心的方法,包括:
获取所述参考样本的聚类中心集合,所述参考样本的聚类中心集合中包括每一所述参考对象的聚类中心;
根据预设的簇半径参数和所述聚类中心集合中每一所述聚类中心,确定包含所述聚类中心集合的簇;
当所述聚类中心集合中的所述聚类中心加入所述簇中,计算所述聚类中心集合的簇的当前损失值以及当前簇中心,若所述损失值满足预设损失阈值,则将所述当前簇中心确定为所述参考样本对应的簇中心。
在其中一个实施例中,所述方法还包括:
通过非本地终端设备,根据差分隐私算法,对所述簇中心进行噪音扰动,得到加密后的所述参考样本的簇中心,将所述加密后的所述参考样本的簇中心作为所述参考样本的参考簇中心;
所述获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损耗,包括:
获取至少一个参考样本对应的参考簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述参考簇中心的分类损失,得到每一目标对象的分类损失值。
在其中一个实施例中,所述获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损耗,得到每一目标对象数据特征的分类损失值,包括:
针对每一目标对象的数据集中的每一数据特征,计算所述数据特征与所述目标对象对应的聚类中心的第一特征损失;
计算所述数据特征与所述聚类中心集合中其他聚类中心的第二特征损失;
计算所述数据特征与至少一个参考样本对应的簇中心间的第三特征损失;
根据所述第一特征损失、所述第二特征损失和所述第三特征损失,计算得到每一所述目标对象数据特征的分类损失值。
在其中一个实施例中,所述目标对象样本为本地目标对象的图像样本,每一所述目标对象的数据集为每一所述目标对象的图像特征数据集,每一所述目标对象的数据集对应的聚类中心用于表征每一所述目标对象的图像特征数据集中的分类结果,所述参考样本为非本地数据源的参考对象图像样本,所述参考样本对应的簇中心用于表征所述参考样本中包含的全部参考对象的群体图像特征。
在其中一个实施例中,所述目标对象样本为本地目标对象的文本数据样本,每一所述目标对象的数据集为每一所述目标对象的文本信息特征集,每一所述目标对象的数据集对应的聚类中心用于表征每一所述目标对象的文本信息特征集中的分类结果,所述参考样本为非本地数据源的参考对象文本数据样本,所述参考样本对应的簇中心用于表征所述参考样本中包含的全部参考对象的共同文本信息特征。
一种聚类分析装置,所述装置包括:
获取模块,用于获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;
处理模块,用于对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;
计算模块,用于获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象的所述数据特征的分类损失值;
确定模块,用于若所述分类损失值满足预设损失阈值,则确定所述目标对象的基于所述聚类中心的分类为最终聚类分类结果。
在其中一个实施例中,所述计算模块还用于针对每一目标对象的数据集中的每一数据特征,计算所述数据特征与所述目标对象对应的聚类中心的第一特征损失;
计算所述数据特征与所述聚类中心集合中其他聚类中心的第二特征损失;
计算所述数据特征与至少一个参考样本对应的簇中心间的第三特征损失;
根据所述第一特征损失、所述第二特征损失和所述第三特征损失,计算得到每一所述目标对象数据特征的分类损失值。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;
对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;
获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象的所述数据特征的分类损失值;
若所述分类损失值满足预设损失阈值,则确定所述目标对象的基于所述聚类中心的分类为最终聚类分类结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;
对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;
获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象的所述数据特征的分类损失值;
若所述分类损失值满足预设损失阈值,则确定所述目标对象的基于所述聚类中心的分类为最终聚类分类结果。
上述聚类分析方法、装置、计算机设备和存储介质,获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象数据特征的分类损失值;若所述分类损失值满足预设损失阈值,则确定所述目标对象的聚类中心的分类为最终聚类分类结果。采用本方法,在对目标对象样本进行聚类分析时,增加了参考样本的簇中心特征,既保证了参考样本的数据隐私,又使目标对象样本的聚类分析考虑了目标对象个体特征和参考对象群体特征,提高目标对象样本的聚类准确性和稳定性。
附图说明
图1为一个实施例中聚类分析方法的流程示意图;
图2为一个实施例中确定参考样本簇中心步骤的流程示意图;
图3为一个实施例中确定参考样本簇的示意图;
图4为一个实施例中根据差分隐私后的参考簇中心确定分类损失的流程图;
图5为一个实施例中计算分类损失步骤的流程示意图;
图6为一个实施例中聚类分析装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种聚类分析方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤101,获取目标对象样本。
其中,目标对象样本中包括每一目标对象的数据集。
具体的,目标对象样本为本地终端设备存储的包含具体数据信息的样本数据,该目标对象样本中每一目标对象都对应有一组数据集,因此,本地计算机设备存储的目标对象样本中包含全部的目标对象对应的数据集。例如,目标对象样本为图像样本,则目标对象样本中包含的样本数据为本地终端设备可获知的目标对象群中的目标对象的具体图像数据信息(也称为图像特征)。
在实施中,计算机设备获取本地存储的目标对象样本,以进行目标对象样本的聚类分析处理。
可选的,对于目标对象样本还可以为文本数据样本等其他类型样本数据,因此,对于目标对象样本的数据类型本申请实施例不做限定。
步骤102,对每一目标对象的数据集进行聚类分析,得到包含每一数据集对应的聚类中心的聚类中心集合。
在实施中,计算机设备对每一目标对象的数据集进行聚类分析,得到每一目标对象的数据集对应的聚类中心wi,进而,生成包含全部目标对象的聚类中心的聚类中心集合W=[w1,w2,…wn]。
例如,目标对象样本中包含10个目标对象,每一目标对象对应有图像数据集,每一图像数据集中包含50张图像,则目标对象样本中包含10×50张图像样本,进而,计算机设备可以分别针对每一目标对象的5张图像进行聚类,得到该目标对象的50张图像的至少一个聚类中心。然后,计算机设备将每一目标对象图像数据集的聚类中心进行汇总,得到目标对象样本对应的聚类中心集合。
步骤103,获取至少一个参考样本对应的簇中心,计算聚类中心集合中每一目标对象的数据集中的数据特征与目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及簇中心的分类损失,得到每一目标对象数据特征的分类损失值。
在实施中,由于进行聚类分析的数据可能涉及个人隐私等敏感数据,无法随意与他人共享,但是在进行聚类分析的训练时,需要其他终端设备具备的数据样本进行分析,以补充本地样本数据特征有限的不足,因此,计算机设备(即本地终端设备)在非本地的终端设备处获取至少一个参考样本对应的簇中心。该参考样本的簇中心用于表征非本地终端设备所具备的样本数据的群体性数据特征,但不涉及非本地终端设备的参考样本数据的个体数据特征,以此保证非本地终端设备的样本数据的个体信息的隐私性。
进而,计算机设备根据本地目标对象样本聚类中心集合中的每一目标对象对应的聚类中心,计算该目标对象的数据特征与对应的聚类中心的第一分类损失,该数据特征与聚类中心集合中其他聚类中心间的第二分类损失,计算该数据特征与至少一个参考样本对应的(至少一个)簇中心间的第三分类损失,进而根据每一目标对象对应的数据集中的每一数据特征、第一分类损失、第二分类损失和第三分类损失,得到每一目标对象的每一数据特征的分类损失。
步骤104,若分类损失值满足预设损失阈值,则确定目标对象的基于聚类中心的分类为最终聚类分类结果。
在实施中,计算机设备中预先存储有该目标对象样本中每一目标对象对应的分类损失阈值,根据该分类损失阈值,判别每一目标对象聚类分析确定出的聚类中心以及该聚类中心对应的分类结果,若分类损失值满足预设损失阈值,则计算机设备确定目标对象的基于聚类中心的分类为最终分类结果。
上述聚类分析方法中,计算机设备获取目标对象样本,对目标对象样本中的每一目标对象的数据集进行聚类分析,得到包含每一数据集对应的聚类中心的聚类中心集合;然后,计算机设备获取至少一个参考样本对应的簇中心,计算聚类中心集合中每一目标对象的数据集中的数据特征与目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及簇中心的分类损失,得到每一目标对象数据特征的分类损失值;若分类损失值满足预设损失阈值,则确定目标对象的基于聚类中心的分类为最终聚类分类结果。采用本方法,在对目标对象样本进行聚类分析时,增加了非本地终端设备的参考样本的簇中心特征,既保证了参考样本的数据隐私,又使目标对象样本的聚类分析考虑了目标对象个体特征和参考对象群体特征,提高目标对象样本的聚类准确性和稳定性。
在一个实施例中,步骤103中的获取至少一个参考样本对应的簇中心的处理过程包括:计算机设备获取非本地终端设备生成的至少一个参考样本对应的簇中心。其中,每一非本地终端设备可以提供一个或者多个非本地终端设备的参考样本对应的簇中心,另外,计算机设备也可以同时获取多个非本地终端设备的簇中心。
在实施中,除本地计算机设备外,还存在其他提供数据的数据源端设备(即称为非本地终端设备)该非本地的数据源端设备不能直接将个体数据特征分享给本地计算机设备,只能在经过非本地终端设备的数据处理后,得到可以分享的非本地数据样本的簇中心数据(群体性数据特征)将其分享给本地计算机设备。进而,计算机设备获取(至少一个)非本地终端设备的至少一个参考样本对应的簇中心,以用于参与本地目标对象样本的聚类分析训练。
在实施中,如图2所示,提供了一种生成数据样本的簇中心的方法,使得任一非本地终端设备都可以根据该方法处理自身样本的簇中心,然后提供给本地计算机设备,本申请实施例中目标对象样本和参考样本都是相对于本地与非本地而言,针对一台终端设备,本地的数据样本即为目标对象样本,非本地的样本即为参考样本,非本地的样本中由于包含的个体数据特征(个体数据集的聚类中心)相对与本地终端设备来说,都是隐私数据,不能直接分享给本地终端设备,因此,可以将非本地终端设备的参考样本的个体数据特征,生成群体性数据特征(样本簇中心)分享给本地计算机设备。其中,非本地终端设备生成簇中心的方法,包括如下步骤:
步骤201,获取参考样本的聚类中心集合。
其中,参考样本的聚类中心集合中包括每一参考对象的聚类中心。
在实施中,非本地终端设备根据本地参考样本中每一参考对象的数据集,计算每一参考对象数据集对应的聚类中心ui,进而得到参考样本中全部参考对象的数据集对应的聚类中心的集合U=[u1,u2,…um]。
步骤202,根据预设的簇半径参数和聚类中心集合中每一聚类中心,确定包含聚类中心集合的簇。
在实施中,非本地终端设备根据预设的簇半径参数ρ,确定其对应包含该聚类中心集合的簇,如图3所示,确定一个初始簇区域,对自身数据样本(该非本地终端设备的样本相对于本地计算机设备也称为参考样本)的聚类中心集合进行覆盖,使尽可能多的聚类中心集合中的聚类中心点落入到生成的簇的区域中。
步骤203,当聚类中心集合中的聚类中心加入簇中,计算聚类中心集合的簇的当前损失值以及当前簇中心,若损失值满足预设损失阈值,则将当前簇中心确定为参考样本对应的簇中心。
在实施中,根据初始的簇半径参数所包含的簇的区域范围,确定初始的簇中心,将参考样本对应的聚类中心集合中每一聚类中心尝试加入该簇的区域范围,进而更新簇中心所在位置。然后,非本地终端设备计算聚类中心集合所确定的当前簇的损失值以及当前簇中心,若损失值满足预设损失阈值,则将当前簇中心确定为参考样本对应的簇中心p。
可选的,若当前簇的损失值不满足预设损失阈值,则将聚类中心集合中未被加入簇的聚类中心点加入簇中,更新簇区域(此时,更新后的簇区域可能也屏弃了一些聚类中心点),并根据当前新更新后的簇中包含的聚类中心点,重新计算簇中心,直至确定更新后的簇以及簇中心对应的聚类中心集合的分类损失满足预设阈值,则当前簇中心确定为参考样本对应的簇中心。
在一个实施例中,如图4所示,为了进一步保证非本地终端设备的隐私特征信息不被泄露,可以对非本地终端设备的参考样本得到的簇中心进行进一步处理,该方法还包括:
步骤401,通过非本地终端设备,根据差分隐私算法,对簇中心进行噪音扰动,得到加密后的参考样本的簇中心,将加密后的参考样本的簇中心作为参考样本的参考簇中心。
在实施中,通过非本地终端设备,根据差分隐私算法,对参考样本的簇中心p进行噪音扰动,得到加密后的参考样本的簇中心
Figure BDA0003219990120000091
然后,非本地终端设备将加密后的参考样本的参考簇中心
Figure BDA0003219990120000092
发送至本地计算机设备,作为该非本地终端设备的参考样本的群体特征,进一步参与本地计算机设备的目标对象样本的聚类过程。其中,加密后的簇中心可以达到(∈,δ)-DP(差分隐私标准),其中,∈,δ都是差分隐私的参数。
Figure BDA0003219990120000101
N为本地数据集样本个数。其中∈是隐私级别,该参数越小越好。为了达到这个要求,对于为簇中心添加的噪声,例如,高斯噪声的方差δ满足
Figure BDA0003219990120000102
噪声越大,分享的信息越少,隐私级别越高。
因此,步骤103的处理过程还包括:
步骤402,获取至少一个参考样本对应的参考簇中心,计算聚类中心集合中每一目标对象的数据集中的数据特征与目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及参考簇中心的分类损失,得到每一目标对象的分类损失值。
在实施中,计算机设备(本地)获取非本地终端设备对应的至少一个参考样本对应的参考簇中心
Figure BDA0003219990120000105
以非本地终端设备加密后的参考簇中心参与本地目标对象样本的聚类分析过程,更加保护了非本地终端设备的参考样本的个人数据特征,即防止非本地的参考样本的个人数据特征(隐私数据)的泄露,进而,计算机设备计算聚类中心集合中每一目标对象的数据集中的数据特征与目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及参考簇中心
Figure BDA0003219990120000106
的分类损失,得到每一目标对象数据特征的分类损失值。具体的,根据参考簇中心参与本地目标对象样本的聚类分析过程,计算聚类分析的分类损失值,与上述步骤103的具体实现过程相同,本申请实施例不再赘述。
在一个实施例中,如图5所示,其中具体计算分类损失的步骤103的处理过程如下所示:
步骤501,针对每一目标对象的数据集中的每一数据特征,计算数据特征与目标对象对应的聚类中心的第一特征损失。
在实施中,计算机设备针对每一目标对象的数据集中的每一数据特征fi,例如针对目标对象c的数据集中第i个数据提取得到数据特征fi c,计算该数据特征fi c与目标对象c对应的聚类中心
Figure BDA0003219990120000103
的第一特征损失。具体的,第一特征损失用
Figure BDA0003219990120000104
表示。其中,e是自然常数,作为第一特征损失中的底数。u()表示相似度判别函数。
步骤502,计算数据特征与聚类中心集合中其他聚类中心的第二特征损失。
在实施中,计算机设备针对每一目标对象的数据集中的每一数据特征fi,例如针对目标对象c的数据集中第i张图像提取得到数据特征fi c,计算该数据特征fi c与聚类中心集合中其他聚类中心wj的第二特征损失。具体的,第二特征损失用
Figure BDA0003219990120000111
表示。其中,是自然常数,作为第二特征损失中的底数。v()表示相似度判别函数。
步骤503,计算数据特征与至少一个参考样本对应的簇中心间的第三特征损失。
在实施中,计算机设备计算目标对象(例如,目标对象c)的具体数据特征fi c与至少一个参考样本对应的簇中心p(例如,第k个参考样本的第i个簇中心)间的第三特征损失。其中,该第三特征损失用
Figure BDA0003219990120000112
表示。其中,ρ表示参考样本对应的簇的簇半径,
Figure BDA0003219990120000113
表示第k个参考样本对应的第i个簇中心。e是自然常数,作为第三特征损失中的底数。μ()表示相似度判别函数。
步骤504,根据第一特征损失、第二特征损失和第三特征损失,计算得到每一目标对象数据特征的分类损失值。
在实施中,计算机设备根据得到的第一特征损失
Figure BDA0003219990120000114
第二特征损失
Figure BDA0003219990120000115
和第三特征损失
Figure BDA0003219990120000116
计算得到每一目标对象的数据特征的分类损失值Lc(Wc,Dc,p)。具体的,每一数据特征的分类损失公式如下所示:
Figure BDA0003219990120000117
其中,Lc(Wc,Dc,p)为分类损失值,公式中包含的参数的上标c均表示目标对象样本中包含的第c个目标对象。Wc为本地目标对象样本中第c个目标对象对应的聚类中心(可以对应多个,这多个聚类中心可以统称为Wc,也可以针对具体聚类中心,用具体符号表示,例如
Figure BDA0003219990120000118
),Dc表示目标对象样本中数据量,Nc表示目标对象样本中目标对象数目。Qk为簇中心数目,l表示第l个簇。
在一个实施例中,该方法可以应用于具体的图像分类技术领域,具体的,在图像分类技术领域,上述聚类分析方法中提到的目标对象样本为本地目标对象的图像样本(例如,可以为本地目标对象的人脸图像样本),每一目标对象的数据集为每一目标对象的图像特征数据集(例如,人脸图像特征数据集)。其中,每一目标对象的数据集对应的聚类中心用于表征每一目标对象的图像特征数据集中的分类结果(例如,针对每一目标对象的人脸特征数据集,可以基于聚类中心划分为该目标对象的正面图像特征、左视图像特征、右视图像特征等分类结果),参考样本为非本地数据源的参考对象图像样本(例如,非本地数据终端设备的参考对象的人脸图像样本),参考样本对应的簇中心用于表征参考样本中包含的全部参考对象的群体图像特征(例如,某一地理区域群体人脸图像特征(广东区域的人脸图像特征))。
在本实施例中,采用该方法,通过在本地目标对象样本的聚类分析过程中加入参考样本的簇中心(群体特征信息),既保证了本地目标对象样本的聚类分析结果的准确性,又保证了参考样本中的个体数据信息的隐私性。例如,在进行分类结果应用时,针对每一目标对象的人脸图像信息,可以基于聚类分析进行人脸识别,即需要预先对每一目标对象的人脸图像进行聚类分析,然后,对待识别人脸图像进行分类识别,采用本方法,通过对本地目标对象的人脸图像样本进行聚类分析,确定每一目标对象人脸图像的分类结果,同时在聚类分析过程中添加了参考图像样本(可以为另一用户群)中的群体人脸图像特征,提高了本地人脸识别的准确性,也保证了参考图像样本中每一参考人脸图像的人脸信息未泄露。
在一个实施例中,该方法可以应用于具体的文本信息分类技术领域,具体的,在文本信息分类技术领域,上述聚类分析方法中提到的目标对象样本为本地目标对象的文本数据样本,每一目标对象的数据集为每一目标对象的文本信息特征集(例如,目标对象的身份信息特征集),每一目标对象的数据集对应的聚类中心用于表征每一目标对象的文本信息特征集中的分类结果,参考样本为非本地数据源的参考对象文本数据样本,参考样本对应的簇中心用于表征参考样本中包含的全部参考对象的共同文本信息特征(例如,共同身份信息特征)。
在本实施例中,采用该方法,通过在本地目标对象样本的聚类分析过程中加入参考样本的簇中心(群体特征信息),既保证了本地目标对象样本的聚类分析结果的准确性,又保证了参考样本中的个体数据信息的隐私性。例如,在进行分类结果应用时,针对每一目标对象的身份信息,可以基于自然语言分析算法和聚类分析进行身份信息分类,即需要预先对每一目标对象的人脸图像进行聚类分析,然后,对待识别身份进行分类识别,采用本方法,通过对本地目标对象的身份信息样本进行聚类分析,确定每一目标对象身份信息的分类结果,同时在聚类分析过程中添加了参考图像样本(可以为另一用户群)中的共同身份信息特征,提高了本地人脸识别的准确性,也保证了参考图像样本中每一参考对象的身份信息未泄露。
应该理解的是,虽然图1、图2、图4和图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、图2、图4和图5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种聚类分析装置600,包括:获取模块610、处理模块620、计算模块630和确定模块640,其中:
获取模块610,用于获取目标对象样本,目标对象样本中包括每一目标对象的数据集;
处理模块620,用于对每一目标对象的数据集进行聚类分析,得到包含每一数据集对应的聚类中心的聚类中心集合;
计算模块630,用于获取至少一个参考样本对应的簇中心,根据聚类中心集合中每一目标对象的数据集中的数据特征与目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及簇中心的分类损失,得到每一目标对象数据特征的分类损失值;
确定模块640,用于若分类损失值满足预设损失阈值,则确定目标对象的基于聚类中心的分类为最终聚类分类结果。
在其中一个实施例中,计算模块630,还用于获取非本地终端设备生成的至少一个参考样本对应的簇中心;其中,非本地终端设备用于获取参考样本的聚类中心集合,参考样本的聚类中心集合中包括每一参考对象的聚类中心;非本地终端设备根据预设的簇半径参数和聚类中心集合中每一聚类中心,确定包含聚类中心集合的簇;当聚类中心集合中的聚类中心加入簇中,计算聚类中心集合的簇的当前损失值以及当前簇中心,若损失值满足预设损失阈值,则将当前簇中心确定为参考样本对应的簇中心。
在其中一个实施例中,通过非本地终端设备,根据差分隐私算法,对簇中心进行噪音扰动,得到加密后的参考样本的簇中心,将加密后的参考样本的簇中心作为参考样本的参考簇中心;则计算模块630还用于获取至少一个参考样本对应的参考簇中心,根据聚类中心集合中每一目标对象的数据集中的数据特征与目标对象对应的聚类中心、与聚类中心集合中其他聚类中心以及参考簇中心的分类损失,得到每一目标对象的分类损失值。
在其中一个实施例中,计算模块630还用于针对每一目标对象的数据集中的每一数据特征,计算数据特征与目标对象对应的聚类中心的第一特征损失;
计算聚类中心与聚类中心集合中其他聚类中心的第二特征损失;
计算聚类中心与至少一个参考样本对应的簇中心间的第三特征损失;
根据第一特征损失、第二特征损失和第三特征损失,计算得到每一目标对象数据特征的分类损失值。
在其中一个实施例中,目标对象样本为本地目标对象的图像样本,每一目标对象的数据集为每一目标对象的图像特征数据集,每一目标对象的数据集对应的聚类中心用于表征每一目标对象的图像特征数据集中的分类结果,参考样本为非本地数据源的参考对象图像样本,参考样本对应的簇中心用于表征参考样本中包含的全部参考对象的群体图像特征。
在其中一个实施例中,目标对象样本为本地目标对象的文本数据样本,每一目标对象的数据集为每一目标对象的文本信息特征集,每一目标对象的数据集对应的聚类中心用于表征每一目标对象的文本信息特征集中的分类结果,参考样本为非本地数据源的参考对象文本数据样本,参考样本对应的簇中心用于表征参考样本中包含的全部参考对象的共同文本信息特征。
关于聚类分析装置的具体限定可以参见上文中对于聚类分析方法的限定,在此不再赘述。上述聚类分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种聚类分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种聚类分析方法,其特征在于,所述方法包括:
获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;
对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;
获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象的所述数据特征的分类损失值;
若所述分类损失值满足预设损失阈值,则确定所述目标对象的基于所述聚类中心的分类为最终聚类分类结果。
2.根据权利要求1所述的方法,其特征在于,获取至少一个参考样本对应的簇中心,包括:
获取非本地终端设备生成的至少一个参考样本对应的簇中心;
其中,所述非本地终端设备生成所述簇中心的方法,包括:
获取所述参考样本的聚类中心集合,所述参考样本的聚类中心集合中包括每一所述参考对象的聚类中心;
根据预设的簇半径参数和所述聚类中心集合中每一所述聚类中心,确定包含所述聚类中心集合的簇;
当所述聚类中心集合中的所述聚类中心加入所述簇中,计算所述聚类中心集合的簇的当前损失值以及当前簇中心,若所述损失值满足预设损失阈值,则将所述当前簇中心确定为所述参考样本对应的簇中心。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过非本地终端设备,根据差分隐私算法,对所述簇中心进行噪音扰动,得到加密后的所述参考样本的簇中心,将所述加密后的所述参考样本的簇中心作为所述参考样本的参考簇中心;
所述获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损耗,包括:
获取至少一个参考样本对应的参考簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述参考簇中心的分类损失,得到每一目标对象的分类损失值。
4.根据权利要求1所述的方法,其特征在于,所述获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损耗,得到每一目标对象数据特征的分类损失值,包括:
针对每一目标对象的数据集中的每一数据特征,计算所述数据特征与所述目标对象对应的聚类中心的第一特征损失;
计算所述数据特征与所述聚类中心集合中其他聚类中心的第二特征损失;
计算所述数据特征与至少一个参考样本对应的簇中心间的第三特征损失;
根据所述第一特征损失、所述第二特征损失和所述第三特征损失,计算得到每一所述目标对象数据特征的分类损失值。
5.根据权利要求1所述的方法,其特征在于,所述目标对象样本为本地目标对象的图像样本,每一所述目标对象的数据集为每一所述目标对象的图像特征数据集,每一所述目标对象的数据集对应的聚类中心用于表征每一所述目标对象的图像特征数据集中的分类结果,所述参考样本为非本地数据源的参考对象图像样本,所述参考样本对应的簇中心用于表征所述参考样本中包含的全部参考对象的群体图像特征。
6.根据权利要求1所述的方法,其特征在于,所述目标对象样本为本地目标对象的文本数据样本,每一所述目标对象的数据集为每一所述目标对象的文本信息特征集,每一所述目标对象的数据集对应的聚类中心用于表征每一所述目标对象的文本信息特征集中的分类结果,所述参考样本为非本地数据源的参考对象文本数据样本,所述参考样本对应的簇中心用于表征所述参考样本中包含的全部参考对象的共同文本信息特征。
7.一种聚类分析装置,其特征在于,所述装置包括:
获取模块,用于获取目标对象样本,所述目标对象样本中包括每一所述目标对象的数据集;
处理模块,用于对每一所述目标对象的数据集进行聚类分析,得到包含每一所述数据集对应的聚类中心的聚类中心集合;
计算模块,用于获取至少一个参考样本对应的簇中心,根据所述聚类中心集合中每一目标对象的数据集中的数据特征与所述目标对象对应的聚类中心、与所述聚类中心集合中其他聚类中心以及所述簇中心的分类损失,得到每一目标对象数据特征的分类损失值;
确定模块,用于若所述分类损失值满足预设损失阈值,则确定所述目标对象的基于所述聚类中心的分类为最终聚类分类结果。
8.根据权利要求7所述的装置,其特征在于,所述计算模块还用于针对每一目标对象的数据集中的每一数据特征,计算所述数据特征与所述目标对象对应的聚类中心的第一特征损失;
计算所述数据特征与所述聚类中心集合中其他聚类中心的第二特征损失;
计算所述数据特征与至少一个参考样本对应的簇中心间的第三特征损失;
根据所述第一特征损失、所述第二特征损失和所述第三特征损失,计算得到每一所述目标对象数据特征的分类损失值。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202110955287.3A 2021-08-19 2021-08-19 聚类分析方法、装置、计算机设备和存储介质 Pending CN113792760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110955287.3A CN113792760A (zh) 2021-08-19 2021-08-19 聚类分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110955287.3A CN113792760A (zh) 2021-08-19 2021-08-19 聚类分析方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113792760A true CN113792760A (zh) 2021-12-14

Family

ID=79182006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110955287.3A Pending CN113792760A (zh) 2021-08-19 2021-08-19 聚类分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113792760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881514A (zh) * 2022-05-26 2022-08-09 无锡物联网创新中心有限公司 一种筒管纱果重量估计方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011111A1 (en) * 2015-07-08 2017-01-12 Busines Objects Software Ltd. Enabling advanced analytics with large data sets
CN107145792A (zh) * 2017-04-07 2017-09-08 哈尔滨工业大学深圳研究生院 基于密文数据的多用户隐私保护数据聚类方法及系统
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110298415A (zh) * 2019-08-20 2019-10-01 视睿(杭州)信息科技有限公司 一种半监督学习的训练方法、系统和计算机可读存储介质
CN111507400A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质
US20210150284A1 (en) * 2019-11-15 2021-05-20 Institute For Information Industry Classification model building apparatus and classification model building method thereof
CN113128536A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 无监督学习方法、系统、计算机设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011111A1 (en) * 2015-07-08 2017-01-12 Busines Objects Software Ltd. Enabling advanced analytics with large data sets
CN107145792A (zh) * 2017-04-07 2017-09-08 哈尔滨工业大学深圳研究生院 基于密文数据的多用户隐私保护数据聚类方法及系统
CN108280491A (zh) * 2018-04-18 2018-07-13 南京邮电大学 一种面向差分隐私保护的k均值聚类方法
CN110298415A (zh) * 2019-08-20 2019-10-01 视睿(杭州)信息科技有限公司 一种半监督学习的训练方法、系统和计算机可读存储介质
US20210150284A1 (en) * 2019-11-15 2021-05-20 Institute For Information Industry Classification model building apparatus and classification model building method thereof
CN113128536A (zh) * 2019-12-31 2021-07-16 奇安信科技集团股份有限公司 无监督学习方法、系统、计算机设备及可读存储介质
CN111507400A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 应用分类方法、装置、电子设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881514A (zh) * 2022-05-26 2022-08-09 无锡物联网创新中心有限公司 一种筒管纱果重量估计方法及相关装置
CN114881514B (zh) * 2022-05-26 2023-11-24 无锡物联网创新中心有限公司 一种筒管纱果重量估计方法及相关装置

Similar Documents

Publication Publication Date Title
CN108171663B (zh) 基于特征图最近邻替换的卷积神经网络的图像填充系统
CN111832581B (zh) 肺部特征识别方法、装置、计算机设备及存储介质
US20190347472A1 (en) Method and system for image identification
WO2021164466A1 (zh) 用户信息分析方法及系统
CN113592869B (zh) 一种建筑幕墙玻璃破裂图像识别方法及报警系统
CN110751149A (zh) 目标对象标注方法、装置、计算机设备和存储介质
KR20210118739A (ko) 정보 처리 방법과 장치, 전자 기기, 컴퓨터 판독가능 저장 매체 및 매체에 저장된 컴퓨터 프로그램
US11972023B2 (en) Compatible anonymization of data sets of different sources
Kajino et al. Instance-privacy preserving crowdsourcing
CN113792760A (zh) 聚类分析方法、装置、计算机设备和存储介质
WO2019085475A1 (zh) 项目推荐方法、电子设备及计算机可读存储介质
CN112001983A (zh) 生成遮挡图像的方法、装置、计算机设备和存储介质
JP7026653B2 (ja) クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
CN110781467A (zh) 异常业务数据分析方法、装置、设备及存储介质
CN113782093A (zh) 一种基因表达填充数据的获取方法及装置、存储介质
CN113689291A (zh) 基于异常移动的反欺诈识别方法及系统
CN113827977A (zh) 一种基于bp神经网络的游戏流失用户预测方法和系统
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
CN113792759A (zh) 识别模型训练方法、装置、计算机设备和存储介质
CN115424001A (zh) 场景相似度估计方法、装置、计算机设备和存储介质
CN114745173A (zh) 登陆验证方法、装置、计算机设备、存储介质和程序产品
CN114528973A (zh) 业务处理模型的生成方法、业务处理方法和装置
CN113158858A (zh) 基于深度学习的行为分析方法、系统
CN113610558A (zh) 资源分发方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination