CN116361672A - 聚类方法、装置、电子设备及计算机可读存储介质 - Google Patents

聚类方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116361672A
CN116361672A CN202310335329.2A CN202310335329A CN116361672A CN 116361672 A CN116361672 A CN 116361672A CN 202310335329 A CN202310335329 A CN 202310335329A CN 116361672 A CN116361672 A CN 116361672A
Authority
CN
China
Prior art keywords
subset
gaussian distribution
test
sample
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310335329.2A
Other languages
English (en)
Inventor
王洪波
余涛
杨贵锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202310335329.2A priority Critical patent/CN116361672A/zh
Publication of CN116361672A publication Critical patent/CN116361672A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种聚类方法、装置、电子设备及计算机可读存储介质,先利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;计算目标测试子集与各样本子集之间的距离;选择距离最小的预设数量个目标样本子集;根据全部目标样本子集的类别确定目标测试子集的类别。通过引入半监督思想初选测试数据子集产生较高质量的类别集,通过中心点进行KNN划分,在不大幅降低算法精度的基础上,有效降低算法的复杂度。采用了概率测度方法与距离测度方法的组合,使得该半监督学习模型可以更好的适应数据复杂分布,更贴近实际工程场景需要。

Description

聚类方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种聚类方法、装置、电子设备及计算机可读存储介质。
背景技术
邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。KNN的原理是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。
现有的KNN算法对每个样本数据都需进行标签处理,无法对无标签数据进行分类,KNN算法的整体计算量较大。
发明内容
为了解决上述技术问题,本申请实施例提供了一种聚类方法、装置、电子设备及计算机可读存储介质。
第一方面,本申请实施例提供了一种聚类方法,所述方法包括:
利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;
计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;
选择距离最小的预设数量个目标样本子集;
根据全部目标样本子集的类别确定所述目标测试子集的类别。
根据本申请的一种具体实施方式,所述利用高斯概率将测试集内的全部数据点划分为多个测试子集的步骤,包括:
将所述测试集内的全部数据点划分为K个初始子集,其中,K为正整数;
初始化各初始子集的高斯分布模型,通过迭代计算确定各高斯分布模型的实际参数;
根据各高斯分布模型的实际参数计算每个数据点对应的概率最大的高斯分布模型;
将各高斯分布模型对应的数据点划分到一个测试子集内。
根据本申请的一种具体实施方式,所述通过迭代计算确定各高斯分布模型的实际参数的步骤,包括:
将每个数据点均加入各高斯分布模型,计算初始高斯概率;
将全部数据点的高斯概率加权计算将各高斯分布模型的初始参数;
根据各高斯分布模型的初始参数更新各数据点的高斯概率并迭代更新高斯分布参数的模型直至模型收敛;
将模型收敛时的参数确定为高斯分布模型的实际参数。
根据本申请的一种具体实施方式,所述计算目标测试子集与各样本子集之间的距离的步骤,包括:
计算所述目标测试子集的质心与各样本子集的质心之间的距离。
根据本申请的一种具体实施方式,所述根据全部目标样本子集的类别确定所述目标测试子集的类别的步骤,包括:
将各目标样本子集的类别中重复次数最多的类别确定为高频类别;
将所述高频类别作为所述目标测试子集内各数据点的类别。
第二方面,本申请实施例提供了一种聚类装置,所述聚类装置包括:
划分模块,用于利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;
计算模块,用于计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;
选择模块,用于选择距离最小的预设数量个目标样本子集;
确定模块,用于根据全部目标样本子集的类别确定所述目标测试子集的类别。
根据本申请的一种具体实施方式,所述划分模块用于:
将所述测试集内的全部数据点划分为K个初始子集,其中,K为正整数;
初始化各初始子集的高斯分布模型,通过迭代计算确定各高斯分布模型的实际参数;
根据各高斯分布模型的实际参数计算每个数据点对应的概率最大的高斯分布模型;
将各高斯分布模型对应的数据点划分到一个测试子集内。
根据本申请的一种具体实施方式,所述划分模块用于:
将每个数据点均加入各高斯分布模型,计算初始高斯概率;
将全部数据点的高斯概率加权计算将各高斯分布模型的初始参数;
根据各高斯分布模型的初始参数更新各数据点的高斯概率并迭代更新高斯分布参数的模型直至模型收敛;
将模型收敛时的参数确定为高斯分布模型的实际参数。
根据本申请的一种具体实施方式,所述计算模块用于:
计算所述目标测试子集的质心与各样本子集的质心之间的距离。
根据本申请的一种具体实施方式,所述确定模块用于:
将各目标样本子集的类别中重复次数最多的类别确定为高频类别;
将所述高频类别作为所述目标测试子集内各数据点的类别。
第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的聚类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的聚类方法。
上述本申请提供的聚类方法、装置、电子设备及计算机可读存储介质,先利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;选择距离最小的预设数量个目标样本子集;根据全部目标样本子集的类别确定所述目标测试子集的类别。通过引入半监督思想有效的解决了有监督学习和无监督学习对样本标签和划分精度的问题,先初选测试数据子集产生较高质量的类别集,通过中心点进行KNN划分,在不大幅降低算法精度的基础上,有效降低算法的复杂度。此外,由于采用了概率测度方法与距离测度方法的组合,使得该半监督学习模型可以更好的适应数据复杂分布,更贴近实际工程场景需要。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的一种聚类方法的流程示意图;
图2示出了本申请实施例提供的聚类方法的部分流程示意图;
图3示出了本申请实施例提供的一种聚类装置的一结构示意图;
图4示出了本申请实施例提供的电子设备的一结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
本公开实施例提供了一种聚类方法。
具体的,参见图1,所述聚类方法主要包括以下步骤:
步骤S101,利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;
本实施例提供的聚类方法,引入半监督思想结合到KNN算法,实现初选分类。具体的,先利用高斯分布模型将测试集内的全部数据点划分多个测试子集,以及将样本集内的全部数据点也划分为多个样本子集,这样即可实现类别一致的数据点的初始划分。
根据本申请的一种具体实施方式,所述利用高斯概率将测试集内的全部数据点划分为多个测试子集的步骤,如图2所示,可以具体包括:
步骤S201,将所述测试集内的全部数据点划分为K个初始子集,其中,K为正整数;
步骤S202,初始化各初始子集的高斯分布模型,通过迭代计算确定各高斯分布模型的实际参数;
步骤S203,根据各高斯分布模型的实际参数计算每个数据点对应的概率最大的高斯分布模型;
步骤S204,将各高斯分布模型对应的数据点划分到一个测试子集内。
具体的,所述通过迭代计算确定各高斯分布模型的实际参数的步骤,包括:
将每个数据点均加入各高斯分布模型,计算初始高斯概率;
将全部数据点的高斯概率加权计算将各高斯分布模型的初始参数;
根据各高斯分布模型的初始参数更新各数据点的高斯概率并迭代更新高斯分布参数的模型直至模型收敛;
将模型收敛时的参数确定为高斯分布模型的实际参数。
具体实施时,将数据集分为训练集A和测试数据集B,将测试数据集B中每个对象看作一个数据点,计算设置k的个数,即初始化模型的成分个数,并且随机初始化每个簇高斯分布参数,即均值和方差。点越靠近高斯分布的中心,则概率越大,即属于该簇可能性更高。计算每个数据点属于每个高斯概率,即计算后验概率。
进一步的,所述确定每个簇的高斯分布函数的步骤,包括:
将各簇的高斯分布函数初始化为:
Figure BDA0004158114430000071
具体的,所述根据CF节点内各数据点的信息计算高斯分布函数的概率最大化时的权重参数的步骤,包括:
根据各数据点的信息代入初始化的高斯分布函数至概率最大化,得到权重参数为:
Figure BDA0004158114430000072
Figure BDA0004158114430000073
Figure BDA0004158114430000074
计算α,μ,Σ参数使得数据点的概率最大化,使用数据点概率的加权来计算这些新的参数,权重就是数据点属于该簇的概率。重复迭代前述步骤直到收敛。
步骤S102,计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;
具体实施时,根据本申请的一种具体实施方式,所述计算目标测试子集与各样本子集之间的距离的步骤,包括:
计算所述目标测试子集的质心与各样本子集的质心之间的距离。
步骤S103,选择距离最小的预设数量个目标样本子集;
步骤S104,根据全部目标样本子集的类别确定所述目标测试子集的类别。
根据本申请的一种具体实施方式,所述根据全部目标样本子集的类别确定所述目标测试子集的类别的步骤,包括:
将各目标样本子集的类别中重复次数最多的类别确定为高频类别;
将所述高频类别作为所述目标测试子集内各数据点的类别。
在前述步骤的基础上,计算初选后的各测试数据子集的质心与训练集A各数据之间的距离,按照距离的递增关系进行排序,选取距离最小的K个点,确定前K个点所在类别的出现频率。返回前K个点中出现频率最高的类别作为测试数据的预测分类。
上述本申请提供的聚类方法,先利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;选择距离最小的预设数量个目标样本子集;根据全部目标样本子集的类别确定所述目标测试子集的类别。通过引入半监督思想有效的解决了有监督学习和无监督学习对样本标签和划分精度的问题,先初选测试数据子集产生较高质量的类别集,通过中心点进行KNN划分,在不大幅降低算法精度的基础上,有效降低算法的复杂度。此外,由于采用了概率测度方法与距离测度方法的组合,使得该半监督学习模型可以更好的适应数据复杂分布,更贴近实际工程场景需要。
实施例2
参见图3,本申请实施例提供了一种聚类装置,该聚类装置能够执行上述实施例提供的聚类方法。如图3所示,所述聚类装置300主要包括:
划分模块301,用于利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;
计算模块302,用于计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;
选择模块303,用于选择距离最小的预设数量个目标样本子集;
确定模块304,用于根据全部目标样本子集的类别确定所述目标测试子集的类别。
根据本申请的一种具体实施方式,所述划分模块301用于:
将所述测试集内的全部数据点划分为K个初始子集,其中,K为正整数;
初始化各初始子集的高斯分布模型,通过迭代计算确定各高斯分布模型的实际参数;
根据各高斯分布模型的实际参数计算每个数据点对应的概率最大的高斯分布模型;
将各高斯分布模型对应的数据点划分到一个测试子集内。
根据本申请的一种具体实施方式,所述划分模块301用于:
将每个数据点均加入各高斯分布模型,计算初始高斯概率;
将全部数据点的高斯概率加权计算将各高斯分布模型的初始参数;
根据各高斯分布模型的初始参数更新各数据点的高斯概率并迭代更新高斯分布参数的模型直至模型收敛;
将模型收敛时的参数确定为高斯分布模型的实际参数。
根据本申请的一种具体实施方式,所述计算模块302用于:
计算所述目标测试子集的质心与各样本子集的质心之间的距离。
根据本申请的一种具体实施方式,所述确定模块304用于:
将各目标样本子集的类别中重复次数最多的类别确定为高频类别;
将所述高频类别作为所述目标测试子集内各数据点的类别。
上述本申请提供的聚类装置,先利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;选择距离最小的预设数量个目标样本子集;根据全部目标样本子集的类别确定所述目标测试子集的类别。通过引入半监督思想有效的解决了有监督学习和无监督学习对样本标签和划分精度的问题,先初选测试数据子集产生较高质量的类别集,通过中心点进行KNN划分,在不大幅降低算法精度的基础上,有效降低算法的复杂度。此外,由于采用了概率测度方法与距离测度方法的组合,使得该半监督学习模型可以更好的适应数据复杂分布,更贴近实际工程场景需要。所提供的聚类装置的具体实施过程,可以参见上述实施例提供的聚类方法的具体实施过程,在此不再一一赘述。
实施例3
此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述方法实施例1所提供的聚类方法。
具体的,如图4所示,本实施例提供的电子设备400包括:
射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本申请实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、以及计步器等。
应理解的是,本申请实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。
输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获电子设备(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以视频播放在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。
电子设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在电子设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元406用于视频播放由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶视频播放器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。
用户输入单元407可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测电子设备和触摸控制器两个部分。其中,触摸检测电子设备检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测电子设备上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中,触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元408为外部电子设备与电子设备400连接的接口。例如,外部电子设备可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的电子设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部电子设备的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部电子设备之间传输数据。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器410是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
电子设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备400包括一些未示出的功能模块,在此不再赘述。
本实施例提供的电子设备,先利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;选择距离最小的预设数量个目标样本子集;根据全部目标样本子集的类别确定所述目标测试子集的类别。通过引入半监督思想有效的解决了有监督学习和无监督学习对样本标签和划分精度的问题,先初选测试数据子集产生较高质量的类别集,通过中心点进行KNN划分,在不大幅降低算法精度的基础上,有效降低算法的复杂度。此外,由于采用了概率测度方法与距离测度方法的组合,使得该半监督学习模型可以更好的适应数据复杂分布,更贴近实际工程场景需要。所提供的电子设备的具体实施过程,可以参见上述实施例提供的聚类方法的具体实施过程,在此不再一一赘述。
实施例4
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现前述实施例提供的聚类方法。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
所提供的计算机可读存储介质,先利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;选择距离最小的预设数量个目标样本子集;根据全部目标样本子集的类别确定所述目标测试子集的类别。通过引入半监督思想有效的解决了有监督学习和无监督学习对样本标签和划分精度的问题,先初选测试数据子集产生较高质量的类别集,通过中心点进行KNN划分,在不大幅降低算法精度的基础上,有效降低算法的复杂度。此外,由于采用了概率测度方法与距离测度方法的组合,使得该半监督学习模型可以更好的适应数据复杂分布,更贴近实际工程场景需要。所提供的聚类计算机可读存储介质的具体实施过程,可以参见上述实施例提供的聚类方法的具体实施过程,在此不再一一赘述。
本实施例提计算机可读存储介质可以实施例1所示的聚类方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和保护范围的情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种聚类方法,其特征在于,所述方法包括:
利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;
计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;
选择距离最小的预设数量个目标样本子集;
根据全部目标样本子集的类别确定所述目标测试子集的类别。
2.根据权利要求1所述的方法,其特征在于,所述利用高斯概率将测试集内的全部数据点划分为多个测试子集的步骤,包括:
将所述测试集内的全部数据点划分为K个初始子集,其中,K为正整数;
初始化各初始子集的高斯分布模型,通过迭代计算确定各高斯分布模型的实际参数;
根据各高斯分布模型的实际参数计算每个数据点对应的概率最大的高斯分布模型;
将各高斯分布模型对应的数据点划分到一个测试子集内。
3.根据权利要求2所述的方法,其特征在于,所述通过迭代计算确定各高斯分布模型的实际参数的步骤,包括:
将每个数据点均加入各高斯分布模型,计算初始高斯概率;
将全部数据点的高斯概率加权计算将各高斯分布模型的初始参数;
根据各高斯分布模型的初始参数更新各数据点的高斯概率并迭代更新高斯分布参数的模型直至模型收敛;
将模型收敛时的参数确定为高斯分布模型的实际参数。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算目标测试子集与各样本子集之间的距离的步骤,包括:
计算所述目标测试子集的质心与各样本子集的质心之间的距离。
5.根据权利要求4所述的方法,其特征在于,所述根据全部目标样本子集的类别确定所述目标测试子集的类别的步骤,包括:
将各目标样本子集的类别中重复次数最多的类别确定为高频类别;
将所述高频类别作为所述目标测试子集内各数据点的类别。
6.一种聚类装置,其特征在于,所述聚类装置包括:
划分模块,用于利用高斯分布模型将测试集内的全部数据点划分为多个测试子集,以及将样本集内的全部数据点划分为多个样本子集,其中,各测试子集和各样本子集内的数据点类别一致;
计算模块,用于计算目标测试子集与各样本子集之间的距离,其中,目标测试子集为任一测试子集;
选择模块,用于选择距离最小的预设数量个目标样本子集;
确定模块,用于根据全部目标样本子集的类别确定所述目标测试子集的类别。
7.根据权利要求6所述的装置,其特征在于,所述划分模块用于:
将所述测试集内的全部数据点划分为K个初始子集,其中,K为正整数;
初始化各初始子集的高斯分布模型,通过迭代计算确定各高斯分布模型的实际参数;
根据各高斯分布模型的实际参数计算每个数据点对应的概率最大的高斯分布模型;
将各高斯分布模型对应的数据点划分到一个测试子集内。
8.根据权利要求7所述的装置,其特征在于,所述划分模块用于:
将每个数据点均加入各高斯分布模型,计算初始高斯概率;
将全部数据点的高斯概率加权计算将各高斯分布模型的初始参数;
根据各高斯分布模型的初始参数更新各数据点的高斯概率并迭代更新高斯分布参数的模型直至模型收敛;
将模型收敛时的参数确定为高斯分布模型的实际参数。
9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至5中任一项所述的聚类方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至5中任一项所述的聚类方法。
CN202310335329.2A 2023-03-29 2023-03-29 聚类方法、装置、电子设备及计算机可读存储介质 Pending CN116361672A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310335329.2A CN116361672A (zh) 2023-03-29 2023-03-29 聚类方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310335329.2A CN116361672A (zh) 2023-03-29 2023-03-29 聚类方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116361672A true CN116361672A (zh) 2023-06-30

Family

ID=86919710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310335329.2A Pending CN116361672A (zh) 2023-03-29 2023-03-29 聚类方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116361672A (zh)

Similar Documents

Publication Publication Date Title
CN110009052B (zh) 一种图像识别的方法、图像识别模型训练的方法及装置
CN110096580B (zh) 一种faq对话方法、装置及电子设备
CN112820299B (zh) 声纹识别模型训练方法、装置及相关设备
CN108427873B (zh) 一种生物特征识别方法及移动终端
CN113190646B (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
WO2017088434A1 (zh) 人脸模型矩阵训练方法、装置及存储介质
CN114444579A (zh) 通用扰动获取方法、装置、存储介质及计算机设备
CN116383680A (zh) 聚类方法、装置、电子设备及计算机可读存储介质
CN114399028B (zh) 信息处理方法、图卷积神经网络训练方法及电子设备
CN109815349B (zh) 一种信息获取方法及终端设备
CN112464831B (zh) 视频分类方法、视频分类模型的训练方法及相关设备
CN111753047B (zh) 一种文本处理方法及装置
CN111292727B (zh) 一种语音识别方法及电子设备
CN113112011B (zh) 一种数据预测方法及装置
CN110442361B (zh) 一种灰度发布方法、装置及电子设备
CN109583583A (zh) 神经网络训练方法、装置、计算机设备及可读介质
CN113052198A (zh) 一种数据处理方法、装置、设备及存储介质
CN117332844A (zh) 对抗样本生成方法、相关装置及存储介质
CN116361672A (zh) 聚类方法、装置、电子设备及计算机可读存储介质
CN115240250A (zh) 模型训练方法、装置、计算机设备及可读存储介质
CN109886324B (zh) 图标识别方法和装置
CN114120044B (zh) 图像分类方法、图像分类网络训练方法、装置及电子设备
CN114254176B (zh) 分层因子分解机模型训练方法、信息推荐方法及相关设备
CN113806532B (zh) 比喻句式判断模型的训练方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination