CN115563520A - 一种基于kmeans聚类的半监督学习方法及其应用 - Google Patents

一种基于kmeans聚类的半监督学习方法及其应用 Download PDF

Info

Publication number
CN115563520A
CN115563520A CN202211303038.7A CN202211303038A CN115563520A CN 115563520 A CN115563520 A CN 115563520A CN 202211303038 A CN202211303038 A CN 202211303038A CN 115563520 A CN115563520 A CN 115563520A
Authority
CN
China
Prior art keywords
sample
samples
clustering
positive
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211303038.7A
Other languages
English (en)
Inventor
杨睿通
袁亦韧
林炯佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Fibonacci Information Technology Co ltd
Original Assignee
Suzhou Fibonacci Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Fibonacci Information Technology Co ltd filed Critical Suzhou Fibonacci Information Technology Co ltd
Priority to CN202211303038.7A priority Critical patent/CN115563520A/zh
Publication of CN115563520A publication Critical patent/CN115563520A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于kmeans聚类的半监督学习方法及其应用,属于计算机领域。该方法包括以下步骤:多次随机按比例选取不同类别样本、特征进行kmeans聚类,由子簇中不同类别占比判定该簇样本类别;每一次迭代中,由本轮所有聚类结果,根据投票法决定待确定样本的所属类别;对于每一次kmeans聚类,由该聚类轮廓系数转换后的最大值点直接确定聚类的中心点个数。能够解决样本不平衡问题,集成学习的方式能够有效解决样本不平衡问题,通过集成学习的迭代,能够进一步保证不平衡数据分析效果的稳定性。

Description

一种基于kmeans聚类的半监督学习方法及其应用
技术领域
本发明属于计算机领域,涉及一种基于kmeans聚类的半监督学习方法及其应用。
背景技术
在现实生活中,常常遇到样本不平衡场景。如,游戏推广等营销类客户流失场景;火灾等低频发生事件场景等等。在这些场景中,不同类别的样本量差异很大,在分类相关的建模问题上,会导致分析结果存在极大的不准确性。
目前对数据不平衡的处理方法主要有4种:通过过采样或欠采样解决样本不平衡,通过正负样本的惩罚权重解决样本不平衡,通过组合/集成方法解决样本不平衡,通过特征选择解决样本不平衡。本发明使用集成方法解决样本不平衡问题,也是一种基于无监督kmeans算法集成的半监督学习方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于kmeans聚类的半监督学习方法及其应用。
为达到上述目的,本发明提供如下技术方案:
一种基于kmeans聚类的半监督学习方法,该方法包括以下步骤:
多次随机按比例选取不同类别样本、特征进行kmeans聚类,由子簇中不同类别占比判定该簇样本类别;每一次迭代中,由本轮所有聚类结果,根据投票法决定待确定样本的所属类别;对于每一次kmeans聚类,由该聚类轮廓系数转换后的最大值点直接确定聚类的中心点个数;
以kmeans聚类为基础的弱分类器单元,样本间的距离计算公式为:
Figure BDA0003904746550000011
X=(x1,x2,···,xn),Y=(y1,y2,···,yn)表示任意两个样本点,disted(X,Y)代表这两个点之间的距离;Kmeans的目标是同一个簇中样本差异小,不同簇间样本差异大,使用误差平方和作为目标函数:
Figure BDA0003904746550000012
其中,C表示聚类中心,若x属于Ci所在簇,则计算两者的欧氏距离,计算所有样本点到其中心的距离并求和,得到目标函数SSE,kmeans目标是SSE最小化;以轮廓系数转换公式确定每个基础kmeans聚类的中心点个数,通过计算SSE最小值,一步步实现算法迭代。
可选的,所述方法应用在正样本占比远小于负样本、未知标签样本暂归类为负样本的二分类问题,步骤为:
S11,对训练样本做全局异常值检测,剔除孤立点,避免出现单次kmeans聚类子类过多问题;
S12,设定每次正样本/负样本的固定随机数据筛选比例P,0<P≤1,P值根据模型交叉验证或测试反馈调整;当正样本在训练样本中占比趋近于0时,初始P值趋近于1,将无标签样本视为负样本;
S13,每个子聚类中心点个数确定,并进行kmeans聚类;在kmeans聚类中心点个数未定的场景中,使用轮廓系数曲线图进行人工判定;
引入轮廓系数转换公式:
sin(rst/(mean(rst)-0.01)*π/2)
rst表示不同聚类中心点对应的轮廓系数;将kmeans聚类轮廓系数映射到最小值大于0,且最大值略微大于π/2的区间;转换后的轮廓系数曲线图开口向下,且最大值在这个自变量取值区间出现;
S14,在任意一次迭代中,由设定的训练样本总数m,m随迭代次数增大,随机特征数n,正样本占比P,筛选l组训练数据,l≥1;在每一组数据中,根据S13的方法确定kmeans聚类中心点个数并进行聚类;在每一次聚类中,将正样本比例是P的F倍对应子簇判定为正样本子簇,F≥1;统计l组训练中,每一个样本聚类次数,属于正样本子簇占比大于等于50%则判定为正样本;
S15,样本更新,本次训练结束后,将原有正样本与新判定为正样本的记录合并,并剔除新增正样本中的原有负样本记录,剔除原无标签样本中的正样本记录;整合后的正负样本及无标签样本将用于下一次运算,同时更新参数P值;
S16,重复S14和S15的操作k次,统计最后一次迭代中每一个样本聚类次数,若该样本属于正样本子簇次数占比大于等于设定值,则判定该样本为正样本;
S17,验证,通过原正样本判定为正样本的准确率,决定是否接受模型结果;当接受原正样本模型准确率大于等于95%,将该模型中判定为正样本的原无标签样本用于下一步研究;当接受原正样本模型准确率小于95%,返回S14,调整l参数、增大F限定值和增大迭代次数k,重新训练。
可选的,所述子聚类中心点个数确定具体为:根据转换后的轮廓系数曲线图,根据最大值点得出聚类个数。
可选的,所述方法应用游戏业务的精准推荐模型开发中,正负样本比例小于1:100,步骤为:
S21:对每个特征维度做异常点检测;剔除95%分位数以外的孤立点;并对数据做0/1标准化处理;
S22:随机筛选每轮迭代的训练样本;设定正负样本的随机筛选比例值1:10,在初始样本集中筛选60%正样本以及10倍量级的负样本,包含未知标签样本,一共100组,每组样本随机筛选80%原始特征;从第二次迭代开始,按照同样比例筛选修正后的正负样本及特征;
S23:对每一组样本分别计算轮廓系数;设定聚类中心点个数,满足条件大于2,不大于训练集特征数;循环计算不同聚类中心个数时对应的样本i簇内距a(i)、簇间距b(i),所有点的轮廓系数平均值
Figure BDA0003904746550000031
由如下公式得到轮廓系数:
Figure BDA0003904746550000032
再由轮廓系数转换公式得到最大值对应的每组样本的最佳聚类中心点个数;
S24:聚类并判定每个子簇样本类别;100组数据中分别根据已得到的聚类中心点个数聚类;任意一个子簇中,正样本占比大0.4或初始筛选比例的4倍判定为正样本子簇;本轮训练中每个样本判定为正样本次数与该样本聚类次数比值,大于0.5则判定为正样本;
S25:更新样本集;模型训练中,对每条记录增加记录标识维度,用于识别不同样本的聚类次数及结果;增加样本标签维度,用于区分正样本、负样本以及无标签样本;一轮训练结束后,将原有正样本与新判定为正样本的记录合并,并剔除新增正样本中的原有负样本记录,剔除原无标签样本中的正样本记录;
S26:迭代训练;重复上述S22~S25的操作若干次;
S27:结果判定;根据营销结果验证。
可选的,所述S26中的若干次为501次。
可选的,所述S27中,RandomKmeans训练得到无排序的新增正样本10.46W,营销对应创角成本88.13%;与此对比的LR模型,使用原始正负样本训练,按概率排序,头部2W,创角成本69.09%;而头部10.5W,整体创角成本103.26%。
本发明的有益效果在于:
(1)计算复杂度低,仅限于多维空间的欧式距离计算。
(2)精准度可调,可通过调参方式达到需要的精度要求。
(3)基于无监督的半监督学习方法,实现了另一种基于无监督算法的半监督学习方式。
(4)能够解决样本不平衡问题,集成学习的方式能够有效解决样本不平衡问题,通过集成学习的迭代,能够进一步保证不平衡数据分析效果的稳定性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明流程图;
图2为轮廓系数转换前的轮廓系数曲线图;
图3为轮廓系数转换后的轮廓系数曲线图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,借鉴RandomForest的思路,多次随机按比例选取不同类别样本、特征进行kmeans聚类,由子簇中不同类别占比判定该簇样本类别;每一次迭代中,由本轮所有聚类结果,根据投票法决定待确定样本的所属类别;对于每一次kmeans聚类,由该聚类轮廓系数转换后的最大值点直接确定聚类的中心点个数。
本发明以kmeans聚类为基础的弱分类器单元,样本间的距离计算公式为:
Figure BDA0003904746550000051
这里,X=(x1,x2,···,xn),Y=(y1,y2,···,yn)表示任意两个样本点,disted(X,Y)代表这两个点之间的距离。Kmeans的目标是同一个簇中样本差异小,不同簇间样本差异大,一般使用误差平方和作为目标函数:
Figure BDA0003904746550000052
其中,C表示聚类中心,若x属于Ci所在簇,则计算两者的欧氏距离,计算所有样本点到其中心的距离并求和,就得到了目标函数SSE,kmeans目标是SSE最小化。本发明中,以轮廓系数转换公式确定每个基础kmeans聚类的中心点个数,通过计算SSE最小值,一步步实现算法迭代。
以正样本占比远小于负样本(未知标签样本暂归类为负样本)的二分类问题为例,实施方式如下:
第一步,对训练样本做全局异常值检测,剔除孤立点,避免出现单次kmeans聚类子类过多问题;不做异常点剔除则可能出现聚类个数等于限定值,而大部分样本划分到某一个子簇,其他子簇均为孤立点的极端情况。
第二步,设定每次正样本/负样本的固定随机数据筛选比例P(0<P<=1),P值可根据模型交叉验证或测试反馈调整。当正样本在训练样本中占比趋近于0时,初始P值应尽可能接近于1。这里,将无标签样本视为负样本。
第三步,每个子聚类中心点个数确定,并进行kmeans聚类。目前,在kmeans聚类中心点个数未定的场景中,使用轮廓系数曲线图进行人工判定是主流方法。如图2所示, iris和USArrests数据的聚类中心点并不是图中较显著的拐点。与肘部法则一样,轮廓系数确定聚类个数的方式也比较主观。
在本发明中,引入轮廓系数转换公式:
sin(rst/(mean(rst)-0.01)*π/2)
rst表示不同聚类中心点对应的轮廓系数。这个公式将kmeans聚类轮廓系数映射到最小值大于0,且最大值略微大于π/2的区间;转换后的轮廓系数曲线图开口向下,且最大值在这个自变量取值区间出现。
如图3所示,转换后的轮廓系数曲线图,可以直接根据最大值点得出聚类个数(iris 最佳聚类个数为3,USArrests最佳聚类个数为4,均符合实际数据情况)。
第四步,在任意一次迭代中,由设定的训练样本总数m(随迭代次数增大),随机特征数n,正样本占比P,筛选l(l>=1)组训练数据;在每一组数据中,根据第三步方法确定kmeans聚类中心点个数并进行聚类;在每一次聚类中,将正样本比例是P的F(F>=1)倍对应子簇判定为正样本子簇,统计l组训练中,每一个样本聚类次数,属于正样本子簇占比大于等于50%则判定为正样本。
第五步,样本更新,本次训练结束后,将原有正样本与新判定为正样本的记录合并,并剔除新增正样本中的原有负样本记录,剔除原无标签样本中的正样本记录。整合后的正负样本及无标签样本将用于下一次运算,同时更新参数P值。
第六步,重复第四、五步操作k次,统计最后一次迭代中每一个样本聚类次数,若该样本属于正样本子簇次数占比大于等于50%(或其他人工设定值)则判定该样本为正样本。
第七步,验证,通过原正样本判定为正样本的准确率,决定是否接受模型结果。如,接受原正样本模型准确率大于等于95%,并将该模型中判定为正样本的原无标签样本用于下一步研究。若小于95%,则返回第四步,调整l等参数,增大F限定值、增大迭代次数k等,重新训练。
以游戏业务的精准推荐模型开发为例(已知正负样本比例小于1:100),使用RandomKmeans方法:
第一步,对每个特征维度做异常点检测。剔除95%分位数以外的孤立点;并对数据做0/1标准化处理。
第二步,随机筛选每轮迭代的训练样本。设定正负样本的随机筛选比例值1:10,在初始样本集中筛选60%正样本以及10倍量级的负样本(包含未知标签样本),一共 100组,每组样本随机筛选80%原始特征;从第二次迭代开始,按照同样比例筛选修正后的正负样本及特征。
第三步,对每一组样本分别计算轮廓系数。设定聚类中心点个数,满足条件大于2,不大于训练集特征数;循环计算不同聚类中心个数时对应的样本i簇内距a(i)、簇间距 b(i),所有点的轮廓系数平均值
Figure BDA0003904746550000071
由如下公式得到轮廓系数。
Figure BDA0003904746550000072
再由轮廓系数转换公式得到最大值对应的每组样本的最佳聚类中心点个数。
第四步,聚类并判定每个子簇样本类别。100组数据中分别根据已得到的聚类中心点个数聚类;任意一个子簇中,正样本占比大0.4(初始筛选比例的4倍)判定为正样本子簇;本轮训练中每个样本判定为正样本次数与该样本聚类次数比值,大于0.5则判定为正样本。
第五步,更新样本集。模型训练中,对每条记录增加记录标识维度,用于识别不同样本的聚类次数及结果;增加样本标签维度,用于区分正样本、负样本以及无标签样本。一轮训练结束后,将原有正样本与新判定为正样本的记录合并,并剔除新增正样本中的原有负样本记录,剔除原无标签样本中的正样本记录。
第六步,迭代训练。重复上述第二至第五步操作501次(次数可调整)。
第七步,结果判定。根据营销结果验证,本次RandomKmeans训练得到的新增正样本10.46W(无排序),营销对应创角成本88.13%。与此对比的LR模型,使用原始正负样本训练,按概率排序,头部2W,创角成本69.09%;而头部10.5W,整体创角成本 103.26%。因此,RandomKmeans数据精准度低于有监督模型最头部人群,但本方法可以增大数据可营销范围;也可以通过调整子簇正样本判定参数,提高整体精准度。
基于轮廓系数转换函数实现kmeans聚类中心点个数的确定性输出,通过随机筛选的不同类别样本占比及kmeans聚类后子簇内不同类别占比生成弱分类器,通过集成学习实现强分类器解决样本不平衡问题。
随机kmeans方法中,将每一个聚类对应的轮廓系数曲线图转换为开口向下的曲线,并且保证转换函数最大值在限定的聚类次数中取到,从而自动输出每一次聚类中心点个数,避免了主观判断过程。该方法每一次聚类正负样本、训练特征都是随机筛选,通过集成方式实现强分类器功能,它能够平衡数据不平衡带来的误差;随着迭代次数的增加,正样本覆盖量逐步增大,并且通过可以控制正样本质量,并对每一个特征做出越来越准确的评价;所以该方法以集成迭代的方式实现了基于无监督kmeans的半监督学习方式,并且能够解决样本不平衡问题。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于kmeans聚类的半监督学习方法,其特征在于:该方法包括以下步骤:
多次随机按比例选取不同类别样本、特征进行kmeans聚类,由子簇中不同类别占比判定该簇样本类别;每一次迭代中,由本轮所有聚类结果,根据投票法决定待确定样本的所属类别;对于每一次kmeans聚类,由该聚类轮廓系数转换后的最大值点直接确定聚类的中心点个数;
以kmeans聚类为基础的弱分类器单元,样本间的距离计算公式为:
Figure FDA0003904746540000011
X=(x1,x2,···,xn),Y=(y1,y2,···,yn)表示任意两个样本点,disted(X,Y)代表这两个点之间的距离;Kmeans的目标是同一个簇中样本差异小,不同簇间样本差异大,使用误差平方和作为目标函数:
Figure FDA0003904746540000012
其中,C表示聚类中心,若x属于Ci所在簇,则计算两者的欧氏距离,计算所有样本点到其中心的距离并求和,得到目标函数SSE,kmeans目标是SSE最小化;以轮廓系数转换公式确定每个基础kmeans聚类的中心点个数,通过计算SSE最小值,一步步实现算法迭代。
2.根据权利要求1所述的一种基于kmeans聚类的半监督学习方法,其特征在于:所述方法应用在正样本占比远小于负样本、未知标签样本暂归类为负样本的二分类问题,步骤为:
S11,对训练样本做全局异常值检测,剔除孤立点,避免出现单次kmeans聚类子类过多问题;
S12,设定每次正样本/负样本的固定随机数据筛选比例P,0<P≤1,P值根据模型交叉验证或测试反馈调整;当正样本在训练样本中占比趋近于0时,初始P值趋近于1,将无标签样本视为负样本;
S13,每个子聚类中心点个数确定,并进行kmeans聚类;在kmeans聚类中心点个数未定的场景中,使用轮廓系数曲线图进行人工判定;
引入轮廓系数转换公式:
sin(rst/(mean(rst)-0.01)*π/2)
rst表示不同聚类中心点对应的轮廓系数;将kmeans聚类轮廓系数映射到最小值大于0,且最大值略微大于π/2的区间;转换后的轮廓系数曲线图开口向下,且最大值在这个自变量取值区间出现;
S14,在任意一次迭代中,由设定的训练样本总数m,m随迭代次数增大,随机特征数n,正样本占比P,筛选l组训练数据,l≥1;在每一组数据中,根据S13的方法确定kmeans聚类中心点个数并进行聚类;在每一次聚类中,将正样本比例是P的F倍对应子簇判定为正样本子簇,F≥1;统计l组训练中,每一个样本聚类次数,属于正样本子簇占比大于等于50%则判定为正样本;
S15,样本更新,本次训练结束后,将原有正样本与新判定为正样本的记录合并,并剔除新增正样本中的原有负样本记录,剔除原无标签样本中的正样本记录;整合后的正负样本及无标签样本将用于下一次运算,同时更新参数P值;
S16,重复S14和S15的操作k次,统计最后一次迭代中每一个样本聚类次数,若该样本属于正样本子簇次数占比大于等于设定值,则判定该样本为正样本;
S17,验证,通过原正样本判定为正样本的准确率,决定是否接受模型结果;当接受原正样本模型准确率大于等于95%,将该模型中判定为正样本的原无标签样本用于下一步研究;当接受原正样本模型准确率小于95%,返回S14,调整l参数、增大F限定值和增大迭代次数k,重新训练。
3.根据权利要求2所述的一种基于kmeans聚类的半监督学习方法,其特征在于:所述子聚类中心点个数确定具体为:根据转换后的轮廓系数曲线图,根据最大值点得出聚类个数。
4.根据权利要求1所述的一种基于kmeans聚类的半监督学习方法,其特征在于:所述方法应用游戏业务的精准推荐模型开发中,正负样本比例小于1:100,步骤为:
S21:对每个特征维度做异常点检测;剔除95%分位数以外的孤立点;并对数据做0/1标准化处理;
S22:随机筛选每轮迭代的训练样本;设定正负样本的随机筛选比例值1:10,在初始样本集中筛选60%正样本以及10倍量级的负样本,包含未知标签样本,一共100组,每组样本随机筛选80%原始特征;从第二次迭代开始,按照同样比例筛选修正后的正负样本及特征;
S23:对每一组样本分别计算轮廓系数;设定聚类中心点个数,满足条件大于2,不大于训练集特征数;循环计算不同聚类中心个数时对应的样本i簇内距a(i)、簇间距b(i),所有点的轮廓系数平均值
Figure FDA0003904746540000021
由如下公式得到轮廓系数:
Figure FDA0003904746540000031
再由轮廓系数转换公式得到最大值对应的每组样本的最佳聚类中心点个数;
S24:聚类并判定每个子簇样本类别;100组数据中分别根据已得到的聚类中心点个数聚类;任意一个子簇中,正样本占比大0.4或初始筛选比例的4倍判定为正样本子簇;本轮训练中每个样本判定为正样本次数与该样本聚类次数比值,大于0.5则判定为正样本;
S25:更新样本集;模型训练中,对每条记录增加记录标识维度,用于识别不同样本的聚类次数及结果;增加样本标签维度,用于区分正样本、负样本以及无标签样本;一轮训练结束后,将原有正样本与新判定为正样本的记录合并,并剔除新增正样本中的原有负样本记录,剔除原无标签样本中的正样本记录;
S26:迭代训练;重复上述S22~S25的操作若干次;
S27:结果判定;根据营销结果验证。
5.根据权利要求4所述的一种基于kmeans聚类的半监督学习方法,其特征在于:所述S26中的若干次为501次。
6.根据权利要求5所述的一种基于kmeans聚类的半监督学习方法,其特征在于:所述S27中,RandomKmeans训练得到无排序的新增正样本10.46W,营销对应创角成本88.13%;与此对比的LR模型,使用原始正负样本训练,按概率排序,头部2W,创角成本69.09%;而头部10.5W,整体创角成本103.26%。
CN202211303038.7A 2022-10-24 2022-10-24 一种基于kmeans聚类的半监督学习方法及其应用 Pending CN115563520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211303038.7A CN115563520A (zh) 2022-10-24 2022-10-24 一种基于kmeans聚类的半监督学习方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211303038.7A CN115563520A (zh) 2022-10-24 2022-10-24 一种基于kmeans聚类的半监督学习方法及其应用

Publications (1)

Publication Number Publication Date
CN115563520A true CN115563520A (zh) 2023-01-03

Family

ID=84747514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211303038.7A Pending CN115563520A (zh) 2022-10-24 2022-10-24 一种基于kmeans聚类的半监督学习方法及其应用

Country Status (1)

Country Link
CN (1) CN115563520A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149551A (zh) * 2023-10-30 2023-12-01 鹰驾科技(深圳)有限公司 一种车载无线通信芯片的测试方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149551A (zh) * 2023-10-30 2023-12-01 鹰驾科技(深圳)有限公司 一种车载无线通信芯片的测试方法
CN117149551B (zh) * 2023-10-30 2024-02-09 鹰驾科技(深圳)有限公司 一种车载无线通信芯片的测试方法

Similar Documents

Publication Publication Date Title
US7362892B2 (en) Self-optimizing classifier
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN112465040B (zh) 一种基于类不平衡学习算法的软件缺陷预测方法
CN107545275A (zh) 重采样与代价敏感学习融合的不平衡数据集成分类方法
CN106971091B (zh) 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
CN109993225B (zh) 一种基于无监督学习的空域复杂度分类方法及装置
CN110751101B (zh) 基于无监督极限学习机多重聚类算法的疲劳驾驶判断方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN115048988B (zh) 基于高斯混合模型的不平衡数据集分类融合方法
CN110795690A (zh) 风电场运行异常数据检测方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN115563520A (zh) 一种基于kmeans聚类的半监督学习方法及其应用
CN108154186B (zh) 一种模式识别方法和装置
CN112418987A (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
CN117349786B (zh) 基于数据均衡的证据融合变压器故障诊断方法
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN113360392A (zh) 一种跨项目软件缺陷预测方法及装置
Barandela et al. Restricted decontamination for the imbalanced training sample problem
CN113523904A (zh) 一种刀具磨损检测方法
CN115827932A (zh) 数据离群孤立点检测方法、系统、计算机设备及存储介质
CN112308160A (zh) 一种k—均值聚类人工智能优化算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination