CN110717503A - 一种分类方法、装置、电子设备及计算机存储介质 - Google Patents
一种分类方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN110717503A CN110717503A CN201810766010.4A CN201810766010A CN110717503A CN 110717503 A CN110717503 A CN 110717503A CN 201810766010 A CN201810766010 A CN 201810766010A CN 110717503 A CN110717503 A CN 110717503A
- Authority
- CN
- China
- Prior art keywords
- feature
- sample information
- sample
- classification
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种分类方法、装置、电子设备及计算机存储介质,其中,方法包括:接收样本分类请求,该样本分类请求包括分类集合的数量和多个样本信息,各个样本信息包括至少一个第一特征,该第一特征对应一个第一特征值;根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的重要度;基于预设算法和各个第一特征的重要度,得到满足前述数量的分类集合。通过实施本发明实施例,可以基于各个第一特征的重要度对该样本信息进行分类,由于在分类过程中考虑了第一特征的重要度,相较重要度低的第一特征,重要度高的第一特征对分类结果产生的影响更大,从而使得分类结果更符合实际,有利于提高分类结果的准确度。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种分类方法、装置、电子设备及计算机存储介质。
背景技术
机器学习是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习中的分类算法可以通过数据的特征对庞大复杂的数据集进行分类,从而达到预测的目的。机器学习中的分类算法可以广泛应用于金融、商业、科研等领域,为决策者提供更有力的数据支持。因此,如何有效提高分类结果的准确度是当前亟需解决的技术问题。
发明内容
本发明实施例公开了一种分类方法、装置、电子设备及计算机存储介质,可以基于样本信息的各个特征的重要度对该样本信息进行分类,并有利于提高分类结果的准确度。
第一方面,本发明实施例公开了分类方法,该方法可以包括:接收样本分类请求,所述样本分类请求包括分类集合的数量和多个样本信息,各个所述样本信息包括至少一个第一特征,所述第一特征对应一个第一特征值;根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的重要度;基于预设算法和各个所述第一特征的重要度,对所述多个样本信息进行分类处理,得到满足所述数量的分类集合,各个所述分类集合包括至少一个所述样本信息,一个所述样本信息存在于一个所述分类集合中。
在一种实现方式中,所述基于预设算法和各个所述第一特征的重要度,对所述多个样本信息进行分类处理,得到满足所述数量的分类集合的具体实施方式可以为:获取满足所述数量的聚类中心,不同所述聚类中心对应不同所述分类集合;针对各个所述样本信息,基于所述预设算法和各个所述第一特征的重要度,得到所述样本信息与各个所述聚类中心之间的相似度;获取与所述样本信息之间的相似度最小的聚类中心对应的分类集合,所述分类集合包括所述样本信息。
在一种实现方式中,所述获取与所述样本信息之间的相似度最小的聚类中心对应的分类集合,所述分类集合包括所述样本信息之后,所述方法还可以包括:对所述分类集合对应的聚类中心进行更新,得到更新后的聚类中心;针对各个所述样本信息,基于预设算法和各个所述第一特征的重要度,得到所述样本信息与各个所述更新后的聚类中心之间的相似度;获取与所述样本信息之间的相似度最小的更新后的聚类中心对应的更新后的分类集合,所述更新后的分类集合包括所述样本信息;触发对所述分类集合对应的聚类中心进行更新,得到更新后的聚类中心,直至当前更新得到的更新后的聚类中心与上一次更新得到的更新后的聚类中心相同。
在一种实现方式中,各个所述聚类中心包括至少一个第二特征,所述第二特征对应一个第二特征值,所述针对各个所述样本信息,基于所述预设算法和各个所述第一特征的重要度,得到所述样本信息与各个所述聚类中心之间的相似度的具体实施方式可以为:针对各个所述聚类中心,将所述样本信息的各个所述第一特征对应的第一特征值和所述聚类中心的各个所述第二特征对应的第二特征值相减,得到第一数值;将各个所述第一特征的重要度与各个所述第一数值相乘,得到第二数值;对各个所述第二数值的平方值求和,得到第三数值;对所述第三数值开平方,将得到的开方值确定为所述样本信息与所述聚类中心之间的相似度。
在一种实现方式中,所述根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的重要度的具体实施方式可以为:根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的信息增益;根据各个所述第一特征的信息增益,确定各个所述第一特征的重要度。
在一种实现方式中,所述根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的信息增益的具体实施方式可以为:根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的信息熵和所述多个样本信息的信息熵;针对各个所述第一特征,将所述多个样本信息的信息熵与所述第一特征的信息熵相减,得到所述第一特征的信息增益。
在一种实现方式中,所述接收样本分类请求之前,所述方法还可以包括:接收样本处理请求,所述样本处理请求包括样本集合,所述样本集合包括若干样本信息;对所述样本集合进行预处理,得到所述多个样本信息;其中,所述预处理包括数据清洗和降维处理中的至少一种。
第二方面,本发明实施例公开了一种分类装置,该装置包括用于执行上述第一方面所述的方法的单元。
第三方面,本发明实施例公开了一种电子设备,该包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面所述的方法。
第四方面,本发明实施例公开了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面所述的方法。
通过实施本发明实施例,可以得到样本信息的各个第一特征的重要度,进一步的,可以基于各个第一特征的重要度对该样本信息进行分类,由于在分类过程中考虑了第一特征的重要度,相较重要度低的第一特征,重要度高的第一特征对分类结果产生的影响更大,从而使得分类结果更符合实际,有利于提高分类结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种分类方法的流程示意图;
图2是本发明实施例提供的另一种分类方法的流程示意图;
图3是本发明实施例提供的一种分类装置的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明实施例提供的一种分类方法的流程示意图。具体的,如图1所示,本发明实施例的分类方法可以包括但不限于如下步骤:
S101、电子设备接收样本分类请求,该样本分类请求包括分类集合的数量和多个样本信息,各个样本信息包括至少一个第一特征,该第一特征对应一个第一特征值。
其中,电子设备可以是终端设备,也可以是服务器。该终端设备可以是智能手机、平板电脑、个人计算机(Personal Computer,PC)、智能电视、智能手表、车载设备、可穿戴设备、未来第五代移动通信技术(the 5th Generation,5G)网络中的终端设备等,本发明实施例对此不作限定。
具体的,电子设备可以在接收到样本分类请求的情况下,提取该样本分类请求包括的分类集合的数量和多个样本信息。其中,所述多个样本信息可以是数据的集合,即数据集。相应的,样本信息可以是数据集中的一条记录。每个样本信息可以具有至少一个特征(即第一特征),样本信息的每个特征均可以对应有一个特征值(即第一特征值)。例如,样本信息为用户信息时,第一特征可以是用户的性别、年龄、学历等,当第一特征为用户的性别时,第一特征值可以是0或1,其中,0代表“男”(或者“女”),1代表“女”(或者“男”)。分类集合的数量可以代表欲将所述多个样本信息分为满足该数量的类别,例如,当样本分类请求包括100个样本信息,且该样本分类请求包括的分类集合的数量为2类时,电子设备可以将100个样本信息分为2类,即将100个样本信息加入两个分类集合中,其中,一个分类集合中包括的所有样本信息均属于同一类,且与另一个分类集合中的样本信息不属于同一类。
在一种实现方式中,样本分类请求可以是终端设备发送的,也可以是电子设备在检测到样本分类事件的情况下自动生成的。该样本分类事件可以是用户点击电子设备显示的样本分类界面中的确认分类按钮触发的。
S102、电子设备根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的重要度。
在本发明实施例中,第一特征的重要度可以根据样本分类请求中的所有样本信息的第一特征对应的第一特征值得到。例如,当样本分类请求包括100个样本信息,且每个样本信息的第一特征包括性别、年龄、学历、逾期情况时,性别的重要度可以根据所有(即100个)样本信息的性别、年龄、学历、逾期情况(即第一特征)的第一特征值得到。需要说明的是,样本分类请求中的不同样本信息的同一个第一特征的重要度相同。
S103、电子设备基于预设算法和各个第一特征的重要度,对前述多个样本信息进行分类处理,得到满足前述数量的分类集合。其中,各个分类集合包括至少一个样本信息,一个样本信息存在于一个分类集合中。
具体的,电子设备可以调用预设算法,并获取各个第一特征的重要度和各个第一特征的第一特征值,以对前述多个样本信息进行分类处理,得到满足前述数量的分类集合。例如,若需要将样本信息分类为会逾期(第一类)和不会逾期(第二类)这两类,当样本信息1的第一特征包括年龄、学历,且样本信息1的年龄的第一特征值为“0.8”,学历的第一特征值为“0.1”时,若年龄的重要度大于学历的重要度,则电子设备可以将样本信息分类为第二类(不会逾期);若学历的重要度大于年龄的重要度,则电子设备可以将样本信息分类为第一类。也就是说,电子设备可以主要根据重要度大的第一特征的第一特征值来得到分类结果。相较现有技术中并未考虑各个第一特征的重要度(即将各个第一特征的重要度设置为相同),本发明实施例区分了不同第一特征的重要度,使得相较重要度低的第一特征,重要度高的第一特征对分类结果产生的影响更大,可以使得分类结果更符合实际,有利于提高分类结果的准确度。
通过实施本发明实施例,可以得到样本信息的各个第一特征的重要度,进一步的,可以基于各个第一特征的重要度对该样本信息进行分类,由于在分类过程中考虑了第一特征的重要度,相较重要度低的第一特征,重要度高的第一特征对分类结果产生的影响更大,从而使得分类结果更符合实际,有利于提高分类结果的准确度。
请参阅图2,图2是本发明实施例提供的另一种分类方法的流程示意图。具体的,如图2所示,本发明实施例的另一种分类方法可以包括但不限于以下步骤:
S201、电子设备接收样本处理请求,该样本处理请求包括样本集合,样本集合包括若干样本信息。
具体的,电子设备可以在接收到来自终端设备(或者另一个电子设备)的样本处理请求的情况下,提取该样本处理请求包括的样本集合。其中,样本集合包括若干样本信息,样本集合中的样本信息是未经过预处理的样本信息。
S202、电子设备对样本集合进行预处理,得到多个样本信息。
具体的,电子设备可以对样本集合中的每个样本信息进行预处理,得到多个样本信息。其中,所述预处理包括数据清洗和降维处理中的至少一种。数据清洗是指发现并纠正样本信息中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。降维处理是指为简化对样本信息的处理过程,减少样本信息中的第一特征的数量。例如,电子设备可以删除不必要(如不相关或者冗余)的第一特征,从而节省提取不必要的第一特征的开销,并且,也可以避免不必要的第一特征对分类结果造成影响,有利于提高分类结果的准确度。
S203、电子设备将多个样本信息发送给该终端设备,以便该终端设备根据多个样本信息向电子设备发送样本分类请求。
S204、电子设备接收样本分类请求,该样本分类请求包括分类集合的数量和多个样本信息,各个样本信息包括至少一个第一特征,该第一特征对应一个第一特征值。
需要说明的是,步骤S203的执行过程可以参见图1中步骤S101中的具体描述,在此不赘述。
S205、电子设备根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息增益。
在一种实现方式中,电子设备根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息增益的具体实施方式可以为:根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息熵和前述多个样本信息的信息熵;针对各个第一特征,将前述多个样本信息的信息熵与该第一特征的信息熵相减,得到该第一特征的信息增益。
在一种实现方式中,电子设备可以根据第一特征的第一特征值的类别数和前述多个样本信息,得到至少一个特征集合。例如,当样本分类请求包括100个样本信息,且每个样本信息的第一特征包括年龄、学历、逾期情况时,若学历的第一特征值的类别数为3,且3个类别分别为“1”(本科以下)、“2”(本科)、“3”(硕士及硕士以上)时,电子设备可以将100个样本信息划分为3个特征集合(如第一特征集合、第二特征集合和第三特征集合),其中,电子设备可以将学历为“1”的样本信息加入第一特征集合,将学历为“2”的样本信息加入第二特征集合,学历为“3”的样本信息加入第三特征集合。进一步的,电子设备可以根据各个特征集合中决策特征的特征值,得到该第一特征的信息熵。例如,若需要将样本信息分类为会逾期和不会逾期这两类,当样本信息的第一特征包括年龄、学历、逾期情况时,逾期情况为决策特征。在一种实现方式中,第一特征的信息熵的计算公式如下:
其中,A为第一特征,S为样本分类请求中的样本信息的数量,m为第一特征A的第一特征值的类别数,即根据第一特征A得到的特征集合的个数,Si为特征集合i中的样本信息的数量,n为特征集合i中的样本信息的决策特征的特征值的类别数,Sij为特征集合i中决策特征的特征值为第j类的样本信息的数量。例如,当样本分类请求包括100个样本信息,且每个样本信息的第一特征包括年龄、学历、逾期情况时,S=100;若学历的第一特征值的类别数为3,则电子设备根据学历将100个样本信息加入3个特征集合(第一、第二、第三特征集合);若第一特征集合中的样本信息的数量为10,则S1=10;若第一特征集合中的样本信息的决策特征(即逾期情况)的特征值(分别为“0”和“1”)的类别数为2,则n=2;若第一特征集合中逾期情况(即决策特征)的特征值为第1类(即特征值为“0”)的样本信息的数量为3,则S21=3。
在一种实现方式中,前述多个样本信息的信息熵的计算公式如下:
其中,S为样本分类请求中的分类集合的数量,n为样本分类请求中的样本信息的决策特征的特征值的类别数,St为样本分类请求中决策特征的特征值为第t类的样本信息的数量。例如,当样本分类请求包括100个样本信息,且每个样本信息的第一特征包括年龄、学历、逾期情况时,若决策特征为逾期情况,且逾期情况的特征值为“0”或“1”,则n=2;若100个样本信息中决策特征的特征值为第1类(即特征值为“0”)的样本信息的数量为51个,则S1=51。
在一种实现方式中,前述第一特征的信息增益的计算公式如下:
Gain(A)=E(S)-E(A)
S206、电子设备根据各个第一特征的信息增益,确定各个第一特征的重要度。具体的,电子设备可以根据所有第一特征的信息增益,确定各个第一特征的重要度。在一种实现方式中,第一特征的重要度的计算公式如下:
其中,k为样本分类请求中的样本信息的第一特征的数量,Gain(i)为第一特征i的信息增益,exp(Gain(i))为e的Gain(i)次方。
S207、电子设备获取满足前述数量的聚类中心,不同聚类中心对应不同分类集合。
在一种实现方式中,电子设备可以根据用户的输入操作,获取满足前述数量的聚类中心。也就是说,用户可以预先设置聚类中心。需要说明的是,若电子设备获取到n个聚类中心,则电子设备可以将样本分类请求中的所有样本信息分为n类,每一类样本信息对应一个分类集合,每个分类集合中样本信息的类别相同。
S208、电子设备针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个聚类中心之间的相似度。在一种实现方式中,各个聚类中心包括至少一个第二特征,该第二特征对应一个第二特征值,
电子设备执行针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个聚类中心之间的相似度时,具体可以执行步骤s2081-s2084:
s2081:针对各个聚类中心,将该样本信息的各个第一特征对应的第一特征值和该聚类中心的各个第二特征对应的第二特征值相减,得到第一数值;
s2082:将各个第一特征的重要度与各个第一数值相乘,得到第二数值;
s2083:对各个第二数值的平方值求和,得到第三数值;
s2084:对第三数值开平方,将得到的开方值确定为该样本信息与该聚类中心之间的相似度。
在一种实现方式中,样本信息x与聚类中心C之间的相似度的计算公式如下:
其中,k为样本分类请求中的样本信息的第一特征的数量,Imp(j)为第一特征j的重要度,xj为样本信息的第一特征j的第一特征值,Cj为聚类中心的第一特征j的第一特征值。
S209、电子设备获取与该样本信息之间的相似度最小的聚类中心对应的分类集合,该分类集合包括该样本信息。
具体的,电子设备可以根据该样本信息与各个聚类中心之间的相似度,获取与该样本信息之间的相似度最小的聚类中心,并获取与该样本信息之间的相似度最小的聚类中心对应的分类集合。例如,若聚类中心的数量为3,样本信息1与聚类中心1之间的相似度为0.3,样本信息1与聚类中心2之间的相似度为0.5,样本信息1与聚类中心3之间的相似度为0.8时,则与样本信息1之间的相似度最小的聚类中心为聚类中心3,则电子设备可以将样本信息1加入聚类中心3对应的分类集合。
在一种实现方式中,电子设备获取与该样本信息之间的相似度最小的聚类中心对应的分类集合之后,前述方法还可以包括:对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心;存储该更新后的聚类中心;针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个更新后的聚类中心之间的相似度;获取与该样本信息之间的相似度最小的更新后的聚类中心对应的更新后的分类集合,所述更新后的分类集合包括该样本信息;触发对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心,直至当前更新得到的更新后的聚类中心与上一次更新得到的更新后的聚类中心相同。
在一种实现方式中,分类结果可以是经过多次迭代过程得到的,在每次迭代过程中,电子设备会将样本分类请求中的所有样本信息进行分类,以得到多个分类集合,并根据分类集合中的所有样本信息的第一特征的第一特征值,对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心。若该分类集合中的样本信息的第一特征与聚类中心中第二特征对应,则更新后的聚类中心的第二特征的第二特征值为该分类集合中的所有样本信息的第一特征的第一特征值的均值。例如,若分类集合1中包括3个样本信息,每个样本信息中的第一特征1、2和3分别对应(分类集合1对应的)聚类中心1中的第二特征1、2和3,则更新后的聚类中心1中的第二特征1的第二特征值为样本信息1、2和3中的第一特征1的均值。
在一种实现方式中,每经过一次迭代过程,聚类中心将更新一次。由于聚类中心发生了更新,因此各个样本信息和(更新后的)聚类中心之间的相似度会发生变化,进一步的,分类结果也会发生变化。因此,当当前更新得到的更新后的聚类中心与上一次更新得到的更新后的聚类中心相同时,可以表示经过此处迭代过程,分类结果并未发生变化,也就是说,分类结果已经趋于稳定,当前的分类结果为最终的分类结果。
通过实施本发明实施例,可以得到样本信息的各个第一特征的重要度,进一步的,可以基于各个第一特征的重要度对该样本信息进行分类,由于在分类过程中考虑了第一特征的重要度,相较重要度低的第一特征,重要度高的第一特征对分类结果产生的影响更大,从而使得分类结果更符合实际,有利于提高分类结果的准确度。
请参见图3,图3是本发明实施例提供的一种分类装置的结构示意图,具体的,如图3所示,该分类装置30,可以包括:
接收单元301,用于接收样本分类请求,该样本分类请求包括分类集合的数量和多个样本信息,各个样本信息包括至少一个第一特征,该第一特征对应一个第一特征值。
处理单元302,用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的重要度。
该处理单元302,还用于基于预设算法和各个第一特征的重要度,对前述多个样本信息进行分类处理,得到满足前述数量的分类集合。其中,各个分类集合包括至少一个样本信息,一个样本信息存在于一个分类集合中。
在一种实现方式中,该处理单元302,具体用于获取满足前述数量的聚类中心,不同聚类中心对应不同分类集合;针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个聚类中心之间的相似度;获取与该样本信息之间的相似度最小的聚类中心对应的分类集合,该分类集合包括该样本信息。
在一种实现方式中,该处理单元302,还可以用于对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心;针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个更新后的聚类中心之间的相似度;获取与该样本信息之间的相似度最小的更新后的聚类中心对应的更新后的分类集合,该更新后的分类集合包括该样本信息;触发对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心,直至当前更新得到的更新后的聚类中心与上一次更新得到的更新后的聚类中心相同。
在一种实现方式中,各个聚类中心包括至少一个第二特征,该第二特征对应一个第二特征值,该处理单元302,具体用于针对各个聚类中心,将该样本信息的各个第一特征对应的第一特征值和该聚类中心的各个第二特征对应的第二特征值相减,得到第一数值;将各个第一特征的重要度与各个第一数值相乘,得到第二数值;对各个第二数值的平方值求和,得到第三数值;对第三数值开平方,将得到的开方值确定为该样本信息与该聚类中心之间的相似度。
在一种实现方式中,该处理单元302,具体用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息增益;根据各个第一特征的信息增益,确定各个第一特征的重要度。
在一种实现方式中,该处理单元302,具体用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息熵和前述多个样本信息的信息熵;针对各个第一特征,将前述多个样本信息的信息熵与该第一特征的信息熵相减,得到该第一特征的信息增益。
在一种实现方式中,该接收单元301,还可以用于接收样本处理请求,该样本处理请求包括样本集合,该样本集合包括若干样本信息;对该样本集合进行预处理,得到前述多个样本信息;其中,所述预处理包括数据清洗和降维处理中的至少一种。
本发明实施例和图1、图2所示方法实施例基于同一构思,其带来的技术效果也相同,具体原理请参照图1、图2所示实施例的描述,在此不赘述。
请参阅图4,图4是本发明实施例提供的一种电子设备的结构示意图。该电子设备40可以包括接收器401、存储器402和处理器403,接收器401、存储器402和处理器403通过一条或多条通信总线连接。
接收器401可以用于接收数据,例如,接收器401可以用于接收样本分类请求。
存储器402可以包括只读存储器和随机存取存储器,并向处理器403提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。
处理器403可以是中央处理单元(Central Processing Unit,CPU),该处理器403还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器,可选的,该处理器403也可以是任何常规的处理器等。其中:
存储器402,用于存储程序指令。
处理器403,用于调用存储器402中存储的程序指令,以用于:
接收样本分类请求,该样本分类请求包括分类集合的数量和多个样本信息,各个样本信息包括至少一个第一特征,该第一特征对应一个第一特征值;
根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的重要度;
基于预设算法和各个第一特征的重要度,对前述多个样本信息进行分类处理,得到满足前述数量的分类集合。其中,各个分类集合包括至少一个样本信息,一个样本信息存在于一个分类集合中。
在一种实现方式中,处理器403用于基于预设算法和各个第一特征的重要度,对前述多个样本信息进行分类处理,得到满足前述数量的分类集合时,具体可以用于获取满足前述数量的聚类中心,不同聚类中心对应不同分类集合;针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个聚类中心之间的相似度;获取与该样本信息之间的相似度最小的聚类中心对应的分类集合,该分类集合包括该样本信息。
在一种实现方式中,处理器403还可以用于对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心;针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个更新后的聚类中心之间的相似度;获取与该样本信息之间的相似度最小的更新后的聚类中心对应的更新后的分类集合,该更新后的分类集合包括该样本信息;触发对该分类集合对应的聚类中心进行更新,得到更新后的聚类中心,直至当前更新得到的更新后的聚类中心与上一次更新得到的更新后的聚类中心相同。
在一种实现方式中,各个聚类中心包括至少一个第二特征,该第二特征对应一个第二特征值,处理器403用于针对各个样本信息,基于预设算法和各个第一特征的重要度,得到该样本信息与各个聚类中心之间的相似度时,具体可以用于针对各个聚类中心,将该样本信息的各个第一特征对应的第一特征值和该聚类中心的各个第二特征对应的第二特征值相减,得到第一数值;将各个第一特征的重要度与各个第一数值相乘,得到第二数值;对各个第二数值的平方值求和,得到第三数值;对第三数值开平方,将得到的开方值确定为该样本信息与该聚类中心之间的相似度。
在一种实现方式中,处理器403用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的重要度时,具体可以用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息增益;根据各个第一特征的信息增益,确定各个第一特征的重要度。
在一种实现方式中,处理器403用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息增益时,具体可以用于根据各个样本信息的第一特征对应的第一特征值,得到各个第一特征的信息熵和前述多个样本信息的信息熵;针对各个第一特征,将前述多个样本信息的信息熵与该第一特征的信息熵相减,得到该第一特征的信息增益。
在一种实现方式中,处理器403还可以用于接收样本处理请求,所述样本处理请求包括样本集合,所述样本集合包括若干样本信息;对所述样本集合进行预处理,得到所述多个样本信息;其中,所述预处理包括数据清洗和降维处理中的至少一种。
需要说明的是,图4对应的实施例中未提及的内容以及各个步骤的具体实现方式可参见图1-图3所示实施例以及前述内容,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时,使处理器执行如图1-图2所示方法实施例中所执行的步骤。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种分类方法,其特征在于,包括:
接收样本分类请求,所述样本分类请求包括分类集合的数量和多个样本信息,各个所述样本信息包括至少一个第一特征,所述第一特征对应一个第一特征值;
根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的重要度;
基于预设算法和各个所述第一特征的重要度,对所述多个样本信息进行分类处理,得到满足所述数量的分类集合,各个所述分类集合包括至少一个所述样本信息,一个所述样本信息存在于一个所述分类集合中。
2.根据权利要求1所述的方法,其特征在于,所述基于预设算法和各个所述第一特征的重要度,对所述多个样本信息进行分类处理,得到满足所述数量的分类集合,包括:
获取满足所述数量的聚类中心,不同所述聚类中心对应不同所述分类集合;
针对各个所述样本信息,基于所述预设算法和各个所述第一特征的重要度,得到所述样本信息与各个所述聚类中心之间的相似度;
获取与所述样本信息之间的相似度最小的聚类中心对应的分类集合,所述分类集合包括所述样本信息。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述样本信息之间的相似度最小的聚类中心对应的分类集合,所述分类集合包括所述样本信息之后,所述方法还包括:
对所述分类集合对应的聚类中心进行更新,得到更新后的聚类中心;
针对各个所述样本信息,基于预设算法和各个所述第一特征的重要度,得到所述样本信息与各个所述更新后的聚类中心之间的相似度;
获取与所述样本信息之间的相似度最小的更新后的聚类中心对应的更新后的分类集合,所述更新后的分类集合包括所述样本信息;
触发对所述分类集合对应的聚类中心进行更新,得到更新后的聚类中心,直至当前更新得到的更新后的聚类中心与上一次更新得到的更新后的聚类中心相同。
4.根据权利要求2所述的方法,其特征在于,各个所述聚类中心包括至少一个第二特征,所述第二特征对应一个第二特征值,所述针对各个所述样本信息,基于所述预设算法和各个所述第一特征的重要度,得到所述样本信息与各个所述聚类中心之间的相似度,包括:
针对各个所述聚类中心,将所述样本信息的各个所述第一特征对应的第一特征值和所述聚类中心的各个所述第二特征对应的第二特征值相减,得到第一数值;
将各个所述第一特征的重要度与各个所述第一数值相乘,得到第二数值;
对各个所述第二数值的平方值求和,得到第三数值;
对所述第三数值开平方,将得到的开方值确定为所述样本信息与所述聚类中心之间的相似度。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的重要度,包括:
根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的信息增益;
根据各个所述第一特征的信息增益,确定各个所述第一特征的重要度。
6.根据权利要求5所述的方法,其特征在于,所述根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的信息增益,包括:
根据各个所述样本信息的第一特征对应的第一特征值,得到各个所述第一特征的信息熵和所述多个样本信息的信息熵;
针对各个所述第一特征,将所述多个样本信息的信息熵与所述第一特征的信息熵相减,得到所述第一特征的信息增益。
7.根据权利要求1~4任一项所述的方法,其特征在于,所述接收样本分类请求之前,所述方法还包括:
接收样本处理请求,所述样本处理请求包括样本集合,所述样本集合包括若干样本信息;
对所述样本集合进行预处理,得到所述多个样本信息;
其中,所述预处理包括数据清洗和降维处理中的至少一种。
8.一种分类装置,其特征在于,所述装置包括用于执行如权利要求1~7任一项所述的方法的单元。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766010.4A CN110717503A (zh) | 2018-07-12 | 2018-07-12 | 一种分类方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810766010.4A CN110717503A (zh) | 2018-07-12 | 2018-07-12 | 一种分类方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110717503A true CN110717503A (zh) | 2020-01-21 |
Family
ID=69209253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810766010.4A Pending CN110717503A (zh) | 2018-07-12 | 2018-07-12 | 一种分类方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110717503A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021179544A1 (zh) * | 2020-03-12 | 2021-09-16 | 平安科技(深圳)有限公司 | 样本分类方法、装置、计算机设备及存储介质 |
-
2018
- 2018-07-12 CN CN201810766010.4A patent/CN110717503A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021179544A1 (zh) * | 2020-03-12 | 2021-09-16 | 平安科技(深圳)有限公司 | 样本分类方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255352B (zh) | 目标检测方法、装置及系统 | |
CN109829506B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
WO2017045443A1 (zh) | 一种图像检索方法及系统 | |
CN110363091B (zh) | 侧脸情况下的人脸识别方法、装置、设备及存储介质 | |
CN110503459B (zh) | 基于大数据的用户信用度评估方法、装置及存储介质 | |
CN110765860A (zh) | 摔倒判定方法、装置、计算机设备及存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN111553215A (zh) | 人员关联方法及其装置、图卷积网络训练方法及其装置 | |
CN111489290A (zh) | 一种人脸图像超分辨重建方法、装置及终端设备 | |
CN114118287A (zh) | 样本生成方法、装置、电子设备以及存储介质 | |
CN111159481B (zh) | 图数据的边预测方法、装置及终端设备 | |
CN113887615A (zh) | 图像处理方法、装置、设备和介质 | |
CN110909817B (zh) | 分布式聚类方法及系统、处理器、电子设备及存储介质 | |
CN110287361B (zh) | 一种人物图片筛选方法及装置 | |
CN111507090A (zh) | 摘要提取方法、装置、设备及计算机可读存储介质 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110399464B (zh) | 一种相似新闻判别方法、系统及电子设备 | |
CN110717503A (zh) | 一种分类方法、装置、电子设备及计算机存储介质 | |
CN115035605B (zh) | 基于深度学习的动作识别方法、装置、设备及存储介质 | |
CN114692778B (zh) | 用于智能巡检的多模态样本集生成方法、训练方法及装置 | |
CN110597985A (zh) | 基于数据分析的数据分类方法、装置、终端及介质 | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN104657397B (zh) | 一种信息处理方法及终端 | |
CN111291370A (zh) | 网络数据入侵检测方法、系统、终端及存储介质 | |
CN111046786A (zh) | 年龄估计神经网络的生成方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |