CN111382210B - 一种分类方法、装置及设备 - Google Patents
一种分类方法、装置及设备 Download PDFInfo
- Publication number
- CN111382210B CN111382210B CN201811615580.XA CN201811615580A CN111382210B CN 111382210 B CN111382210 B CN 111382210B CN 201811615580 A CN201811615580 A CN 201811615580A CN 111382210 B CN111382210 B CN 111382210B
- Authority
- CN
- China
- Prior art keywords
- data
- sub
- position relation
- classification
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 23
- 238000007635 classification algorithm Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004381 surface treatment Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002077 nanosphere Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种分类方法、装置及设备,包括:对多个用户数据进行分类统计,生成数据集;在多维度空间中,确定数据集对应的原始数据,原始数据包括多个子数据;计算与多个子数据中的每个子数据之间对应的位置关系;利用位置关系建立多分类模型,以便于根据多分类模型对用户进行分类。本申请中,通过对用户进行分类统计,生成数据集,根据模糊识别分析用户群,以位置关系建立多分类模型为导向找到适配用户群特征,以实现提高正确率的同时,降低业务支撑和人力成本的目的。装置及设备。
Description
技术领域
本发明属于数据网络技术领域,尤其涉及一种基于模糊识别的分类方法、装置、设备和计算机存储介质。
背景技术
随着业务市场迅速发展,业务以及资费的复杂度也越来越高。所以,为了充分满足用户个性化需求,按照用户的喜好对用户进行分类成为亟需要解决的问题。
目前,主要是通过给存量用户打标签,按标签对用户进行分类。但是,这种方式已不能满足目前市场需求、用户个性化需求。另外,在对用户进行分类的过程中,筛选条件的配置和组合对管理人员的经验依赖性过高,会导致误判概率大、确定边界用户精度低,以至于直接影响分类的成功率、用户感知度以及活动执行效果。
因此,需要提供一种更为合理的基于模糊识别的分类方案,在提高正确率的同时,降低业务支撑和人力成本。
发明内容
本申请实施例提供一种分类方法、装置、设备和计算机存储介质,通过模糊设备分析用户所对应的数据集,建立分类模型,以实现提高正确率的同时,降低业务支撑和人力成本的目的。
第一方面,本申请实施例提供了一种分类方法,该方法可以包括:
对多个用户数据进行分类统计,生成数据集;
在多维度空间中,确定数据集对应的原始数据,原始数据包括多个子数据;
计算与多个子数据中的每个子数据之间对应的位置关系;
利用位置关系建立多分类模型,以便于根据多分类模型对用户进行分类。
本申请中,通过对用户进行分类统计,生成数据集,根据模糊识别分析用户群,以位置关系建立多分类模型为导向找到适配用户群特征,以实现提高正确率的同时,降低业务支撑和人力成本的目的。
在一种可能的实施方式中,在上述“计算与多个子数据中的每个子数据之间对应的位置关系”的步骤中,具体可以包括:
通过欧式空间的向量关系,计算与多个子数据中的每个子数据之间对应的位置关系。
在另一种可能的实施方式中,在上述“通过欧式空间的向量关系,计算与多个子数据中的每个子数据之间对应的位置关系”的步骤中,具体可以包括:
在多维度空间中的单位超球内,将多个子数据均匀分布;
将单位超球设置在超立方体H内,超立方体包括单位立方体;
根据单位立方体的位置状态,计算与多个子数据中的每个子数据之间对应的位置关系。
在又一种可能的实施方式中,上述“位置状态”可以包括:单位立方体位于H的顶点、棱或者体内中的至少一种。
在再一种可能的实施方式中,上述“计算与多个子数据中的每个子数据之间对应的位置关系”的步骤中,具体可以包括:
根据多个子数据的排列方式,计算与多个子数据中的每个子数据之间对应的位置关系。
在再一种可能的实施方式中,上述“利用位置关系建立多分类模型”的步骤中,具体可以包括:
按照分类算法的原则,分别判断每个子数据之间对应的位置关系是否满足预设要求;
当满足预设要求时,保留子数据对应的位置关系;
利用位置关系建立多分类模型。
在再一种可能的实施方式中,上述方法还可以包括:当不满足预设要求时,删除子数据对应的位置关系;利用剩余的子数据对应的位置关系建立多分类模型。
在再一种可能的实施方式中,上述“分类算法”的原则可以具体包括:一对一原则和一对多原则。
在再一种可能的实施方式中,上述“利用位置关系建立多分类模型”的步骤中,具体可以包括:
利用位置关系,建立基于向量积的SVM多分类模型。
第二方面,本申请实施例提供了一种分类装置,可以包括:
统计模块,用于对多个用户数据进行分类统计,生成数据集;
处理模块,用于在多维度空间中,确定数据集对应的原始数据,原始数据包括多个子数据;
计算模块,用于计算与多个子数据中的每个子数据之间对应的位置关系;
生成模块,用于利用位置关系建立多分类模型,以便于根据多分类模型对用户进行分类。
本申请中,通过对用户进行分类统计,生成数据集,根据模糊识别分析用户群,以位置关系建立多分类模型为导向找到适配用户群特征,以实现提高正确率的同时,降低业务支撑和人力成本的目的。在一种可能的实施方式中,上述“计算模块”具体可以用于,通过欧式空间的向量关系,计算与多个子数据中的每个子数据之间对应的位置关系。
在另一种可能的实施方式中,上述“计算模块”具体可以用于,在多维度空间中的单位超球内,将多个子数据均匀分布;
将单位超球设置在超立方体H内,超立方体包括单位立方体;
根据单位立方体的位置状态,计算与多个子数据中的每个子数据之间对应的位置关系。
在又一种可能的实施方式中,上述“位置状态”可以包括:单位立方体位于H的顶点、棱或者体内中的至少一种。
在再一种可能的实施方式中,上述“计算模块”具体可以用于,根据多个子数据的排列方式,计算与多个子数据中的每个子数据之间对应的位置关系。
在再一种可能的实施方式中,上述“生成模块”具体可以用于,按照分类算法的原则,分别判断每个子数据之间对应的位置关系是否满足预设要求;
当满足预设要求时,保留子数据对应的位置关系;
利用位置关系建立多分类模型。
在再一种可能的实施方式中,上述“生成模块”还可以用于,当不满足预设要求时,删除子数据对应的位置关系;利用剩余的子数据对应的位置关系建立多分类模型。
在再一种可能的实施方式中,上述“分类算法”的原则可以具体包括:一对一原则和一对多原则。
在再一种可能的实施方式中,上述“生成模块”还可以用于,利用位置关系,建立基于向量积的SVM多分类模型。
第三方面,本申请实施例提供了一种分类设备,该设备包括处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面任意一项的分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面任意一项分类方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面任意一项的分类方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的一种分类方法的流程图;
图2是本申请一个实施例提供的一种两种分类方法示意图;
图3是本申请一个实施例提供的一种类心向量结构示意图;
图4是本申请一个实施例提供的一种超球及超立方体的结构示意图;
图5是本申请一个实施例提供的一种单位立方体结构示意图;
图6是本申请一个实施例提供的一种分类装置的结构示意图
图7是本申请一个实施例提供的一种分类设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
首先,为了方便理解本申请中涉及的内容,具体方法将结合图1对本申请提供的分类方法进行详细说明。
图1是本申请一个实施例提供的一种分类方法的流程图。
如图1所示,该方法具体可以包括S110-S140,详细步骤如下所示:
S110:对多个用户数据进行分类统计,生成数据集。
具体地,举例进行说明:用户数据选取:通过用户特征、历史消费趋势、电子渠道数据分析等给出用户原始用户画像:假设存量用户有1000万个,就得到1000万个原始的用户画像,理论上有1000万个适合用户的资费组合,但实际操作中资费组合远远小于1000万个,每个用户与资费的偏离度各不相同,必然会有用户与资费的偏离度超过某个阈值,此类用户即为潜在的边界用户,抽取此类用户,留作备用。
S120:在多维度空间中,确定数据集对应的原始数据,原始数据包括多个子数据。
S130:计算与多个子数据中的每个子数据之间对应的位置关系。
具体地,通过欧式空间的向量关系,计算与多个子数据中的每个子数据之间对应的位置关系。其中,通过下述方式,确定最少的位置关系,在多维度空间中的单位超球内,将多个子数据均匀分布;将单位超球设置在超立方体H内,超立方体包括单位立方体;根据单位立方体的位置状态,计算与多个子数据中的每个子数据之间对应的位置关系。位置状态包括:单位立方体位于H的顶点、棱或者体内中的至少一种。或者,通过下述方式,确定最多的位置关系,根据多个子数据的排列方式,计算与多个子数据中的每个子数据之间对应的位置关系。需要说明的是,涉及到的分类算法的原则包括:一对一原则和一对多原则(如图2所示)。
基于S110-S130,举例进行说明:
前期抽取的用户数据属性多样,时间粒度不同,如归属地市、品牌、类型、代码等21项有效属性,加上最近1年中以月作为时间粒度,通过“射线0-1”标准化每个数据,每一个用户形成一个矩阵,全量抽取数据形成一个多维矩阵,该矩阵可以按照属性、时间粒度等迭代更新;目前有资费组合3000余档,选取用户常用资费组合top X档做为分类器(可以理解为是每个子数据之间对应的位置关系)训练要因,通过分析某用户A历史数据、行为数据、电子渠道数据(例如:点击量、频次、滞留时长等),用户A目前使用某一档资费m中,此时通过文中给出分类算法确认A是否为边界用户,如是边界用户,利用单位超球的方法,匹配已有资费,其中,从资费m档用户随机抽取5%用户,矩阵化用户数据找到该档资费用户中的种子用户(例如:可以使用聚类类心),计算A用户与种子用户偏离度,同样方法找到其他资费的种子用户,逐一遍历用户与各个种子用户偏离度,对偏离度小且不同类的用户即为边界用户,此类用户可认定为营销成功可能性大的用户;模拟资费确认:对于某些指定用户,通过超球-超立方体欧式迭代扩展,找到某两类资费之间的超曲面,该曲面降维矩阵化后即为目标资费,该资费与目前所有资费不同,对资费制定有很大的指导作用。
S140:利用位置关系建立多分类模型,以便于根据多分类模型对用户进行分类。
具体地,利用位置关系,建立基于向量积的SVM多分类模型。其中,按照分类算法的原则,分别判断每个子数据对应的位置关系是否满足预设要求;当满足预设要求时,保留子数据对应的位置关系;利用位置关系建立多分类模型。当不满足预设要求时,删除子数据对应的位置关系;利用剩余的子数据对应的位置关系建立多分类模型。
为了理解上述方案,本申请提供一个具体的例子对上述方法进行详细说明。
首先,为了方便描述上述步骤,设D为N类用户集,D=X∪TE,X为数据集,X=X1∪X2∪...∪Xn。TE为测试集,TE=TE1∪TE2∪...∪TEn。主要步骤如下:
基于S110:给定数据集X=X1∪X2∪...∪Xn;
基于S120:对X=X1∪X2∪...∪Xn在m(m为大于等于2的正数)维的空间中找到其原始数据(例如:可以是类心、种子等)记为:C1,C2,...,Cn;
基于S130:通过欧式空间的向量关系计算出m维空间内C1,C2,...,Cn的位置关系设为R=Φ(X1,X2,...,Xn);
基于S140:建立基于向量积的SVM多分类模型;
具体地,首先,按照原始的“一对一”的原则在C1,C2,...,Cn内得到一个模型M;其次,按照R=Φ(X1,X2,...,Xn);简化模型M;接着,通过简化模型M找到训练模型Model。最后,算法结束。
需要说明的是,上述涉及到的分类算法的原则主要表示的是,在实际的分类问题求解中,“一对一”原则和“一对多”原则对应的方法使用的最为普遍。对于同一个数据集,虽然“一对一”和“一对多”得到的分类器组(即位置关系)完全不同,都可以对数据进行分类,但由于一对一方法得到的支持向量较少,因而分类时间也就更少。图2为两种分类方法获得的超平面示意图。但是无论是“一对一”方法还是“一对多”方法都有可能产生冗余分类(边界)的情况(如图2中3条线围成的网格部分)。
本申请中实施例提供的方法,其实使用的是,基于一对一策略的多分类(即从种群数中通过属性簇标记种类数据的类别,其类别大于等于2)支持向量机学习方法。针对一对一SVM分类方式所训练的分类器组模型较为复杂、分类器个数较多,提出一种基于数据关系的SVM多分类算法,旨在简化分类模型提高分类器的泛化能力。提出的DR-SVM方法在分类器的训练阶段按照向量积进行优化。首先在原空间(即对x个数据n个维度属性形成矩阵空间进行曲面化处理,曲面化之后的空间为原空间)中找到各类(即种类数据的类别)类心(即最能代表的一个类别中的数据),通过各类心之间的向量积,确定各类之间的分类器是否可以被约减。如果向量积不大于0,则其中两类之间的分类器的功能可以被其他的分类器表征,约减这两类之间的分类器;否则分类器不能被约减,保留该分类器;如此循环迭代直到所有类心之间的向量积都大于0。图3为类心向量示意图,A,B,C分别为不同类的类心,在(a)中,则B,C之间分类器fBC(即可以表示每个子数据之间对应的位置关系)可以被A,C之间的分类器fAC和B,C之间的分类器fBC所表征,在训练分类器时,B,C之间的分类器被约减;反之在(b)中,/>B,C之间的分类器需要被保留。
其中,在一种可能的实施方式中,可以采用下述两种方式,确定分类器的最多和最少的个数(即表示每个子数据之间对应的位置关系的极限值),具体地,算法子分类器构造数目说明:X=X1∪X2∪...∪Xn为数据集,在m(m>2,m∈N*)维空间找到一个最小超球G,训练样本X分布在G内,H是最小超球G的外接超立方体。网格化超立方体H,如图4所示。
第一:最劣势情况(即分类器最小的极限值),不妨设数据集X=X1∪X2∪...∪Xn在m维空间最小超球G内均匀分布,网格化以后,有在H中,每个交叉点代表一类,共有n类。取其中最小单位立方体(如图5)进行分析:(1)若该最小单位立方体位于超立方体H的角上(如图5左边的图所示),按照算法思想每一类则需要3个分类器,n类数据需要/>个分类器;(2)若该最小单位立方体位于超立方体H的棱上(如图5中间的图所示),按照算法思想每一类则需要4个分类器,n类数据需要2n个分类器;(3)若此基本立方体位于超立方体H内(如图5右边的图所示),按照算法思想每一类则需要18(例如:6个面心、12个棱心)个分类器,n类数据需要9n个分类器。数据样本中的数据不可能全部在超立方体H内,所以最坏情况的分类器数目小于9n。
第二:最优势情况:在m(m>2,m∈N*)维空间内数据集X=X1∪X2∪...∪Xn无扭曲地排成一个阵列,此时按照算法思想只需要n-1个分类器即可完成分类。
综上,本申请实施例提供的方法,通过以全量用户历史数据(即数据集)为基础分析用户演进方向,结合电子渠道用户行为轨迹,不断迭代更新用户画像。解决了目前用户筛选群准确性差,营销推广命中率低的问题。反向为营销活动指定提供强大的数据支撑,有效避免无效营销策划需求的提出,节省业务支撑成本。通过迭代计算预测用户需求、针对性营销(可能会降档、资费替换、某方面特殊需求)取代简单升档营销,提升营销效率及用户感知。利用上述算法把分类算法复杂度由m*n*p降为小于9np(m为全量用户数量,n为用户属性,p为用户时间粒度),对支撑服务器的要求配置大大降低。
此外,本申请实施例基于S110-S140涉及到方法,进行方法有效性说明,具体可以参考如下:
从使用电子渠道的用户中抽取某地市近3个月所有用户中随机抽取20万个作为验证,以归属地市、归属区县、在网月数、营业品牌标识、品牌大类代码、细项代码、主产品资费代码、状用户类型代码、客户类型、用户状态代码、所属类型代码、信用等级、客户等级作为属性信息,90天电子渠道数据以周作为时间粒度,预期如下:
阈值设为95%,通过计算22896个用户可能变更套餐,与实际变更套餐的用户作比较匹配出105个,准确度为0.46%;阈值调到97%,则只剩下1432个用户可能变更套餐,与实际变更套餐的用户作比较匹配出76个,准确度为5.3%;阈值调到99%,则只剩下163个用户可能变更套餐,与实际变更套餐的用户作比较匹配出51个,准确度为31.3%,如表1所示:
表1
阈值(%) | 边界用户数量 | 匹配数量 | 匹配精度 |
95 | 22896 | 105 | 0.46% |
97 | 1432 | 76 | 5.31% |
99 | 163 | 51 | 31.29% |
阈值设定范围一般在95%-100%,得到的数据匹配数量、精度无直接关系,需要迭代计算,数据量少时时间开销忽略不计,当数据量超过百万级,按照目前的用户标识属性、时间属性粒度按周计算,时间开销大,不适宜日常使用。
可能变更套餐的用户主套餐就近变更的概率为83.4%,流量叠加包就近变更概率为32.1%,随意性变更概率超过50%,这意味着目前推出的套餐+营销活动组合合理性有待提升。
本申请提供的实施例可以通过模糊识别智能分析用户群,以多次迭代结果为导向分析营销活动适配用户群特征,自动匹配营销活动应用场景,支撑营销活动推广。并非一次性依赖某种经验及历史数据、估计进行用户分类,而是以全量用户历史数据为基础分析用户演进方向,结合电子渠道用户行为轨迹,不断迭代更新用户画像。解决了目前用户筛选群准确性差,营销推广命中率低的问题;为营销活动指定提供强大的数据支撑、后评估结果要因输出,有效避免无效营销策划需求的提出,节省业务支撑成本,有助于提升业务分析水平,找到业务提升的着力点。
图6是本申请一个实施例提供的一种分类装置的结构示意图。
如图6所示,该装置60具体可以包括:
统计模块601,用于对多个用户数据进行分类统计,生成数据集;
处理模块602,用于在多维度空间中,确定数据集对应的原始数据,原始数据包括多个子数据;
计算模块603,用于计算与多个子数据中的每个子数据之间对应的位置关系;
生成模块604,用于利用位置关系建立多分类模型,以便于根据多分类模型对用户进行分类。
其中,计算模块603具体可以用于,通过欧式空间的向量关系,计算与多个子数据中的每个子数据之间对应的位置关系。具体地,计算模块603具体可以用于,在多维度空间中的单位超球内,将多个子数据均匀分布;将单位超球设置在超立方体H内,超立方体包括单位立方体;根据单位立方体的位置状态,计算与多个子数据中的每个子数据之间对应的位置关系。上述位置状态可以包括:单位立方体位于H的顶点、棱或者体内中的至少一种。计算模块603具体可以用于,根据多个子数据的排列方式,计算与多个子数据中的每个子数据之间对应的位置关系。
生成模块604具体可以用于,按照分类算法的原则,分别判断每个子数据之间对应的位置关系是否满足预设要求;当满足预设要求时,保留子数据对应的位置关系;利用位置关系建立多分类模型。分类算法的原则可以具体包括:一对一原则和一对多原则。
生成模块604还可以用于,当不满足预设要求时,删除子数据对应的位置关系;利用剩余的子数据对应的位置关系建立多分类模型。
生成模块604还可以用于,利用位置关系,建立基于向量积的SVM多分类模型。
图7是本申请一个实施例提供的一种分类设备的结构示意图。
如图7所示,该设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在综合网关设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。在特定实施例中,存储器702包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的任意一种分类方法。
收发器703,主要用于实现本发明实施例中各模块、装置、单元、用户端或者服务器中的至少两个之间的通信。
在一个示例中,该设备还可包括总线704。其中,如图7所示,处理器701、存储器702和收发器703通过总线704连接并完成相互间的通信。
总线704包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线703可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的分类方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种分类方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (11)
1.一种分类方法,其特征在于,包括:
对多个用户数据进行分类统计,生成数据集;
在多维度空间中,确定所述数据集对应的原始数据,所述原始数据包括多个子数据;
计算与所述多个子数据中的每个子数据之间对应的位置关系;
利用所述位置关系建立多分类模型,以便于根据所述多分类模型对用户进行分类;
所述计算与所述多个子数据中的每个子数据之间对应的位置关系,包括:
通过欧式空间的向量关系,计算与所述多个子数据中的每个子数据之间对应的位置关系;
所述通过欧式空间的向量关系,计算与所述多个子数据中的每个子数据之间对应的位置关系,包括:
在所述多维度空间中的单位超球内,将所述多个子数据均匀分布;
将所述单位超球设置在超立方体H内,所述超立方体包括单位立方体;
根据所述单位立方体的位置状态,计算与所述多个子数据中的每个子数据之间对应的位置关系。
2.根据权利要求1所述的方法,其特征在于,所述位置状态包括:所述单位立方体位于所述H的顶点、棱或者体内中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述计算与所述多个子数据中的每个子数据之间对应的位置关系,包括:
根据所述多个子数据的排列方式,计算与所述多个子数据中的每个子数据之间对应的位置关系。
4.根据权利要求1所述的方法,其特征在于,所述利用所述位置关系建立多分类模型,包括:
按照分类算法的原则,分别判断所述每个子数据之间对应的位置关系是否满足预设要求;
当满足预设要求时,保留所述子数据对应的位置关系;
利用所述位置关系建立多分类模型。
5.根据权利要求4所述的方法,其特征在于,还包括:
当不满足预设要求时,删除所述子数据对应的位置关系;
利用剩余的所述子数据对应的位置关系建立多分类模型。
6.根据权利要求4所述的方法,其特征在于,所述分类算法的原则包括:一对一原则和一对多原则。
7.根据权利要求1所述的方法,其特征在于,所述利用所述位置关系建立多分类模型,包括:
利用所述位置关系,建立基于向量积的SVM多分类模型。
8.一种分类装置,其特征在于,包括:
统计模块,用于对多个用户数据进行分类统计,生成数据集;
处理模块,用于在多维度空间中,确定所述数据集对应的原始数据,所述原始数据包括多个子数据;
计算模块,用于计算与所述多个子数据中的每个子数据之间对应的位置关系;
生成模块,用于利用所述位置关系建立多分类模型,以便于根据所述多分类模型对用户进行分类;
计算模块用于:
通过欧式空间的向量关系,计算与所述多个子数据中的每个子数据之间对应的位置关系;
计算模块用于:
在所述多维度空间中的单位超球内,将所述多个子数据均匀分布;
将所述单位超球设置在超立方体H内,所述超立方体包括单位立方体;
根据所述单位立方体的位置状态,计算与所述多个子数据中的每个子数据之间对应的位置关系。
9.根据权利要求8所述的装置,其特征在于,所述生成模块具体用于,利用所述位置关系,建立基于向量积的SVM多分类模型。
10.一种分类设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的分类方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615580.XA CN111382210B (zh) | 2018-12-27 | 2018-12-27 | 一种分类方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615580.XA CN111382210B (zh) | 2018-12-27 | 2018-12-27 | 一种分类方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382210A CN111382210A (zh) | 2020-07-07 |
CN111382210B true CN111382210B (zh) | 2023-11-10 |
Family
ID=71219533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811615580.XA Active CN111382210B (zh) | 2018-12-27 | 2018-12-27 | 一种分类方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382210B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113658710A (zh) * | 2021-08-11 | 2021-11-16 | 东软集团股份有限公司 | 一种数据匹配方法及其相关设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7555148B1 (en) * | 2004-01-22 | 2009-06-30 | Fotonation Vision Limited | Classification system for consumer digital images using workflow, face detection, normalization, and face recognition |
CN103336869A (zh) * | 2013-07-05 | 2013-10-02 | 广西大学 | 一种基于高斯过程联立mimo模型的多目标优化方法 |
US8676729B1 (en) * | 2011-06-14 | 2014-03-18 | Narus, Inc. | Network traffic classification using subspace clustering techniques |
CN104112143A (zh) * | 2014-07-23 | 2014-10-22 | 大连民族学院 | 基于加权超球支持向量机算法的图像分类方法 |
CN106446931A (zh) * | 2016-08-30 | 2017-02-22 | 苏州大学 | 基于支持向量数据描述的特征提取及分类方法及其系统 |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN107563429A (zh) * | 2017-07-27 | 2018-01-09 | 国家计算机网络与信息安全管理中心 | 一种网络用户群体的分类方法及装置 |
CN108364030A (zh) * | 2018-03-20 | 2018-08-03 | 东北大学 | 一种基于三层动态粒子群算法的多分类器模型构建方法 |
CN108960264A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 分类模型的训练方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7966277B2 (en) * | 2006-08-14 | 2011-06-21 | Neural Id Llc | Partition-based pattern recognition system |
WO2012097336A1 (en) * | 2011-01-13 | 2012-07-19 | Rutgers, The State University Of New Jersey | Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion |
-
2018
- 2018-12-27 CN CN201811615580.XA patent/CN111382210B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7555148B1 (en) * | 2004-01-22 | 2009-06-30 | Fotonation Vision Limited | Classification system for consumer digital images using workflow, face detection, normalization, and face recognition |
US8676729B1 (en) * | 2011-06-14 | 2014-03-18 | Narus, Inc. | Network traffic classification using subspace clustering techniques |
CN103336869A (zh) * | 2013-07-05 | 2013-10-02 | 广西大学 | 一种基于高斯过程联立mimo模型的多目标优化方法 |
CN104112143A (zh) * | 2014-07-23 | 2014-10-22 | 大连民族学院 | 基于加权超球支持向量机算法的图像分类方法 |
CN106446931A (zh) * | 2016-08-30 | 2017-02-22 | 苏州大学 | 基于支持向量数据描述的特征提取及分类方法及其系统 |
CN106709754A (zh) * | 2016-11-25 | 2017-05-24 | 云南电网有限责任公司昆明供电局 | 一种用基于文本挖掘的电力用户分群方法 |
CN108960264A (zh) * | 2017-05-19 | 2018-12-07 | 华为技术有限公司 | 分类模型的训练方法及装置 |
CN107563429A (zh) * | 2017-07-27 | 2018-01-09 | 国家计算机网络与信息安全管理中心 | 一种网络用户群体的分类方法及装置 |
CN108364030A (zh) * | 2018-03-20 | 2018-08-03 | 东北大学 | 一种基于三层动态粒子群算法的多分类器模型构建方法 |
Non-Patent Citations (6)
Title |
---|
Thiago Castro Ferreira ; Ivandre Paraboni ; .classificaiton-based referring expression generation.《Computational Linguistics and Intelligent Text Processing: 15th Internatinal Conference》.2014,第8403卷全文. * |
一种基于近邻搜索的快速k-近邻分类算法;王壮, 胡卫东, 郁文贤, 庄钊文;;《系统工程与电子技术》;第24卷(第04期);全文 * |
基于K-均值算法的模糊分类器设计;李泰, 胡松瀛;;《商丘职业技术学院学报》;第03卷(第06期);全文 * |
改进的KNN快速分类算法;赵忠帅等;《青岛大学学报(自然科学版)》;第27卷(第04期);第1.1节,图2 * |
王壮,胡卫东,郁文贤,庄钊文 * |
等均值等范数最近邻矢量量化码字搜索算法;刘春和; 陆哲明; 孙圣和;;《电子学报》(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111382210A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967575B (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
Grabmeier et al. | Techniques of cluster algorithms in data mining | |
Rodrigues et al. | Gaussian process classification and active learning with multiple annotators | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN104090888A (zh) | 一种用户行为数据的分析方法和装置 | |
Kuo et al. | An application of a metaheuristic algorithm-based clustering ensemble method to APP customer segmentation | |
CN111340121B (zh) | 目标特征的确定方法及装置 | |
CN112650923A (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN107403311B (zh) | 账户用途的识别方法及装置 | |
CN111325248A (zh) | 降低贷前业务风险的方法及系统 | |
CN111191814A (zh) | 一种电价预测方法、系统和计算机可读存储介质 | |
CN104834651A (zh) | 一种提供高频问题回答的方法和装置 | |
Stojanova et al. | Global and local spatial autocorrelation in predictive clustering trees | |
WO2020024444A1 (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN111382210B (zh) | 一种分类方法、装置及设备 | |
Singh et al. | Feature selection based classifier combination approach for handwritten Devanagari numeral recognition | |
CN101673305B (zh) | 行业分类方法、装置和服务器 | |
CN111932302A (zh) | 一种区域中业务站点数量的确定方法、装置、设备及系统 | |
CN113392868A (zh) | 一种模型训练的方法、相关装置、设备及存储介质 | |
CN112836750A (zh) | 一种系统资源分配方法、装置及设备 | |
CN104376120A (zh) | 一种信息检索方法及系统 | |
Daneshmandi et al. | A hybrid data mining model to improve customer response modeling in direct marketing | |
CN107402984B (zh) | 一种基于主题的分类方法及装置 | |
CN112487295A (zh) | 5g套餐推送方法、装置、电子设备及计算机存储介质 | |
Kiriş et al. | Performance comparison of different clustering methods for manufacturing cell formation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |