CN114997327A - 目标对象的分类方法、装置、存储介质以及电子设备 - Google Patents

目标对象的分类方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN114997327A
CN114997327A CN202210700042.0A CN202210700042A CN114997327A CN 114997327 A CN114997327 A CN 114997327A CN 202210700042 A CN202210700042 A CN 202210700042A CN 114997327 A CN114997327 A CN 114997327A
Authority
CN
China
Prior art keywords
clustering
target object
data
determining
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210700042.0A
Other languages
English (en)
Inventor
汪哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202210700042.0A priority Critical patent/CN114997327A/zh
Publication of CN114997327A publication Critical patent/CN114997327A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种目标对象的分类方法、装置、存储介质以及电子设备。其中,该方法包括:获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类。本申请解决了由于相关技术中对用户数据采用于聚类算法进行分析造成的用户分类结果不准确的技术问题。

Description

目标对象的分类方法、装置、存储介质以及电子设备
技术领域
本申请涉及数据挖掘领域,具体而言,涉及一种目标对象的分类方法、装置、存储介质以及电子设备。
背景技术
全渠道运营中心在为用户提供线上办理号卡入网服务时,会根据用户的所选套餐,权益等历史记录,来对用户进行分类,进而对有相同喜好的用户群体进行推荐,相关技术中一般都是直接通过聚类算法进行用户分类,而聚类算法在低维度数据集的数据中表现良好,但在高纬度数据集的表现却不理想,数据维度越高,则算法的运行结果越差,而用户选择的历史产品订单信息等数据是都是大数据量的高纬度的数据。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种目标对象的分类方法、装置、存储介质以及电子设备,以至少解决由于相关技术中对用户数据采用于聚类算法进行分析造成的用户分类结果不准确的技术问题。
根据本申请实施例的一个方面,提供了一种目标对象的分类方法,包括:获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类。
可选地,根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,包括:构建目标超球体,其中,目标超球体为包括各个对象的数据节点的最小球体;分别确定第一位置为第一聚类中心,第二位置为第二聚类中心;将其他数据节点中距离第一位置较近的数据节点划分至第一聚类中心,将其他数据节点中距离第二位置较近的数据节点划分至第二聚类中心;获取第一聚类中心以及第二聚类中心各自对应的第一超球体,基于超球体确定球树结构。
可选地,获取第一聚类中心以及第二聚类中心各自对应的超球体,包括:调用最小圆覆盖法确定第一聚类中心以及第二聚类中心各自对应的圆心与半径,根据第一聚类中心以及第二聚类中心各自对应的圆心与半径分别确定第一超球体以及第二超球体。
可选地,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类,包括:根据遍历结果获取各个数据节点的最近邻点;将数据节点对应的对象,与该数据节点的最近邻点的对象划分为同一类型。
可选地,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象,包括:确定聚类结果中预设类型距离最长的两个节点;分别确定两个节点对应的对象为第一目标对象与第二目标对象,其中,预设类型距离包括:欧式距离。
可选地,将特征数据输入至预设聚类算法模型得到聚类结果,包括:对特征数据进行归一化以及离散化处理,将特征数据转化为矩阵;将矩阵输入至预设聚类算法模型。
可选地,在将矩阵输入至预设聚类算法模型之前,方法还包括:确定对象集合中各个对象在不同聚类数下的聚类误差,其中,聚类误差用于指示聚类效果的好坏程度;确定聚类误差最小时对应的聚类数为目标聚类数。
根据本申请实施例的另一方面,还提供了一种目标对象的分类装置,包括:获取模块,用于获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;输入模块,用于将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定模块,用于确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;分类模块,用于根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种目标对象的分类方法。
根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种目标对象的分类方法。
在本申请实施例中,采用融合聚类算法与球树的数据结构对用户进行分类的方式,通过获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,达到了根据遍历结果对各个对象进行分类的目的,从而实现了基于球树的数据结构弥补聚类算法再高纬度数据上的处理能力不足,提高用户分类结果准确性的技术效果,进而解决了由于相关技术中对用户数据采用于聚类算法进行分析造成的用户分类结果不准确的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例一种可选的目标对象的分类方法的流程示意图;
图2是本申请实施例中的球树数据结构的示意图;
图3是本申请实施例中的树状结构图;
图4是本申请一示例性实施例中针对电信用户的数据的分类流程图;
图5是根据本申请实施例的一种可选的目标对象的分类装置的结构示意图;
图6示出了可以用来实施本申请的实施例的示例电子设备600的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种目标对象的分类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的目标对象的分类方法,如图1所示,该方法包括如下步骤:
步骤S102,获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;
步骤S104,将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;
步骤S106,确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;
步骤S108,根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类。
该目标对象的分类方法中,采用融合聚类算法与球树的数据结构对用户进行分类的方式,通过获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,达到了根据遍历结果对各个对象进行分类的目的,从而实现了基于球树的数据结构弥补聚类算法再高纬度数据上的处理能力不足,提高用户分类结果准确性的技术效果,进而解决了由于相关技术中对用户数据采用于聚类算法进行分析造成的用户分类结果不准确的技术问题。
作为一种可选的实施方式,根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,包括:构建目标超球体,其中,目标超球体为包括各个对象的数据节点的最小球体;分别确定第一位置为第一聚类中心,第二位置为第二聚类中心;将其他数据节点中距离第一位置较近的数据节点划分至第一聚类中心,将其他数据节点中距离第二位置较近的数据节点划分至第二聚类中心;获取第一聚类中心以及第二聚类中心各自对应的第一超球体,基于超球体确定球树结构。
具体的,获取第一聚类中心以及第二聚类中心各自对应的超球体,可通过如下方式实现:调用最小圆覆盖法确定第一聚类中心以及第二聚类中心各自对应的圆心与半径,根据第一聚类中心以及第二聚类中心各自对应的圆心与半径分别确定第一超球体以及第二超球体。
本申请一些实施例中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类,包括:根据遍历结果获取各个数据节点的最近邻点;将数据节点对应的对象,与该数据节点的最近邻点的对象划分为同一类型。
本申请另一些实施例中,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象,包括:确定聚类结果中预设类型距离最长的两个节点;分别确定两个节点对应的对象为第一目标对象与第二目标对象,其中,预设类型距离包括:欧式距离。
本申请一些可选的实施例中,将特征数据输入至预设聚类算法模型得到聚类结果,可以通过如下步骤实现:对特征数据进行归一化以及离散化处理,将特征数据转化为矩阵;将矩阵输入至预设聚类算法模型。
需要说明的是,在将矩阵输入至预设聚类算法模型之前,可确定对象集合中各个对象在不同聚类数下的聚类误差,其中,聚类误差用于指示聚类效果的好坏程度;确定聚类误差最小时对应的聚类数为目标聚类数。
本申请一些可选的实施例中,球树的构建流程之中,可用T表示选定的数据集,S表示当前的数据域。创建流程开始需要传入数据集T,数据域S。当数据集只有一个数据点,则直接返回改节点。否则,先找到该域中距离最远的两个点node1,node2,一这两个点为观测点,然后找到域内其余各点距离node1和node2的距离,如果距离node1近,则归为node1的簇中,如果距离node2近,则归为node2的簇。接下来利用最小圆覆盖算法确定圆心和半径,这样解出的圆不会超出其父类圆的范围。接下来在解出的当前最小圆中递归的构建更小的最小圆,直到最后只剩下一个节点,则作为叶子节点存储下来。
当构造好球树之后,接下来是球树的查询过程,球树使用两边之和大于第三边的关系来判断。
|x+y|≤|x|+|y|
球树的搜索查询需要对每一个点来进行,下面举例来说明球树的搜索规则,图2是本申请实施例中的球树数据结构的示意图,如图2所示:
给定一个目标区域q(q,r),使得所有点都包含在内(||q-x||≤r),q为目标区域圆心,r为探索半径,图3是本申请实施例中的树状结构图,如图3所示,根据图中的结构,可先搜索j点最近邻,然后,以j点为圆心r为半径,即满足‖q-x‖≤r的点的集合,然后,可从根节点j进行遍历,从上到下递归的查找每一个有可能包含最后近邻的子空间ji;假如子空间的半径rad(ji)于r之和小于ji的中心点cent(ji)到目标点j的距离,即(rad(ji)+r)≤‖cent(ji)-q‖,则该子空间是我们接下来要搜索的子空间,接着在子空间之中递归的搜索所有满足‖q-x‖≤r的点,那么这点的集合就是需要求得的“最近邻点”了。也就是说,所有被(j,r)超球体所截断的超球体中的所有子空间都会被递归的遍历到。具体步骤可以为搜索j的最近邻,超球体b,c被(j,r)所截断,而在b,c二点子空间内,d,e,h又被(j,r)所截断,如果有跟多的子空间被截断,则一直向下递归。所以在d,e,h之中进行搜索,诸如c这样较远的节点会被舍弃掉,最后[D,G]就是算法最终得到的最近邻。
下面介绍如何在k-means算法中如何融合使用球树结构,具体的,在k-means算法的每一次迭代之中,可从初始点开始从上到下遍历直到遍历到叶子节点,计算这些点到簇中心的距离以确定哪些点到哪个簇中心的距离最近,则将其分配给该簇中心,如果在遍历过程中有一些点在一个区域内,则可将其中所有点都分配给该簇中心。
图4是本申请一示例性实施例中针对电信用户的数据的分类流程图,如图4所示,该流程包括:构建用户信息数据存储系统,整理归纳电信用户历史购买记录,将所得数据内容整理成对应数据进行存储,构建k-means算法模型,构建球树结构,构建层级超球体结构,将用户信息转换为对应数据节点,通过计算找到“最近邻点”,输出每一个用户所属的种类,即可找出拥有相同特征的用户群体。需要说明的是,后续可根据这些用户群体进行进一步的操作,包括但不限于:推荐系统等。
具体的,用户可主要包括电信客户群体,可以理解的是,也可以对其他用户群体进行实施,例如论坛用户群体,资源网站群体等,用户特性也可以有多种特性,也可以有单一特性。不同的用户的兴趣、爱好和习惯等也往往不同,而针对某一个或多个兴趣爱好或习惯,可以由多个网络用户同时具备,例如,用户A倾向于打电话,发短信;用户B喜欢上网,打电话,则用户A和用户B具有相同的打电话的共同点。这就可以根据这些具有相同特性的用户群体进行推荐。
可选的,对用户信息进行收集,获得用户选购历史原始数据,对用户的各维度特征进行提取,获取用户特征向量。包括以下步骤:
从历史数据库中获取到相应数据,需对数据库中的垃圾数据清洗,缺失字段的数据可根据一定规律进行手动填补,对于缺失多的数据可以去除。需要说明的是,用户原始数据通过数据库中读取,具体包括:用户历史选购数据,例如,云卡套餐/互联网卡/电信宽带服务/第三方宽带业务/流量包套餐等等。也可以是诸如用户所在地区等等。将用户信息从数据库中提取,在提取过程中,遇到缺失的数据通常采用人工补全的方式进行修补,对于缺失多的数据,可采取舍弃的方式进行处理,处理后,基于用户历史选购的产品(例如用户选购的套餐信息,卡信息,宽带信息等)。例如通过查询数据库可发现:用户A曾经订购了云卡,互联网卡,宽带业务等。用户B曾经订购了互联网卡,流量包等。则将一部分用户信息通过:name,业务1,业务2…业务n来存储,即:(X1,Y11,Y12,Y13…Y1n),(X2,Y21,Y22,Y23…Y2n)…来存储。获取到每一个用户的特征向量。
需要说明的是,对用户特征向量的进行处理,可通过如下步骤实现:
将产品标签化,在通过归一化和离散化的方式来将数据转换为格式化的数据格式,以方便处理和应用。容易注意到的是,归一离散化是将所有产品分为0和1,0表示用户未选购过该产品,1表示用户选购过改产品,根据此方法,可将所有用户信息转化为零一矩阵表示。数据离散归一化对于k-means算法来说是必不可少的归一化和离散化后的表现形式如下所示:
Figure BDA0003704039800000071
k-means算法的K值(聚类数)影响着聚类的结果,因此,可使用SSE来确定评估值。
Figure BDA0003704039800000072
其中,Ci代表第i个聚类,p代表Ci中的样本点,mi表示Ci的中心点,SSE是所有样本的聚类误差,代表了聚类效果的好坏。
具体步骤分为如下步骤:找到随机样本中心点,在计算所有样本与中心点的差的平方和。对于本实例中,就是计算出所有用户在相应K值下的聚类误差,当聚类误差值得变化趋于平稳时的拐点以此确定最终的聚类数。
进一步的,构建球树结构步骤包括以下步骤,构造球树结构的伪代码如下所示:
Figure BDA0003704039800000073
Figure BDA0003704039800000081
在该实施例中,可将处理好的归一化离散化的数据作为输入,根据欧氏距离计算出最远的两个点,具体点说,在表面上看,距离最远的点理论上是购买相似度最小的两名用户,在以这两名用户作为基点,来递归的计算出其余用户的位置,以树形结构存储,可以理解的,k-means算法的原始的分类思路是以欧氏距离为度量来进行分类,而使用球树结构来存储数据时,从构建过程中就可以找出每一位用户的紧邻点,这样就可以找出每一名用户的所属类别。
进一步的,对于构建k-means算法模型,构建球树结构:构建层级超球体结构,将用户信息转换为对应数据节点步骤,包括以下步骤:
构建球树结构,首先需要找到空间中,距离最远的两点,在高维空间中同二维空间一样可以选用多种形式距离的距离作为度量,包括但不限于一下距离:
曼哈顿距离:
Figure BDA0003704039800000091
欧式距离:
Figure BDA0003704039800000092
切比雪夫距离:
D(i,j)=max(|xik-yik|)
进一步的,将离散化之后的用户矩阵信息带入:
D=(X1i,X2i,…,Xmi),i=1,2,3,…,n,通过计算得到最远距离的两点作为基点,计算其他用户所代表的节点与两基点的距离(可选择不同距离算式进行计算),就近并入两基点所属。再递归的将其他用户的信息以同样方式构造小圆。
进一步的,通过计算输出找到“最近邻点”,输出每一个用户所属的种类,即可找出拥有相同特征的用户群体步骤,可包括以下步骤:
本申请最终目的是找到数据集中所有用户的分类情况,因此,在超球体中就是找到每一个节点的“近邻点”。在求取近邻点过程中,根据(rad(ji)+r)≤‖cent(ji)-q‖,来确定子空间的位置,再一次找到所有节点的近邻点,这样就可以将所有用户进行分类。进一步的,本申请还可根据分类结果进一步使用多层神经网络来进行模型训练,可以更快速的进行分类任务。
需要注意,本发明中球树结构的节点包括但不限于用户选购的历史套餐,权益等,在可扩展范围内均可使用。
图5是根据本申请实施例的一种目标对象的分类装置,如图5所示,该装置包括:
获取模块50,用于获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;
输入模块52,用于将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;
确定模块54,用于确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;
分类模块56,用于根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类。
该目标对象的分类装置中,获取模块50,用于获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;输入模块52,用于将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定模块54,用于确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;分类模块56,用于根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类,从而实现了基于球树的数据结构弥补聚类算法再高纬度数据上的处理能力不足,提高用户分类结果准确性的技术效果,进而解决了由于相关技术中对用户数据采用于聚类算法进行分析造成的用户分类结果不准确的技术问题。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行任意一种目标对象的分类方法。
具体地,上述存储介质用于存储以下功能的程序指令,实现以下功能:获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,根据遍历结果对各个对象进行分类。
可选地,在本实施例中,上述存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。上述存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本申请实施例的另一方面,还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现任意一种目标对象的分类方法。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入设备输出设备和上述处理器连接。
图6示出了可以用来实施本申请的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如目标对象的分类方法。例如,在一些实施例中,目标对象的分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的目标对象的分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行目标对象的分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
在本申请相关实施例中,采用融合聚类算法与球树的数据结构对用户进行分类的方式,通过获取对象集合中各个对象的特征数据,其中,特征数据至少包括历史选购记录;将特征数据输入至预设聚类算法模型得到聚类结果,确定聚类结果中对象集合中满足预设条件的第一目标对象与第二目标对象;确定在聚类结果中第一目标对象所在的第一位置,以及第二目标对象所在的第二位置;根据第一位置以及第二位置将各个对象以数据节点的形式存储在球树结构中,对球树结构中各个数据节点进行遍历,达到了根据遍历结果对各个对象进行分类的目的,从而实现了基于球树的数据结构弥补聚类算法再高纬度数据上的处理能力不足,提高用户分类结果准确性的技术效果,进而解决了由于相关技术中对用户数据采用于聚类算法进行分析造成的用户分类结果不准确的技术问题。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种目标对象的分类方法,其特征在于,包括:
获取对象集合中各个对象的特征数据,其中,所述特征数据至少包括历史选购记录;
将所述特征数据输入至预设聚类算法模型得到聚类结果,确定所述聚类结果中所述对象集合中满足预设条件的第一目标对象与第二目标对象;
确定在所述聚类结果中所述第一目标对象所在的第一位置,以及所述第二目标对象所在的第二位置;
根据所述第一位置以及第二位置将所述各个对象以数据节点的形式存储在球树结构中,对所述球树结构中各个数据节点进行遍历,根据遍历结果对所述各个对象进行分类。
2.根据权利要求1所述的方法,其特征在于,根据所述第一位置以及第二位置将所述各个对象以数据节点的形式存储在球树结构中,包括:
构建目标超球体,其中,所述目标超球体为包括所述各个对象的数据节点的最小球体;
分别确定所述第一位置为第一聚类中心,所述第二位置为第二聚类中心;
将所述其他数据节点中距离所述第一位置较近的数据节点划分至所述第一聚类中心,将所述其他数据节点中距离所述第二位置较近的数据节点划分至所述第二聚类中心;
获取所述第一聚类中心以及所述第二聚类中心各自对应的第一超球体,基于所述超球体确定所述球树结构。
3.根据权利要求2所述的方法,其特征在于,获取所述第一聚类中心以及所述第二聚类中心各自对应的超球体,包括:
调用最小圆覆盖法确定所述第一聚类中心以及所述第二聚类中心各自对应的圆心与半径,根据所述第一聚类中心以及所述第二聚类中心各自对应的圆心与半径分别确定所述第一超球体以及所述第二超球体。
4.根据权利要求1所述的方法,其特征在于,对所述球树结构中各个数据节点进行遍历,根据遍历结果对所述各个对象进行分类,包括:
根据遍历结果获取所述各个数据节点的最近邻点;
将所述数据节点对应的对象,与该数据节点的最近邻点的对象划分为同一类型。
5.根据权利要求1所述的方法,其特征在于,确定所述聚类结果中所述对象集合中满足预设条件的第一目标对象与第二目标对象,包括:
确定聚类结果中预设类型距离最长的两个节点;
分别确定所述两个节点对应的对象为所述第一目标对象与所述第二目标对象,其中,所述预设类型距离包括:欧式距离。
6.根据权利要求1所述的方法,其特征在于,将所述特征数据输入至预设聚类算法模型得到聚类结果,包括:
对所述特征数据进行归一化以及离散化处理,将所述特征数据转化为矩阵;将所述矩阵输入至所述预设聚类算法模型。
7.根据权利要求6所述的方法,其特征在于,在将所述矩阵输入至所述预设聚类算法模型之前,所述方法还包括:
确定所述对象集合中各个对象在不同聚类数下的聚类误差,其中,所述聚类误差用于指示聚类效果的好坏程度;
确定聚类误差最小时对应的聚类数为目标聚类数。
8.一种目标对象的分类装置,其特征在于,包括:
获取模块,用于获取对象集合中各个对象的特征数据,其中,所述特征数据至少包括历史选购记录;
输入模块,用于将所述特征数据输入至预设聚类算法模型得到聚类结果,确定所述聚类结果中所述对象集合中满足预设条件的第一目标对象与第二目标对象;
确定模块,用于确定在所述聚类结果中所述第一目标对象所在的第一位置,以及所述第二目标对象所在的第二位置;
分类模块,用于根据所述第一位置以及第二位置将所述各个对象以数据节点的形式存储在球树结构中,对所述球树结构中各个数据节点进行遍历,根据遍历结果对所述各个对象进行分类。
9.一种非易失性存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述目标对象的分类方法。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的目标对象的分类方法。
CN202210700042.0A 2022-06-20 2022-06-20 目标对象的分类方法、装置、存储介质以及电子设备 Pending CN114997327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210700042.0A CN114997327A (zh) 2022-06-20 2022-06-20 目标对象的分类方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210700042.0A CN114997327A (zh) 2022-06-20 2022-06-20 目标对象的分类方法、装置、存储介质以及电子设备

Publications (1)

Publication Number Publication Date
CN114997327A true CN114997327A (zh) 2022-09-02

Family

ID=83035040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210700042.0A Pending CN114997327A (zh) 2022-06-20 2022-06-20 目标对象的分类方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN114997327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421486A (zh) * 2023-12-18 2024-01-19 杭州金智塔科技有限公司 基于球树算法和联邦学习的推荐模型更新系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117421486A (zh) * 2023-12-18 2024-01-19 杭州金智塔科技有限公司 基于球树算法和联邦学习的推荐模型更新系统及方法
CN117421486B (zh) * 2023-12-18 2024-03-19 杭州金智塔科技有限公司 基于球树算法和联邦学习的推荐模型更新系统及方法

Similar Documents

Publication Publication Date Title
CN107609063B (zh) 一种多标签分类的手机应用推荐系统及其方法
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN113190670A (zh) 一种基于大数据平台的信息展示方法及系统
CN111931053A (zh) 一种基于聚类和矩阵分解的事项推送方法和装置
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN113792212B (zh) 多媒体资源推荐方法、装置、设备以及存储介质
CN113946566B (zh) Web系统指纹库的构建方法、装置和电子设备
CN114997327A (zh) 目标对象的分类方法、装置、存储介质以及电子设备
CN110751354B (zh) 一种异常用户的检测方法和装置
US11556595B2 (en) Attribute diversity for frequent pattern analysis
CN109886300A (zh) 一种用户聚类方法、装置及设备
CN113343920A (zh) 人脸识别照片的分类方法、装置、电子设备和存储介质
CN111581235B (zh) 识别常见关联关系的方法及系统
CN115129990A (zh) 一种基于用户需求的人力资源在线匹配系统
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113553501A (zh) 一种基于人工智能的用户画像预测的方法及装置
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置
CN110362603B (zh) 一种特征冗余性分析方法、特征选择方法和相关装置
CN114880572B (zh) 新闻客户端智能推荐系统
CN112559897B (zh) 匹配关系的识别方法、装置及设备
CN116304253B (zh) 数据存储方法、数据检索方法和识别相似视频的方法
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN112948589B (zh) 文本分类方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination