聚类处理方法、装置、电子设备及计算机可读存储介质
技术领域
本发明实施例涉及数据处理技术领域,具体涉及一种聚类处理方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,购物、交易、咨询、查询等很多用户日常行为几乎都通过互联网来完成,网络用户数量及相应的用户数据均呈现激增上涨的趋势。随之而来的是,用户数量、用户数据的海量化发展给客户营销、精细化运营、风险识别、个性化管控等诸多业务的差异化服务带来了很大的困难。因此,如何更好地挖掘用户特征,如何对于海量用户进行有效聚类,进而更好地为用户提供个性化、差异化的服务是业界亟需解决的问题。
现有技术中通常采用两种聚类方法,一种是基于业务逻辑和先验知识的聚类方法,该方法主要通过人为主观设定的一些规则对用户进行聚类;另一种是基于无监督算法,对海量数据标签进行算法聚类的方法。这两种方法都具有非常明显的弊端,前者由于主观经验驱动,所以刻画用户类别的角度较为局限,特征指标维度较低,对用户特征的挖掘有限并且存在偏差,不能全面、客观地反映用户真实的特征;而后者正好相反,纯数据、算法驱动的用户聚类,往往会导致类别数量过多或过低,不利于聚类结果的利用。
发明内容
本发明实施例提供一种聚类处理方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例中提供了一种聚类处理方法。
具体的,所述聚类处理方法,包括:
获取待聚类对象的聚类特征,其中,所述聚类特征包括以下特征中的一种或多种:所述待聚类对象的属性特征、所述待聚类对象的行为特征和所述待聚类对象的指标特征;
根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果;
获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果,包括:
对所述待聚类对象的聚类特征进行预处理;
确定最优聚类数量;
根据预处理得到的聚类特征和最优聚类数量,对于所述待聚类对象进行聚类处理,得到通用聚类结果。
结合第一方面和第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述确定最优聚类数量,包括:
对于所述待聚类对象进行不同聚类数量的预聚类处理;
对于某一预聚类处理,计算某一待聚类对象的类内相似度和类间相似度;
根据该待聚类对象的类内相似度和类间相似度,计算该待聚类对象的聚类评价系数;
计算待聚类对象的聚类评价系数总和;
将聚类评价系数总和最大值对应的聚类数量确定为最优聚类数量。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正,包括:
获取预设聚类目标指标元素;
计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度;
根据所述分布相似度对所述通用聚类结果进行修正。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述根据所述分布相似度对所述通用聚类结果进行修正,包括:
将所述分布相似度满足第一预设条件的通用类组确定为修正类组;
对于所述修正类组中的待聚类对象进行初步调整,得到初步调整聚类结果;
确定修正评价函数;
将所述修正评价函数满足第二预设条件的初步调整聚类结果确定为修正后的聚类结果。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,还包括:
获取新分待聚类对象;
计算所述新分待聚类对象对于修正类组的聚类评价分值;
根据所述聚类评价分值对所述新分待聚类对象的聚类类组进行预测。
第二方面,本发明实施例中提供了一种聚类处理装置。
具体的,所述聚类处理装置,包括:
第一获取模块,被配置为获取待聚类对象的聚类特征,其中,所述聚类特征包括以下特征中的一种或多种:所述待聚类对象的属性特征、所述待聚类对象的行为特征和所述待聚类对象的指标特征;
处理模块,被配置为根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果;
修正模块,被配置为获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述处理模块,包括:
第一处理子模块,被配置为对所述待聚类对象的聚类特征进行预处理;
第一确定子模块,被配置为确定最优聚类数量;
第二处理子模块,被配置为根据预处理得到的聚类特征和最优聚类数量,对于所述待聚类对象进行聚类处理,得到通用聚类结果。
结合第二方面和第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述第一确定子模块,包括:
第三处理子模块,被配置为对于所述待聚类对象进行不同聚类数量的预聚类处理;
第一计算子模块,被配置为对于某一预聚类处理,计算某一待聚类对象的类内相似度和类间相似度;
第二计算子模块,被配置为根据该待聚类对象的类内相似度和类间相似度,计算该待聚类对象的聚类评价系数;
第三计算子模块,被配置为计算待聚类对象的聚类评价系数总和;
第二确定子模块,被配置为将聚类评价系数总和最大值对应的聚类数量确定为最优聚类数量。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述修正模块,包括:
获取子模块,被配置为获取预设聚类目标指标元素;
第四计算子模块,被配置为计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度;
修正子模块根据所述分布相似度对所述通用聚类结果进行修正。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,所述修正子模块,包括:
第三确定子模块,被配置为将所述分布相似度满足第一预设条件的通用类组确定为修正类组;
调整子模块,被配置为对于所述修正类组中的待聚类对象进行初步调整,得到初步调整聚类结果;
第四确定子模块,被配置为确定修正评价函数;
第五确定子模块,被配置为将所述修正评价函数满足第二预设条件的初步调整聚类结果确定为修正后的聚类结果。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,还包括:
第二获取模块,被配置为获取新分待聚类对象;
计算模块,被配置为计算所述新分待聚类对象对于修正类组的聚类评价分值;
预测模块,被配置为根据所述聚类评价分值对所述新分待聚类对象的聚类类组进行预测。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持聚类处理装置执行上述第一方面中聚类处理方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述聚类处理装置还可以包括通信接口,用于聚类处理装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储聚类处理装置所用的计算机指令,其包含用于执行上述第一方面中聚类处理方法为聚类处理装置所涉及的计算机指令。
本发明实施例提供的技术方案可以包括以下有益效果:
上述技术方案利用预设聚类目标指标元素对根据待聚类对象聚类特征获得的通用聚类结果进行修正,以对待聚类对象进行有效、有目的性地聚类处理。该技术方案考虑了丰富、全面的聚类特征得到通用聚类结果,同时还基于具体应用场景的目标特征对于通用聚类结果进行修正,从而能够基于有效聚类结果为用户提供个性化、差异化的服务,进而提高用户的满意度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本发明实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本发明一实施方式的聚类处理方法的流程图;
图2示出根据图1所示实施方式的聚类处理方法的步骤S102的流程图;
图3示出根据图2所示实施方式的聚类处理方法的步骤S202的流程图;
图4示出根据图1所示实施方式的聚类处理方法的步骤S103的流程图;
图5示出根据图4所示实施方式的聚类处理方法的步骤S403的流程图;
图6示出本发明另一实施方式的聚类处理方法的流程图;
图7示出根据本发明一实施方式的聚类处理装置的结构框图;
图8示出根据图7所示实施方式的聚类处理装置的处理模块702的结构框图;
图9示出根据图8所示实施方式的聚类处理装置的第一确定子模块802的结构框图;
图10示出根据图7所示实施方式的聚类处理装置的修正模块703的结构框图;
图11示出根据图10所示实施方式的聚类处理装置的修正子模块1003的结构框图;
图12示出根据本发明另一实施方式的聚类处理装置的结构框图;
图13示出根据本发明一实施方式的电子设备的结构框图;
图14是适于用来实现根据本发明一实施方式的聚类处理方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本发明实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。
本发明实施例提供的技术方案利用预设聚类目标指标元素对根据待聚类对象聚类特征获得的通用聚类结果进行修正,以对待聚类对象进行有效、有目的性地聚类处理。该技术方案考虑了丰富、全面的聚类特征得到通用聚类结果,同时还基于具体应用场景的目标特征对于通用聚类结果进行修正,从而能够基于有效聚类结果为用户提供个性化、差异化的服务,进而提高用户的满意度。
图1示出根据本发明一实施方式的聚类处理方法的流程图,如图1所示,所述聚类处理方法包括以下步骤S101-S103:
在步骤S101中,获取待聚类对象的聚类特征;
在步骤S102中,根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果;
在步骤S103中,获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正。
上文提及,随着互联网技术的发展,购物、交易、咨询、查询等很多用户日常行为几乎都通过互联网来完成,网络用户数量及相应的用户数据均呈现激增上涨的趋势。随之而来的是,用户数量、用户数据的海量化发展给客户营销、精细化运营、风险识别、个性化管控等诸多业务的差异化服务带来了很大的困难。因此,如何更好地挖掘用户特征,如何对于海量用户进行有效聚类,进而更好地为用户提供个性化、差异化的服务是业界亟需解决的问题。现有技术的聚类处理方法或者对于用户特征的挖掘有限,不能全面、客观地反映用户真实的特征,或者得到的类别数量过多或过低,不利于聚类结果的利用。
考虑到上述缺陷,在该实施方式中,提出一种聚类处理方法,该方法利用预设聚类目标指标元素对根据待聚类对象聚类特征获得的通用聚类结果进行修正,以对待聚类对象进行有效、有目的性地聚类处理。该技术方案考虑了丰富、全面的聚类特征得到通用聚类结果,同时还基于具体应用场景的目标特征对于通用聚类结果进行修正,从而能够基于有效聚类结果为用户提供个性化、差异化的服务,进而提高用户的满意度。
其中,所述聚类特征包括以下特征中的一种或多种:所述待聚类对象的属性特征、所述待聚类对象的行为特征和所述待聚类对象的指标特征。其中,所述待聚类对象的属性特征包括以下特征中的一种或多种:待聚类对象年龄、待聚类对象性别、待聚类对象所在城市、待聚类对象工作性质、待聚类对象受教育经历、待聚类对象家庭情况、待聚类对象注册时间、待聚类对象注册时长、待聚类对象绑卡数量等等。所述待聚类对象的行为特征包括以下特征中的一种或多种:待聚类对象登录次数、待聚类对象登录频次、待聚类对象登录时长、待聚类对象操作次数、待聚类对象操作频次、待聚类对象操作时长、待聚类对象交易次数、待聚类对象交易频次、待聚类对象交易金额等等。所述待聚类对象的属性特征和所述待聚类对象的行为特征属于通用特征,即不体现目标内容的特征,而所述待聚类对象的指标特征是根据应用场景设定的、体现目标内容的特征,比如所述待聚类对象的指标特征包括以下特征中的一种或多种:欺诈指标特征、欺诈风险指标特征、盗用指标特征、盗用风险指标特征、作弊指标特征、作弊风险指标特征等等。
其中,预设聚类目标指标元素与所述待聚类对象的指标特征类似,可包括以下元素中的一种或多种:欺诈指标元素、欺诈风险指标元素、盗用指标元素、盗用风险指标元素、作弊指标元素、作弊风险指标元素等等。比如,所述欺诈指标元素可表现为所述待聚类对象是否为欺诈对象,所述盗用指标元素可表现为所述待聚类对象是否为盗用对象,所述作弊指标元素可表现为所述待聚类对象是否为作弊对象等等。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S102,即根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果的步骤,包括以下步骤S201-S203:
在步骤S201中,对所述待聚类对象的聚类特征进行预处理;
在步骤S202中,确定最优聚类数量;
在步骤S203中,根据预处理得到的聚类特征和最优聚类数量,对于所述待聚类对象进行聚类处理,得到通用聚类结果。
为了获取更为有效的通用聚类结果,提高聚类结果的准确性,在该实施方式中,首先对于所述待聚类对象的聚类特征进行预处理,以得到有效的聚类数据基础;然后确定最优聚类数量,以保障通用聚类结果的有效性;最后根据预处理得到的聚类特征和最优聚类数量,对于所述待聚类对象进行聚类处理,得到通用聚类结果。
其中,对所述聚类特征进行的预处理可包括以下处理中的一种或多种:基本描述统计、缺失值处理、相关性分析、去噪处理、降维处理、归一化处理和筛选处理等等。上述仅为对于预处理方式的示例性说明,不能够被理解为对于本发明的限制,实际上所述预处理的具体内容可根据实际应用的需要进行选择和组合。
比如,可在对所述待聚类对象的聚类特征进行基本描述统计、缺失值处理、相关性分析、去噪处理、降维处理和归一化处理等预处理的同时实施筛选处理,也可在预处理之后,再对得到的聚类特征进行筛选,以得到最终参与后续聚类处理的特征。其中,所述筛选处理所遵循的规则可根据实际应用的需要来确定,本发明对其不作具体要求。
其中,所述基本描述统计指的是对所述待聚类对象的聚类特征的基本描述的统计,比如所述待聚类对象的聚类特征的分布情况、缺失情况、平均值大小、分布是否存在异常、是否存在过多缺失、是否需要进行缺失值处理等等。所述缺失值处理指的是对于存在缺失的聚类特征的处理,比如,若某一聚类特征缺失不太严重,不会影响后续的聚类处理,则可以0、均值或其他值进行缺失填充,若某一聚类特征缺失比较严重,会影响到后续的聚类处理,则可将其直接删除。所述相关性分析指的是对所述待聚类对象的聚类特征的相关性分析,比如,如果某些聚类特征过分相关,则可减少相关特征的数量等等。所述去噪处理指的是将出现异常的、疑似噪声的聚类特征删除。所述降维处理指的是将聚类特征的维数降低。所述归一化处理指的是将聚类特征按照预设归一化规则进行归一化处理。
在对所述待聚类对象的聚类特征进行预处理,得到最优聚类数量之后,就可根据二者对所述待聚类对象进行聚类处理,进而得到通用聚类结果。其中,在进行聚类处理时,可选用K均值聚类方法(K-Means)、最大化期望值聚类方法(EM)、层次聚类方法(Hierarchical Clustering)、基于密度的噪声应用空间聚类方法(DBSCAN,Density-basedspatial clustering of applications with noise)等聚类方法。其中,K均值聚类方法是先随机选取K个对象作为初始聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,进而完成聚类,该方法简单、高效、使用范围广且受初始化条件影响小,结果稳定,但易受离群值或噪声点的影响;最大化期望值聚类方法是通过计算最大似然估计的统计模型,并不断迭代交替执行直到收敛来得到聚类结果,整个聚类过程耗时较长;层次聚类方法通常分为两种聚类策略:一种是“自下而上”的聚类方法,每个对象都各自为群,不断向上合并进行层次结构聚类,另一种是“自上而下”的聚类方法,所有的对象先放在一个群里,然后经过不断分割在层次中递归地执行分群达到聚类的效果;所述基于密度的噪声应用空间聚类方法主要是基于密度进行聚类处理,其实现比较简单,适用性强,对异常值干扰较低,但其对密度差异较大的数据集合,聚类效果不佳。上述仅为对于聚类方法的示例性说明,不能够被理解为对于本发明的限制,实际上本领域技术人员可根据待聚类对象特征数据的特点、聚类方法的特点以及实际应用的需要来选择合适的聚类方法使用。
在本实施例的一个可选实现方式中,如图3所示,所述步骤S202,即确定最优聚类数量的步骤,包括以下步骤S301-S305:
在步骤S301中,对于所述待聚类对象进行不同聚类数量的预聚类处理;
在步骤S302中,对于某一预聚类处理,计算某一待聚类对象的类内相似度和类间相似度;
在步骤S303中,根据该待聚类对象的类内相似度和类间相似度,计算该待聚类对象的聚类评价系数;
在步骤S304中,计算待聚类对象的聚类评价系数总和;
在步骤S305中,将聚类评价系数总和最大值对应的聚类数量确定为最优聚类数量。
为了进一步提高通用聚类结果的有效性,提高聚类结果的准确性,在该实施方式中,对于最优聚类数量先行进行确定。具体地,首先对于所述待聚类对象进行不同聚类数量的预聚类处理,以在不同聚类数量的预聚类处理中挑选出聚类效果最好的聚类方法所对应的聚类数量,即最优聚类数量;然后对于某一预聚类处理,计算某一待聚类对象的类内相似度和类间相似度;然后对于该预聚类处理,根据所述待聚类对象的类内相似度和类间相似度,计算得到该待聚类对象的聚类评价系数;然后对于该预聚类处理,计算所有待聚类对象的聚类评价系数总和;最后将聚类评价系数总和最大值对应的预聚类处理所使用的聚类数量确定为最优聚类数量。
其中,所述类内相似度用于表征某一待聚类对象与同一类组内的其他对象之间的相似度,所述类间相似度用于表征某一待聚类对象与不同类组内的对象之间的相似度。所述类内相似度和类间相似度可借助待聚类对象之间的距离或者其他相似度度量来得到,本发明不作过多限制。
在根据所述待聚类对象的类内相似度和类间相似度,计算所述待聚类对象的聚类评价系数时,可采用多种计算方法,只要最终计算得到的聚类评价系数能够综合、有效考虑类内相似度和类间相似度这两个因素即可。
在本实施例的一个可选实现方式中,利用下式计算所述待聚类对象的聚类评价系数:
其中,c(i)表示第i个待聚类对象的聚类评价系数,I(i)表示第i个待聚类对象的类内相似度,O(i)表示第i个待聚类对象的类间相似度。所述聚类评价系数c(i)越大就说明该预聚类处理结果类内数据吻合度越高,类间距离越远,也就是说聚类效果越好。
当然,除了上述实施方式所描述的确定最优聚类数量的方法外,还可以选用其他确定最优聚类数量的方法,比如:贝叶斯信息指标衡量指标方法、组内平方误差和方法、吸引子传播方法等等。其中,所述贝叶斯信息指标衡量指标方法是基于贝叶斯信息指标衡量指标来确定最优聚类数量,即分别计算每种预聚类处理方式的贝叶斯信息指标,获得最优贝叶斯信息指标的预聚类处理方式所使用的聚类数量即为最优聚类数量,该方法操作直接,但时间复杂度高,计算效率低下;所述组内平方误差和方法是基于组内平方误差和来确定最优聚类数量,即分别计算每种预聚类处理方式的组内平方误差和,组内平方误差和拐点值对应的预聚类处理方式所使用的聚类数量即为最优聚类数量,该方法较为简单,复杂度低,但是准确性比较差;所述吸引子传播方法的基本思想是将全部待聚类对象看作网络的节点,然后通过网络中各条边的消息传递计算出各待聚类对象的聚类中心,聚类过程中,共有两种消息在各节点间传递,分别是吸引度(responsibility)和归属度(availability),所述吸引子传播方法通过迭代不断更新每一个节点的吸引度和归属度值,直至产生多个高质量的质心,再将其余的待聚类对象分配到相应的类组中,此时就得到了最优聚类数量。
本领域技术人员可根据实际应用的需要选择合适的最优聚类数量确定方法使用,可单独使用一种方法来确定最优聚类数量,也可组合使用两种或多种方法来确定最优聚类数量,比如,使用其中一种方法确定最优聚类数量,再使用另外一种或多种方法对于确定的最优聚类数量进行验证,具体本发明不再赘述。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S103,即获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正的步骤,包括以下步骤S401-S403:
在步骤S401中,获取预设聚类目标指标元素;
在步骤S402中,计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度;
在步骤S403中,根据所述分布相似度对所述通用聚类结果进行修正。
为了提高聚类结果的目的性,为用户提供个性化、差异化的服务,进一步提高用户的满意度,在该实施方式中,还根据预设聚类目标指标元素对通用聚类结果进行修正,具体地,首先获取预设聚类目标指标元素;然后计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度;最后根据所述分布相似度对所述通用聚类结果进行修正。
其中,所述预设聚类目标指标元素可以是一个也可以是多个,如果预设聚类目标指标元素为一个,则后续对所述通用聚类结果的修正可认为是单目标优化问题,如果预设聚类目标指标元素为多个,则后续对所述通用聚类结果的修正可认为是多目标优化问题。
在计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度时,可先对通用类组内的待聚类对象按照所述预设聚类目标指标元素进行分布标记和统计,然后再根据标记和统计结果计算该通用类组内待聚类对象对于所述预设聚类目标指标元素的分布相似度,其中,所述分布相似度也可以认为是分布浓度。
在本实施例的一个可选实现方式中,如图5所示,所述步骤S403,即根据所述分布相似度对所述通用聚类结果进行修正的步骤,包括以下步骤S501-S504:
在步骤S501中,将所述分布相似度满足第一预设条件的通用类组确定为修正类组;
在步骤S502中,对于所述修正类组中的待聚类对象进行初步调整,得到初步调整聚类结果;
在步骤S503中,确定修正评价函数;
在步骤S504中,将所述修正评价函数满足第二预设条件的初步调整聚类结果确定为修正后的聚类结果。
为了进一步提高聚类结果的目的性,为用户提供个性化、差异化的服务,提高用户的满意度,在该实施方式中,还根据通用类组内待聚类对象对于预设聚类目标指标元素的分布相似度对所述通用聚类结果进行修正。具体地,首先将所述分布相似度满足第一预设条件的通用类组确定为修正类组;然后对于所述修正类组中的待聚类对象进行初步调整,得到初步调整聚类结果;确定修正评价函数;最后将所述修正评价函数满足第二预设条件的初步调整聚类结果作为修正后的聚类结果。
其中,所述第一预设条件可根据实际应用的需要进行设置,比如所述第一预设条件可以为分布相似度大于预设阈值、分布相似度小于预设阈值、分布相似度处于预设阈值范围等等。
其中,所述初步调整包括以下调整方式中的一种或多种:类组调整、类组合并、类组重组等等,通过初步调整就会得到多个初步调整聚类结果,后续再从多个初步调整聚类结果中确定最优的一个作为修正后的聚类结果,当然,所述初步调整聚类结果中还包括先前得到的通用聚类结果。
其中,所述修正评价函数包括以下评价函数中的一种或多种:距离评价函数、相似度评价函数、互信息评价函数等等。
其中,所述第二预设条件包括以下条件中的一种或多种:类组目标数量条件、类组目标规模条件、类组内相似度条件、类组内基于预设聚类目标指标元素的相似度条件、类组间差异性条件等等。
在本实施例的一个可选实现方式中,所述步骤S504中,可使用下式来获得修正后的聚类结果:
其中,λ表示初步调整聚类结果,表示对于初步调整聚类结果的遍历,表示修正评价函数,λopt表示满足第二预设条件的最优的初步调整聚类结果。
在本实施例的一个可选实现方式中,所述方法还包括对于新分待聚类对象进行聚类预测的步骤,即如图6所示,所述方法包括以下步骤S601-S606:
在步骤S601中,获取待聚类对象的聚类特征;
在步骤S602中,根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果;
在步骤S603中,获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正;
在步骤S604中,获取新分待聚类对象;
在步骤S605中,计算所述新分待聚类对象对于修正类组的聚类评价分值;
在步骤S606中,根据所述聚类评价分值对所述新分待聚类对象的聚类类组进行预测。
在该实施方式中,可通过计算新分待聚类对象对于修正类组的聚类评价分值,来预测新分待聚类对象最有可能分到哪个聚类类组中。
其中,所述聚类评价分值可根据实际应用的需要进行选择和计算,比如,可选用贝叶斯判别函数来计算所述聚类评价分值,并后续借助平均错判损失函数来根据所述聚类评价分值对新分待聚类对象的聚类类组进行预测。所述贝叶斯判别函数的判别规则可表示为:
其中,P(Gi|x0)表示新分待聚类对象被分至第i个类组Gi的概率,x0表示新分待聚类对象及其聚类特征,fi(x0)表示类组Gi的概率密度函数,函数形式已知;qi表示类组Gi的先验出现概率,为已知参量;fj(x0)表示类组Gj的概率密度函数,函数形式已知;qj表示类组Gj的先验出现概率,为已知参量,k表示类组的数量。
在本实施例的一个可选实现方式中,所述方法还包括对于聚类类组内的聚类对象及其聚类特征进行输出显示的步骤,其中,可采用各种可能的可视化工具对于聚类对象及其聚类特征进行输出显示,以辅助对于聚类对象进行基于某一特定应用目标的分组监控。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图7示出根据本发明一实施方式的聚类处理装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示,所述聚类处理装置包括:
第一获取模块701,被配置为获取待聚类对象的聚类特征;
处理模块702,被配置为根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果;
修正模块703,被配置为获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正。
上文提及,随着互联网技术的发展,购物、交易、咨询、查询等很多用户日常行为几乎都通过互联网来完成,网络用户数量及相应的用户数据均呈现激增上涨的趋势。随之而来的是,用户数量、用户数据的海量化发展给客户营销、精细化运营、风险识别、个性化管控等诸多业务的差异化服务带来了很大的困难。因此,如何更好地挖掘用户特征,如何对于海量用户进行有效聚类,进而更好地为用户提供个性化、差异化的服务是业界亟需解决的问题。现有技术的聚类处理装置或者对于用户特征的挖掘有限,不能全面、客观地反映用户真实的特征,或者得到的类别数量过多或过低,不利于聚类结果的利用。
考虑到上述缺陷,在该实施方式中,提出一种聚类处理装置,该装置利用预设聚类目标指标元素对根据待聚类对象聚类特征获得的通用聚类结果进行修正,以对待聚类对象进行有效、有目的性地聚类处理。该技术方案考虑了丰富、全面的聚类特征得到通用聚类结果,同时还基于具体应用场景的目标特征对于通用聚类结果进行修正,从而能够基于有效聚类结果为用户提供个性化、差异化的服务,进而提高用户的满意度。
其中,所述聚类特征包括以下特征中的一种或多种:所述待聚类对象的属性特征、所述待聚类对象的行为特征和所述待聚类对象的指标特征。其中,所述待聚类对象的属性特征包括以下特征中的一种或多种:待聚类对象年龄、待聚类对象性别、待聚类对象所在城市、待聚类对象工作性质、待聚类对象受教育经历、待聚类对象家庭情况、待聚类对象注册时间、待聚类对象注册时长、待聚类对象绑卡数量等等。所述待聚类对象的行为特征包括以下特征中的一种或多种:待聚类对象登录次数、待聚类对象登录频次、待聚类对象登录时长、待聚类对象操作次数、待聚类对象操作频次、待聚类对象操作时长、待聚类对象交易次数、待聚类对象交易频次、待聚类对象交易金额等等。所述待聚类对象的属性特征和所述待聚类对象的行为特征属于通用特征,即不体现目标内容的特征,而所述待聚类对象的指标特征是根据应用场景设定的、体现目标内容的特征,比如所述待聚类对象的指标特征包括以下特征中的一种或多种:欺诈指标特征、欺诈风险指标特征、盗用指标特征、盗用风险指标特征、作弊指标特征、作弊风险指标特征等等。
其中,预设聚类目标指标元素与所述待聚类对象的指标特征类似,可包括以下元素中的一种或多种:欺诈指标元素、欺诈风险指标元素、盗用指标元素、盗用风险指标元素、作弊指标元素、作弊风险指标元素等等。比如,所述欺诈指标元素可表现为所述待聚类对象是否为欺诈对象,所述盗用指标元素可表现为所述待聚类对象是否为盗用对象,所述作弊指标元素可表现为所述待聚类对象是否为作弊对象等等。
在本实施例的一个可选实现方式中,如图8所示,所述处理模块702包括:
第一处理子模块801,被配置为对所述待聚类对象的聚类特征进行预处理;
第一确定子模块802,被配置为确定最优聚类数量;
第二处理子模块803,被配置为根据预处理得到的聚类特征和最优聚类数量,对于所述待聚类对象进行聚类处理,得到通用聚类结果。
为了获取更为有效的通用聚类结果,提高聚类结果的准确性,在该实施方式中,第一处理子模块801对于所述待聚类对象的聚类特征进行预处理,以得到有效的聚类数据基础;第一确定子模块802确定最优聚类数量,以保障通用聚类结果的有效性;第二处理子模块803根据预处理得到的聚类特征和最优聚类数量,对于所述待聚类对象进行聚类处理,得到通用聚类结果。
其中,第一处理子模块801对所述聚类特征进行的预处理可包括以下处理中的一种或多种:基本描述统计、缺失值处理、相关性分析、去噪处理、降维处理、归一化处理和筛选处理等等。上述仅为对于预处理方式的示例性说明,不能够被理解为对于本发明的限制,实际上所述预处理的具体内容可根据实际应用的需要进行选择和组合。
比如,可在对所述待聚类对象的聚类特征进行基本描述统计、缺失值处理、相关性分析、去噪处理、降维处理和归一化处理等预处理的同时实施筛选处理,也可在预处理之后,再对得到的聚类特征进行筛选,以得到最终参与后续聚类处理的特征。其中,所述筛选处理所遵循的规则可根据实际应用的需要来确定,本发明对其不作具体要求。
其中,所述基本描述统计指的是对所述待聚类对象的聚类特征的基本描述的统计,比如所述待聚类对象的聚类特征的分布情况、缺失情况、平均值大小、分布是否存在异常、是否存在过多缺失、是否需要进行缺失值处理等等。所述缺失值处理指的是对于存在缺失的聚类特征的处理,比如,若某一聚类特征缺失不太严重,不会影响后续的聚类处理,则可以0、均值或其他值进行缺失填充,若某一聚类特征缺失比较严重,会影响到后续的聚类处理,则可将其直接删除。所述相关性分析指的是对所述待聚类对象的聚类特征的相关性分析,比如,如果某些聚类特征过分相关,则可减少相关特征的数量等等。所述去噪处理指的是将出现异常的、疑似噪声的聚类特征删除。所述降维处理指的是将聚类特征的维数降低。所述归一化处理指的是将聚类特征按照预设归一化规则进行归一化处理。
在第一处理子模块801对所述待聚类对象的聚类特征进行预处理,第一确定子模块802得到最优聚类数量之后,第二处理子模块803就可以根据二者对所述待聚类对象进行聚类处理,进而得到通用聚类结果。其中,第二处理子模块803在进行聚类处理时,可选用K均值聚类方法(K-Means)、最大化期望值聚类方法(EM)、层次聚类方法(HierarchicalClustering)、基于密度的噪声应用空间聚类方法(DBSCAN,Density-based spatialclustering of applications with noise)等聚类方法。其中,K均值聚类方法是先随机选取K个对象作为初始聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,进而完成聚类,该方法简单、高效、使用范围广且受初始化条件影响小,结果稳定,但易受离群值或噪声点的影响;最大化期望值聚类方法是通过计算最大似然估计的统计模型,并不断迭代交替执行直到收敛来得到聚类结果,整个聚类过程耗时较长;层次聚类方法通常分为两种聚类策略:一种是“自下而上”的聚类方法,每个对象都各自为群,不断向上合并进行层次结构聚类,另一种是“自上而下”的聚类方法,所有的对象先放在一个群里,然后经过不断分割在层次中递归地执行分群达到聚类的效果;所述基于密度的噪声应用空间聚类方法主要是基于密度进行聚类处理,其实现比较简单,适用性强,对异常值干扰较低,但其对密度差异较大的数据集合,聚类效果不佳。上述仅为对于聚类方法的示例性说明,不能够被理解为对于本发明的限制,实际上本领域技术人员可根据待聚类对象特征数据的特点、聚类方法的特点以及实际应用的需要来选择合适的聚类方法使用。
在本实施例的一个可选实现方式中,如图9所示,所述第一确定子模块802包括:
第三处理子模块901,被配置为对于所述待聚类对象进行不同聚类数量的预聚类处理;
第一计算子模块902,被配置为对于某一预聚类处理,计算某一待聚类对象的类内相似度和类间相似度;
第二计算子模块903,被配置为根据该待聚类对象的类内相似度和类间相似度,计算该待聚类对象的聚类评价系数;
第三计算子模块904,被配置为计算待聚类对象的聚类评价系数总和;
第二确定子模块905,被配置为将聚类评价系数总和最大值对应的聚类数量确定为最优聚类数量。
为了进一步提高通用聚类结果的有效性,提高聚类结果的准确性,在该实施方式中,对于最优聚类数量先行进行确定。具体地,第三处理子模块901对于所述待聚类对象进行不同聚类数量的预聚类处理,以在不同聚类数量的预聚类处理中挑选出聚类效果最好的聚类方法所对应的聚类数量,即最优聚类数量;第一计算子模块902对于某一预聚类处理,计算某一待聚类对象的类内相似度和类间相似度;第二计算子模块903对于该预聚类处理,根据所述待聚类对象的类内相似度和类间相似度,计算得到该待聚类对象的聚类评价系数;第三计算子模块904对于该预聚类处理,计算所有待聚类对象的聚类评价系数总和;第二确定子模块905将聚类评价系数总和最大值对应的预聚类处理所使用的聚类数量确定为最优聚类数量。
其中,所述类内相似度用于表征某一待聚类对象与同一类组内的其他对象之间的相似度,所述类间相似度用于表征某一待聚类对象与不同类组内的对象之间的相似度。所述类内相似度和类间相似度可借助待聚类对象之间的距离或者其他相似度度量来得到,本发明不作过多限制。
在第二计算子模块903根据所述待聚类对象的类内相似度和类间相似度,计算所述待聚类对象的聚类评价系数时,可采用多种计算方法,只要最终计算得到的聚类评价系数能够综合、有效考虑类内相似度和类间相似度这两个因素即可。
在本实施例的一个可选实现方式中,第二计算子模块903利用下式计算所述待聚类对象的聚类评价系数:
其中,c(i)表示第i个待聚类对象的聚类评价系数,I(i)表示第i个待聚类对象的类内相似度,O(i)表示第i个待聚类对象的类间相似度。所述聚类评价系数c(i)越大就说明该预聚类处理结果类内数据吻合度越高,类间距离越远,也就是说聚类效果越好。
当然,除了上述实施方式所描述的第一确定子模块802确定最优聚类数量的方法外,还可以选用其他确定最优聚类数量的方法,比如:贝叶斯信息指标衡量指标方法、组内平方误差和方法、吸引子传播方法等等。其中,所述贝叶斯信息指标衡量指标方法是基于贝叶斯信息指标衡量指标来确定最优聚类数量,即分别计算每种预聚类处理方式的贝叶斯信息指标,获得最优贝叶斯信息指标的预聚类处理方式所使用的聚类数量即为最优聚类数量,该方法操作直接,但时间复杂度高,计算效率低下;所述组内平方误差和方法是基于组内平方误差和来确定最优聚类数量,即分别计算每种预聚类处理方式的组内平方误差和,组内平方误差和拐点值对应的预聚类处理方式所使用的聚类数量即为最优聚类数量,该方法较为简单,复杂度低,但是准确性比较差;所述吸引子传播方法的基本思想是将全部待聚类对象看作网络的节点,然后通过网络中各条边的消息传递计算出各待聚类对象的聚类中心,聚类过程中,共有两种消息在各节点间传递,分别是吸引度(responsibility)和归属度(availability),所述吸引子传播方法通过迭代不断更新每一个节点的吸引度和归属度值,直至产生多个高质量的质心,再将其余的待聚类对象分配到相应的类组中,此时就得到了最优聚类数量。
本领域技术人员可根据实际应用的需要选择合适的最优聚类数量确定方法使用,可单独使用一种方法来确定最优聚类数量,也可组合使用两种或多种方法来确定最优聚类数量,比如,使用其中一种方法确定最优聚类数量,再使用另外一种或多种方法对于确定的最优聚类数量进行验证,具体本发明不再赘述。
在本实施例的一个可选实现方式中,如图10所示,所述修正模块703包括:
获取子模块1001,被配置为获取预设聚类目标指标元素;
第四计算子模块1002,被配置为计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度;
修正子模块1003,被配置为根据所述分布相似度对所述通用聚类结果进行修正。
为了提高聚类结果的目的性,为用户提供个性化、差异化的服务,进一步提高用户的满意度,在该实施方式中,修正模块703根据预设聚类目标指标元素对通用聚类结果进行修正,具体地,获取子模块1001获取预设聚类目标指标元素;第四计算子模块1002计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度;修正子模块1003根据所述分布相似度对所述通用聚类结果进行修正。
其中,所述预设聚类目标指标元素可以是一个也可以是多个,如果预设聚类目标指标元素为一个,则后续对所述通用聚类结果的修正可认为是单目标优化问题,如果预设聚类目标指标元素为多个,则后续对所述通用聚类结果的修正可认为是多目标优化问题。
在第四计算子模块1002计算通用类组内所述待聚类对象对于所述预设聚类目标指标元素的分布相似度时,可被配置为先对通用类组内的待聚类对象按照所述预设聚类目标指标元素进行分布标记和统计,然后再根据标记和统计结果计算该通用类组内待聚类对象对于所述预设聚类目标指标元素的分布相似度,其中,所述分布相似度也可以认为是分布浓度。
在本实施例的一个可选实现方式中,如图11所示,所述修正子模块1003包括:
第三确定子模块1101,被配置为将所述分布相似度满足第一预设条件的通用类组确定为修正类组;
调整子模块1102,被配置为对于所述修正类组中的待聚类对象进行初步调整,得到初步调整聚类结果;
第四确定子模块1103,被配置为确定修正评价函数;
第五确定子模块1104,被配置为将所述修正评价函数满足第二预设条件的初步调整聚类结果确定为修正后的聚类结果。
为了进一步提高聚类结果的目的性,为用户提供个性化、差异化的服务,提高用户的满意度,在该实施方式中,修正子模块1003根据通用类组内待聚类对象对于预设聚类目标指标元素的分布相似度对所述通用聚类结果进行修正。具体地,第三确定子模块1101将所述分布相似度满足第一预设条件的通用类组确定为修正类组;调整子模块1102对于所述修正类组中的待聚类对象进行初步调整,得到初步调整聚类结果;第四确定子模块1103确定修正评价函数;第五确定子模块1104将所述修正评价函数满足第二预设条件的初步调整聚类结果确定为修正后的聚类结果。
其中,所述第一预设条件可根据实际应用的需要进行设置,比如所述第一预设条件可以为分布相似度大于预设阈值、分布相似度小于预设阈值、分布相似度处于预设阈值范围等等。
其中,所述初步调整包括以下调整方式中的一种或多种:类组调整、类组合并、类组重组等等,通过初步调整就会得到多个初步调整聚类结果,后续再从多个初步调整聚类结果中确定最优的一个作为修正后的聚类结果,当然,所述初步调整聚类结果中还包括先前得到的通用聚类结果。
其中,所述修正评价函数包括以下评价函数中的一种或多种:距离评价函数、相似度评价函数、互信息评价函数等等。
其中,所述第二预设条件包括以下条件中的一种或多种:类组目标数量条件、类组目标规模条件、类组内相似度条件、类组内基于预设聚类目标指标元素的相似度条件、类组间差异性条件等等。
在本实施例的一个可选实现方式中,所述第五确定子模块1104可使用下式来获得修正后的聚类结果:
其中,λ表示初步调整聚类结果,表示对于初步调整聚类结果的遍历,表示修正评价函数,λopt表示满足第二预设条件的最优的初步调整聚类结果。
在本实施例的一个可选实现方式中,所述聚类处理装置还包括对于新分待聚类对象进行聚类预测的部分,即如图12所示,所述聚类处理装置包括:
第一获取模块1201,被配置为获取待聚类对象的聚类特征;
处理模块1202,被配置为根据所述待聚类对象的聚类特征对于所述待聚类对象进行聚类处理,得到通用聚类结果;
修正模块1203,被配置为获取预设聚类目标指标元素,并根据所述预设聚类目标指标元素对所述通用聚类结果进行修正;
第二获取模块1204,被配置为获取新分待聚类对象;
计算模块1205,被配置为计算所述新分待聚类对象对于修正类组的聚类评价分值;
预测模块1206,被配置为根据所述聚类评价分值对所述新分待聚类对象的聚类类组进行预测。
在该实施方式中,预测模块1206可通过计算模块1205计算第二获取模块1204获得的新分待聚类对象对于修正类组的聚类评价分值,来预测新分待聚类对象最有可能分到哪个聚类类组中。
其中,所述聚类评价分值可根据实际应用的需要进行选择和计算,比如,可选用贝叶斯判别函数来计算所述聚类评价分值,并后续借助平均错判损失函数来根据所述聚类评价分值对新分待聚类对象的聚类类组进行预测。所述贝叶斯判别函数的判别规则可表示为:
其中,P(Gi|x0)表示新分待聚类对象被分至第i个类组Gi的概率,x0表示新分待聚类对象及其聚类特征,fi(x0)表示类组Gi的概率密度函数,函数形式已知;qi表示类组Gi的先验出现概率,为已知参量;fj(x0)表示类组Gj的概率密度函数,函数形式已知;qj表示类组Gj的先验出现概率,为已知参量,k表示类组的数量。
在本实施例的一个可选实现方式中,所述聚类处理装置还包括输出模块,所述输出模块被配置为对于聚类类组内的聚类对象及其聚类特征进行输出显示,其中,所述输出模块可采用各种可能的可视化工具对于聚类对象及其聚类特征进行输出显示,以辅助对于聚类对象进行基于某一特定应用目标的分组监控。
本发明实施例还公开了一种电子设备,图13示出根据本发明一实施方式的电子设备的结构框图,如图13所示,所述电子设备1300包括存储器1301和处理器1302;其中,
所述存储器1301用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器1302执行以实现上述任一方法步骤。
图14适于用来实现根据本发明实施方式的聚类处理方法的计算机系统的结构示意图。
如图14所示,计算机系统1400包括中央处理单元(CPU)1401,其可以根据存储在只读存储器(ROM)1402中的程序或者从存储部分1408加载到随机访问存储器(RAM)1403中的程序而执行上述实施方式中的各种处理。在RAM1403中,还存储有系统1400操作所需的各种程序和数据。CPU1401、ROM1402以及RAM1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
以下部件连接至I/O接口1405:包括键盘、鼠标等的输入部分1406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1407;包括硬盘等的存储部分1408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1409。通信部分1409经由诸如因特网的网络执行通信处理。驱动器1410也根据需要连接至I/O接口1405。可拆卸介质1411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1410上,以便于从其上读出的计算机程序根据需要被安装入存储部分1408。
特别地,根据本发明的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本发明的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述聚类处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1409从网络上被下载和安装,和/或从可拆卸介质1411被安装。
附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。