一种用户类型识别方法及装置
技术领域
本申请涉及数据分析技术领域,尤其涉及一种用户类型识别方法及装置。
背景技术
“用户”对于很多行业而言都是一种非常宝贵的资源,随着计算机和互联网技术的发展,能够收集或记录到的用户信息也越来越完善,进而可以基于这些用户信息对用户的类型进行识别,以便为用户提供更好的个性化的服务。
传统的用户类型识别技术,是以人工的方式,预先根据应用需求划分出若干分类,然后基于“用户信息”中的一种或多种组合来设置每个分类的判定规则。对于某个具体用户而言,判断其用户信息是否满足各个分类的判断规则,进而确定该用户所属的类型。
然而,随着业务复杂度的提升,这种预先划分用户类型并制订规则的方式已经逐渐难以满足实际的应用需求:一方面,数据的复杂化以及用户实际情况的多样性使得用户类型的划分及判断规则的制订越来越困难,如果定义不合适则需要反复尝试调整;另一方面,每当有了新的需求,很可能需要重新制订新的判断规则,在需求变化频繁的应用场景下,需要消耗大量的时间及人力成本。
发明内容
针对上述技术问题,本申请提供一种用户类型识别方法及装置,技术方案如下:
一种用户类型识别方法,该方法包括:
获得用户信息样本数据集合,根据应用需求确定需要关注的数据特征;
对所选取的数据特征进行降维处理;
利用降维后得到的数据特征,对所述用户信息样本数据进行聚类;
根据聚类结果生成用户类型识别规则,所述用户类型识别规则用于对用户类型进行识别。
一种用户类型识别装置,该装置包括:
特征确定模块,用于获得用户信息样本数据集合,根据应用需求确定需要关注的数据特征;
降维处理模块,用于对所选取的数据特征进行降维处理;
聚类模块,用于利用降维后得到的数据特征,对所述用户信息样本数据进行聚类;
规则生成模块,用于根据聚类结果生成用户类型识别规则,所述用户类型识别规则用于对用户类型进行识别。
与现有的预先划分用户类型并制订规则的方式相比,本申请方案利用大数据的优势,通过对用户信息样本数据的聚类,能够自动发掘出其中潜在的分类规则,而且分类规则是以实际的用户数据为依据生成,因此能够更为更贴合实际的数据结构与用户情况,分类结果也具有较高的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本申请的用户类型识别方法的流程示意图;
图2是本申请实施例的聚类结果示意图;
图3是本申请的信贷策略整体优化方案的一种流程图;
图4是本申请的信贷策略整体优化方案的另一种流程图;
图5是本申请的用户类型识别装置的一种结构示意图;
图6是本申请的用户类型识别装置的另一种结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。
图1所示,为本申请提供的用户类型识别方法的流程图,该方法可以包括以下步骤:
S101,获得用户信息样本数据集合,根据应用需求确定需要关注的数据特征;
S102,对所选取的数据特征进行降维处理;
S103,利用降维后得到的数据特征,对用户信息样本数据进行聚类;
S104,根据聚类结果生成用户类型识别规则,所述用户类型识别规则用于对用户类型进行识别。
与现有的预先划分用户类型并制订规则的方式相比,本申请方案利用大数据的优势,通过对用户信息样本数据的聚类,能够自动发掘出其中潜在的分类规则,而且分类规则是以实际的用户数据为依据生成,因此能够更为更贴合实际的数据结构与用户情况,分类结果也具有较高的准确性。
下面结合一个实际的应用场景,对本申请方案进行说明:
互联网金融系统具有用户量庞大、用户来源复杂等特点,因此对风险管理也提出更高的要求。为了更好地进行准入和授信处理,需要对用户的风险及收益类型进行识别。但是,现有的信贷政策本身及其复杂,涉及的判断因素很多,基于人工的方式很难制订出合理的用户类型识别规则。
根据本申请所提供的方案,主要处理流程如下:
根据S101,获得用户信息样本数据集合,基于业务分析定义量化目标,确定需要关注的数据特征;
本实施例方案综合考虑借款人道德品质、还款能力、资本实力、担保和经营环境五个方面影响因素,在选取数据特征时,可以仅保留涉及以上五个方面的数据特征,构建基于多目标风险管理最优的数学模型,制定优化风险策略方案,可使得风险整体下降的同时,对用户贷款金额的影响最小,从而最大化经济效益及用户满意度水平。
根据S102,所选取的数据特征进行降维处理;
在本实施例中,利用主成分分析(PCA,Principal Component Analysis)的方法将对多维数据进行降维转化为关键主成分。主成分分析是一种分析、简化数据集的技术,经常用于减少数据集的维数,同时保持数据集对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的,这样低阶主成分往往能够保留住数据的最重要方面。主成分分析是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么主成分分析就能够提供一幅比较低维度的图像,这副图像即为在信息最多的点上原对象的一个‘投影’,从而可以利用少量的主成分使得数据的维度降低。这样处理的好处是可以减少干扰,避免后续的分析过程在过多维数空间进行,另外也能够有效降低后续处理的复杂度。
在实际处理时,首先根据应用需求对应的关注指标,对所选取的数据特征进行分组;然后以所述关注指标作为主成分,利用主成分分析法分别将每组数据特征转换为主成分数据特征。具体可以包括但不限于以下处理步骤:
对所选取的数据特征进行数据结构化处理,转化为可直接利用的结构化字段,通过对不同数据特征共性和非共性进行分析,将有共性的数据整理成一种数据类型,同一种数据类型有相同的字段。
本实施例以用户带来的“风险”和“收益”作为关注指标,对于结构化处理后用户信息样本数据,按照业务规则将其中与风险、收益相关的特征合并为数量合适的重要业务指标。
使用前期已完成的基础数据模型,包括申请风险预测模型、偿债能力预测模型、消费能力预测模型等,加上其他高收益客群的预测识别规则为每条用户数据赋予风险和收益属性。
结合业务经验和主成分分析,将主要的识别要素归类为收益与风险相关两类主要成分。
根据S103,利用降维后得到的数据特征,对用户信息样本数据进行聚类;
本实施例在“风险-收益”的二维空间中,利用K-means算法实现自动聚类。图2(a)和图2(b)示出了对两份数据样本进行聚类的结果示意图。其中纵轴维度可以表示为用户带来的潜在收益,横轴维度可以表示为用户带来的潜在风险。
根据S104,利用聚类结果生成用户类型识别规则;
在本申请的一种具体实施方式中,可以根据聚类结果中的异常点生成用户类型识别规则。使用风险和收益两个维度维度分别观察训练样本和验证样本,可以发现异常点可能存在误判的群体。如图2(a)和图2(b)所示,A1、A2、A3、A4用户聚类均与平均用户聚类(Normal)存在明显的差异性,其中A2用户聚类所带来的风险并不高但收益却明显高于平均用户聚类,因此可以作为重点的规则生成及优化目标。
考虑到异常点识别的主要结论基于模型预测和假设,因此,在本申请的一种具体实施方式中,利用所确定的用户类型识别规则对用户类型进行识别,将识别结果与用户的实际情况进行比较,根据比较结果对所确定的用户类型识别规则进行修正。例如,将聚类结果转化为实际收益需要做必要的验证,根据所生成的识别规则对实际的用户进行识别,并且对这些用户的实际情况进行分析,例如通过分析,发现A2用户群主要是当前他行信用卡未偿还余额较大的男性及单身女性。根据此结论便可对目标客群制定并优化分类策略、制定并传递测试策略、执行测试操作、返回测试结果和测试效果评价,并最终形成完整的策略优化方案,上述流程如图3所示。
本申请方案将当前公开或半公开的信用数据整合在一起,使用了主成分分析作为降维手段,并将降维后的数据集作为异常点识别的基础数据,并通过量化分析手段将其运用于以技术为依托的互联网借贷平台上,以达到快速识别低风险高价值用户的目标,如图4所示,本申请方案继承了数据挖掘的一般方法和建模过程:定义目标、选择数据源、准备数据、选择及转换变量、处理和评价模型、验证模型以及实现和维护模型。该方案可应用到所有互联网金融平台上,应用场景广泛。
相应于上述方法实施例,本申请还提供一种用户类型识别装置,参见图5所示,该装置可以包括:
特征确定模块110,用于获得用户信息样本数据集合,根据应用需求确定需要关注的数据特征;
降维处理模块120,用于对所选取的数据特征进行降维处理;
聚类模块130,用于利用降维后得到的数据特征,对用户信息样本数据进行聚类;
规则生成模块140,用于根据聚类结果生成用户类型识别规则,用户类型识别规则用于对用户类型进行识别。
在本申请的一种具体实施方式中,降维处理模块120可以具体用于:
利用主成分分析法对所选取的数据特征进行降维处理。
在本申请的一种具体实施方式中,降维处理模块120可以具体用于:
根据应用需求对应的关注指标,对所选取的数据特征进行分组;
以关注指标作为主成分,利用主成分分析法分别将每组数据特征转换为主成分数据特征。
在本申请的一种具体实施方式中,规则生成模块140可以具体用于:
根据聚类结果中的异常点,生成用户类型识别规则。
参见图6所示,在本申请的一种具体实施方式中,上述装置还可以包括:
修正模块150,用于利用所确定的用户类型识别规则对用户类型进行识别,将识别结果与用户的实际情况进行比较,根据比较结果对所确定的用户类型识别规则进行修正。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本申请方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。