CN109636482B

CN109636482B - 基于相似度模型的数据处理方法及系统

Info

Publication number: CN109636482B
Application number: CN201811570074.3A
Authority: CN
Inventors: 钱翔; 夏成成
Original assignee: Nanjing Xingyun Digital Technology Co Ltd
Current assignee: Nanjing Xingyun Digital Technology Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2021-07-27
Anticipated expiration: 2038-12-21
Also published as: WO2020125106A1; CA3165582A1; CN109636482A

Abstract

本发明公开一种基于相似度模型的数据处理方法及系统，采用基于相似度模型的数据处理技术手段，能够在降低成本的情况下有效提高客户的转换率。该方法包括：采集多份客户数据；提取每个客户数据中的连续型标签数据，分箱变换后对应得到多组离散型标签数据；依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据；采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果；基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离。

Description

基于相似度模型的数据处理方法及系统

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于相似度模型的数据处理方法及系统。

背景技术

精准营销就是在精准定位的基础上，依托现代信息技术手段，尤其是大数据技术，建立个性化的顾客沟通服务体系，提高企业对客户的沟通、服务效率，降低运营成本，是有态度的网络营销理念中的核心观点之一。拉新和转化是互联网运营的两个主要过程，其中拉新指的是将互联网产品推广出去，进行品牌曝光，发展新的产品用户。转化指将互联网产品中的低消费价值用户转变为高价值用户，即促进用户在互联网产品中的消费行为，提高公司运营业绩。

现有技术中获取拉新和转化的手段多是基于盲目的广告推广来实现的，但是在实际应用中发现由于目标用户不明确，大量的广告投放之后仅换来了少量的拉新和转化用户，导致投入的广告成本与获取的转化率存在明显矛盾，暴露出了现有技术中盲目广告推广的方式获取拉新和转化用户的成本高、效率低的弊端。

发明内容

本发明的目的在于提供一种基于相似度模型的数据处理方法及系统，采用基于相似度模型的数据处理技术手段，能够在降低成本的情况下有效提高客户的转换率。

为了实现上述目的，本发明的一方面提供一种基于相似度模型的数据处理方法，包括：

采集多份客户数据，所述客户数据为正样本数据或者负样本数据；

提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据；

依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据；

采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果；

基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离；

根据所述最终相似度距离从中筛选出潜在的客户。

优选地，提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据的方法包括：

分别对每个客户数据进行标签特征提取，得到多组连续型标签初始数据；

针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据；

利用最优分箱策略分别对各连续型标签数据进行最优分箱处理，对应得到多组离散型标签数据，其中，每组离散型标签数据包括多个相互离散的标签特征。

较佳地，针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据的方法包括：

依次参照标签数据的缺失率过滤条件、分位值过滤条件和类别占比值过滤条件对各组连续型标签初始数据中的无效标签特征进行清洗过滤，对应得到多组连续型标签数据。

优选地，依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据的方法包括：

采用证据权重算法对一组离散型标签数据中各个离散因子的变量进行相似度距离计算；

通过信息价值公式计算每个所述离散因子对应的IV值，并基于IV值大小筛选出价值度高的离散因子；

使用Lasso回归算法从价值度高的离散因子中筛选出辨识度高的离散因子；

利用岭回归算法从辨识度高的离散因子中继续筛选出重要性显著的离散因子，构成由贡献显著的离散因子组成的多组新的离散型标签数据；

分别调取其他组离散型标签数据重复上述步骤计算，对应得到多组新的离散型标签数据。

优选地，采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果的方法包括：

选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用随机森林算法计算各离散型标签数据中离散因子各变量的重要性指标；以及，

选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用梯度提升决策树算法计算各离散型标签数据中离散因子各变量的重要性指标；

分别对同一离散型标签数据中采用随机森林算法得到的离散因子各变量重要性指标和采用梯度提升决策树算法得到的离散因子各变量重要性指标进行加权赋值，然后求和得到多组离散因子的权重结果。

优选地，基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离的方法包括：

将各组离散因子的权重结果与各个离散因子的相似度距离求积运算，求得客户数据中每个离散因子与正样本数据的相似度距离；

使用曼哈顿距离算法分别对每份客户数据中全部离散因子的相似度距离求和，得到每份客户数据与正样本数据的最终相似度距离。

示例性地，根据所述最终相似度距离从中筛选出潜在的客户的方法包括：

将最终相似度距离按照数值大小逆序排列，筛选出排列前N位的客户数据将其标记为潜在客户。

与现有技术相比，本发明提供的基于相似度模型的营销方法具有以下有益效果：

本发明提供的基于相似度模型的数据处理方法中，通过采集多份客户数据构建数据集，数据集包括已被转化客户的正样本数据和未被转化客户的负样本数据，然后将数据集中每个客户数据的标签数据对应输出得到多组连续型标签数据，此时，为了验证连续型标签数据中每个标签特征，也即是每个离散因子对模型贡献的显著性，还需采用分箱变换法分别对各组连续型标签数据进行离散处理，对应得到多组离散型标签数据，其中，离散型标签数据中的一个离散因子即表示一个标签特征，通过对每组离散型标签数据中的离散因子进行相似度距离计算，实现对各个离散因子进行评分，例如，当离散因子的计算结果数值越小则表明该离散因子越接近正样本数据的贡献度，反之，则表明该离散因子越远离正样本数据的贡献度，直至各组离散型标签数据中的离散因子相似度距离计算完毕后，剔除掉各组离散型标签数据中明显无效的离散因子，形成多组贡献显著的离散型标签数据，之后分别采用随机森林算法和梯度提升决策树算法对每组离散型标签数据中的各离散因子变量进行重要性指标计算，并对两种算法计算结果加权求和后得到离散因子的权重结果，最终再基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离，实现对每份客户数据的价值评估，容易理解的是，最终相似度距离越小则表明越接近正样本数据，此类客户的价值越高，也即越有可能转化为已转化客户，反之，最终相似度距离越大则表明越远离正样本数据，此类客户的价值越低，也即转化为已转化客户的可能性越小，至此，可根据每个客户的最终相似度距离筛选出符合要求的潜在客户，进而对其实施精准营销。

可见，本发明能够为平台业务的拉新转化带来如下技术效果：

1、通过客户价值度评估功能的设计，能够为平台的营销活动提供的客户数据支撑，相比较于现有技术中的盲目广告推广来说，本发明在提升客户转化率的同时显著的降低了营销活动的推广成本，保证了营销活动效果；

2、使用该相似度模型能够根据不同客户数据中的标签特征针对性的计算出每份客户数据的最终相似度距离，进而评估出每份客户数据的价值度，精准的筛选出潜在的高价值客户。

本发明的另一方面提供一种基于相似度模型的数据处理系统，应用于上述技术方案所述的基于相似度模型的数据处理方法中，所述系统包括：

信息采集单元，用于采集多份客户数据，所述客户数据为正样本数据或者负样本数据；

分箱变换单元，用于提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据；

标签筛选单元，用于依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据；

权重计算单元，用于采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果；

相似度距离计算单元，用于基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离；

营销单元，用于根据所述最终相似度距离从中筛选出潜在的客户。

优选地，所述分箱变换单元包括：

初始数据提取模块，用于分别对每个客户数据进行标签特征提取，得到多组连续型标签初始数据；

数据清洗模块，用于针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据；

分箱处理模块，用于利用最优分箱策略分别对各连续型标签数据进行最优分箱处理，对应得到多组离散型标签数据，其中，每组离散型标签数据包括多个相互离散的标签特征。

较佳地，所述标签筛选单元包括：

证据权重算法模块，用于采用证据权重算法对一组离散型标签数据中各个离散因子的变量进行相似度距离计算；

信息价值计算模块，用于通过信息价值公式计算每个所述离散因子对应的IV值，并基于IV值大小筛选出价值度高的离散因子；

Lasso回归算法模块，用于使用Lasso回归算法从价值度高的离散因子中筛选出辨识度高的离散因子；

岭回归算法模块，利用岭回归算法从辨识度高的离散因子中继续筛选出重要性显著的离散因子，构成由贡献显著的离散因子组成的多组新的离散型标签数据。

优选地，所述权重计算单元包括：

随机森林算法模块，用于选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用随机森林算法计算各离散型标签数据中离散因子各变量的重要性指标

梯度提升决策树算法模块，用于选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用梯度提升决策树算法计算各离散型标签数据中离散因子各变量的重要性指标；

加权赋值模块，用于分别对同一离散型标签数据中采用随机森林算法得到的离散因子各变量重要性指标和采用梯度提升决策树算法得到的离散因子各变量重要性指标进行加权赋值，然后求和得到多组离散因子的权重结果。

优选地，所述相似度距离计算单元包括：

标签特征相似度距离模块，用于将将各组离散因子的权重结果与各个离散因子的相似度距离求积运算，求得客户数据中每个离散因子与正样本数据的相似度距离；

客户数据相似度距离模块，用于使用曼哈顿距离算法分别对每份客户数据中全部离散因子的相似度距离求和，得到每份客户数据与正样本数据的最终相似度距离。

与现有技术相比，本发明提供的基于相似度模型的数据处理系统的有益效果与上述技术方案提供的基于相似度模型的数据处理方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中基于相似度模型的数据处理方法的流程示意图；

图2为图1中的客户数据示例图；

图3为本发明实施例二中基于相似度模型的数据处理系统的结构框图。

附图标记：

1-信息采集单元， 2-分箱变换单元；

3-标签筛选单元， 4-权重计算单元；

5-相似度距离计算单元， 6-营销单元；

21-初始数据提取模块， 22-数据清洗模块；

23-分箱处理模块， 31-证据权重算法模块；

32-信息价值计算模块， 33-Lasso回归算法模块；

34-岭回归算法模块， 41-随机森林算法模块，

42-梯度提升决策树算法模块， 43-加权赋值模块；

51-加权赋值模块， 52-客户数据相似度距离模块。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

图1为本发明实施例一中基于相似度模型的数据处理方法流程示意图。请参阅图1，本实施例提供一种基于相似度模型的数据处理方法，包括：

采集多份客户数据，客户数据为正样本数据或者负样本数据；提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据；依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出贡献显著的离散型标签数据；采用随机森林算法和梯度提升决策树算法分别对各离散型标签数据进行权重计算，加权求和后得到各离散型标签数据的权重结果；基于离散型标签数据的权重结果和其中各离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离；根据最终相似度距离从中筛选出潜在的客户。

本实施例提供的基于相似度模型的数据处理方法中，通过采集多份客户数据构建数据集，数据集包括已被转化客户的正样本数据和未被转化客户的负样本数据，然后将数据集中每个客户数据的标签数据对应输出得到多组连续型标签数据，此时，为了验证连续型标签数据中每个标签特征，也即是每个离散因子对模型贡献的显著性，还需采用分箱变换法分别对各组连续型标签数据进行离散处理，对应得到多组离散型标签数据，其中，离散型标签数据中的一个离散因子即表示一个标签特征，通过对每组离散型标签数据中的离散因子进行相似度距离计算，实现对各个离散因子进行评分，例如，当离散因子的计算结果数值越小则表明该离散因子越接近正样本数据的贡献度，反之，则表明该离散因子越远离正样本数据的贡献度，直至各组离散型标签数据中的离散因子相似度距离计算完毕后，剔除掉各组离散型标签数据中明显无效的离散因子，形成多组贡献显著的离散型标签数据，之后分别采用随机森林算法和梯度提升决策树算法对每组离散型标签数据中的各离散因子变量进行重要性指标计算，并对两种算法计算结果加权求和后得到离散因子的权重结果，最终再基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离，实现对每份客户数据的价值评估，容易理解的是，最终相似度距离越小则表明越接近正样本数据，此类客户的价值越高，也即越有可能转化为已转化客户，反之，最终相似度距离越大则表明越远离正样本数据，此类客户的价值越低，也即转化为已转化客户的可能性越小，至此，可根据每个客户的最终相似度距离筛选出符合要求的潜在客户，进而对其实施精准营销。

可见，本实施例能够为平台业务的拉新转化带来如下技术效果：

1、通过客户价值度评估功能的设计，能够为平台的营销活动提供的客户数据支撑，相比较于现有技术中的盲目广告推广来说，本实施例在提升客户转化率的同时显著的降低了营销活动的推广成本，保证了营销活动效果；

为了便于理解，请参阅图2，以金融平台理财为例进行说明，客户数据可从金融平台的数据库采集，其中，正样本数据是指已购买过理财产品的优质客户数据，负样本数据是指未购买过理财产品的普通客户数据，在正样本数据和负样本数据的采集过程中，首先选定时间轴点，然后以时间轴点之后的一段时间为表现期，将表现期内购买了理财产品的客户数据定义为正样本数据，以及将表现期内未购买理财产品的客户数据定义为负样本数据，更具体地说明，正样本数据或者负样本数据均包括身份特征属性离散因子，如易户宝户头号、会员性别、会员出生日期等，历史消费行为属性离散因子，如：最近购物支付日期、最近水费充值日期、最近电费充值日期等，会员资产状况属性离散因子，如：零钱宝近期申购金额、基金近期申购金额、定期理财申购金额等，线上行为轨迹属性离散因子，如会员访问深度理财页面数、会员访问深度众筹页面数、会员访问深度保险页面数等。

上述实施例中提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据的方法包括：

分别对每个客户数据进行标签特征提取，得到多组连续型标签初始数据；针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据；利用最优分箱策略分别对各连续型标签数据进行最优分箱处理，对应得到多组离散型标签数据，其中，每组离散型标签数据包括多个相互离散的标签特征。

具体地，针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据的方法包括：依次参照标签数据的缺失率过滤条件、分位值过滤条件和类别占比值过滤条件对各组连续型标签初始数据中的无效标签特征进行清洗过滤，对应得到多组连续型标签数据。

在具体实施的过程中，首先统计各组连续型标签初始数据中的全部标签特征，然后清洗掉标签特征中不满足缺失率过滤条件的标签特征，例如，缺失率过滤条件可设置为清洗掉缺失率超过90％的标签特征，然后再清洗掉剩下的标签特征中不满足分位值过滤条件的标签特征，例如，分位值过滤条件可设置为清洗掉分位值小于等于0.1的标签特征，之后再清洗掉剩下标签特征中不满足缺失率过滤条件的标签特征，最终输出连续型标签数据，重复上述步骤，分别对各组连续型标签初始数据进行数据清洗，对应可得到多组连续型标签数据。本实施例通过数据清洗步骤的设置可去除其中无效的标签特征，避免出现的噪音降低了模型的精度。

进一步地，利用最优分箱策略分别对各连续型标签数据进行最优分箱处理，对应得到多组离散型标签数据的方法包括：

针对连续型标签数据，利用最优分箱策略，即将正样本数据或者负样本数据的属性作为因变量，每一个连续变量(标签特征)作为自变量，利用条件推测决策树(Conditional Inference Trees)算法对连续变量进行离散化，首先假设所有自变量与因变量均独立，然后对它们进行卡方独立检验，筛选出P值小于阀值的自变量，最后针对筛选出的每一个自变量，用置换检验来选择分割点，达到连续变量离散化的目的，最终形成离散型标签数据。需要强调的是，利用最优分箱策略对连续变量离散化属于本领域的常用技术，本实施例在此不做赘述。

具体地，上述实施例中依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据的方法包括：

采用证据权重算法对一组离散型标签数据中各个离散因子的变量进行相似度距离计算；通过信息价值公式计算每个离散因子对应的IV值，并基于IV值大小筛选出价值度高的离散因子；使用Lasso回归算法从价值度高的离散因子中筛选出辨识度高的离散因子；利用岭回归算法从辨识度高的离散因子中继续筛选出重要性显著的离散因子，构成由贡献显著的离散因子组成的多组新的离散型标签数据；分别调取其他组离散型标签数据重复上述步骤计算，对应得到多组新的离散型标签数据。

具体实施时，本实施例中的证据权重算法是指WOE算法，使用WOE算法可对离散型标签数据中的各个离散因子的变量进行评分，当离散因子的变量评分越小则表明它对正样本的贡献越高，在对离散因子的变量评分后还需对其归一化处理形成相似度距离WOE_ij，其中，i表示第i个离散因子(标签特征)，j表示是第i个离散因子中的第j个变量(此处的变量也可理解为分类)，变量是对离散因子的进一步限定说明，例如，当离散因子为会员性别时，其进一步限定可分两类，第1类为男，第2类为女，或者，当离散因子为日期时，如最近购物支付日期时，其进一步限定可按照据时间轴点的时间长度来划分，第1类为距离10天内，第2类为距离30天内，第3类为距离30外，当离散因子为数量时，如零钱宝近期申购金额，其进一步限定可按照数量阶梯分类，例如金额5000元以内的为第1类，金额50000元以内的为第2类，金额50000元以外的为第3类，计算完成后WOE_ij的结果范围为[0，1]。在实际运用中，分类的数量可根据实际情况具体设定，本实施例再次不做赘述，另外，证据权重算法为本领域中的现有算法，但是为了便于理解，本实施给出具体公式加以说明：

其中，WOE_ij，表示第i个离散因子中第j个变量的评分，p0_ij表示第i个离散因子中第j个变量属于负样本概率，p1_ij表示第i个离散因子中第j个变量属于正样本概率，#0_ij表示第i个离散因子中第j个变量属于负样本的数量，#0_iT表示第i个离散因子中属于负样本的变量总数量，#1_ij表示第i个离散因子中第j个变量属于正样本的数量，#1_iT表示第i个变量属于正样本的变量总数量。

当每个离散因子的相似度距离计算完毕后，需继续计算每一个离散因子的IV值(信息价值)，IV值计算公式为：

其中，n表示离散因子i中的变量总数量，j表示离散因子i中的第j个变量。

在每个离散因子的IV值计算完毕之后，再利用Lasso回归算法计算各标签特征的辨识度，然后从中筛选出辨识度高的离散因子，可选地，辨识度筛选的条件为筛选出满足条件的最小的λ，并保留满足最小λ的离散因子形成变量集。然后再利用岭回归算法从变量集中筛选出重要性显著的离散因子，辨识度筛选的条件为筛选出P值<0.1的离散因子，经过上述三次筛选之后，最终保留贡献显著的离散型标签数据，此时剩下的离散因子大致可以分为三大类，分别为客户自身属性、客户访问行为、客户交易行为。可以理解的是，λ为拉格朗日算子，表示Lasso回归算法中1阶模型范数惩罚项的系数。

需要说明的是Lasso回归算法和岭回归算法为本领域技术人员的常用回归算法，其具体公式在此不做赘述。

较佳地，上述实施例中采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果的方法包括：

选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用随机森林算法计算各离散型标签数据中离散因子各变量的重要性指标；以及，选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用梯度提升决策树算法计算各离散型标签数据中离散因子各变量的重要性指标；分别对同一离散型标签数据中采用随机森林算法得到的离散因子各变量重要性指标和采用梯度提升决策树算法得到的离散因子各变量重要性指标进行加权赋值，然后求和得到多组离散因子的权重结果。

具体实施时，采用随机森林算法(randomForest算法)对每组离散型标签数据中的离散因子进行分类，得到每个离散因子各变量对应的重要性指标(W_rf1，W_rf2，…，W_rfn)，同时还采用梯度提升决策树算法(GBDT算法)对每组离散型标签数据中的离散因子进行分类，得到每个离散因子各变量对应的重要性指标(W_GBDT1，W_GBDT2，…，W_GBDTn)，然后对同一离散型标签数据进行加权赋值，较佳地，对采用随机森林算法的重要性指标加权赋值0.3，对采用梯度提升决策树算法的重要性指标加权赋值0.7，求和后可得到该离散因子各变量的权重结果(W₁，W₂，…，W_n)＝0.3*(W_rf1，W_rf2，…，W_rfn)+0.7*(W_GBDT1，W_GBDT2，…，W_GBDTn)。其中，随机森林算法和梯度提升决策树算法为本领域技术人员的常用的算法公式，本实施例对此不做赘述。

进一步地，上述实施例中基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离的方法包括：

将各组离散因子的权重结果与各个离散因子的相似度距离求积运算，求得客户数据中每个离散因子与正样本数据的相似度距离；使用曼哈顿距离算法分别对每份客户数据中全部离散因子的相似度距离求和，得到每份客户数据与正样本数据的最终相似度距离。。

具体实施时，依据每个离散因子中各变量的最终权重(W₁，W₂，…，W_n)，以及该离散因子中各变量的WOE评分WOE_ij，将二者相乘(W_i*WOE_ij)，得到客户在单个离散因子上与正样本的相似度距离。然后采用曼哈顿距离算法分别对每份客户数据中全部离散因子的相似度距离求和，得到每份客户数据与正样本数据的最终相似度距离，曼哈顿距离算法公式为：

上述n表示离散型标签数据中离散因子的数量，I_ij表示正样本数据中与之相对应的第i个离散因子第j个分类的值。其中，I_ij表示指示矩阵，其取值为0或者1，例如当一个男会员用户的第i个离散因子(例如性别)，其取值为j(男性)时，则对应的I_ij(I_性别，男)的取值为1，第i个离散因子上的其它变量(例如I_性别，女)的取值则为0。

具体地，上述实施例中根据最终相似度距离从中筛选出潜在的客户的方法包括：将最终相似度距离按照数值大小逆序排列，筛选出排列前N位的客户数据将其标记为潜在客户。优选地，N的取值为5000，然后寻找最终相似度距离最小的5000名客户，将其标记为“潜在优质客户”，然后对其实施精准营销，以使其购买平台产品。

实施例二

请参阅图1和图3，本实施例提供一种基于相似度模型的数据处理系统，包括：

信息采集单元1，用于采集多份客户数据，所述客户数据为正样本数据或者负样本数据；

分箱变换单元2，用于提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据；

标签筛选单元3，用于依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据；

权重计算单元4，用于采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果；

相似度距离计算单元5，用于基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离；

营销单元6，用于根据所述最终相似度距离从中筛选出潜在的客户。

具体地，分箱变换单元2包括：

初始数据提取模块21，用于分别对每个客户数据进行标签特征提取，得到多组连续型标签初始数据；

数据清洗模块22，用于针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据；

分箱处理模块23，用于利用最优分箱策略分别对各连续型标签数据进行最优分箱处理，对应得到多组离散型标签数据，其中，每组离散型标签数据包括多个相互离散的标签特征。

具体地，标签筛选单元3包括：

证据权重算法模块31，用于采用证据权重算法对一组离散型标签数据中各个离散因子的变量进行相似度距离计算；

信息价值计算模块32，用于通过信息价值公式计算每个所述离散因子对应的IV值，并基于IV值大小筛选出价值度高的离散因子；

Lasso回归算法模块33，用于使用Lasso回归算法从价值度高的离散因子中筛选出辨识度高的离散因子；

岭回归算法模块34，利用岭回归算法从辨识度高的离散因子中继续筛选出重要性显著的离散因子，构成由贡献显著的离散因子组成的多组新的离散型标签数据。

具体地，权重计算单元4包括：

随机森林算法模块41，用于选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用随机森林算法计算各离散型标签数据中离散因子各变量的重要性指标

梯度提升决策树算法模块42，用于选取正样本中的数据作为目标变量，分别将每个离散型标签数据中的离散因子作为因变量，采用梯度提升决策树算法计算各离散型标签数据中离散因子各变量的重要性指标；

加权赋值模块43，用于分别对同一离散型标签数据中采用随机森林算法得到的离散因子各变量重要性指标和采用梯度提升决策树算法得到的离散因子各变量重要性指标进行加权赋值，然后求和得到多组离散因子的权重结果。

具体地，相似度距离计算单元5包括：

标签特征相似度距离模块51，用于将各组离散型标签数据的权重结果与其对应离散因子的相似度距离求积运算，求得客户数据中每个标签特征与正样本数据的相似度距离；

客户数据相似度距离模块52，用于使用曼哈顿距离算法分别对每份客户数据中全部标签特征的相似度距离求和，得到每份客户数据与正样本数据的最终相似度距离。

与现有技术相比，本发明实施例提供的基于相似度模型的数据处理系统的有益效果与上述实施例一提供的基于相似度模型的数据处理方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于相似度模型的数据处理方法，其特征在于，包括：

根据所述最终相似度距离从中筛选出潜在的客户；

依次对每组离散型标签数据中的离散因子进行相似度距离计算，同时筛选出由贡献显著的离散因子组成的多组新的离散型标签数据的方法包括：

2.根据权利要求1所述的方法，其特征在于，提取每个客户数据中的连续型标签数据，对其分箱变换后对应得到多组离散型标签数据的方法包括：

3.根据权利要求2所述的方法，其特征在于，针对各组连续型标签初始数据进行数据清洗，在去除其中的无效标签特征后保留连续型标签数据的方法包括：

4.根据权利要求1所述的方法，其特征在于，采用随机森林算法和梯度提升决策树算法分别对新的离散型标签数据中的离散因子进行权重计算，加权求和后得到多组离散因子的权重结果的方法包括：

分别对同一离散型标签数据中采用随机森林算法得到的离散因子各变量重要性指标，以及采用梯度提升决策树算法得到的离散因子各变量重要性指标进行加权赋值，然后求和得到多组离散因子的权重结果。

5.根据权利要求1所述的方法，其特征在于，基于各组离散因子的权重结果和各个离散因子的相似度距离，采用曼哈顿距离算法分别计算每份客户数据与正样本数据的最终相似度距离的方法包括：

6.根据权利要求1所述的方法，其特征在于，根据所述最终相似度距离从中筛选出潜在的客户的方法包括：

7.一种基于相似度模型的数据处理系统，其特征在于，包括：

营销单元，用于根据所述最终相似度距离从中筛选出潜在的客户；

所述标签筛选单元包括：

8.根据权利要求7所述的系统，其特征在于，所述分箱变换单元包括：

9.根据权利要求7所述的系统，其特征在于，所述权重计算单元包括：

10.根据权利要求7所述的系统，其特征在于，所述相似度距离计算单元包括：