CN106997371B

CN106997371B - 单用户智慧图谱的构建方法

Info

Publication number: CN106997371B
Application number: CN201610962361.3A
Authority: CN
Inventors: 乔小燕; 张玮; 金彤; 唐志燕; 杨弢; 刘晓敏; 袁媛
Original assignee: Wasu Media & Network Co ltd
Current assignee: Wasu Media & Network Co ltd
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2020-06-23
Anticipated expiration: 2036-10-28
Also published as: CN106997371A

Abstract

本发明公开了单用户智慧图谱的构建方法，包括获取用户特征集数据、数据标准化、层次聚类、语料库分类、确定变量的类别归属、确定最终9类特征集的顺序步骤；单用户智慧图谱的构建方法，打破了行业障碍主观选择带来的标签分类，避免由于主观选择而导致标签的冗余。

Description

单用户智慧图谱的构建方法

技术领域

本发明涉及大数据挖掘领域，更具体的说，它涉及用于单用户智慧图谱的构建方法。

背景技术

2001年开始，互联网真正走向了一个新的里程碑，进入“大数据时代”，通过12、13年的热炒之后，人们逐渐冷静下来，更加关注与如何挖掘大数据的潜在商业价值如何在企业中利用大数据技术。伴随着大数据应用的创新、讨论个性化成为其中的一个落脚点。相比于传统的线下会员治理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网获得用户更为广泛的反馈信息，为了更精准快速的分析用户行为习惯和消费习惯等商业信息，必须要提供足够的基础数据。随着对用户的深入了解，一个概念悄然而生“用户智慧图谱”，展现一个用户的信息全貌，可以作为企业应用大户数据的根本。

基于行业特性，用户智慧图谱特征的划分有着不同的分类方法，现有的用户画像指标体系构建方法是通过对客户行为特征进行洞察、归纳、推理，提炼出客户的轮廓。通常情况下，洞察客户标签的维度包括：人口统计学特征、社会群体特征、性格心理特征以及业务特征，由此形成客户标签体系。

大部分企业采取“3+X”策略进行客户标签体系的搭建。其中3是指性别、年龄、收入3个最重要的客户基础标签，X为若干其他标签，用以辅助对客户细分的实现。

发明内容

本发明克服了现有技术的不足，提供了一种单用户智慧图谱的构建方法,其解决了行业障碍主观选择带来的标签分类，避免由于主观选择而导致标签的冗余。

本发明的技术方案如下：

单用户智慧图谱的构建方法，包括如下步骤：

101，获取用户特征集数据，数据来源于用户日全量表、产品订购信息表、受理记录表、设备订购信息表、资源基本信息表、点播详单表、客户日全量表、流失预测表、暂停预测表、呼叫中心日志表、直播数据表等数据表中，形成用户特征集F＝{f₁,f₂,…,f_k},所述f₁-f_k为用户的各个数据的表；

102，数据标准化，在步骤101之后，对数据进行标准化处理；

103，层次聚类，在步骤102之后，将标准化的数据变量进行层次聚类，将K个变量所属的类别集合为Cluster＝{ct1,ct2,…,ct9}，所述ct₁-ct₉为层次聚类后剩下的9个特征的表；

104，语料库分类，在步骤102之后，将标准化的数据变量进行语料库分类，将K个变量所属的类别集合为Classifier＝{cf₁,cf₂,…,cf₉}，所述cf₁-cf₉为语料库分类后剩下的9个特征的表；

105，确定变量的类别归属，使用RelieF方法分别计算步骤103和104的所得类别集合，用RelieF方法对每一个变量归属于Cluster＝{ct1,ct2,…,ct9}，Classifier＝{cf₁,cf₂,…,cf₉}的权重进行计算，选择权重较大的特征作为原始变量最终的类别归属集合C＝{c₁,c₂,…,c₉}，所述c₁-c₉为最终类别剩下的9个特征的表；

106，确定最终9类特征集，对步骤105的最终的类别归属集合C＝{c₁,c₂,…,c₉}，再次进行使用RelieF方法，获得每一类别中的特征权重，并按照规则进行C₁-C₉内特征删减。

进一步的，所述步骤102的数据标准化的公式(1)如下：

其中u_ij为样本中特征u_i的值，u′_ij为标准化后的特征u_i在样本中的值，

为特征u_i的均值，

为特征u_i的方差。

进一步的，所述步骤103层次聚类包括如下步骤：

301，特征聚类，共有n个用户，特征共有k个，每个特征都划分为一类，用

来表示k个特征集，使用如下公式(2)欧式距离计算各类之间的距离，得到一个k×k维的距离矩阵D⁽⁰⁾：

z_im表示第i个特征在第m个用户上对应的值，z_jm表示第j个特征第m个用户对应的值，d_ij表示第i个特征和第j个特征之间的距离；

302，设由步骤301获取前一次层次聚类中获得距离矩阵D^(k)，k为逐次聚类合并的次数，获得D^(k)中最小的元素，并对最小的元素合并聚类最近的2类为一类，建立新类；

303，计算合并后新类之间的距离得到距离矩阵D^(k+1)，并得到新的特征集

计算

与其他没有合并的特征集

之间的距离；

304，返回步骤302，重复计算和合并，最终形成9类Cluster＝{ct1,ct2,…,ct9}，所述ct₁-ct₉为层次聚类后剩下的9个特征的表。

进一步的，所述步骤104,语料库分类采用SPSS Modeler中的自动分类器对类别进行预测分类，所述SPSS Modeler是一组数据挖掘工具，通过这工具可以采用商业技术快速建立预测性模型，并将其应用于商业活动，从而改进决策过程。

进一步的，所述步骤105中权重计算类别归属的判定如下公式(3)：

根据Cluster层次聚类和Classifier语料库分类，两者的权重分别采用Clusterweight和Classifierweight进行描述，Cluster和Classifier的标签分别为Clusterlabel和Classifierlabel；根据Cluster层次聚类和Classifier语料库分类的权重，选择出最终的归属，当Clusterweight>Classifierweight时，最后归属标签为Clusterlabel；Clusterweight<Classifierweight时,最后归属标签为Classifierlabel；

当Clusterweight＝Classifierweight时，存在两种情况，第一，当两者的标签相等，取任一标签即可，这里取Cluster的标签Clusterlabel；第二，当两者的标签不相等时，是选择距离该特征最近的特征的类别作为其最终的类别归属。

进一步的，所述步骤106中进行C₁-C₉内特征删减的规则为，即最终类别剩下的9个特征的表；为了能够筛选出每一类别中最能够描述该类别的特征，根据w_i和阈值θ的大小对F＝{f₁,f₂,…,f_k}集合中的特征进行删减，所述W_i为特征集中具体特征的权重，所述阈值θ为设定的标准权重；当w_i≥θ,则将第i个特征保留在特征集中。

进一步的，所述步骤105和106中涉及的RelieF方法，包括如下步骤：

701，获取数据信息，用户样本集User，特征集F，聚类类别集Cluster，分类类别集Classifier，抽样次数N，近邻个数m。

702，初始化每一个特征的权重为w_i＝0(1≤i≤k)，k表示特征的个数，即特征集F的个数；

703，获得每个特征的最大值和最小值；

704，用户样本集User＝{u₁,u₂,…,u_n}，其中u₁-u_n为n个实例化用户u，从中随机选择一个样本u，取样次数为N，在和样本u同类的样本中计算所有数据到样本的距离，对样本距离进行排序，获得距离最近的m个同类样本作为H，H为选择的m个同类样本的集合；

705，计算与u异类的类别中所有样本与u_j的距离，u_j为u的第j个样本即本次计算的u的样本，对样本距离进行排序，获得每个类别中与u_j最近的m个样本作为M(c)，则M(c)就是u_j最近的m个样本集；

706，按照如下计算公式(4)更新每个特征的权重：

其中r≤N为迭代次数，

表示样本M(c)的c类样本占所有与u异类的样本的比重，diff(i,u,H_j)表示样本u和同类样本H中第j个样本H_j在特征i上的差；diff(i,u,M_j(c))表示样本u和同类样本M(c)中第j个样本M_j(c)在特征i上的差；若特征i为标量型，则：

若特征i为数值型，则

其中max_i表示特征i在样本集中的最大值，min_i表示特征f在样本集中的最小值，u(i)和H_j(i)分别表示样本u和样本H_j在特征i上的值。

本发明相比现有技术优点在于：本发明设计合理，自动化处理大数据，对客户信息进行进一步的合理分析处理，避免预设分类结果，导致只针对大众的，而没有个性化的定位。本发明打破了行业障碍主观选择带来的标签分类，避免由于主观选择而导致标签的冗余。

附图说明

图1为本发明单用户智慧图谱的构建方法的流程图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体说明。应当理解，本发明的实施并不局限于下面的实施例，对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。

单用户智慧图谱的构建方法，包括如下步骤：

101，获取用户特征集数据，数据来源于用户日全量表、产品订购信息表、受理记录表、设备订购信息表、资源基本信息表、点播详单表、客户日全量表、流失预测表、暂停预测表、呼叫中心日志表、直播数据表等数据表中，形成用户特征集F＝{f₁,f₂,…,f_k},所述f₁-f_k为用户的各个数据的表，用户样本集User＝{u1,u2，…，un},所述u₁-u_n为实例化的用户。

102，数据标准化，在步骤101之后，对数据进行标准化处理；处理的数据标准化的公式(1)如下：

为特征u_i的均值，

为特征u_i的方差。这为了消除量纲的影响而做的标准化数据处理。

103，层次聚类，在步骤102之后，将标准化的数据变量进行层次聚类，将K个变量所属的类别集合为Cluster＝{ct1,ct2,…,ct9}，所述ct₁-ct₉为层次聚类后剩下的9个特征的表。

层次聚类包括如下步骤：

301，特征聚类，共有n个用户，特征共有k个，每个特征都划分为一类，即

来表示k个特征集，使用如下公式(2)欧式距离计算各类(即各个特征)之间的距离，得到一个k×k维的距离矩阵D⁽⁰⁾：

公式说明：z_im表示第i个特征在第m个用户上对应的值，z_jm表示第j个特征第m个用户对应的值，d_ij表示第i个特征和第j个特征之间的距离。

步骤302，设由步骤301获取前一次层次聚类中获得距离矩阵D^(k)，k为逐次聚类合并的次数，获得D^(k)中最小的元素，合并聚类最近的2类为一类，建立新类。

步骤303，在步骤302后，计算合并后新类之间的距离得到距离矩阵D^(k+1)，并得到新的特征集

计算

与其他没有合并的特征集

之间的距离。

步骤304，则重新返回步骤302，重复计算和合并，最终形成9类Cluster＝{ct1,ct2,…,ct9}所述ct₁-ct₉为层次聚类后剩下的9个特征的表。

104，语料库分类，在步骤102之后，将标准化的数据变量在进行层次聚类的同时进行语料库分类，将K个变量所属的类别集合为Classifier＝{cf₁,cf₂,…,cf₉}，所述cf₁-cf₉为语料库分类后剩下的9个特征的表。语料库分类采用SPSS Modeler中的自动分类器对类别进行预测分类，所述SPSS Modeler是一组数据挖掘工具，通过这工具可以采用商业技术快速建立预测性模型，并将其应用于商业活动，从而改进决策过程。

105，确定变量的类别归属，使用RelieF方法分别计算步骤103和104的所得类别集合，用RelieF方法对每一个变量归属于Cluster＝{ct1,ct2,…,ct9}，Classifier＝{cf₁,cf₂,…,cf₉}的权重进行计算，选择权重较大的特征作为原始变量最终的类别归属集合C＝{c₁,c₂,…,c₉}所述c₁-c₉为最终类别剩下的9个特征的表。

权重计算类别归属的判定如下公式(3)：

106，确定最终9类特征集，对步骤105的最终的类别归属集合C＝{c₁,c₂,…,c₉}，再次进行使用RelieF方法，获得每一类别中的特征权重，并按照规则进行C₁-C₉内特征删减。C₁-C₉内特征删减的规则为，为了能够筛选出每一类别中最能够描述该类别的特征，根据w_i和阈值θ的大小对F＝{f₁,f₂,…,f_k}集合中的特征进行删减，所述w_i为特征集中具体特征的权重，所述阈值θ为设定的标准权重。if w_i≥θ,则将第i个特征保留在特征集中。

在上述中步骤105和106中涉及的RelieF方法，其中只要输入：用户样本集User，特征集F，聚类类别集Cluster，分类类别集Classifier，抽样次数N，近邻个数m。就会输出，特征权重向量W。

其中具体包括如下步骤：

701，获取数据信息，用户样本集User，特征集F，聚类类别集Cluster，分类类别集Classifier，抽样次数N，近邻个数m。N是抽样次数，在步骤704中的随机抽取样本N次为相同。

702，初始化每一个特征的权重为w_i＝0(1≤i≤k)k表示特征的个数，即特征集F的个数。

703，获得每个特征的最大值和最小值。

704，从步骤401用户样本集User＝{u₁,u₂,…,u_n}，其中u₁-u_n为n个实例化用户u，从中随机选择一个样本u，取样次数为N，在和样本u同类的样本中计算所有数据到样本的距离，对样本距离进行排序，获得距离最近的m个同类样本作为H，H为选择的m个同类样本的集合。H在步骤706的计算中有用到。

705，计算与u异类的类别中所有样本与u_j的距离，u_j为u的第j个样本即本次计算的u的样本，对样本距离进行排序，获得每个类别中与u_j最近的m个样本作为M(c)，则M(c)就是u_j最近的m个样本集。

706，按照如下计算公式(4)更新每个特征的权重：

公式说明：其中r≤N为迭代次数，

若特征i为数值型，则

最后用户特征集会分为9类。第一类为基本信息，包括户主年龄层、服务模式、是否为全业务客户、设备使用年限、入网账龄、家庭构成、设备更换类型、信用额度8个特征；第二类为产品线，包含产品线名称1个特征；第三类为客户服务，包括投诉等级、咨询等级、缴费频次、续费反冲类型4个特征；第四类为账户信息，包括欠费停机敏感度、最近欠费账期、欠费总金额3个特征；第五类为收入部分，包括客户近6个月收入明细；第六类为支付渠道，包括缴费平台、缴费次数和平均缴费额3个特征；第7类为互动行为，包括互动活跃标签、单点喜好、线上活跃客户类型、暂停概率4个特征；第八类为互动喜好，包括工作日和非工作不同时段的喜好的资产类别以及喜好的程度；第九类为小区列表，包括和小区房价、物业情况、户型、房龄等信息。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.单用户智慧图谱的构建方法，其特征在于，包括如下步骤：

101，获取用户特征集数据，数据来源于用户日全量表、产品订购信息表、受理记录表、设备订购信息表、资源基本信息表、点播详单表、客户日全量表、流失预测表、暂停预测表、呼叫中心日志表、直播数据表等数据表中，形成用户特征集F＝{f₁,f₂,…,f_k}，所述f₁-f_k为用户的各个数据的表；

102，数据标准化，在步骤101之后，对数据进行标准化处理；

103，层次聚类，在步骤102之后，将标准化的数据变量进行层次聚类，将K个变量所属的类别集合为Cluster＝{ct₁,ct₂,…,ct₉}，所述ct₁-ct₉为层次聚类后剩下的9个特征的表；

105，确定变量的类别归属，使用RelieF方法分别计算步骤103和104的所得类别集合，用RelieF方法对每一个变量归属于Cluster＝{ct₁,ct₂,…,ct₉}，Classifier＝{cf₁,cf₂,…,cf₉}的权重进行计算，选择权重较大的特征作为原始变量最终的类别归属集合C＝{c₁,c₂,…,c₉}，所述c₁-c₉为最终类别剩下的9个特征的表；

2.根据权利要求1所述的单用户智慧图谱的构建方法，其特征在于，所述步骤102的数据标准化的公式(1)如下：

为特征u_i的均值，

为特征u_i的方差。

3.根据权利要求1所述的单用户智慧图谱的构建方法，其特征在于，所述步骤103层次聚类包括如下步骤：

计算

与其他没有合并的特征集

之间的距离；

304，返回步骤302，重复计算和合并，最终形成9类Cluster＝{ct₁,ct₂,…,ct₉}，所述ct₁-ct₉为层次聚类后剩下的9个特征的表。

4.根据权利要求1所述的单用户智慧图谱的构建方法，其特征在于，所述步骤104,语料库分类采用SPSS Modeler中的自动分类器对类别进行预测分类，所述SPSS Modeler是一组数据挖掘工具，通过这工具可以采用商业技术快速建立预测性模型，并将其应用于商业活动，从而改进决策过程。

5.根据权利要求1所述的单用户智慧图谱的构建方法，其特征在于，所述步骤

105中权重计算类别归属的判定如下公式(3)：

6.根据权利要求1所述的单用户智慧图谱的构建方法，其特征在于，所述步骤106中进行c₁至c₉内特征删减的规则如下，为了能够筛选出每一类别中最能够描述该类别的特征，根据w_i和阈值θ的大小对F＝{f₁,f₂,…,f_k}集合中的特征进行删减，得到最终的类别归属集合C＝{c₁,c₂,…,c₉}；所述w_i为特征集中具体特征的权重，所述阈值θ为设定的标准权重；当w_i≥θ,则将第i个特征保留在特征集中。

7.根据权利要求1所述的单用户智慧图谱的构建方法，其特征在于，所述步骤105和106中涉及的RelieF方法，包括如下步骤：

701，获取数据信息，用户样本集User，特征集F，聚类类别集Cluster，分类类别集Classifier，抽样次数N，近邻个数m；

703，获得每个特征的最大值和最小值；

704，用户样本集User＝{u₁,u₂，…，u_n}，其中u₁-u_n为n个实例化用户u，从中随机选择一个样本u，取样次数为N，在和样本u同类的样本中计算所有数据到样本的距离，对样本距离进行排序，获得距离最近的m个同类样本作为H，H为选择的m个同类样本的集合；

706，按照如下计算公式(4)更新每个特征的权重：

其中r≤N为迭代次数，

若特征i为数值型，则