CN109977977B

CN109977977B - 一种识别潜在用户的方法及对应装置

Info

Publication number: CN109977977B
Application number: CN201711463187.9A
Authority: CN
Inventors: 朱君瑀; 黄淳瑶; 郑茂; 余凤丽; 余韦; 江勇; 陈春松; 梁恩磊; 尚晶; 舒敏根; 黄岩
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Information Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2021-04-02
Anticipated expiration: 2037-12-28
Also published as: CN109977977A

Abstract

本发明实施例公开了一种识别潜在用户的方法及对应装置，用以解决现有技术识别潜在用户准确性低的问题。方法包括：选取N个已确认用户，并获得所述N个已确认用户的特征变量的值；将所述N个已确认用户作为原始样本集，并基于所述原始样本集构建随机森林分类模型；构建所述随机森林分类模型的损失函数，并使用L1范数、L2范数正则化所述损失函数；求解正则化后的损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的随机森林分类模型；将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户。

Description

一种识别潜在用户的方法及对应装置

技术领域

本发明涉及计算机技术邻域，特别涉及一种识别潜在用户的方法及对应装置。

背景技术

目前，各企业为了更加精准地把控用户需求，提高企业营销成功率，常使用随机森林算法对大量已确认的潜在用户和非潜在用户的用户数据进行分析，生成随机森林分类模型，并利用该模型确定待识别用户为潜在用户的概率。

但是，现有技术构造出的随机森林分类模型中，通常含有大量的由无用特征构建的基分类器，这些基分类器的预测性能非常差，严重影响到随机森林分类模型的最终输出结果，使得随机森林分类模型识别潜在用户的准确度降低。

发明内容

本发明实施例提供一种识别潜在用户的方法及对应装置，用以解决现有技术识别潜在用户准确性低的问题。

第一方面，第本发明实施例提供一种识别潜在用户的方法，包括：

选取N个已确认用户，并获得所述N个已确认用户的特征变量的值；其中，所述N个已确认用户的类型包括已确认的潜在用户和已确认的非潜在用户，所述N个已确认用户中每个用户对应至少一项特征变量；

将所述N个已确认用户作为原始样本集，并基于所述原始样本集构建随机森林分类模型；其中，所述随机森林分类模型的输入为用户的特征变量的值，输出是所述随机森林分类模型中所有基分类器判定所述用户为潜在用户的概率；

构建所述随机森林分类模型的损失函数，并使用L1范数、L2范数正则化所述损失函数；其中，所述损失函数的自变量为所述所有基分类器的权重系数；

求解正则化后的损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的随机森林分类模型；

将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户。

在上述方案中，基于大量已确认用户的特征信息构造随机森林分类模型，然后利用损失函数对随机森林分类模型中的各基分类器的组合权重系数进行调整，生成新的随机森林分类模型，并使用新的随机森林分类模型对待识别用户进行识别。在权重系数调整过程中，引入了弹性网络的正则化项(即L1范数、L2范数)对损失函数进行正则化，使得调整后的随机森林分类模型所以不仅能抑制甚至删除预测准确度差的分类器，还能较大程度地保留相关性强且对最终集成系统有积极影响的基分类器，进而使得随机森林分类模型的最终的损失最小，大大提升随机森林分类模型识别潜在用户的准确性。

可选的，在基于所述原始样本集构建随机森林分类模型之前，所述方法还包括：在确定所述原始样本集中任一用户的特征变量的值超出预设范围时，将所述任一用户从所述原始样本集中删除；和/或，在确定所述原始样本集中任一用户的特征变量的值缺失时，根据所述原始样本集中除所述任一用户以外的其他用户的特征变量的值对所述任一用户缺失的特征变量的值进行填充。

通过本方式，可以将原始样本集中不合理的数据、冗余的数据清除，使得后续构造的随机森林分类模型更加可靠，进一步提高随机森林分类模型识别潜在用户的准确性。

可选的，所述损失函数的类型为log对数损失函数、最小二乘法损失函数、指数损失函数中的任一。

通过本方式，可以实现对随机森林分类模型中的各基分类器的组合权重系数进行调整，生成新的随机森林分类模型，进而可使用新的随机森林分类模型对待识别用户进行识别，提高识别的准确性。

可选的，所述构建所述随机森林分类模型的损失函数，包括：将所述N个已确认用户的特征变量的值输入所述随机森林分类模型，获得N个的输出结果；根据所述N个的输出结果、所述N个用户的真实确认结果，构建所述随机森林分类模型的最小二乘法损失函数：

其中，w^T为自变量；a_i为所述随机森林分类模型对所述N个用户中第i个用户的输出结果；y_n为所述第i个用户的真实确认结果，当所述第i个用户为潜在用户时，y_n＝1，当所述第i个用户为非潜在用户时，y_n＝0；λ₁|w|₁为范数L1，λ₂|w|²为范数L2。

通过本方式，通过最小二乘法构造随机森林分类模型的损失函数，并使用范数L1和范数L2对损失函数进行正则化，使得对损失函数求解即可获得各基分类器的最优组合权重系数，进而提高随机森林分类模型识别潜在用户的准确性。

第二方面，本发明实施例提供一种识别潜在用户的装置，包括：获得单元，用于选取N个已确认用户，并获得所述N个已确认用户的特征变量的值；其中，所述N个已确认用户的类型包括已确认的潜在用户和已确认的非潜在用户，所述N个已确认用户中每个用户对应至少一项特征变量；生成单元，用于将所述N个已确认用户作为原始样本集，并基于所述原始样本集构建随机森林分类模型；其中，所述随机森林分类模型的输入为用户的特征变量的值，输出是所述随机森林分类模型中所有基分类器判定所述用户为潜在用户的概率；调整单元，用于构建所述随机森林分类模型的损失函数，并使用L1范数、L2范数正则化所述损失函数；其中，所述损失函数的自变量为所述所有基分类器的权重系数；求解正则化后的损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的随机森林分类模型；识别单元，用于将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户。

可选的，所述生成单元还用于：在基于所述原始样本集构建随机森林分类模型之前，在确定所述原始样本集中任一用户的特征变量的值超出预设范围时，将所述任一用户从所述原始样本集中删除；和/或，在确定所述原始样本集中任一用户的特征变量的值缺失时，根据所述原始样本集中除所述任一用户以外的其他用户的特征变量的值对所述任一用户缺失的特征变量的值进行填充。

可选的，所述调整单元用于：将所述N个已确认用户的特征变量的值输入所述随机森林分类模型，获得N个的输出结果；根据所述N个的输出结果、所述N个用户的真实确认结果，构建所述随机森林分类模型的最小二乘法损失函数：

第三方面，本发明实施例提供一种识别潜在用户的设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现本发明实施例第一方面的任一种可选的实施方式所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行本发明实施例第一方面的任一种可选的实施方式所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明实施例技术方案基于大量已确认用户的特征信息构造随机森林分类模型，然后利用损失函数对随机森林分类模型中的各基分类器的组合权重系数进行调整，生成新的随机森林分类模型，并使用新的随机森林分类模型对待识别用户进行识别。在权重系数调整过程中，引入了弹性网络的正则化项(即L1范数、L2范数)对损失函数进行正则化，使得调整后的随机森林分类模型所以不仅能抑制甚至删除预测准确度差的分类器，还能较大程度地保留相关性强且对最终集成系统有积极影响的基分类器，进而使得随机森林分类模型的最终的损失最小，大大提升随机森林分类模型识别潜在用户的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中识别潜在用户的方法的流程示意图；

图2为本发明实施例中识别潜在用户的装置的结构示意图；

图3为本发明实施例中识别潜在用户的设备的结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

近年来，电信行业用户的增长产生了海量的数据，国内各运营商纷纷开展了数据仓库的建设，并进行数据的收集和存储，为进一步的数据挖掘提供了数据支持。基于这些海量的用户数据，进行潜在用户识别，不仅可以大量节约营销成本，而且可以精准把控用户需求，提高营销成功率。潜在用户识别是指企业在收集大量用户信息并经过分析比对后，对用户购买企业产品的可能性进行预测，识别出购买可能性较大的用户，即潜在用户。

目前，电信运营商的用户数据呈现出数据维度高、数据量大、无用特征多的特点。综合考虑这些数据特点，目前用户识别领域广泛采用随机森林算法。该方法主要通过在用户样本层面与用户特征层面上的双重抽样，构建出多个基分类器，预测的结果由所有基分类器投票决定。

但是，现有技术没有考虑到实际应用中比较常见的高维度用户数据无用特征远远多于有用特征的情况，往往使得构建出的随机森林分类模型中含有大量由无用特征构建的基分类器，这些基分类器的预测性能非常差，但却和其他预测性能好的基分类器有同等的权重，严重影响到随机森林整体输出结果的准确性。使得在具体实施时，需要业务人员不断地对随机森林分类模型进行调整，耗费大量的人力物力。

为了解决现有技术识别潜在用户准确性低的问题，本发明实施例提供了一种识别潜在用户的方法。参照图1，该识别潜在用户的方法包括：

步骤101：选取N个已确认用户，并获得所述N个已确认用户的特征变量的值。

其中，所述N个已确认用户的类型包括已确认的潜在用户和已确认的非潜在用户。在本发明实施例中，可将潜在用户定义为正样本，将非潜在用户定义为负样本，即已确认的潜在用户为潜在用户的真实确认结果为1，已确认的非潜在用户的真实确认结果为0。

所述N个已确认用户中每个用户对应至少一项特征变量，所有用户的特征变量的种类总数相同。具体的特征变量可根据实际应用进行选择，例如用户的性别、年龄、薪资水平、消费记录等，本发明实施例不做具体限制。

步骤102：将所述N个已确认用户作为原始样本集，并基于所述原始样本集构建随机森林分类模型。

记原始样本集为

其中x_n表征第n个样本，y_n为样本x_n的真实确认结果，y_n取值为1或0。

随机森林分类模型的构建过程包括：首先，从原始样本集中有放回地随机抽取出M个Bootstrap样本集，任意两个样本集之间允许重复抽样；然后对于M个Bootstrap样本集中的每一个样本集进行特征变量抽样，此抽样不可重复抽样，但样本集抽样的特征变量个数可相同；根据抽样得到M个样本集，建立M个分类与回归树(Classification andRegression Trees,CART)基分类器，记为T₁,T₂,…,T_M；对于每个样本x，各基分类器给出各自的分类结果，也即是说，对于一个给定的用户，每个基分类器给出一个预测结果，将用户标记为潜在用户，或者非潜在用户，记M个基分类器对第n个样本的预测结果为

初始化权重值w＝(w₁,w₂,…,w_M)，获得M个基分类器对第n个样本的组合输出结果

获得随机森林分类模型T(x)＝w₁T₁(x)+w₂T₂(x)+...+w_MT_M(x)。其中，该模型的输入为用户的特征变量的值，输出是所述随机森林分类模型中所有基分类器判定所述用户为潜在用户的概率。

步骤103：构建所述随机森林分类模型的损失函数，并使用L1范数、L2范数正则化所述损失函数。

其中，损失函数的自变量为所有基分类器的权重系数；损失函数的类型可以为log对数损失函数、最小二乘法损失函数、指数损失函数等，本发明实施例不做具体限制。

例如，使用最小二乘法构造损失函数的具体实现方式包括：

将所述N个已确认用户的特征变量的值输入所述随机森林分类模型，所述随机森林分类模型分别对所述N个已确认用户中的每个用户的特征变量的值进行计算，输出每个用户为潜在用户的概率，共获得N个的输出结果；

根据所述N个输出结果、所述N个用户的真实确认结果，构建所述随机森林分类模型的最小二乘法损失函数：

其中，w^T为自变量；a_i为所述随机森林分类模型对所述N个用户中第i个用户的输出结果；y_n为所述第i个用户的真实确认结果，当所述第i个用户为潜在用户时，y_n＝1，当所述第i个用户为非潜在用户时，y_n＝0；λ₁|w|₁为范数L1，λ₂|w|²为范数L2，

步骤104：求解正则化后的损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的随机森林分类模型。

具体的，计算损失函数的函数值为最小时因变量的最优解，记为

使用该最优解替换随机森林分类模型T(x)＝w₁T₁(x)+w₂T₂(x)+.+w_MT_M(x)中的初始权重系数w＝(w₁,w₂,…,w_M)，获得新的随机森林模型

步骤105：将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户。

具体的，可设定一个预设门限δ(0＜δ＜1)，则根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户包括：在确定T^*(x_a)≥δ时，确定待识别用户为潜在用户，在确定T^*(x_a)＜δ时，确定待识别用户a为非潜在用户。

在上述方案中，基于大量已确认用户的特征信息构造随机森林分类模型，然后利用损失函数对随机森林分类模型中的各基分类器的组合权重系数进行调整，生成新的随机森林分类模型，并使用新的随机森林分类模型对待识别用户进行识别。在权重系数调整过程中，引入了弹性网络的正则化项(即L1范数、L2范数)对损失函数进行正则化，而弹性网络是L1范数与L2范数的线性组合，同时具有L1范数与L2范数的优势，使得调整后的随机森林分类模型所以不仅能抑制甚至删除预测准确度差的分类器，还能较大程度地保留相关性强且对最终集成系统有积极影响的基分类器，进而使得随机森林分类模型的最终的损失最小，大大提升随机森林分类模型识别潜在用户的准确性。

可选的，在构建随机森林分类模型之前，还可以对原始样本集进行预处理，所述预处理包括：在确定所述原始样本集中任一用户的特征变量的值超出预设范围时，将所述任一用户从所述原始样本集中删除；和/或，在确定所述原始样本集中任一用户的特征变量的值缺失时，根据所述原始样本集中除所述任一用户以外的其他用户的特征变量的值对所述任一用户缺失的特征变量的值进行填充。

例如，假设原始样本集包括1000个用户的特征信息，每个用户的特征信息至少包括年龄和月工资两项特征变量。在对原始样本集进行预处理时发现，用户A的特征信息中没有月工资这一项，则可以将所有用户中收入水平位于中间位置的用户的月工资额度作为该用户的月工资；用户B的年龄为1200岁，明显不是人类可能达到的年龄，因此将该用户从原始样本集中删除。

在具体实施过程中，在确定所述原始样本集中任一用户的特征变量的值超出预设范围时，还可以只将所述任一用户的该项特征变量的值进行删除，然后使用所有用户的该项特征变量的中位数或者平均值对该用户的数据进行填充。例如，延用上述年龄的例子，用户B的年龄为1200岁，明显不合理，可使用该另外999位用户的平均年龄如21岁替换掉该用户的1200岁。

在具体实施过程中，还可以对所有用户的特征变量的值进行方差阈值分析，删除方差变化小于阈值的数据。例如，原始样本集合中所有用户都有国籍这一特征变量，但是在对原始样本集进行预处理时发现，99.9％的用户的国籍均为中国，明显国籍这一项对用户的分类几乎不起作用，因此可将国籍确定为冗余项，将所有用户的国籍数据从原始样本集中删除。

基于同一发明构思，本发明实施例还提供了一种识别潜在用户的装置，用于实现本发明实施例上述识别潜在用户方法。参照图2，该装置包括：

获得单元201，用于选取N个已确认用户，并获得所述N个已确认用户的特征变量的值；其中，所述N个已确认用户的类型包括已确认的潜在用户和已确认的非潜在用户，所述N个已确认用户中每个用户对应至少一项特征变量；

生成单元202，用于将所述N个已确认用户作为原始样本集，并基于所述原始样本集构建随机森林分类模型；其中，所述随机森林分类模型的输入为用户的特征变量的值，输出是所述随机森林分类模型中所有基分类器判定所述用户为潜在用户的概率；

调整单元203，用于构建所述随机森林分类模型的损失函数，并使用L1范数、L2范数正则化所述损失函数；其中，所述损失函数的自变量为所述所有基分类器的权重系数；求解正则化后的损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的随机森林分类模型；

识别单元204，用于将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户。

可选的，所述生成单元202还用于：

在基于所述原始样本集构建随机森林分类模型之前，在确定所述原始样本集中任一用户的特征变量的值超出预设范围时，将所述任一用户从所述原始样本集中删除；和/或

在确定所述原始样本集中任一用户的特征变量的值缺失时，根据所述原始样本集中除所述任一用户以外的其他用户的特征变量的值对所述任一用户缺失的特征变量的值进行填充。

可选的，所述调整单元203用于：将所述N个已确认用户的特征变量的值输入所述随机森林分类模型，获得N个的输出结果；

根据所述N个的输出结果、所述N个用户的真实确认结果，构建所述随机森林分类模型的最小二乘法损失函数：

以上各单元所执行的操作步骤的具体实现方法可以参照本发明实施例上述识别潜在用户的方法中对应步骤的具体实施方式，本发明实施例不再赘述。

基于同一发明构思，本发明实施例还提供了一种识别潜在用户的设备。参照图3，该设备包括：

至少一个处理器301，以及

与所述至少一个处理器301通信连接的存储器302；

其中，所述存储器302存储有可被所述至少一个处理器301执行的指令，所述至少一个处理器301通过执行所述存储器302存储的指令实现本发明实施例上述识别潜在用户的方法。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行本发明实施例上述识别潜在用户的方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别潜在用户的方法，其特征在于，包括：

将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户；

其中，在基于所述原始样本集构建随机森林分类模型之前，所述方法还包括：

在确定所述原始样本集中任一用户的特征变量的值超出预设范围时，将所述任一用户从所述原始样本集中删除；和/或

2.如权利要求1所述的方法，其特征在于，所述损失函数的类型为log对数损失函数、最小二乘法损失函数、指数损失函数中的任一。

3.如权利要求1或2所述的方法，其特征在于，所述构建所述随机森林分类模型的损失函数，包括：

将所述N个已确认用户的特征变量的值输入所述随机森林分类模型，获得N个的输出结果；

其中，w^T为自变量；a_i为所述随机森林分类模型对所述N个用户中第i个用户的输出结果；y_i为所述第i个用户的真实确认结果，当所述第i个用户为潜在用户时，y_i＝1，当所述第i个用户为非潜在用户时，y_i＝0；λ₁|w|₁为范数L1，λ₂|w|²为范数L2。

4.一种识别潜在用户的装置，其特征在于，包括：

获得单元，用于选取N个已确认用户，并获得所述N个已确认用户的特征变量的值；其中，所述N个已确认用户的类型包括已确认的潜在用户和已确认的非潜在用户，所述N个已确认用户中每个用户对应至少一项特征变量；

生成单元，用于将所述N个已确认用户作为原始样本集，并基于所述原始样本集构建随机森林分类模型；其中，所述随机森林分类模型的输入为用户的特征变量的值，输出是所述随机森林分类模型中所有基分类器判定所述用户为潜在用户的概率；

调整单元，用于构建所述随机森林分类模型的损失函数，并使用L1范数、L2范数正则化所述损失函数；其中，所述损失函数的自变量为所述所有基分类器的权重系数；求解正则化后的损失函数的因变量为最小时所述自变量的最优解，并根据所述最优解更新所述所有基分类器的权重系数，生成新的随机森林分类模型；

识别单元，用于将待识别用户的特征变量的值输入所述新的随机森林分类模型，获得输出结果；根据所述输出结果确定所述待识别用户为潜在用户或非潜在用户；

其中，所述生成单元还用于：

5.如权利要求4所述的装置，其特征在于，所述损失函数的类型为log对数损失函数、最小二乘法损失函数、指数损失函数中的任一。

6.如权利要求4或5所述的装置，其特征在于，所述调整单元用于：

7.一种识别潜在用户的设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现权利要求1至3中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1至3中任一项所述的方法。