CN112214675B

CN112214675B - 用户购机的确定方法、装置、设备及计算机存储介质

Info

Publication number: CN112214675B
Application number: CN202011117375.8A
Authority: CN
Inventors: 孙小娟; 陈雷; 顾骧; 顾强; 屈林波
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2024-04-09
Anticipated expiration: 2040-10-19
Also published as: CN112214675A

Abstract

本申请实施例提供了一种用户购机的确定方法、装置、设备及计算机存储介质，方法包括：获取第一用户的目标特征数据；根据所述目标特征数据和预设的神经网络模型，得到第一概率值；所述神经网络模型为通过学习包含所述目标特征数据的样本与所述第一概率值的映射关系得到；在所述第一概率值大于或等于预设第一阈值的情况下，确定所述第一用户在目标时间段内购机。本申请实施例能够解决现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时准确度低的问题。

Description

用户购机的确定方法、装置、设备及计算机存储介质

技术领域

本申请属于大数据技术领域，尤其涉及一种用户购机的确定方法、装置、设备及计算机存储介质。

背景技术

随着科技的发展和人们经济水平的提高，移动通讯设备已经成为人们生产及生活中密不可分的一部分。当下，移动通信网络和移动通讯设备都具有更新换代快的特点，而为了享受最新的网络体验，用户更换移动通讯设备的速度也居高不下。

对于移动通讯设备的厂家而言，如果能从海量的用户中准确地确定出具体哪些用户会在目标时间段内购买新的移动通讯设备，不仅可以减少推广成本，而且还能通过向确定的用户发送最新的移动通讯设备信息，帮助用户了解最新的移动通讯设备信息，避免用户购买到不满意的产品。

然而，现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时均存在准确度低的问题。

发明内容

本申请实施例提供一种用户购机的确定方法、装置、设备及计算机存储介质，能够解决现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时准确度低的问题。

第一方面，本申请实施例提供一种用户购机的确定方法，方法包括：

获取第一用户的目标特征数据；

根据目标特征数据和预设的神经网络模型，得到第一概率值；神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到；

在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。

在一个实施例中，在获取第一用户的目标特征数据之前，方法还包括：

根据第二用户在t-1月的特征数据和第二用户在t月的购机结果，构建第一样本，第二用户为t-2月和t-1月均未购机的用户，t为正整数；

根据第三用户在t月的特征数据和第三用户在t+1月的购机结果，构建第二样本，第三用户为t-1月和t月均未购机的用户；

合并第一样本和第二样本，得到第三样本；

根据第三样本训练神经网络模型。

在一个实施例中，在根据第三样本训练神经网络模型之前，方法还包括：

对第三样本中每个特征数据对应的特征进行打分，得到每个特征的打分分值；

计算每个特征的信息增益比；

将每个特征的打分分值作为每个特征的信息增益比的权重，得到每个特征的第一信息增益比，第一信息增益比为带权重的信息增益比；

构建特征初筛函数，特征初筛函数用于在第i个特征的第一信息增益比小于预设阈值的情况下，删除第三样本中的第i个特征对应的特征数据，i为正整数；

根据第三样本训练神经网络模型，具体包括：

根据特征初筛函数处理后的第三样本训练神经网络模型。

在一个实施例中，在构建特征初筛函数之前，方法还包括：

设定多个初始预设阈值；

根据预设的逻辑回归模型，确定每个初始预设阈值对应的逻辑回归模型的输出值；

确定逻辑回归模型的所有输出值中最大输出值对应的初始预设阈值，将最大输出值对应的初始预设阈值作为预设阈值。

在一个实施例中，在根据特征初筛函数处理后的第三样本训练神经网络模型之前，方法还包括：

将特征分为类别型特征和数据型特征；

构建类别型特征和数据型特征的平均变异系数比函数，并利用平均变异系数比函数确定每个数据型特征与每个类别型特征是否相关；

当确定第i个数据型特征与第j个类别型特征相关时，计算在第j个类别型特征的条件下的第i个数据型特征对应的所有特征数据的统计特征对应的数据，并将统计特征对应的数据加入到第三样本之中；统计特征包括以下至少一项：均值、标准差、峰度、偏度和变异系数；

根据特征初筛函数处理后的第三样本训练神经网络模型，具体包括：

根据加入统计特征对应的数据后的第三样本训练神经网络模型。

在一个实施例中，在根据加入统计特征对应的数据后的第三样本训练神经网络模型之前，方法还包括：

对第三样本进行抽样，得到多个第四样本；

根据预设的梯度提升决策树模型和多个第四样本，确定每个特征的分裂次数；

删除第三样本中的分裂次数小于预设第一阈值的特征对应的特征数据；

根据加入统计特征对应的数据后的第三样本训练神经网络模型，具体包括：

根据删除分裂次数小于预设第一阈值的特征对应的特征数据后的第三样本训练神经网络模型。

在一个实施例中，在根据删除分裂次数小于预设第一阈值的特征对应的特征数据后的第三样本训练神经网络模型之前，方法还包括：

将第三样本输入至预设的多种类型且多种模型参数的机器学习模型之中，得到每个机器学习模型的输出值；

将每个机器学习模型的输出值作为新的特征数据加入至第三样本之中；

根据删除分裂次数小于预设第一阈值的特征对应的特征数据后的第三样本训练神经网络模型，具体包括：

根据加入每个机器学习模型的输出值后的第三样本训练神经网络模型。

在一个实施例中，根据第三样本训练神经网络模型，具体包括：

构建多个初始神经网络模型；

从第三样本中选取不同预设比例的负样本与正样本分别对每个初始神经网络模型进行训练，得到训练好的初始神经网络模型；

构建初始神经网络模型的权重函数，并利用权重函数计算每个初始神经网络模型的权重；

根据训练好的每个初始神经网络模型和每个初始神经网络模型的权重，得到训练好的神经网络模型。

第二方面，本申请实施例提供了一种用户购机的确定装置，装置包括：

获取单元，用于获取第一用户的目标特征数据；

第一确定单元，用于根据目标特征数据和预设的神经网络模型，得到第一概率值；神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到；

第二确定单元，用于在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：

处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面提供的用户购机的确定方法的步骤。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的用户购机的确定方法的步骤。

本申请实施例的用户购机的确定方法、装置、设备及计算机存储介质，首先获取第一用户的目标特征数据；然后根据目标特征数据和预设的神经网络模型，得到第一概率值；其中，神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到；在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。由于神经网络模型学习了大量地包含目标特征数据的样本与第一概率值的映射关系，所以该神经网络模型可以准确地确定第一用户在目标时间段内购机的第一概率值，进而再根据第一概率值准确地确定出用户是否会在目标时间段内购买新的移动通讯设备，从而解决现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时准确度低的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例构建第三样本的流程示意图；

图2示意性示出了本申请实施例的对每个特征的打分过程；

图3为本申请实施例的特征初步筛选过程的流程示意图；

图4为本申请实施例的第一次特征衍生的流程示意图；

图5为本申请实施例的基于梯度提升决策树模型的特征筛选的流程示意图；

图6为本申请实施例的第二次特征衍生的示意图；

图7为本申请实施例提供的用户购机的确定方法的流程示意图；

图8示出了本申请实施例训练好的神经网络模型的性能测试结果；

图9是本申请实施例提供的用户购机的确定装置的结构示意图；

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

经本发明人研究发现，目前对于确定用户是否会在目标时间段内购买新的移动通讯设备，现有存在三种方案：

第一种方案是直接选择资费较高的用户，向这些用户推荐新的移动通讯设备，再根据这些用户的反馈来决定下一阶段是否继续实行该方案。这种方案虽然操作简单，但是用户定位不准确，无差别的推送存在资源浪费严重的问题。

第二种方案是通过聚类人为将用户分成购买新的移动通讯设备类和非购买新的移动通讯设备类。这种方案可能会造聚类不当的问题，如果不同类中购买新的移动通讯设备和非购买新的移动通讯设备的比例差距很大，那么会是一个好的聚类方式，但是可能会存在不同类中的购买新的移动通讯设备和非购买新的移动通讯设备的比例差距不大的情况，那么聚类将没有实际意义，无法在实际应用中达到好的效果，即无法准确地确定用户是否会在目标时间段内购买新的移动通讯设备。

第三种方案是根据用户的多维度信息，构建用户人物画像，根据现有的指标，判断用户是否具有购买新的移动通讯设备的潜力，从而决定是否向该用户推荐新的移动通讯设备。这种方案在评估指标的选择上存在困难，往往需要拥有丰富的业务经验才能达到一个较为满意的结果，绝大多数情况下也无法准确地确定用户是否会在目标时间段内购买新的移动通讯设备。

由此可以看出，无论是上述哪种现有方案，在确定用户是否会在目标时间段内购买新的移动通讯设备时均存在准确度低的问题。

为了解决现有技术问题，本申请实施例提供了一种用户购机的确定方法、装置、设备及计算机存储介质。

本申请实施例的技术构思是：首先获取第一用户的目标特征数据；然后根据目标特征数据和预设的神经网络模型，得到第一概率值；其中，神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到；在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。由于神经网络模型学习了大量地包含目标特征数据的样本与第一概率值的映射关系，所以该神经网络模型可以准确地确定第一用户在目标时间段内购机的第一概率值，进而再根据第一概率值准确地确定出用户是否会在目标时间段内购买新的移动通讯设备，从而解决现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时准确度低的问题。

由于本申请实施例需要根据训练好的神经网络模型和据目标特征数据，得到第一概率值，所以在执行本申请实施例所提供的用户购机的确定方法之前需要先对神经网络模型进行训练。为了便于理解，下面首先对本申请实施例的神经网络模型的训练过程进行介绍。

具体地，在获取第一用户的目标特征数据之前，本申请实施例所提供的用户购机的确定方法还包括：

构建用于训练神经网络模型的样本；

根据构建的样本训练神经网络模型。

其中，构建用于训练神经网络模型的样本可以包括以下步骤：

根据第二用户在t-1月的特征数据和第二用户在t月的购机结果，构建第一样本；其中，第二用户为t-2月和t-1月均未购机的用户，t为正整数。

根据第三用户在t月的特征数据和第三用户在t+1月的购机结果，构建第二样本；其中，第三用户为t-1月和t月均未购机的用户。

合并第一样本和第二样本，得到第三样本。

具体地。一般来说通常采用当月购买新的移动通讯设备的数据作为正样本，当月不购买新的移动通讯设备的数据作为负样本。但是这样构建的样本量偏少，并且模型只注重于一个月信息。

因此为了构建更多且更为客观的样本，使得神经网络模型最终输出的结果更加准确，如图1所示，作为一种示例，本申请实施例假设现在有t-1月，t月以及t+1月的用户的特征数据，以及已知t月和t+1月的用户的购机结果。那么，可以以t-1月的用户的特征数据作为特征，t月用户是否置购买新的移动通讯设备作为标签，构建第一样本；同理，可以以t月的用户的特征数据作为特征，t+1月用户是否置购买新的移动通讯设备作为标签，构建第二样本。但是考虑到刚购买新的移动通讯设备的用户在短时间内不可能会再次购机，只有那些较长时间购买新的移动通讯设备的用户才会购机，所以本申请实施例设置三个月为置换有效周期，在构建第一样本时将t-2月和t-1月购机的用户删除，在构建第二样本时将t-1月和t月购机的用户删除。换言之，本申请实施例利用t-2月和t-1月均未购机的用户在t-1月的特征数据和在t月的购机结果，构建第一样本；利用t-1月和t月均未购机的用户在t月的特征数据和在t+1月的购机结果，构建第二样本。最后，将第一样本和第二样本合并，得到第三样本。

在训练神经网络模型时，例如可以根据获得的第三样本训练神经网络模型。

具体地，考虑到第三样本中实际购机人数较少，非购机的人数较多，即正负样本比例悬殊，若以全部的第三样本对神经网络模型训练，那么训练出的神经网络模型输出的结果可能准确性较差。例如，第三样本中实际购机的人数为1个，非购机的人数为100个时，那么训练出的神经网络模型输出的结果会偏向非购机这类，例如原本会在目标时间段购机的用户，神经网络模型输出的结果也可能是该用户不会在目标时间段购机。

为了保证神经网络模型输出的结果的准确性，作为一种示例，本申请实施例对第三样本中的负样本进行抽样n次，n次抽样的负样本与正样本的比例例如可以为，1:1，2:1，3:1，…，n:1。然后，对应n次抽样，构建多个初始神经网络模型，分别为：model₁、model₂、model₃、……、model_n。再接下来，利用不同预设比例的负样本与正样本分别对每个初始神经网络模型进行训练，得到每个训练好的初始神经网络模型。例如，以1:1比例的负样本与正样本对model₁训练，以2:1比例的负样本与正样本对model₂训练，以n:1比例的负样本与正样本对model_n训练。

为了防止每个初始神经网络模型过拟合，在构建和训练每个初始神经网络模型的过程中采用丢弃(dropout)策略和L1正则策略。

再接下来，构建初始神经网络模型的权重函数，并利用权重函数计算每个初始神经网络模型的权重，权重函数的表达式如下：

其中，F1(model_j)表示利用预设的逻辑回归模型求取的第j个初始神经网络模型的重要度(F1)；第j个初始神经网络模型的权重为第j个初始神经网络的F1值与所有初始神经网络模型的F1值累和的比值，j为正整数。

最后，集成所有训练好的初始神经网络模型得到训练好的神经网络模型。具体地，根据训练好的每个初始神经网络模型和每个初始神经网络模型的权重，得到训练好的神经网络模型。

神经网络模型的表达式为：

其中，model_j表示第j个初始神经网络模型的输出值；weight_j表示第j个初始神经网络模型的权重；model_whole表示神经网络模型的输出值，输出值为用户在目标时间段内购机的概率值。

考虑到第三样本中的特征数据的量较大，繁多的特征数据不便于神经网络模型的训练，并且多数特征对应的特征数据对最终的预测结果影响较小，因此，作为一种示例，在根据第三样本训练神经网络模型之前，方法还可以包括：对第三样本中的特征数据进行筛选。

表1至表4以购买的新的移动通讯设备为5G手机为例，示意性示出了未筛选的第三样本中的特征数据对应的特征。

表1

表2

表3

表4

如表1至表4所示，现有的特征大类主要包括用户属性、终端属性、APP偏好、网络浏览，搜索行为、通讯特征及偏好、耗流特征及偏好、手机偏好、手机置换细则、交往圈特征、用户社交爱好、5G特征以及节假日活动，现有的特征众多且不一定全部都可以满足业务要求，因此在模型训练前可以结合业务特点进行特征初筛，剔除无效特征。

具体地，特征初步筛选的具体流程如下：

首先，对第三样本中每个特征数据对应的特征进行打分，得到每个特征的打分分值。这里，例如选择了9位专家，根据其对用户购机情况的分析，对现有的基本信息特征、终端信息特征以及消费行为特征进行十分制打分，分值反应这些特征对用户购机影响的重要程度，然后去掉每个特征的最高分和最低分，剩余7个分值，为了防止专家对某个特征存在个人偏好，从7个分值中随机抽取5个分值，计算平均值作为该特征的最终打分分值。

图2示意性示出了本申请实施例的对每个特征的打分过程。如图2所示，对于第三样本中的全部特征集合中的每个特征进行专家打分，打分后去掉每个特征的打分的最大值和最小值，然后求取均值作为每个特征的最终打分分值。

表5至表8以购买的新的移动通讯设备为5G手机为例，示意性示出了第三样本中的每个特征数据对应的特征的专家打分结果。

表5

表6

表7

表8

/>

如表5至表8所示，5G特征、当月是否存在互联网节日、节假日、手机使用时长以及换机频率等特征的评分较高，专家认为这些变量对用户是否购买或置换5G手机影响较大。

为了更加客观的表征每个特征的重要程度，作为一种示例，方法还包括：计算每个特征的信息增益比。

具体地，计算每一个特征条件下，用户是否购买新的移动通讯设备的标签的信息增益比值，表达式如下：

其中，D表示全部数据，|D|表示全部数据数量，k＝0,1表示是否购机，0表示没有购机，1表示购机；C_k表示购机标签为k所对应的数据，|C_k|表示C_k所对应的数据量；i＝1,2…n表示选择的特征可划分为几个类别，D_i表示该特征的第i个类别所对应的数据，|D_i|表示D_i所对应的数据量；D_ik表示特征标签为i，购机标签为k所对应的的数据，|D_ik|是D_ik所对应的的数据量。

表9至表12以购买的新的移动通讯设备为5G手机为例，示意性示出了第三样本中的每个特征数据对应的特征的信息增益比。

表9

表10

/>

表11

/>

表12

/>

如表9至表12所示，信息增益比表明，是否当月存在互联网节日、节假日、5G特征、手机使用时长以及换机频数等变量对用户是否购买5G手机影响较大。

接下来，结合每个特征的专家打分和信息增益比，确定每个特征的重要程度。

具体地，将每个特征的打分分值作为每个特征的信息增益比的权重，得到每个特征的第一信息增益比，其中，第一信息增益比为带权重的信息增益比。表达式如下：

其中，weight_i表示第i个特征的信息增益比的权重；value_i表示第i个特征的打分分值。

再接下来，构建特征初筛函数，表达式如下：

其中，x表示特征，g_R(D,x)表示特征的信息增益比；weight*g_R(D,x)表示特征的第一信息增益比。

即，在第i个特征的第一信息增益比小于预设阈值t的情况下，删除第三样本中的第i个特征对应的特征数据，i为正整数。

在本申请实施例中，预设阈值t通过以下方式获得：在构建特征初筛函数之前，执行以下步骤：

首先，设定多个初始预设阈值。

然后，根据预设的逻辑回归模型，确定每个初始预设阈值对应的逻辑回归模型的输出值。具体地，将每个初始预设阈值条件下，大于初始预设阈值的特征输入到预设的逻辑回归模型中，计算在测试集上的F1值作为特征有效性评估量，得到每个初始预设阈值对应的逻辑回归模型的输出值F1值。

再接下来，确定逻辑回归模型的所有输出值中最大输出值对应的初始预设阈值，将最大输出值对应的初始预设阈值作为预设阈值。

图3为本申请实施例的特征初步筛选过程的流程示意图。如图3所示，对于第三样本中的全部特征，计算每个特征的信息增益比，再根据每个特征的打分分值计算每个特征的信息增益比的权重，设定多个初始预设阈值，通过逻辑回归模型的交叉验证确定最优的初始预设阈值作为预设阈值，判断第i个特征的带权重的信息增益比是否大于预设阈值，若大于预设阈值则保留，若不大于预设阈值则第三样本中的第i个特征对应的特征数据。

经过特征初步筛选，第三样本中被保留的特征如表13和表14所示。

表13

表14

如表13和表14所示，筛选后的特征的数量大幅减少，故可以根据特征初筛函数处理后的第三样本训练神经网络模型。筛选后的特征可以有效避免无效特征进入到后续建模过程中，降低工作量的同时也提高模型的性能。

为了进一步保证神经网络模型输出的准确性，作为一种示例，在根据特征初筛函数处理后的第三样本训练神经网络模型之前，方法还可以包括：第一次特征衍生。

具体地，第一次特征衍生可以包括以下步骤：

首先，将第三样本中的特征分为类别型特征和数据型特征。类别型特征可以理解为非A即B的特征，例如包括性别、是否受移动5G基站覆盖和当月是否国庆。数据型特征可以理解为用数值表示的特征，例如包括年龄、当月被叫次数和平均换机周期。

然后，构建类别型特征和数据型特征的平均变异系数比函数，并利用平均变异系数比函数确定每个数据型特征与每个类别型特征是否相关。以特征x，y为例，其中x为数值型特征，y为类别型特征，y的类别有{y1,y2,…ym}。平均变异系数比函数的表达式如下：

其中，c()函数表示变异系数计算函数，具体计算方式为：

其中，σ代表标准差，μ代表均值，通过计算每种类别下数值型变量的变异系数比之和，再设定相应阈值，评估变量x和y之间是否相关。

再接下来，当确定第i个数据型特征与第j个类别型特征相关时，计算在第j个类别型特征的条件下的第i个数据型特征对应的所有特征数据的统计特征对应的数据，并将统计特征对应的数据加入到第三样本之中；其中，统计特征包括以下至少一项：均值、标准差、峰度、偏度和变异系数。

例如，第i个数据型特征为通话数，第j个类别型特征为男性，当确定通话数与男性相关时，计算在男性条件下第三样本中所有男性用户的通话数的均值，并将在男性条件下所有男性用户的通话数的均值作为新的特征数据加入到第三样本之中。

图4为本申请实施例的第一次特征衍生的流程示意图。如图4所示，x1_cha为类别型特征，x1_num为数值型特征，利用平均变异系数比函数计算x1_cha与x1_num的相关性，当x1_cha与x1_num相关时，基于x1_cha与x1_num衍生新的特征，新的特征为满足x1_cha条件下的x1_num的各种统计特征，例如均值；当x1_cha与x1_num不相关时，两个特征不衍生特征。

在训练神经网络模型时，可以根据加入统计特征对应的数据后的第三样本训练神经网络模型。

数值型特征和类别型特征相关性的确定，可以为后续两者的特征衍生提供理论依据，两者衍生出来的统计特征可以为建模提供额外有效特征，从而提高模型的性能。

为了进一步保证神经网络模型输出的准确性，作为一种示例，在根据加入统计特征对应的数据后的第三样本训练神经网络模型之前，方法还可以包括：基于梯度提升决策树模型GBDT的特征筛选。

具体地，基于梯度提升决策树模型的特征筛选可以包括以下步骤：

首先，对第三样本进行抽样，得到多个第四样本。例如，对汇总的第三样本，进行m次抽样，形成多个第四样本，分别为样本1，样本2，…，样本m。

然后，根据预设的梯度提升决策树模型和多个第四样本，确定每个特征的分裂次数。具体地，如图5所示，根据样本i构建GBDT_model_i，再根据GBDT_model_i计算特征分裂次数。对全部抽取的样本重复上述的操作，每个样本形成一份特征集。对全部的特征集进行交集，形成最终有效的特征集。

再接下来，删除第三样本中的分裂次数小于预设第一阈值的特征对应的特征数据。具体地，取最终有效的特征集中分裂次数前80％的特征，删除分裂次数后20％的特征对应第三样本中的特征数据。

在实际应用中，由于第三样本的数据量较大，抽取样本进行建模的耗时较多，因此在综合考虑建模效果以及耗时两方面因素，m选择为15，根据15份子样本进行有效特征集的筛选。筛选之后的特征包含了5G基站是否覆盖、手机置换次数以及当前终端价格等特征，其中以终端价格为例，分裂次数平均排名第六，最终该变量被选择到后续建模当中。

在训练神经网络模型时，可以根据删除分裂次数小于预设第一阈值的特征对应的特征数据后的第三样本训练神经网络模型。

梯度提升决策树模型GBDT的特征筛选，可以自动为模型筛选有效特征，避免人工筛选特征所带来的局限性，从而提高模型性能。

为了进一步保证神经网络模型输出的准确性，作为一种示例，根据删除分裂次数小于预设第一阈值的特征对应的特征数据后的第三样本训练神经网络模型之前，方法还可以包括：第二次特征衍生。

具体地，第二次特征衍生可以包括以下步骤：

首先，将第三样本输入至预设的多种类型且多种模型参数的机器学习模型之中，得到每个机器学习模型的输出值。具体地，例如可以构建支持向量机模型(SVM模型)，梯度提升决策树模型(GBDT模型)，随机森林模型(RandomForest模型)，最终分类器模型(Adaboost模型)以及极端梯度提升模型(XGBOOST模型)，同时这些模型也选择不同的参数，每种模型衍生多个模型，形成的最终模型为SVM_01至SVM_m，GBDT_01至GBDT_m，RandomForest_01至RandomForest_m，Adaboost_01至Adaboost_m，XGBOOST_01至XGBOOST_m。将第三样本输入到这些机器学习模型之中，每个机器学习模型均会得到一个输出值。

然后，将每个机器学习模型的输出值作为新的特征数据加入至第三样本之中。例如，SVM_01模型的输出值为0.6，那么可以将“SVM_01模型的输出值为0.6”作为新的特征数据加入至第三样本之中。在实际应用中，结合业务需求以及最终的模型的性能方面，本申请实施例每种类型的模型数量选择例如为9。

图6为本申请实施例的第二次特征衍生的示意图。如图6所示，以SVM_01为例，具体为：首先将训练数据划分为k份，每次选其中k-1份拟合SVM_01模型，对没有选中的那一份用建好的模型进行预测，重复k次，每一份数据都会有一个预测值，即全部训练样本都会有一个预测值，将这个预测值作为新的特征和原始特征合并。针对测试集，则用每一个k-1份样本生成的模型对其进行预测，取k次预测值的均值作为最终的预测值，同样测试集的每一个数据有一个预测值，也作为新的特征；由于每一个模型都会生成一个新的特征，最终生成的特征数量为5*m个。

在训练神经网络模型时，可以根据第二次特征衍生后的第三样本训练神经网络模型，具体训练过程参见上文，在此不再赘述。

基于上述堆叠(Stacking)策略的第二次特征衍生，可以自动为模型衍生有效特征，避免人工衍生特征所带来的局限性，从而提高模型性能。

以上为本申请实施例的神经网络模型的训练过程，下面对本申请实施例所提供的用户购机的确定方法进行介绍。

图7是本申请实施例提供的用户购机的确定方法的流程示意图。如图7所示，该方法可以包括以下步骤：

S101、获取第一用户的目标特征数据。在本申请实施例中，第一用户为任意一个或多个用户。目标特征数据为目标特征对应的数据，目标特征即训练神经网络模型时使用到的特征。

S102、根据目标特征数据和预设的神经网络模型，得到第一概率值；其中，神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到。即，将第一用户的目标特征数据输入至训练好的神经网络模型之中，得到第一用户在目标时间段内购机的第一概率值。

S103、在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。例如，当第一概率值大于或等于60％时，确定为第一用户在目标时间段内购机，目标时间段例如为本月。需要说明的是，预设第一阈值和目标时间段可以根据实际情况灵活设定，本申请不限于此。

为了验证本申请实施例训练好的神经网络模型的性能，本申请实施例进行了神经网络模型的性能测试实验，图8示出了本申请实施例训练好的神经网络模型的性能测试结果。

如图8所示，本申请实施例采用接受者操作特性ROC曲线以及对应的ROC曲线下与坐标轴围成的面积AUC值作为评估指标，由图8可以看出，随着横坐标的增加，ROC曲线越来越平缓，ROC曲线下的AUC值为0.71，说明本申请实施例训练好的神经网络模型的性能良好，可以用来确定用户是否会在目标时间段内购机且准确度较高。

基于上述实施例提供的用户购机的确定方法，相应地，本申请还提供了用户购机的确定装置的具体实现方式。请参见以下实施例。

首先参见图9，本申请实施例提供的用户购机的确定装置900可以包括以下单元：

获取单元901，用于获取第一用户的目标特征数据；

第一确定单元902，用于根据目标特征数据和预设的神经网络模型，得到第一概率值；神经网络模型为通过学习包含所述目标特征数据的样本与所述第一概率值的映射关系得到；

第二确定单元903，用于在所述第一概率值大于或等于预设第一阈值的情况下，确定所述第一用户在目标时间段内购机。

本申请实施例的用户购机的确定装置，获取单元获取第一用户的目标特征数据；第一确定单元根据目标特征数据和预设的神经网络模型，得到第一概率值；其中，神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到；第二确定单元在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。由于神经网络模型学习了大量地包含目标特征数据的样本与第一概率值的映射关系，所以该神经网络模型可以准确地确定第一用户在目标时间段内购机的第一概率值，进而再根据第一概率值准确地确定出用户是否会在目标时间段内购买新的移动通讯设备，从而解决现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时准确度低的问题。

在一个实施例中，本申请实施例提供的用户购机的确定装置900还可以包括样本生成单元，用于根据第二用户在t-1月的特征数据和第二用户在t月的购机结果，构建第一样本，第二用户为t-2月和t-1月均未购机的用户，t为正整数；根据第三用户在t月的特征数据和第三用户在t+1月的购机结果，构建第二样本，第三用户为t-1月和t月均未购机的用户；合并第一样本和第二样本，得到第三样本。本申请实施例提供的用户购机的确定装置900还可以包括训练单元，用于根据第三样本训练神经网络模型。

在一个实施例中，本申请实施例提供的用户购机的确定装置900还可以包括特征初筛单元，用于对第三样本中每个特征数据对应的特征进行打分，得到每个特征的打分分值；计算每个特征的信息增益比；将每个特征的打分分值作为每个特征的信息增益比的权重，得到每个特征的第一信息增益比，第一信息增益比为带权重的信息增益比；构建特征初筛函数，特征初筛函数用于在第i个特征的第一信息增益比小于预设阈值的情况下，删除第三样本中的第i个特征对应的特征数据，i为正整数。训练单元具体用于根据特征初筛函数处理后的第三样本训练神经网络模型。

在一个实施例中，本申请实施例提供的用户购机的确定装置900还可以包括预设阈值确定单元，用于设定多个初始预设阈值；根据预设的逻辑回归模型，确定每个初始预设阈值对应的逻辑回归模型的输出值；确定逻辑回归模型的所有输出值中最大输出值对应的初始预设阈值，将最大输出值对应的初始预设阈值作为预设阈值。

在一个实施例中，本申请实施例提供的用户购机的确定装置900还可以包括第一特征衍生单元，用于将特征分为类别型特征和数据型特征；构建类别型特征和数据型特征的平均变异系数比函数，并利用平均变异系数比函数确定每个数据型特征与每个类别型特征是否相关；当确定第i个数据型特征与第j个类别型特征相关时，计算在第j个类别型特征的条件下的第i个数据型特征对应的所有特征数据的统计特征对应的数据，并将统计特征对应的数据加入到第三样本之中；统计特征包括以下至少一项：均值、标准差、峰度、偏度和变异系数。训练单元具体用于根据加入统计特征对应的数据后的第三样本训练神经网络模型。

在一个实施例中，本申请实施例提供的用户购机的确定装置900还可以包括删除单元，用于对第三样本进行抽样，得到多个第四样本；根据预设的梯度提升决策树模型和多个第四样本，确定每个特征的分裂次数；删除第三样本中的分裂次数小于预设第一阈值的特征对应的特征数据。训练单元具体用于根据删除分裂次数小于预设第一阈值的特征对应的特征数据后的第三样本训练神经网络模型。

在一个实施例中，本申请实施例提供的用户购机的确定装置900还可以包括第二特征衍生单元，用于将第三样本输入至预设的多种类型且多种模型参数的机器学习模型之中，得到每个机器学习模型的输出值；将每个机器学习模型的输出值作为新的特征数据加入至第三样本之中。训练单元具体用于根据加入每个机器学习模型的输出值后的第三样本训练神经网络模型。

在一个实施例中，训练单元具体用于构建多个初始神经网络模型；从第三样本中选取不同预设比例的负样本与正样本分别对每个初始神经网络模型进行训练，得到训练好的初始神经网络模型；构建初始神经网络模型的权重函数，并利用权重函数计算每个初始神经网络模型的权重；根据训练好的每个初始神经网络模型和每个初始神经网络模型的权重，得到训练好的神经网络模型。

图9所示装置中的各个模块/单元具有实现图7中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

基于上述实施例提供的用户购机的确定方法，相应地，本申请还提供了电子设备的具体实现方式。请参见以下实施例。

图10示出了本申请实施例提供的电子设备的硬件结构示意图。

电子设备可以包括处理器1001以及存储有计算机程序指令的存储器1002。

具体地，上述处理器1001可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器1002可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器1002可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，存储器1002可以包括可移除或不可移除(或固定)的介质，或者存储器1002是非易失性固态存储器。存储器1002可在综合网关容灾设备的内部或外部。

存储器1002在一个实例中，存储器1002可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

存储器1002可以包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器1001通过读取并执行存储器1002中存储的计算机程序指令，以实现图7所示实施例中的方法/步骤S101至S103，并达到图7所示实例执行其方法/步骤达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，电子设备还可包括通信接口1003和总线1010。其中，如图10所示，处理器1001、存储器1002、通信接口1003通过总线1010连接并完成相互间的通信。

通信接口1003，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线1010包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industry Standard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线1010可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的用户购机的确定方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户购机的确定方法。

综上所述，本申请实施例的用户购机的确定方法、装置、设备及计算机存储介质，首先获取第一用户的目标特征数据；然后根据目标特征数据和预设的神经网络模型，得到第一概率值；其中，神经网络模型为通过学习包含目标特征数据的样本与第一概率值的映射关系得到；最后在第一概率值大于或等于预设第一阈值的情况下，确定第一用户在目标时间段内购机。由于神经网络模型学习了大量地包含目标特征数据的样本与第一概率值的映射关系，所以该神经网络模型可以准确地确定第一用户在目标时间段内购机的第一概率值，进而再根据第一概率值准确地确定出用户是否会在目标时间段内购买新的移动通讯设备，从而解决现有方案在确定用户是否会在目标时间段内购买新的移动通讯设备时准确度低的问题。

此外，通过对第三样本的分析和特征衍生函数的构建，可以挖掘更多的有效特征，这些新生成的有效特征可以为业务提供更多的指导。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

Claims

1.一种用户购机的确定方法，其特征在于，所述方法包括：

根据第二用户在t-1月的特征数据和所述第二用户在t月的购机结果，构建第一样本，所述第二用户为t-2月和t-1月均未购机的用户，t为正整数；

根据第三用户在t月的特征数据和所述第三用户在t+1月的购机结果，构建第二样本，所述第三用户为t-1月和t月均未购机的用户；

合并所述第一样本和所述第二样本，得到第三样本；

对所述第三样本中每个所述特征数据对应的特征进行打分，得到每个所述特征的打分分值；

计算每个所述特征的信息增益比；

将每个所述特征的打分分值作为每个所述特征的信息增益比的权重，得到每个所述特征的第一信息增益比，所述第一信息增益比为带权重的信息增益比；

构建特征初筛函数，所述特征初筛函数用于在第i个所述特征的所述第一信息增益比小于预设阈值的情况下，删除所述第三样本中的所述第i个所述特征对应的所述特征数据，i为正整数；

根据所述特征初筛函数处理后的所述第三样本训练神经网络模型；

获取第一用户的目标特征数据；

根据所述目标特征数据和所述神经网络模型，得到第一概率值；所述神经网络模型为通过学习包含所述目标特征数据的样本与所述第一概率值的映射关系得到；

在所述第一概率值大于或等于预设第一阈值的情况下，确定所述第一用户在目标时间段内购机。

2.根据权利要求1所述的方法，其特征在于，在所述构建特征初筛函数之前，所述方法还包括：

设定多个初始预设阈值；

根据预设的逻辑回归模型，确定每个所述初始预设阈值对应的所述逻辑回归模型的输出值；

确定所述逻辑回归模型的所有输出值中最大输出值对应的所述初始预设阈值，将所述最大输出值对应的所述初始预设阈值作为所述预设阈值。

3.根据权利要求1所述的方法，其特征在于，在所述根据所述特征初筛函数处理后的所述第三样本训练所述神经网络模型之前，所述方法还包括：

将所述特征分为类别型特征和数据型特征；

构建所述类别型特征和所述数据型特征的平均变异系数比函数，并利用所述平均变异系数比函数确定每个所述数据型特征与每个所述类别型特征是否相关；

当确定第i个所述数据型特征与第j个所述类别型特征相关时，计算在所述第j个所述类别型特征的条件下的所述第i个所述数据型特征对应的所有所述特征数据的统计特征对应的数据，并将所述统计特征对应的数据加入到所述第三样本之中；所述统计特征包括以下至少一项：均值、标准差、峰度、偏度和变异系数；

所述根据所述特征初筛函数处理后的所述第三样本训练所述神经网络模型，具体包括：

根据加入所述统计特征对应的数据后的所述第三样本训练所述神经网络模型。

4.根据权利要求3所述的方法，其特征在于，在所述根据加入所述统计特征对应的数据后的所述第三样本训练所述神经网络模型之前，所述方法还包括：

对所述第三样本进行抽样，得到多个第四样本；

根据预设的梯度提升决策树模型和所述多个第四样本，确定每个所述特征的分裂次数；

删除所述第三样本中的所述分裂次数小于预设第一阈值的特征对应的特征数据；

所述根据加入所述统计特征对应的数据后的所述第三样本训练所述神经网络模型，具体包括：

根据删除所述分裂次数小于预设第一阈值的特征对应的特征数据后的所述第三样本训练所述神经网络模型。

5.根据权利要求4所述的方法，其特征在于，在所述根据删除所述分裂次数小于预设第一阈值的特征对应的特征数据后的所述第三样本训练所述神经网络模型之前，所述方法还包括：

将所述第三样本输入至预设的多种类型且多种模型参数的机器学习模型之中，得到每个所述机器学习模型的输出值；

将每个所述机器学习模型的输出值作为新的特征数据加入至所述第三样本之中；

所述根据删除所述分裂次数小于预设第一阈值的特征对应的特征数据后的所述第三样本训练所述神经网络模型，具体包括：

根据加入每个所述机器学习模型的输出值后的所述第三样本训练所述神经网络模型。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述第三样本训练所述神经网络模型，具体包括：

构建多个初始神经网络模型；

从所述第三样本中选取不同预设比例的负样本与正样本分别对每个所述初始神经网络模型进行训练，得到训练好的所述初始神经网络模型；

构建所述初始神经网络模型的权重函数，并利用所述权重函数计算每个所述初始神经网络模型的权重；

根据训练好的每个所述初始神经网络模型和每个所述初始神经网络模型的权重，得到训练好的所述神经网络模型。

7.一种用户购机的确定装置，其特征在于，所述装置包括：

样本生成单元，用于根据第二用户在t-1月的特征数据和所述第二用户在t月的购机结果，构建第一样本，所述第二用户为t-2月和t-1月均未购机的用户，t为正整数；

合并所述第一样本和所述第二样本，得到第三样本；

特征初筛单元，用于对所述第三样本中每个所述特征数据对应的特征进行打分，得到每个所述特征的打分分值；

计算每个所述特征的信息增益比；

训练单元，用于根据所述特征初筛函数处理后的所述第三样本训练神经网络模型；

获取单元，用于获取第一用户的目标特征数据；

第一确定单元，用于根据所述目标特征数据和所述神经网络模型，得到第一概率值；所述神经网络模型为通过学习包含所述目标特征数据的样本与所述第一概率值的映射关系得到；

第二确定单元，用于在所述第一概率值大于或等于预设第一阈值的情况下，确定所述第一用户在目标时间段内购机。

8.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的用户购机的确定方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的用户购机的确定方法的步骤。