CN110210884B

CN110210884B - 确定用户特征数据的方法、装置、计算机设备及存储介质

Info

Publication number: CN110210884B
Application number: CN201810529434.9A
Authority: CN
Inventors: 黄斐; 巫晓杰; 李金钊; 杨凡; 钱波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2023-05-05
Anticipated expiration: 2038-05-29
Also published as: CN110210884A

Abstract

本发明实施例公开了一种确定用户特征数据的方法、装置、计算机设备及存储介质，属于互联网技术领域。所述方法包括：获取目标产品的正样本用户组以及负样本用户组的用户画像数据；基于多条决策路径和所述正样本用户组以及所述负样本用户组中每个用户的用户画像数据对用户进行分类，得到所述每个用户的理论组；根据所述每个用户的实际组与理论组，确定用户分组的偏差信息；根据所述用户分组的偏差信息，确定所述正样本用户组的用户特征数据，所述用户特征数据包括显著维度以及所述显著维度的显著属性。采用本发明，可以提高用户特征数据的代表性。

Description

确定用户特征数据的方法、装置、计算机设备及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种确定用户特征数据的方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展，可以通过用户画像系统生成多个维度的数据来刻画用户，并且不同的维度下可以具有不同的属性。例如，一个用户画像数据的维度信息可以是“性别”、“年龄”、“职业”等，“性别”对应的属性可以是“男性”或“女性”，以此类推。用户特征数据包括大多数核心用户都具有的显著维度以及显著维度的显著属性，可以用来描述产品的核心用户群体。

一般来说，核心用户群体的用户画像数据可以用来统计各个维度下的属性比例，或者计算各个维度下的属性的TGI(Target Group Index，目标群体指数)，然后提供给运营工程师分析何种属性的重要性较高。运营工程师可以用对应维度的该属性来表示核心用户群体，也即分析得到核心用户群体的用户特征数据。

进而，运营工程师可以根据用户特征数据调整运营投放方案，对产品进行精准运营。

例如，核心用户群体的用户特征数据为19-25岁、喜爱影视、夜晚活跃、喜欢阅读公众号的文章，运营投放方案可以调整为年轻人喜爱的风格、奖品投放设为视频VIP(VeryImportant Person，贵宾)会员体验，并主要于夜间在公众号进行曝光。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

属性比例或TGI都没有考虑维度之间的相关性，相关的维度之间属性比例或TGI的分布可能比较类似，对调整运营投放方案的影响是相同的。如果这类维度被确定为用户特征数据中的显著维度，则其它维度被确定为显著维度的几率会减少，导致确定出的用户特征数据的代表性较弱，不能准确描述用户群体的实际特征。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种确定用户特征数据的方法、装置、计算机设备及存储介质。所述技术方案如下：

一方面，提供了一种确定用户特征数据的方法，所述方法包括：

获取目标产品的正样本用户组以及负样本用户组的用户画像数据，所述用户画像数据包括用户的多个维度的属性；

基于多条决策路径和所述正样本用户组以及所述负样本用户组中每个用户的用户画像数据对用户进行分类，得到所述每个用户的理论组，每条决策路径包括多个维度以及每个维度的一种属性；

根据所述每个用户的实际组与理论组，确定用户分组的偏差信息；

根据所述用户分组的偏差信息，确定所述正样本用户组的用户特征数据，所述用户特征数据包括显著维度以及所述显著维度的显著属性。

一方面，提供了一种确定用户特征数据的装置，所述装置包括：

获取模块，用于获取目标产品的正样本用户组以及负样本用户组的用户画像数据，所述用户画像数据包括用户的多个维度的属性；

分类模块，用于基于多条决策路径和所述正样本用户组以及所述负样本用户组中每个用户的用户画像数据对用户进行分类，得到所述每个用户的理论组，每条决策路径包括多个维度以及每个维度的一种属性；

第一确定模块，用于根据所述每个用户的实际组与理论组，确定用户分组的偏差信息；

第二确定模块，用于根据所述用户分组的偏差信息，确定所述正样本用户组的用户特征数据，所述用户特征数据包括显著维度以及所述显著维度的显著属性。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述确定用户特征数据的方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述确定用户特征数据的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，在分析正样本用户组的用户群体时，计算机设备将正样本用户组用户与负样本用户组用户的用户画像数据输入决策树模型，对每个用户进行分类，并根据每个用户的实际组与理论组确定用户分组的偏差信息，该偏差信息可以反映维度或者属性对区分正样本用户组与负样本用户组起到重要作用的程度，进而可以根据偏差信息确定下显著维度以及显著维度的显著属性。这样确定下的用户特征数据，可以有效区分正样本用户组和负样本用户组，也即用户特征数据的代表性较强，可以较为准确地描述用户群体的实际特征。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境图；

图2是本发明实施例提供的一种确定用户特征数据的方法流程图；

图3是本发明实施例提供的一种决策树模型示意图；

图4是本发明实施例提供的一种确定用户特征数据的方法流程图；

图5是本发明实施例提供的一种确定用户特征数据的方法流程图；

图6是本发明实施例提供的一种显示分析结论的示意图；

图7是本发明实施例提供的一种确定用户特征数据的装置结构示意图；

图8是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

需要说明的是，本发明所涉及的用户信息(包括但不限于用户行为、用户画像、用户特征等)以及数据，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本发明中涉及到的用户行为、用户画像和用户特征都是在充分授权的情况下获取的。另外，开启本发明的权利要求中描述的功能获得了用户同意，是由用户主动开启的。

本发明实施例提供了一种确定用户特征数据的方法，该方法的执行主体为计算机设备。图1是本发明实施例提供的一种实施环境图。该实施环境包括多个终端101、用于为该多个终端提供服务的计算机设备102。多个终端101通过无线或者有线网络和计算机设备102连接，该多个终端101可以为能够访问计算机设备102的电子设备，该电子设备可以为智能手机、平板电脑或者其他电子设备。计算机设备102可以获取到用户通过终端101生成的用户行为数据，进而生成各个用户的用户画像数据，然后对正样本用户组的用户画像数据进行分析，得到正样本用户组的用户特征数据。对于计算机设备102来说，该计算机设备102还可以具有至少一种数据库，用以存储用户行为数据、用户画像数据、用户特征数据、运营投放方案素材等等。在本发明实施例中，终端101可以作为用户行为数据的提供方。

如图2所示的确定用户特征数据的方法流程图，该方法的处理流程可以如下：

201、计算机设备获取目标产品的正样本用户组以及负样本用户组的用户画像数据。

在实施中，用户画像数据可以包括用户的多个维度的属性，例如，“婚姻状况”维度的属性为“是”，“年龄”维度的属性为“28”，“性别”维度的属性为“女”，以此类推，可以根据用户的个人资料信息以及网络行为来生成。随着互联网技术的发展，用户行为变化迅速，使得用户画像数据可以达到上千维。每个用户的用户画像数据可以存储在数据库中，并且具有对应的用户ID(identification，标识)。

其中，正样本用户组用于提供数据正样本，负样本用户组用于提供数据负样本，正样本用户组及负样本用户组互为正负样本，例如，正样本用户与负样本用户之间针对同一目标产品可以具有不同的转化行为。该转化行为可以是指是否流失、是否购买、是否注册等等。具体地，正样本用户组中的用户可以是目标产品的流失用户，负样本用户组中的用户可以是目标产品的未流失用户，对这两类用户的分析可以得到目标产品对何种人群的吸引力较弱，进而可以相对应的调整运营投放方案，以巩固更多的用户。

可选的，正样本用户组中的用户与负样本用户组中的用户还可以是根据分析需求而确定的，针对不同的分析需求，可以选取不同的用户组。例如，可以选取目标产品的具有某一特性的用户作为正样本用户组，选取目标产品的不具有某一特性的用户作为负样本用户组。具体地，为了分析目标产品新增用户的特征，正样本用户组中的用户可以是目标产品的新增用户，负样本用户组中的用户可以是目标产品的活跃用户。本发明实施例中，负样本用户组用于提供数据负样本，可以由技术人员自行设置，对于金融类的产品，如无设置，则可以使用大盘用户作为负样本用户组的用户。

当需要对目标产品的正样本用户组进行分析时，技术人员可以导入正样本用户组对应的一组ID以及负样本用户组对应的一组ID，或者业务数据直接生成上述ID，或者，还可以是推荐投放系统生成上述ID。其中，推荐投放系统是给指定的用户群体投放广告、短信、邮件，或者推荐某个产品、某个活动等的系统。然后，计算机设备可以根据上述ID，从数据库中将对应的正样本用户组以及负样本用户组的用户画像数据获取出来。

202、计算机设备基于多条决策路径和正样本用户组以及负样本用户组中每个用户的用户画像数据对用户进行分类，得到每个用户的理论组。

在本发明实施例中，涉及到了用户的实际组和理论组，用户的实际组是指在所选取的样本中该用户的分组，用于指示实际投放过程中该用户对产品的行为，例如，该用户来自正样本用户组，则该用户的实际组为正样本用户组。用户的理论组是指经决策树模型决策得到的分组，用于指示预测出来的该用户对产品的行为，例如，该用户经决策树模型决策确定应分为负样本用户组，则该用户的理论组为负样本用户组。上述过程中，计算机设备从数据库将正样本用户组以及负样本用户组的用户画像数据获取出来时，正样本用户组的用户的实际组即为“正样本用户组”，负样本用户组的用户的实际组即为“负样本用户组”。

在实施中，技术人员可以预先根据xgboost算法建立多个决策树模型，并对其进行训练。每个决策树模型中包括多条决策路径，每条决策路径包括多个维度以及每个维度的一种属性。如图3所示的决策树模型示意图，一条决策路径即为决策树模型的根节点到一个叶子节点的路径，其中每个节点都对应着一个维度，节点的一个分支可以对应该维度的一种属性。决策树模型可以是二叉树模型，或者也可以是其它形式的树状结构的模型，本发明实施例以二叉树为例进行说明。

计算机设备在上述过程中获取到每个用户的用户画像数据之后，可以将用户画像数据输入决策树模型，基于多条决策路径对每个用户进行分类，进而得到每个用户的分类结果，也即得到每个用户的理论组。该理论组可以与用户的实际组相同或不同，例如，正样本用户组中的用户可能被正确分类为“正样本用户组”，也可能被错误分类为“负样本用户组”。

203、计算机设备根据每个用户的实际组与理论组，确定用户分组的偏差信息。

在实施中，根据每个用户的实际组与理论组的相同或不同，可以确定下用户分组的偏差信息，该偏差信息可以是维度偏差信息，也可以是用户占比偏差信息，分别对应于两种确定用户特征数据的方法。下面分别对这两种方法进行介绍：

一种方法、根据每个维度的第一比例和第二比例，确定用户画像数据的每个维度的维度偏差信息。

对于一个维度来说，第一比例是指基于该维度进行分类时第一用户占指定用户数的比例，该第一用户是指实际组和理论组相同的用户，该指定用户数是指基于该维度进行分类的用户数，第二比例是指基于该维度进行分类时第二用户占指定用户数的比例，该第二用户是指实际组和理论组不同的用户。对于第一种方法，确定用户特征数据的方法流程图可以如图4所示。可选的，上述决策树模型为严格二叉树，上述过程中计算机设备通过任一决策树模型对用户进行分类后，自然地可以对决策树模型中每个维度的节点进行统计，得到该维度之下的第一比例p_k以及第二比例1-p_k。进而，可以根据公式(1)计算得到每个维度的Gini(基尼)不纯度：

其中，p为决策树模型中的任一维度的节点，k的取值范围为1或2。当k＝1时，p_k为实际组是正样本用户组的第一比例；当k＝2时，p_k为实际组是负样本用户组的第一比例。

基于相同的构思，可以计算节点p分裂之后得到的左右孩子节点的Gini不纯度，将节点p的Gini不纯度减去左右孩子节点的Gini不纯度，得到节点p的gini不纯度减少值。Gini不纯度可以表示对应的维度所包含信息量的大小，信息量越大，基于该维度得到正确的分类结果的不确定性越大。节点p的Gini不纯度减少值越大，也即减少的不确定性越多，对应的维度对于正确分类的重要程度越大，因此，可以将每个维度的节点的Gini不纯度减少值作为每个维度的维度偏差信息。

对于每个决策树模型，都可以进行上述统计，进而得到用户画像数据的每个维度在每个决策树模型中的维度偏差信息。

一种方法、确定每条决策路径下用户集合的用户占比偏差信息。

具体的处理可以如下：在基于决策路径进行分类的过程中，确定每条决策路径对应的用户集合；基于每个用户集合中用户的实际组，分别确定每个用户集合中实际组为正样本用户组的用户数目以及用户集合中的总用户数目；确定每个用户集合的用户占比偏差信息。

第二种方法所使用的决策树模型与第一种方法可以相同也可以不相同，技术人员可以根据需要进行训练。对于第二种方法，确定用户特征数据的方法流程图可以如图5所示。计算机设备可以得到基于某条决策路径进行分类的用户集合，对于该用户集合，可以根据该用户集合中实际组为正样本用户组的用户数目以及该用户集合中的总用户数目，确定对应的用户占比偏差信息。用户占比偏差信息可以用于衡量决策路径对区分用户是属于正样本用户组还是负样本用户组的重要程度。

可选的，用户占比偏差信息可以包括占比提升率和数目覆盖率，确定用户占比偏差信息的相应处理可以如下：确定正样本用户组在每个用户集合中的占比提升率；确定正样本用户组在每个用户集合中的数目覆盖率。

占比提升率为一个用户集合中实际组为正样本用户组的用户的占比与正样本用户组在所有用户中的占比的比值。计算机设备可以将用户集合中实际组为正样本用户组的用户数目、用户集合中的总用户数目、正样本用户组的总用户数目以及所有用户的总用户数目，通过公式(2)计算得到用户集合中的占比提升率：

数目覆盖率为一个用户集合中实际组为正样本用户组的用户数目与正样本用户组的总用户数目的比值。计算机设备可以将用户集合中实际组为正样本用户组的用户数目以及正样本用户组的总用户数目，通过公式(3)计算得到用户集合中的数目覆盖率：

对每条决策路径的用户集合都进行上述处理，则可以得到每个用户集合的用户占比偏差信息。

204、计算机设备根据用户分组的偏差信息，确定正样本用户组的用户特征数据。

在实施中，根据用户分组的偏差信息，可以确定显著维度以及显著维度对应的显著属性，也即可以得到正样本用户组的用户特征数据，该显著维度是指对区分正样本用户组与负样本用户组起到重要作用的维度。用户特征数据包括显著维度以及显著维度的显著属性。对于上述两种确定偏差信息的方法，其对应的确定用户特征数据的方法也有所不同，下面分别进行介绍：

第一，对应于上述第一种方法，确定用户特征数据的方法的具体处理如下：根据每个维度对应的维度偏差信息，确定每个维度的全局重要度，将全局重要度大于预设重要度阈值的维度确定为正样本用户组的用户特征数据中的第一显著维度；根据第一显著维度的每个属性的TGI，确定第一显著维度对应的第一显著属性。

在上述过程中，计算机设备确定下每个节点的Gini不纯度减少值后，可以根据公式(4)计算每个维度在一个决策树模型中的重要度：

其中，L为严格二叉树的叶子节点数量，L-1即为严格二叉树的非叶子节点数量，

是节点p的Gini不纯度减少值，v_p是节点p对应的维度，j为任一维度。

进而，计算机设备可以根据公式(5)计算每个维度的全局重要度：

其中，M为决策树模型的数量，T_m为任一决策树模型。从公式(5)可以看出，每个维度的全局重要度是其在每个决策树模型的重要度的平均值。全局重要度可以用于衡量一个维度对区分用户是属于正样本用户组还是负样本用户组的重要程度。

然后，计算机设备可以判断每个维度的全局重要度是否大于预设重要度阈值(如0)，如果是，则将对应的维度确定为一组显著维度，也即这组维度可以有效区分用户是属于正样本用户组还是负样本用户组。为了确定显著维度中较为重要的属性，计算机设备可以确定具有显著维度的某一属性的正样本用户组的用户在正样本用户组中的占比与具有该属性的所有用户在正样本用户组和负样本用户组的所有用户的占比的比值，该比值即为该属性的TGI。计算机设备在确定下显著维度中每个属性的TGI后，可以将TGI最大的属性确定为显著维度的显著属性。也即，得到了正样本用户组的用户特征数据，该用户特征数据中包括上述一组显著维度以及显著维度的显著属性。例如，确定出显著维度可以为“性别”、“年龄”、“城市”以及“婚姻状况”，通过TGI得到对应的显著属性分别为“女性”、“30-50岁”、“一线城市”以及“已婚”，每个显著维度以及对应的显著属性是分别得到的。

第二，对应于上述第二种方法，确定用户特征数据的方法的具体处理如下：获取第一指定用户集合，第一指定用户集合的占比提升率大于预设提升率阈值且数目覆盖率大于预设覆盖率阈值；将第一指定用户集合对应的决策路径包括的多个维度作为第二显著维度、每个维度的属性作为第二属性，确定正样本用户组的用户特征数据。

可选的，在上述分类的过程中，计算机设备可以依次基于每个决策树模型对用户进行分类，决策树模型的调用顺序可以由技术人员自行设置。对于第一个决策树模型，计算机设备可以将所有的用户画像数据输入该决策树模型，对用户进行分类。分类结束后，计算机设备可以不立即基于下一个决策树模型进行分类，而是计算当前决策树模型中每条决策路径下用户集合的用户占比偏差信息，包括占比提升率和数目覆盖率，具体过程此处不再赘述。然后，计算机设备可以判断每个用户集合的占比提升率是否大于预设提升率阈值(如1)，以及判断数目覆盖率是否大于预设覆盖率阈值(如0.4)。如果两者都大于，则表明对应的决策路径可以有效的将目标分析组的用户选取出来。计算机设备可以将该用户集合确定为指定用户集合，并将对应的决策路径中包括的多个维度以及每个维度的一种属性，确定为一组显著维度以及显著维度的显著属性。例如，可以确定出决策路径对应的用户特征数据为“性别：女性、年龄：30-50岁、城市：一线城市、婚姻状况：已婚”，这组显著维度以及对应的显著属性是同时得到的，该指定用户集合可以是目标产品(如理财类产品)的典型用户群体。一个决策树模型中可能得到多个指定用户集合。

当前决策树模型中所有的指定用户集合都获取出来后，计算机设备可以调用下一个决策树模型，并且在当前决策树模型的输入数据中删除上述指定用户集合的用户画像数据，将剩余的用户画像数据作为下一决策树模型的输入数据。然后，计算机设备循环进行上述过程，直到多个决策树模型中每条决策树路径对应的用户集合的占比提升率均不大于预设的提升率阈值，且数目覆盖率均不大于预设的覆盖率阈值，或，剩余的用户画像数据为空，则停止分类处理。计算机设备可以将上述过程中得到的所有显著维度以及显著维度的显著属性，确定为正样本用户组的用户特征数据。

从上述内容可以看出，第一种方法主要用于获取用户群体的特征，一般对大量用户进行目标产品的推广投放时，可以采用第一种方法；第二种方法不仅可以用于获取用户群体的特征，还可以用于获取一小群特征明显的用户，一般用于对小部分用户进行针对性的运营，如线下活动、VIP(贵宾)分享会等。因此，在实际应用中，技术人员可以根据实际分析需求，对上述两种方法择其一进行使用，而不必须同时使用两种方法，两种方法是并列的关系。

可选的，计算机设备可以根据用户特征数据，确定满足正样本用户组需求的目标运营投放方案。运营投放方案满足正样本用户组需求是指：运营投放方案的维度与用户特征数据包括的显著维度相匹配；和/或，运营投放方案的维度的属性与用户特征数据包括的显著维度的显著属性相匹配。

在实施中，计算机设备中可以存储有运营投放方案的素材库，素材库中的每个素材都具有维度以及维度的属性。计算机设备在确定出正样本用户组的用户特征数据时，可以在素材库中查找与显著维度相匹配、和/或与显著维度的显著属性相匹配的素材。如果查找到满足需求的素材，则可以利用查找到的素材生成目标运营投放方案。如果未查找到，则可以将预先设置的默认运营投放方案作为目标运营投放方案。

可选的，为了方便阅读，计算机设备可以将分析结论以文本形式进行显示，其中，分析结论可以包括正样本用户组的用户特征数据以及用户分组的偏差信息。

在实施中，计算机设备可以将用户特征数据以及对应的偏差信息，通过预设的文本配置规则，生成文本形式的分析结论。对于上述第一种方法，分析结论中的偏差信息可以是显著维度的维度偏差信息，还可以包括显著维度的全局重要度；对于上述第二种方法，分析结论中的偏差信息可以是指定用户集合的用户占比偏差信息，其中可以包括占比提升率和数目覆盖率。输出分析结论是为了给运营工程师确定最终方案提供参考，因此，计算机设备还可以统计正样本用户组中所有维度的各个属性对应的用户数目、用户比例、TGI等数据，并且可以与分析结论一同呈现给运营工程师。例如，计算机设备可以输出所有维度下的属性分布，“性别：男性52％、女性48％；新老用户：新用户10％、老用户90％...”。显示分析结论的示意图如图6所示，显著维度或显著属性的字体大小、颜色都比其它特征要明显。

可选的，由于可能存在如因用户占比较低，而导致TGI异常高的情况，一些属性的TGI不必要进行参考，计算机设备可以根据预先设置的过滤规则，选取冗余属性，该冗余属性不需要计算TGI，以减小给运营工程师的误导。

过滤规则可以包括所有用户中具有该属性的用户所占比例小于预设阈值(如0.01)，或，该属性对应的父维度为显著维度。在实施中，技术人员可以预先设置分类管理，对每个维度划分包含关系，其中，父维度包含对应的子维度，子维度也可以作为父维度，包含更细化的子维度。例如，父维度可以是“最近使用游戏类APP”，其包含的子维度可以是“最近使用棋牌游戏APP”、“最近使用跑酷游戏APP”等。计算机设备在统计所有维度的各个属性的TGI之前，可以分别判断各个属性是否符合过滤规则，如果符合，则表明该属性为冗余属性，后续将不计算其TGI。如果符合所有用户中具有该属性的用户所占比例小于预设阈值的过滤规则，则该属性的TGI可能会异常高；如果符合该属性对应的父维度为显著维度，父维度的属性的TGI都比较高，同样子维度的该属性的TGI也会比较高，给运营工程师的参考价值不大。计算机设备在选出所有的冗余属性后，可以计算剩余属性的TGI。剩余属性的TGI可以给运营工程师提供较为准确的重要程度参考，以便进行较为准确的精准运营。

计算机设备根据正样本用户组以及负样本用户组的用户画像数据，即可快速分析出正样本用户组的用户特征数据。并且，计算机设备还可以帮助运营工程师根据用户特征数据进行针对性的运营，在不同的运营阶段更深入地了解用户、精准运营，并且能够快速调整运营投放方案，大大提高了调整运营的效率，可以满足时效性要求较高的运营。并且，运营工程师可以仅参与最终方案的确定，可以将更多的精力投入在寻找更好的运营投放方案的素材上，节约人力资源的耗费。

基于相同的技术构思，本发明实施例还提供了一种确定用户特征数据的装置，如图7所示，该装置包括：

获取模块710，用于获取目标产品的正样本用户组以及负样本用户组的用户画像数据，所述用户画像数据包括用户的多个维度的属性；

分类模块720，用于基于多条决策路径和所述正样本用户组以及所述负样本用户组中每个用户的用户画像数据对用户进行分类，得到所述每个用户的理论组，每条决策路径包括多个维度以及每个维度的一种属性；

第一确定模块730，用于根据所述每个用户的实际组与理论组，确定用户分组的偏差信息；

第二确定模块740，用于根据所述用户分组的偏差信息，确定所述正样本用户组的用户特征数据，所述用户特征数据包括显著维度以及所述显著维度的显著属性。

可选的，所述第一确定模块730用于：

根据每个维度的第一比例和第二比例，确定用户画像数据的每个维度的维度偏差信息；

其中，所述第一比例是指基于一个维度进行分类时第一用户占指定用户数的比例，所述第一用户是指实际组和理论组相同的用户，所述指定用户数是指基于所述一个维度进行分类的用户数，所述第二比例是指基于所述一个维度进行分类时第二用户占所述指定用户数的比例，所述第二用户是指实际组和理论组不同的用户。

可选的，所述第二确定模块740用于：

根据所述每个维度对应的维度偏差信息，确定每个维度的全局重要度，将全局重要度大于预设重要度阈值的维度确定为所述正样本用户组的用户特征数据中的第一显著维度，其中，所述全局重要度用于衡量一个维度对区分用户是属于所述正样本用户组还是所述负样本用户组的重要程度；

根据所述第一显著维度的每个属性的目标群体指数TGI，确定所述第一显著维度对应的第一显著属性。

可选的，所述装置还包括：

第三确定模块750，用于在基于决策路径进行分类的过程中，确定每条决策路径对应的用户集合；

所述第一确定模块730用于：

基于每个用户集合中用户的实际组，分别确定每个用户集合中实际组为所述正样本用户组的用户数目以及所述用户集合中的总用户数目；

确定每个用户集合的用户占比偏差信息，所述用户占比偏差信息用于衡量得到一个用户集合所对应的决策路径对区分用户是属于所述正样本用户组还是所述负样本用户组的重要程度。

可选的，所述第一确定模块730用于：

确定所述正样本用户组在每个用户集合中的占比提升率，其中，所述占比提升率为一个用户集合中实际组为所述正样本用户组的用户的占比与所述正样本用户组在所有用户中的占比的比值；

确定所述正样本用户组在每个用户集合中的数目覆盖率，其中，所述数目覆盖率为一个用户集合中实际组为所述正样本用户组的用户数目与所述正样本用户组的总用户数目的比值。

可选的，所述第二确定模块740用于：

获取第一指定用户集合，所述第一指定用户集合的占比提升率大于预设提升率阈值且所述数目覆盖率大于预设覆盖率阈值；

将所述第一指定用户集合对应的决策路径包括的多个维度作为第二显著维度、每个维度的属性作为第二属性，确定所述正样本用户组的用户特征数据。

可选的，所述多条决策路径属于多个决策树模型，所述装置还包括：

删除模块760，用于在当前决策树模型的输入数据中删除所述第一指定用户集合的用户画像数据，将剩余的用户画像数据作为下一决策树模型的输入数据；

停止模块770，用于直到多个决策树模型中每条决策树路径对应的用户集合的占比提升率均不大于预设的提升率阈值且数目覆盖率均不大于预设的覆盖率阈值，或，所述剩余的用户画像数据为空，则停止分类处理。

可选的，所述装置还包括：

第四确定模块780，用于根据所述用户特征数据，确定满足所述正样本用户组需求的目标运营投放方案。

可选的，运营投放方案满足所述正样本用户组需求是指：

运营投放方案的维度与所述用户特征数据包括的显著维度相匹配；

和/或，

运营投放方案的维度的属性与所述用户特征数据包括的显著维度的显著属性相匹配。

需要说明的是：上述实施例提供的确定用户特征数据的装置在确定用户特征数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的确定用户特征数据的装置与确定用户特征数据的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现下述确定用户特征数据的方法步骤：

可选的，所述至少一条指令由所述处理器801加载并执行以实现下述方法步骤：

在基于决策路径进行分类的过程中，确定每条决策路径对应的用户集合；

所述根据所述每个用户的实际组与理论组，确定用户分组的偏差信息，包括：

可选的，所述多条决策路径属于多个决策树模型，所述至少一条指令由所述处理器801加载并执行以实现下述方法步骤：

在当前决策树模型的输入数据中删除所述第一指定用户集合的用户画像数据，将剩余的用户画像数据作为下一决策树模型的输入数据；

直到多个决策树模型中每条决策树路径对应的用户集合的占比提升率均不大于预设的提升率阈值且数目覆盖率均不大于预设的覆盖率阈值，或，所述剩余的用户画像数据为空，则停止分类处理。

根据所述用户特征数据，确定满足所述正样本用户组需求的目标运营投放方案。

可选的，运营投放方案满足所述正样本用户组需求是指：

和/或，

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的可选实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定用户特征数据的方法，其特征在于，所述方法包括：

基于多条决策路径和所述正样本用户组以及所述负样本用户组中每个用户的用户画像数据对用户进行分类，得到所述每个用户的理论组，每条决策路径包括多个维度以及每个维度的一种属性，所述理论组用于指示预测出来的所述每个用户对所述目标产品的行为；

根据所述每个用户的实际组与理论组，确定用户分组的偏差信息，所述实际组用于指示实际投放过程中所述每个用户对所述目标产品的行为，所述偏差信息用于反映维度或者属性对区分所述正样本用户组与所述负样本用户组起到重要作用的程度；

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个用户的实际组与理论组，确定用户分组的偏差信息包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户分组的偏差信息，确定所述正样本用户组的用户特征数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述确定每个用户集合的用户占比偏差信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述用户分组的偏差信息，确定所述正样本用户组的用户特征数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述多条决策路径属于多个决策树模型，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，运营投放方案满足所述正样本用户组需求是指：

和/或，

10.一种确定用户特征数据的装置，其特征在于，所述装置包括：

分类模块，用于基于多条决策路径和所述正样本用户组以及所述负样本用户组中每个用户的用户画像数据对用户进行分类，得到所述每个用户的理论组，每条决策路径包括多个维度以及每个维度的一种属性，所述理论组用于指示预测出来的所述每个用户对所述目标产品的行为；

第一确定模块，用于根据所述每个用户的实际组与理论组，确定用户分组的偏差信息，所述实际组用于指示实际投放过程中所述每个用户对所述目标产品的行为，所述偏差信息用于反映维度或者属性对区分所述正样本用户组与所述负样本用户组起到重要作用的程度；

11.根据权利要求10所述的装置，其特征在于，所述第一确定模块用于：

12.根据权利要求11所述的装置，其特征在于，所述第二确定模块用于：

13.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于在基于决策路径进行分类的过程中，确定每条决策路径对应的用户集合；

所述第一确定模块用于：

14.根据权利要求13所述的装置，其特征在于，所述第一确定模块用于：

15.根据权利要求14所述的装置，其特征在于，所述第二确定模块用于：

16.根据权利要求15所述的装置，其特征在于，所述多条决策路径属于多个决策树模型，所述装置还包括：

删除模块，用于在当前决策树模型的输入数据中删除所述第一指定用户集合的用户画像数据，将剩余的用户画像数据作为下一决策树模型的输入数据；

停止模块，用于直到多个决策树模型中每条决策树路径对应的用户集合的占比提升率均不大于预设的提升率阈值且数目覆盖率均不大于预设的覆盖率阈值，或，所述剩余的用户画像数据为空，则停止分类处理。

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第四确定模块，用于根据所述用户特征数据，确定满足所述正样本用户组需求的目标运营投放方案。

18.根据权利要求17所述的装置，其特征在于，运营投放方案满足所述正样本用户组需求是指：

和/或，

19.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至9任一所述的确定用户特征数据的方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至9任一所述的确定用户特征数据的方法。