CN113962457A

CN113962457A - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113962457A
Application number: CN202111219655.4A
Authority: CN
Inventors: 周江
Original assignee: Beijing Aibee Technology Co Ltd
Current assignee: Beijing Aibee Technology Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-21

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取到的各个用户的画像标签集，将各用户划分为多个用户群体，并确定各用户群体中不满足的目标运营指标，并通过预设的相关度算法，计算各第一画像标签中与目标运营指标的相关度，并且将满足预设相关度条件的第一画像标签确定为目标画像标签；并基于目标画像标签，输出问题定位结果。本发明实施例所提供的方法，可以精准计算各用户的画像标签，具备基于画像标签圈选的细粒度精细化运营能力，可以基于画像标签进行用户群体的精准划分，还可以基于计算出的画像标签，快速计算出用户圈选群体与活动、活动类指标的关联关系，缩短运营决策，高效的支持活动设计。

Description

数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

在线下购物中心、线上商城等购物场景下，如何明确当前的活动运营现状，设计适合不同的用户群体的活动，提升活动营收，一直是商家运营人员的难点以及痛点。

相关技术中，一般是根据运营模型简单地将用户划分为不同层级，并仅设计针对该用户层级的目标活动，由于划分粒度较粗，如果用户层级中的用户出现运营问题，那么问题无法被定位。

发明内容

基于此，有必要针对上述技术问题，提供一种能够定位问题的数据处理方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提供了一种数据处理方法，所述方法包括：

获取各用户的画像标签集；所述画像标签集包括至少一个第一画像标签；

根据各所述用户的画像标签集，将各所述用户划分为多个用户群体；

针对所述多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标，作为目标运营指标；

通过预设的相关度算法，分别计算所述用户群体的各第一画像标签与所述目标运营指标的相关度，并将满足预设相关度条件的第一画像标签确定为所述用户群体的目标画像标签；

基于所述目标画像标签，输出问题定位结果。

在其中一个实施例中，所述方法还包括：

获取各用户的活动行为信息，所述活动行为信息包括用户信息、物品信息、行为信息、目标活动信息；

根据所述各用户的活动行为信息，计算各用户的画像标签集。

在其中一个实施例中，所述第一画像标签的类别包括基本属性类标签、统计规则类标签、预测类标签以及群体类标签；

所述根据所述各用户的活动行为信息，计算各用户的第一画像标签，包括：

获取与用户购买行为相关的活动行为信息，根据所述用户购买行为相关的活动行为信息，得到基本属性类标签；

根据预设统计策略对所述用户购买行为相关的活动行为信息进行统计，得到统计规则类标签；

将所述用户购买行为相关的活动行为信息输入至预设标签值预测模型，根据所述预设标签值预测模型的输出结果确定预测类标签；

根据基本属性类标签、统计规则类标签以及预测类标签，确定用户的群体类标签。

在其中一个实施例中，所述根据各所述用户的画像标签集，将各所述用户划分为多个用户群体，包括：

将所述画像标签集中群体类标签一致的用户划分为同一用户群体。

在其中一个实施例中，所述方法还包括：

通过预设分层模型，将多个待测用户划分为多个用户层级；

根据预设用户层级筛选规则，确定所述多个用户层级中的目标用户层级；

所述获取各用户的画像标签集，包括：

获取所述目标用户层级中的各用户的画像标签集。

在其中一个实施例中，所述方法还包括：

获取预设活动的目标用户群体，通过分布距离算法，计算所述目标用户群体与各个用户群体之间的人群相似度；

将所述人群相似度超过预设相似阈值的用户群体作为目标运营用户群体。

在其中一个实施例中，所述获取预设活动的目标用户群体，通过分布距离算法，计算所述目标用户群体与各用户群体之间的人群相似度，包括：

获取所述目标用户群体的第二画像标签，以及各用户群体的第三画像标签；

将所述第二画像标签以及所述第三画像标签进行向量化，得到所述第二画像标签对应的向量列以及所述第三画像标签对应的向量列；

通过分布距离算法，对所述第二画像标签对应的向量列以及所述第三画像标签对应的向量列进行加权计算，得到所述目标用户群体与各个用户群体之间的人群相似度。

在其中一个实施例中，所述方法还包括：

根据所述问题定位结果，确定目标活动的运营策略，所述目标活动运营策略用于使所述目标用户群体的目标运营指标满足所述预设运营条件。

第二方面，本发明实施例提供了一种数据处理装置，所述装置包括：

画像标签集获取模块，用于获取各用户的画像标签集；所述画像标签集包括至少一个第一画像标签；

划分模块，用于根据各所述用户的画像标签集，将各所述用户划分为多个用户群体；

目标运营指标确定模块，用于针对所述多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标；

计算模块，用于通过预设的相关度算法，分别计算所述用户群体的各第一画像标签与所述目标运营指标的相关度，并将满足预设相关度条件的第一画像标签确定为所述用户群体的目标画像标签；

输出模块，用于基于所述目标画像标签，输出用户群体的问题定位结果。

在其中一个实施例中，所述画像标签集还包括各第一画像标签的标签值；所述目标运营指标确定模块具体用于：根据所述用户群体中各用户的第一画像标签的标签值，计算所述预设的运营指标的参数值；

将所述参数值不满足预设运营条件的运营指标，作为目标运营指标。

在其中一个实施例中，所述装置还包括：

活动行为信息模块，用于获取各用户的活动行为信息，所述活动行为信息包括用户信息、物品信息、行为信息、目标活动信息；

画像标签计算模块，用于根据所述各用户的活动行为信息，计算各用户的画像标签集。

所述画像标签计算模块，包括：

第一标签获取单元，用于获取与用户购买行为相关的活动行为信息，根据所述用户购买行为相关的活动行为信息，得到基本属性类标签；

第二标签获取单元，用于根据预设统计策略对所述用户购买行为相关的活动行为信息进行统计，得到统计规则类标签；

第三标签获取单元，用于将所述用户购买行为相关的活动行为信息输入至预设标签值预测模型，根据所述预设标签值预测模型的输出结果确定预测类标签；

第四标签获取单元，用于根据基本属性类标签、统计规则类标签以及预测类标签，确定用户的群体类标签。

在其中一个实施例中，所述划分模块具体用于：

在其中一个实施例中，所述装置还包括：

层级划分模块，用于通过预设分层模型，将多个待测用户划分为多个用户层级；

目标用户层级确定模块，用于根据预设用户层级筛选规则，确定所述多个用户层级中的目标用户层级；

所述画像标签集获取具体用于，获取所述目标用户层级中的各用户的画像标签集。

在其中一个实施例中，所述装置还包括：

相似度计算模块，用于获取预设活动的目标用户群体，通过分布距离算法，计算所述目标用户群体与各个用户群体之间的人群相似度；

目标用户群体确定模块，用于将所述人群相似度超过预设相似阈值的用户群体作为目标运营用户群体。

在其中一个实施例中，所述相似度计算模块，包括：

第二画像标签获取单元，用于获取所述目标用户群体的第二画像标签，以及各用户群体的第三画像标签；

向量化单元，用于将所述第二画像标签以及所述第三画像标签进行向量化，得到所述第二画像标签对应的向量列以及所述第三画像标签对应的向量列；

加权计算单元，用于通过分布距离算法，对所述第二画像标签对应的向量列以及所述第三画像标签对应的向量列进行加权计算，得到所述目标用户群体与各个用户群体之间的人群相似度。

在其中一个实施例中，所述装置还包括：

问题解决模块，用于根据所述问题定位结果，确定目标活动的运营策略，所述目标活动运营策略用于使所述目标用户群体的目标运营指标满足所述预设运营条件。

第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于所述目标画像标签，输出问题定位结果。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

基于所述目标画像标签，输出问题定位结果。

上述数据处理方法、装置、计算机设备和存储介质，通过获取到的各个用户的画像标签集，将各用户划分为多个用户群体，并确定各用户群体中不满足预设运营条件的运营指标，作为目标运营指标。这样，可以通过预设的相关度算法，计算各第一画像标签中与目标运营指标的相关度，并且将满足预设相关度条件的第一画像标签确定为该用户群体的目标画像标签；并基于目标画像标签，输出问题定位结果。本发明实施例所提供的方法，可以精准计算各用户的画像标签，具备基于画像标签圈选的细粒度精细化运营能力，可以基于画像标签进行用户群体的精准划分，还可以基于计算出的画像标签，快速计算出用户圈选群体与活动、活动类指标的关联关系，缩短运营决策，高效的支持活动设计。通过自动化关联及归因分析结果，快速、高效地定位用户运营问题，实现了高效率地精细化运营，可以全面地查看运营现状及问题，为活动设计提供指导意见。

附图说明

图1为一个实施例中数据处理方法的流程示意图；

图2为一个实施例中各画像标签的示意图；

图3为一个实施例中各用户的画像标签集的计算步骤的流程示意图；

图4为一个实施例中各用户的画像标签确定步骤的流程示意图；

图5为一个实施例中预测类标签的确定过程的示意图；

图6为一个实施例中划分用户层级步骤的流程示意图；

图7为一个实施例中基于用户分层运营的示意图；

图8为一个实施例中基于标签进行精细化运营的示意图；

图9为一个实施例中确定目标运营群体步骤的流程示意图；

图10为一个实施例中计算人群相似度步骤的流程示意图；

图11为一个实施例中确定目标运营指标步骤的流程示意图；

图12为一个实施例中数据处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种数据处理方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现，上述终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该数据处理方法包括以下步骤：

步骤102，获取各用户的画像标签集。

其中，该画像标签集包括至少一个第一画像标签以及该第一画像标签的标签值。

具体地，终端可以分别获取多个用户的画像标签集，该画像标签集中包括多个第一画像标签以及各第一画像标签的标签值。用户可以是在线下购物中心、购物小程序以及线上购物中心进行注册的用户，或者是在上述活动区域(购物小程序或线上购物中心)发生过商品浏览操作、商品购买操作等等操作的用户。画像标签集中包括的多个第一画像标签用于表征各用户的特征。例如，第一画像标签可以是年龄、性别等等。这样，年龄对应的标签值可以是具体的年龄值，性别对应的标签值可以是女性或者男性。

可选地，多个用户可以属于同一用户层级的用户。

步骤104，根据各用户的画像标签集，将各用户划分为多个用户群体。

具体地，终端可以根据各用户的多个第一画像标签以及该第一画像标签的标签值，确定每两个用户之间的存在相同的第一画像标签的数量。终端可以将存在相同的第一画像标签的数量超过预设群体分类阈值的多个用户划分为同一用户群体。终端也可以根据各个用户的画像标签集之间的相似性，将各个用户划分为多个用户群体。

步骤106，针对多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标。

具体地，用户群体的运营指标可以是根据运营人员的运营策略确定的；用户群体的运营指标还可以是预先设置的，例如终端可以为每个用户群体分别分配多个运营指标。用户群体的运营指标可以是表征运营活动的运营收益的指标信息。例如可以是消费客单价、消费频次、GMV(Gross Merchandise Volume，商品交易总额)、目标达成率、营销力度(量化是否过度)以及流失率等等。终端可以根据该用户群体中各个用户的画像标签集中的标签值，确定不满足预设运营条件的运营指标，作为目标运营指标。其中，预设运营条件针对于不同的运营指标有不同的判断条件。例如，针对于消费频次的运营指标，预设运营条件可以是消费频次大于预设消费频次阈值，该预设消费频次阈值可以是终端根据目标时间段内的消费数据确定的；针对于流失率的运营指标，预设运营条件可以是流失率低于预设流失阈值。

步骤108，通过预设的相关度算法，分别计算用户群体的各第一画像标签与目标运营指标的相关度，并将满足预设相关度条件的第一画像标签确定为用户群体的目标画像标签。

具体地，针对于多个群体中的每一用户群体，终端通过预设的相关度算法，分别计算各个用户群体的各个第一画像标签与上述目标运营指标的相关度。相关度用于表示各个第一画像标签对目标运营指标的重要程度(影响程度)。预设相关度条件可以是在相关度中绝对值最高的相关度对应的第一画像标签。终端会将绝对值最高的相关度对应的第一画像标签确定为目标画像标签，即终端将其作为该用户群体的目标画像标签。如果终端计算第一画像标签与目标运营指标的相关度是正值，则表示该第一画像标签与该目标运营指标是正相关；如果终端计算第一画像标签与目标运营指标的相关度是负值，则表示该第一画像标签与该目标运营指标是负相关。

可选地，终端可以通过预设的机器学习算法构建机器学习模型，并得到的机器学习模型计算各第一画像标签中与目标运营指标的特征重要性，该特征重要性即为相关度。终端得到的机器学习模型可以是Xgboost模型、或者LightGBM模型，本发明对机器学习模型的类别并不作具体限定。

可选地，终端还可以通过向量相关性算法，计算特征列与目标列的相关性。该相关性即为相关度。向量相关性算法会将各第一画像标签作为特征列，将目标运营指标作为目标列。具体地，该向量相关性算法可以包括卡方校验相关性算法、皮尔森相关性算法以及其他能够计算不同特征之间的相关度的向量相关性算法。本发明对向量相关性算法的类别并不作具体限定。

可选地，运营指标可以与画像标签集中的画像标签部分重合。例如，如图2所示，画像标签可以包括col1、col2、col3、col4、col5、col6等等，终端可以将其中的col2选择为目标列的画像标签(目标运营指标)。终端通过向量相关性算法进行关联分析以及归因分析，即计算特征列与目标列的相关度，并按照相关度绝对值从高到底排列。终端可以根据各个画像标签与目标列的画像标签的相关度的大小，确定与其最相关的画像标签。终端通过预设的关联分析算法计算得到的相关度，按照相关度绝对值从高到底排列可以是col1＝0.33、col5＝0.21、col3＝0.10、col10＝0.07、col6＝0.04等等。终端通过预设的归因分析算法计算得到的相关度，按照相关度绝对值从高到底排列可以是col1＝0.33、col3＝0.21、col10＝0.10。这样，终端可以确定与col2最相关的画像标签可以是col1。

步骤110，基于目标画像标签，输出用户群体的问题定位结果。

具体地，终端通过计算出各第一画像标签与目标运营指标之间的相关度，筛选得到针对于该目标运营指标的目标画像标签，即对该目标运营指标影响最大、特征重要性最高、关联度最高的画像标签。这样，终端可以根据得到的目标画像标签，定位该用户群体中出现问题的位置，即可以确定该目标运营指标不满足预设运营条件是由于该目标画像标签出了问题。

可选地，终端确定目标运营指标可以是最近半年时间段的GMV的运营指标。终端通过预设的相关度算法，确定与最近半年时间段的GMV最相关的第一画像标签可以是最近半年是否消费服饰业态，那么终端可以确定相应的问题定位结果是，最近半年不是消费服饰业态。这样，终端可以将问题定位结果推送至活动管理人员(运营人员)，运营人员可以基于该问题定位结果，确定该问题的解决策略。该问题的解决策略可以是针对性设置服饰业态的优惠活动，例如发放服饰业态的优惠券活动等等。也就是通过设置发放服饰业态的优惠券活动来提高最近半年时间段的GMV。

上述数据处理方法中，通过获取到的各个用户的画像标签集，将各用户划分为多个用户群体，并确定各用户群体中不满足预设运营条件的运营指标，作为目标运营指标。这样，可以通过预设的相关度算法，计算各第一画像标签中与目标运营指标的相关度，并且将满足预设相关度条件的第一画像标签确定为该用户群体的目标画像标签；并基于目标画像标签，输出问题定位结果。本发明实施例所提供的方法，可以精准计算各用户的画像标签，具备基于画像标签圈选的细粒度精细化运营能力，可以基于画像标签进行用户群体的精准划分，还可以基于计算出的画像标签，快速计算出用户圈选群体与活动、活动类指标的关联关系，缩短运营决策，高效的支持活动设计。通过自动化关联及归因分析结果，快速、高效地定位用户运营问题，实现了高效率地精细化运营，可以全面地查看运营现状及问题，为活动设计提供指导意见。

在一个实施例中，如图3所示，数据处理方法还包括：

步骤202，获取各用户的活动行为信息。

具体地，活动行为信息是与用户在目标运营活动内的行为相关的信息，活动行为信息包括用户信息、物品信息、行为信息、目标活动信息。用户信息是用户本身特征相关的信息，例如可以包括姓名、性别、年龄、所在地之类的信息；物品信息可以是用户购买商品的相关信息，例如商品金额信息、商品类别信息等等；行为信息可以是购买商品行为、点击商品链接行为、商品详情浏览行为以及商品优惠券领取行为等等；目标活动信息可以是目标运营活动的相关信息，例如优惠券发放、多买优惠活动以及满减活动等等。终端可以获取一段时间段内，与各用户在多种运营活动的行为相关的活动行为信息，即原始数据。

步骤204，根据各用户的活动行为信息，计算各用户的画像标签集。

具体地，终端可以通过多种预设标签算法，对获得到的各个用户的活动行为信息进行计算，通过各个用户的多个类别的第一画像标签，多个类别的第一画像标签组成各用户的画像标签集。

本实施例中，通过对保持细粒度精细化运营优势：除了具备分层粗粒度运营能力还具备基于画像圈选的精细化运营能力

在一个实施例中，由于可以对用户从不同的维度进行画像标签的标记，因此，各用户的画像标签集中可以包括多个类别的第一画像标签。各类别包括基本属性类标签、统计规则类标签、预测类标签以及群体类标签。

相应地，如图4所示，步骤202“根据各用户的活动行为信息，计算各用户的第一画像标签”的具体处理过程，包括：

步骤302，获取与用户购买行为相关的活动行为信息，根据与用户购买行为相关的活动行为信息，得到基本属性类标签。

具体地，终端可以从预设数据库中获取与用户在目标运营活动内的行为相关的信息，可以是与用户在目标运营活动中的商品购买行为、商品浏览行为或者是商品优惠券领取行为等等相关的活动行为信息。终端可以直接从该活动行为信息中进行基本属性类标签的提取。

可选地，用户的活动行为信息可以是“位于xx区域的高级会员xx女士在xx时间领取了xx商品的优惠券，并购买了xx商品”。相应地，终端可以从上述活动行为信息中，提取出基本属性类标签，即性别标签：女；所在城市标签：xx区域；会员等级标签：高级会员。也就是说，终端得到的基本属性类标签即为原子属性类的标签，是可以通过直接提取原始数据得到的。例如原子属性类的标签中包括的性别标签，可以通过直接获取用户信息表中的性别字段得到。

可选地，基本属性类标签可以包括性别、年龄、城市、会员等级等等。

步骤304，根据预设统计策略对与用户购买行为相关的活动行为信息进行统计，得到统计规则类标签。

具体地，统计规则类标签包括多个统计分段，预设统计策略可以是如果活动行为信息属于某一统计分段，则得到统计规则类标签。统计规则类标签可以是对活动行为信息进行初步统计划分后，得到的画像标签。也就是说，终端对该活动行为信息进行计算，确定该活动行为信息中包含的统计规则类标签对应的信息所属于的统计分段。统计规则类标签可以包括年龄段、消费总额、消费频次、最近一次消费时间间隔、消费频率以及平均消费金额等等统计特征。例如，年龄段画像标签，终端可以获取用户信息表中的年龄字段中的年龄信息，并对该年龄信息进行计算后，得到其所属分段。年龄段画像标签所包含的多个统计分段可以包括：少幼阶段(0～17岁)、青年阶段(18—40岁)、中年阶段(41—65岁)、老年阶段(大于66岁)。

步骤306，将与用户购买行为相关的活动行为信息输入至预设标签值预测模型，根据预设标签值预测模型的输出结果确定预测类标签。

具体地，终端将活动行为信息输入至预设标签值预测模型，该预设标签值预测模型的输出结果即为用户的预测类标签的标签值。预测类标签可以包括多个统计分档，终端可以根据该标签值确定该预测类标签所属于的统计分档。预测类标签可以包括RFM模型(客户关系管理模型)标签、AIPL模型标签、用户店铺偏好标签、用户激励敏感度标签、用户消费力分级标签、高价值顾客标签、返场概率标签、用户流失率预测标签、用户价值预标签、

例如，预测类标签可以是用户消费力分级，用户消费力分级可以包括高级、中级以及低级，具体划分范围可以是根据实际需求确定的。终端可以根据预设标签值预测模型输出的用户消费力的标签值，确定该标签值所属于的消费力等级。具体的消费力的标签值可以用于表征该用户在未来n天的消费力。

可选地，如图5所示，预设标签值预测模型是终端根据预设时间段内的活动行为信息(原始数据)以及初始模型进行训练后得到的。预设时间段可以是最近半年。终端根据最近半年的活动行为信息，预测未来n天的预测类标签。当预测类标签是用户消费力分级时，在训练阶段，终端可以通过原始数据构建训练阶段样本，使用xgboost模型构建多分类模型，拟合未来n天的消费力分档，并在预测阶段预测接下来n天用户的消费力分档。

步骤308，根据基本属性类标签、统计规则类标签以及预测类标签，确定用户的群体类标签。

具体的，用户的群体类标签可以是业务衍生类的标签，该标签用于表征该用户所属于的用户群体，终端可以根据基本属性类标签、统计规则类标签以及预测类标签，并对上述标签进行总结，得到群体类标签。

可选地，终端可以基于用户的属性信息表以及消费历史信息进行总结，并将满足预设归类条件的用户打上与该预设归类条件相对应的标签。例如，终端可以将年龄段在三十岁至四十岁，客单价超过预设消费阈值，业态偏好为美容类型以及奢侈品类型的用户，归为“贵妇团”标签。用户的群体类标签还包括“小资”、“都市丽人”以及“成功人士”等等。

本实施例中，通过对各个用户的活动性行为信息的具体分析，能够获取到各个用户的画像标签数据，实现对用户的精细划分的效果。

在一个实施例中，步骤104“根据各用户的画像标签集，将各用户划分为多个用户群体”的具体处理过程，包括：将画像标签集中群体类标签一致的用户划分为同一用户群体。

具体地，终端可以将画像标签集中群体类标签一致的用户划分为同一用户群体。终端也可以基于各个用户之间的上述基本属性类标签、统计规则类标签、预测类标签以及群体类标签的相似程度或者是相同程度，将满足预设相似度条件的用户划分为同一用户群体。预设相似度条件可以是各个用户之间存在的相同的画像标签的数量超过预设群体分类阈值，该预设群体分类阈值可以是根据实际应用场景确定的。

可选地，终端可以将存在相同的画像标签的数量超过预设群体分类阈值的多个用户划分为同一用户群体。终端也可以根据各个用户的画像标签集之间的相似性，将各个用户划分为多个用户群体。

在一个实施例中，如图6所示，数据处理方法还包括：

步骤402，通过预设分层模型，将多个待测用户划分为多个用户层级。

具体地，预设分层模型可以是用户运营模型，该用户运营模型是根据各个用户的历史时间段内的消费行为，对用户进行层级划分的模型。预设分层模型可以包括RFM模型、AIPL模型。终端可以通过预设分层模型，将多个待测用户划分为多个用户层级。

可选地，如图7所示，是分层运营的示意图，终端可以通过RFM模型，将多个用户划分为重要价值客户、重要发展客户、重要保持客户、重要挽留客户、一般价值客户、一般发展客户、一般保持客户、一般挽留客户各个用户层级。以RFM距离为例：图7中的X、Y、Z坐标分别对应R、F、M。其中，R表示最近n天是否有消费，R的取值可以是1或0，R取值为1时表示最近n天有消费，R取值为0时表示最近n天无消费；F表示最近的消费频次高或者低，F的取值可以是1或0，F取值为1时表示最近的消费频次高，F取值为0时表示最近的消费频次低；M表示最近的消费金额，M的取值可以是1或0，M取值为1时表示最近的消费金额高，M取值为0时表示最近的消费金额低。

可选地，终端可以通过AIPL模型，将多个用户划分为认知、兴趣、购买、忠诚各个用户层级。

步骤404，根据预设用户层级筛选规则，确定多个用户层级中的目标用户层级。

步骤102“获取各用户的画像标签集”的具体处理过程，包括：获取目标用户层级中的各用户的画像标签集。

具体地，终端可以根据预设用户层级筛选规则，确定需要重点运营的目标用户所属于的用户层级，即目标用户层级。基于该目标用户层级，执行步骤S102。也就是说，终端可以获取目标用户层级包含的多个用户的画像标签集，并针对上述目标用户层级包含的多个用户的画像标签集，执行上述实施例的步骤。

如图8所示，是基于标签进行精细化运营的示意图。

本实施例中提供的数据处理方法，可以根据预设分层模型对用户进行按层粗粒度运营，还可以根据对目标层级所包含的用户，进行按标签的精细化运营。

在一个实施例中，如图9所示，本发明实施例的数据处理方法还包括：

步骤502，获取预设活动的目标用户群体，通过分布距离算法，计算目标用户群体与各个用户群体之间的人群相似度。

具体地，预设活动可以是之前成功举办的运营活动，例如可以是针对于多个商品发起的促销活动。预设活动的目标用户群体可以是该促销活动的消费用户。例如可以是领取了该商品的优惠券并核销该优惠券的用户群体。

可选地，终端可以获取该目标用户群体的多个画像标签，以及待测的多个用户群体的多个画像标签，或者是目标用户层级包含的多个待测的用户群体的多个画像标签。分布距离算法可以是基于标签向量的算法。终端可以将目标用户群体的多个画像标签以及待测的多个用户群体的多个画像标签，输入至预设的分布距离算法，得到各个用户群体与目标群体之间的人群相似度。

步骤504，将人群相似度超过预设相似阈值的用户群体作为目标运营用户群体。

具体地，预设相似阈值可以是根据实际应用场景确定的阈值，本发明对阈值并不做具体限定。终端可以筛选人群相似度大于或等于预设相似阈值的用户群体，并将该用户群体作为目标运营用户群体，执行上述实施例步骤S106的步骤，即终端灰度多个用户群体中的目标运营用户群体，确定用户群体的运营指标，直至输出问题定位结果。

本实施例中，通过对多个用户群体进行筛选，可以提高数据处理的效率，缩写问题定位的时间，结合画像标签数据，根据标签进行用户圈选。提供人群与人群相似度算法，确定圈选用户群体与运营目标用户群体的关系，是否满足运营需求，运营决策链路。

在一个实施例中，如图10所示，步骤502“获取预设活动的目标用户群体，通过分布距离算法，计算目标用户群体与各用户群体之间的人群相似度”的具体处理过程，包括：

步骤602，获取目标用户群体的第二画像标签，以及各用户群体的第三画像标签。

步骤604，将第二画像标签以及第三画像标签进行向量化，得到第二画像标签对应的向量列以及第三画像标签对应的向量列。

步骤606，通过分布距离算法，对第二画像标签对应的向量列以及第三画像标签对应的向量列进行加权计算，得到目标用户群体与各个用户群体之间的人群相似度。

具体地，终端将待测的用户群体的第三画像标签以及目标用户群体的第二画像标签，分别进行向量化，得到onehot向量。例如，第三画像标签可以包括年龄段标签、职业标签，则年龄段是一个标签列，其中包含少幼、青年、中年、老年，终端将其转换为向量列可以是：是否少幼、是否青年、是否中年、是否老年。那么待测用户群体的画像标签列对应的向量列可以如下表示：[c_1,1,c_1,2,…,c_1,n1,c_2,1,c_2,2,…,c_2,n2,…]，其中，c_1,1,表示第一个第二画像标签中的第二个统计分段，即是否年幼。

这样，终端可以根据待测的用户群体包含的向量列以及目标用户群体的向量列及其权重，通过分布距离算法，计算待测的用户群体以及目标用户群体之间的分布距离，该分布距离即为人群相似度。具体地，用户群体的多个画像标签，每一画像标签即为一个向量列，该向量列的权重由用户群体包含的画像标签的数量确定。每一向量列包含多个统计分段，即多个向量，每一向量的权重由该向量所属于的向量列的权重以及该向量列所包含的向量数量确定。终端可以通过分布距离算法，分别计算针对于各个向量的，待测的用户群体与目标用户群体之间的分布距离。这样，终端可以对待测的用户群体与目标用户群体之间，在各个向量的维度上的分布距离以及各个向量的权重，进行加权计算，得到待测的用户群体与目标用户群体之间的分布距离，即人群相似度。

可选地，分布距离算法可以是wasserstein_distance算法，也可以是其他能够计算分布距离的算法，本发明对此并不做具体限定。终端可以通过下述公式计算分布距离distance：

distance＝sum(weight*distance_algorithm(A,B,c_i,j))

其中，weight表示向量列中各个向量的权重，distance_algorithm(A,B,c_i,j)表示针对于该向量c_i,j，用户群体A与用户群体B之间的向量的分布距离。

可选地，终端可以根据画像标签的数量，为各个画像标签赋相同的权重。终端会根据各画像标签中所包含的各统计分段对应的向量的数量，对各画像标签的权重进行均值计算，得到各向量的权重。再根据各个向量的权重以及分布距离算法，得到用户群体之间的人群相似度。

例如，待测的用户群体的第三画像标签可以是年龄段标签、职业标签，目标用户群体的第二画像标签可以是年龄段标签、职业标签。这样，年龄段标签的权重以及职业标签的权重均可以是二分之一，年龄段标签中所包含的是否少幼、是否青年、是否中年、是否老年的各统计分段的权重可以是八分之一，职业标签所包含的是否为医生、是否为老师、是否为白领的各统计分段的权重可以是六分之一。

在一个实施例中，数据处理方法还包括：根据问题定位结果，确定目标活动的运营策略，目标活动运营策略用于使目标用户群体的目标运营指标满足预设运营条件。

具体地，目标活动的运营策略可以是运营活动方案。终端在得到问题定位结果后，也就是得到与目标运营指标最相关的画像标签列。这样，终端可以根据该最相关的画像标签列，针对性地指定目标活动的运营方案，该运营方案可以提升目标运营指标的参数值，使之满足预设运营条件。例如可以是销售额超过预设销售阈值等等。

例如，终端可以确定RFM模型中的重要价值客户的用户运营目标达成率(最近半年GMV)低。终端通过上述相关性算法，可以确定与最近半年GMV最相关的画像标签，可以是正相关，也可以是负相关。针对于目标列为最近半年GMV，终端计算得到的最相关的画像标签可以是最近半年是否消费服饰业态。这样，终端可以根据此画像标签针对性地开发服饰业态优惠券活动，来提升RFM模型中的重要价值客户的消费金额。

在一种可能的实现方式中，该数据处理方法可以通过下述过程确定圈选的用户群体：终端可以根据用户的多个标签列及标签取值，圈选出对应用户群体。

f(S1)＝P1，

其中：S1表示第一圈选条件，P1表示圈选出来的第一用户群体，圈选用户数量n1。第一圈选条件S1＝性别：女；年龄段：中年；业态偏好：服饰；P1＝[userId1,userId2,..userIdn]。

终端可以对通过多个圈选条件圈选出来的多个用户群体，进行人群相似度量化。例如，第一圈选条件S1，圈选用户数量n1，圈选人群P1，具体的第一圈选条件可以是年龄段：中年、性别：女、业态偏好：服饰；第二圈选条件S2，圈选用户数量n2，圈选人群P2，具体的第二圈选条件可以是：是否参与活动A。此时，终端可以根据上述实施例的方法，对圈选人群P1以及圈选人群P2之间的人群相似度进行计算。

本实施例所提供的数据处理方法，相较于传统的人工总结提炼运营方式，本实施例的方案开创性的利用关联归因算法定位目标运营指标的影响因素，并可以快速用对应的活动来解决运营问题。

在一种可能的实现方式中，终端可以通过皮尔森相关性算法进行计算特征列与目标列的相关性。具体过程如下：

皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-momentcorrelation coefficient)，是一种线性相关系数，是最常用的一种相关系数。记为r，用来反映两个变量X和Y的线性相关程度，r值介于-1到1之间，绝对值越大表明相关性越强。总体相关系数ρ定义为两个变量X、Y之间的协方差和两者标准差乘积的比值；估算样本的协方差和标准差，可得到样本相关系数(即样本皮尔森相关系数)，常用r表示；r还可以由(Xi,Yi)样本点的标准分数均值估计得到，可以通过Xi样本的标准分数、样本均值和样本标准差、样本数量得到。

在一个实施例中，由于该画像标签集中还包括多个第一画像标签的标签值。相应地，如图11所示，上述步骤106“针对多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标”，包括：

步骤702，根据用户群体中各用户的第一画像标签的标签值，计算预设的运营指标的参数值。

具体地，由于可以是终端可以根据运营人员的运营策略具体确定预设的运营指标，或者是终端为各个用户群体分别配置不同的预设的运营指标。因此，终端可以根据该用户群体的画像标签集中各第一画像标签的标签值，计算预设的运营指标的参数值。

可选地，终端可以确定该用户群体的运营指标是“消费频次”，则该终端需要获取该用户群体内各个用户的第一画像标签为“消费频次”的标签值，并对该用户群体内各个用户的“消费频次”的标签值进行均值计算，将计算得到的均值作为该用户群体的运营指标“消费频次”的参数值。

步骤704，将参数值不满足预设运营条件的运营指标，作为目标运营指标。

具体地，根据不同的运营指标，终端可以为该运营指标配置不同的预设运营阈值。终端将参数值不满足预设运营条件的运营指标作为目标运营指标。其中，预设运营条件针对于不同的运营指标有不同的判断条件。例如，针对于消费频次的运营指标，预设运营条件可以是消费频次大于预设消费频次阈值，如果终端确定消费频次的参数值小于或等于预设消费频次阈值时，则将消费频次作为目标运营指标；其中，该预设消费频次阈值可以是终端根据目标时间段内的消费数据确定的。针对于流失率的运营指标，预设运营条件可以是流失率低于预设流失阈值，如果终端确定流失率的参数值大于或等于预设流失率阈值时，则将流失率作为目标运营指标；其中，该预设流失率阈值可以是终端根据目标时间段内的消费数据确定的。

可选地，如果该用户群体配置有多个运营指标均不满足预设运营条件，终端可以将不满足预设运营条件的多个运营指标分别作为目标运营指标，分别计算与其满足预设相关度条件的第一画像标签。

可选地，终端也可以直接获取预设的运营指标的参数值，并根据将该参数值不满足预设运营条件的运营指标，作为目标运营指标。

应该理解的是，虽然图1-11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种数据处理装置800，包括：画像标签集获取模块801、划分模块802、目标运营指标确定模块803、计算模块804和输出模块805，其中：

画像标签集获取模块801，用于获取各用户的画像标签集。画像标签集包括至少一个第一画像标签的标签值。

划分模块802，用于根据各用户的画像标签集，将各用户划分为多个用户群体。

目标运营指标确定模块803，用于针对多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标，作为目标运营指标。

计算模块804，用于通过预设的相关度算法，分别计算用户群体的各第一画像标签与目标运营指标的相关度，并将满足预设相关度条件的第一画像标签确定为用户群体的目标画像标签。

输出模块805，用于基于所述目标画像标签，输出用户群体的问题定位结果。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，装置还包括：

活动行为信息模块，用于获取各用户的活动行为信息，活动行为信息包括用户信息、物品信息、行为信息、目标活动信息。

画像标签计算模块，用于根据各用户的活动行为信息，计算各用户的画像标签集。

在其中一个实施例中，第一画像标签的类别包括基本属性类标签、统计规则类标签、预测类标签以及群体类标签。

画像标签计算模块，包括：

在其中一个实施例中，划分模块具体用于：

将画像标签集中群体类标签一致的用户划分为同一用户群体。

在其中一个实施例中，装置还包括：

层级划分模块，用于通过预设分层模型，将多个待测用户划分为多个用户层级。

目标用户层级确定模块，用于根据预设用户层级筛选规则，确定多个用户层级中的目标用户层级；

画像标签集获取具体用于，获取目标用户层级中的各用户的画像标签集。

在其中一个实施例中，装置还包括：

相似度计算模块，用于获取预设活动的目标用户群体，通过分布距离算法，计算目标用户群体与各个用户群体之间的人群相似度。

目标用户群体确定模块，用于将人群相似度超过预设相似阈值的用户群体作为目标运营用户群体。

在其中一个实施例中，相似度计算模块，包括：

第二画像标签获取单元，用于获取目标用户群体的第二画像标签，以及各用户群体的第三画像标签。

向量化单元，用于将第二画像标签以及第三画像标签进行向量化，得到第二画像标签对应的向量列以及第三画像标签对应的向量列。

加权计算单元，用于通过分布距离算法，对第二画像标签对应的向量列以及第三画像标签对应的向量列进行加权计算，得到目标用户群体与各个用户群体之间的人群相似度。

在其中一个实施例中，装置还包括：

问题解决模块，用于根据问题定位结果，确定目标活动的运营策略，目标活动运营策略用于使目标用户群体的目标运营指标满足预设运营条件。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储画像标签的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

针对所述多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标；

基于所述目标画像标签，输出所述用户群体的问题定位结果。

2.根据权利要求1所述的方法，其特征在于，所述画像标签集还包括各第一画像标签的标签值；

所述针对所述多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标，包括：

根据所述用户群体中各用户的第一画像标签的标签值，计算所述预设的运营指标的参数值；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述第一画像标签的类别包括基本属性类标签、统计规则类标签、预测类标签以及群体类标签；

获取与用户购买行为相关的活动行为信息，根据所述与用户购买行为相关的活动行为信息，得到基本属性类标签；

5.根据权利要求4所述的方法，其特征在于，所述根据各所述用户的画像标签集，将各所述用户划分为多个用户群体，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

通过预设分层模型，将多个待测用户划分为多个用户层级；

所述获取各用户的画像标签集，包括：

获取所述目标用户层级中的各用户的画像标签集。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述获取预设活动的目标用户群体，通过分布距离算法，计算所述目标用户群体与各用户群体之间的人群相似度，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种数据处理装置，其特征在于，所述装置包括：

目标运营指标确定模块，用于针对所述多个用户群体中的每个用户群体，在预设的运营指标中确定不满足预设运营条件的运营指标，作为目标运营指标，作为目标运营指标；

输出模块，用于基于所述目标画像标签，输出问题定位结果。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。