CN107688966A

CN107688966A - 数据处理方法及其系统和非易失性存储介质

Info

Publication number: CN107688966A
Application number: CN201710727480.5A
Authority: CN
Inventors: 侯捷; 李爱华; 葛胜利
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2018-02-13

Abstract

本公开提供了一种数据处理方法，该方法包括：获取目标用户针对指定品类的第一操作数据，其中，第一操作数据至少反映目标用户的用户类型；根据第一操作数据确定目标用户的用户类型；根据目标用户的用户类型，选择对应的分类器；以及将第一操作数据输入至分类器，以预测目标用户对指定品类执行特定操作的意向。本公开还提供了一种数据处理系统以及一种非易失性存储介质。

Description

数据处理方法及其系统和非易失性存储介质

技术领域

本公开涉及数据处理领域，更具体地，涉及一种数据处理方法及其系统和非易失性存储介质。

背景技术

随着电子商务和大数据系统的快速发展，如何对海量数据进行准确有效地分析显得非常重要。例如，用户在网购过程中会产生大量的操作数据，这些数据往往会反映用户是否对商品分类(简称为品类)有购买意向，在日渐丰富的品类下，如何基于购买意向对用户进行划分，这对品类的精细化运营，提高商品的销量有着非常重要的实际应用价值。

在实现本公开实施例的过程中，发明人发现相关技术中至少存在如下问题：用户的划分难以满足品类精细化运营的要求。

针对相关技术中的上述问题，目前还未提出有效的解决方案。

发明内容

有鉴于此，本公开提供了一种数据处理方法及数据处理系统和非易失性存储介质。

本公开一方面提供了一种数据处理方法，包括：获取目标用户针对指定品类的第一操作数据，其中，上述第一操作数据至少反映上述目标用户的用户类型；根据上述第一操作数据确定上述目标用户的用户类型；根据上述目标用户的用户类型，选择对应的分类器；以及将上述第一操作数据输入至上述分类器，以预测上述目标用户对上述指定品类执行特定操作的意向。

根据本公开的实施例，根据上述第一操作数据确定上述目标用户的用户类型包括：根据上述第一操作数据确定上述目标用户在预设时间段内的操作行为；以及根据上述操作行为确定上述目标用户的用户类型。

根据本公开的实施例，获取用户群针对上述指定品类的第二操作数据，其中，上述第二操作数据至少反映用户群中各用户的用户类型；根据上述第二操作数据确定上述用户群中各用户的用户类型；根据用户类型选择对应的分类器生成规则；以及根据上述第二操作数据和上述分类器生成规则生成各用户类型对应的分类器。

根据本公开的实施例，上述用户群中各用户的用户类型至少包括活跃用户类型；上述根据用户类型选择对应的分类器生成规则包括根据上述活跃用户类型选择预先设定的聚类算法；上述根据上述第二操作数据和上述分类器生成规则生成各用户类型对应的分类器包括：从上述用户群中确定出属于上述活跃用户类型的活跃用户；从上述第二操作数据中提取属于上述活跃用户的操作数据；以及根据确定出的上述活跃用户的操作数据和上述预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器。

根据本公开的实施例，上述根据上述第二操作数据和上述分类器生成规则生成各用户类型对应的分类器还包括，在从上述第二操作数据中提取属于上述活跃用户的操作数据之后，对上述活跃用户的操作数据进行标准化处理，得到标准化后的操作数据；以及根据确定出的上述活跃用户的操作数据和上述预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器包括：按照上述预先设定的聚类算法对标准化后的操作数据进行聚类处理，得到上述用于对活跃用户进行再次分类的分类器。

根据本公开的实施例，上述用户群中各用户的用户类型至少包括非活跃用户类型；上述根据用户类型选择对应的分类器生成规则包括根据上述非活跃用户类型选择预先设定的分类器训练分类器；上述根据上述第二操作数据和上述分类器生成规则生成各用户类型对应的分类器包括：从上述用户群中确定出属于上述非活跃用户类型的非活跃用户；从上述第二操作数据中提取属于上述非活跃用户的操作数据；以及根据确定出的上述非活跃用户的操作数据和上述预先设定的分类器训练分类器生成用于对非活跃用户进行再次分类的分类器。

本公开的另一方面还提供了一种数据处理系统，包括：第一获取模块，用于获取目标用户针对指定品类的第一操作数据，其中，上述第一操作数据至少反映上述目标用户的用户类型；第一确定模块，用于根据上述第一操作数据确定上述目标用户的用户类型；第一选择模块，用于根据上述目标用户的用户类型，选择对应的分类器；以及预测模块，用于将上述第一操作数据输入至上述分类器，以预测上述目标用户对上述指定品类执行特定操作的意向。

根据本公开的实施例，上述第一确定模块包括：第一确定单元，用于根据上述第一操作数据确定上述目标用户在预设时间段内的操作行为；以及第二确定单元，用于根据上述操作行为确定上述目标用户的用户类型。

根据本公开的实施例，上述系统还包括：第二获取模块，用于获取用户群针对上述指定品类的第二操作数据，其中，上述第二操作数据至少反映用户群中各用户的用户类型；第二确定模块，用于根据上述第二操作数据确定上述用户群中各用户的用户类型；第二选择模块，用于根据用户类型选择对应的分类器生成规则；以及生成模块，用于根据上述第二操作数据和上述分类器生成规则生成各用户类型对应的分类器。

根据本公开的实施例，上述第二选择模块还用于根据上述活跃用户类型选择预先设定的聚类算法；上述生成模块包括：第三确定单元，用于从上述用户群中确定出属于上述活跃用户类型的活跃用户；第一提取单元，用于从上述第二操作数据中提取属于上述活跃用户的操作数据；以及第一生成单元，用于根据确定出的上述活跃用户的操作数据和上述预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器。

根据本公开的实施例，生成模块还用于在从上述第二操作数据中提取属于上述活跃用户的操作数据之后，对上述活跃用户的操作数据进行标准化处理，得到标准化后的操作数据；以及第一生成单元还用于按照上述预先设定的聚类算法对标准化后的操作数据进行聚类处理，得到上述用于对活跃用户进行再次分类的分类器。

根据本公开的实施例，上述第二选择模块还用于根据上述非活跃用户类型选择预先设定的分类器训练分类器；上述生成模块包括：第四确定单元，用于从上述用户群中确定出属于上述非活跃用户类型的非活跃用户；第二提取单元，用于从上述第二操作数据中提取属于上述非活跃用户的操作数据；以及第二生成单元，用于根据确定出的上述非活跃用户的操作数据和上述预先设定的分类器训练分类器生成用于对非活跃用户进行再次分类的分类器。

本公开的另一方面还提供了一种非易失性存储介质，存储有计算机可执行指令，上述指令在被处理器执行时用于实现任一项上述的数据处理方法。

本公开的另一方面还提供了一种数据处理系统，包括：存储器，用于存储计算机可执行指令；以及处理器，用于执行上述指令以实现任一项上述的数据处理方法。

根据本公开的实施例，由于在根据操作数据确定出用户的用户类型的基础上，针对不同的用户类型利用与用户类型相对应的分类器来预测用户对指定品类执行特定操作的意向，即针对不同的用户类型采用不同的分类器进行预测。因此，可以至少部分地克服相关技术提供的方案对用户的划分难以满足品类精细化运营要求的技术问题，进而实现提高用户划分的精细程度以达到精细化运营要求的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构；

图2示意性示出了根据本公开实施例的数据处理方法的流程图；

图3A示意性示出了根据本公开实施例的根据第一操作数据确定目标用户的用户类型的流程图；

图3B示意性示出了根据本公开另一实施例的数据处理方法的流程图；

图3C示意性示出了根据本公开实施例的根据第二操作数据和分类器生成规则生成各用户类型对应的分类器的流程图；

图3D示意性示出了根据本公开另一实施例的根据第二操作数据和分类器生成规则生成各用户类型对应的分类器的流程图；

图4示意性示出了根据本公开实施例的数据处理结果的示意图；

图5示意性示出了根据本公开实施例的数据处理系统的框图；

图6A示意性示出了根据本公开实施例的第一确定模块的框图；

图6B示意性示出了根据本公开另一实施例的数据处理系统的框图；

图6C示意性示出了根据本公开实施例的生成模块的框图；

图6D示意性示出了根据本公开另一实施例的生成模块的框图；以及

图7示意性示出了根据本公开实施例的适于实现数据处理方法及其系统的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

本公开的实施例提供了一种数据处理方法及其系统。该数据处理方法包括数据获取阶段和数据处理阶段。在数据获取阶段，获取用户针对指定品类的至少反映用户的用户类型的第一操作数据。在完成数据获取之后，开始进入数据处理阶段，在根据获取的第一操作数据确定出用户的用户类型之后，选择与用户类型相对应的分类器预测用户对指定品类执行特定操作的意向。

图1示意性示出了根据本公开实施例的可以应用数据处理方法及其系统的示例性系统架构。

如图1所示，根据该实施例的系统架构100可以包括终端设备110、120、130，网络140和服务器150。网络140用以在终端设备110、120、130和服务器150之间提供通信链路的介质。网络140可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备110、120、130通过网络140与服务器150交互，以接收或发送消息等。终端设备110、120、130上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等，在此不再赘述。

终端设备110、120、130可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器150可以是提供各种服务的服务器，例如对用户利用终端设备110、120、130所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的数据处理方法一般可以由服务器150执行。相应地，本公开实施例所提供的数据处理系统一般可以设置于服务器150中。本公开实施例所提供的数据处理方法也可以由不同于服务器150且能够与终端设备110、120、130和/或服务器150通信的服务器或服务器集群执行。相应地，本公开实施例所提供的数据处理系统也可以设置于不同于服务器150且能够与终端设备110、120、130和/或服务器150通信的服务器或服务器集群中。

例如，服务器150获取目标用户针对指定品类的第一操作数据，其中，第一操作数据至少反映目标用户的用户类型，并根据第一操作数据确定目标用户的用户类型，进而根据目标用户的用户类型，选择对应的分类器，最后将第一操作数据输入至分类器，以预测目标用户对指定品类执行特定操作的意向。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

目前，越来越多的用户会选择在电商平台或者其他交易平台上进行交易，而在交易过程中，系统会产生大量的操作数据，例如，在购物网站上，用户面对不同的品类执行点击浏览、加购、关注、搜索、咨询、评论、晒单、购买等操作，这些操作数据往往会反映用户对品类的购买能力或对品类的购买意向。如何对这些操作数据进行处理以预测用户对指定品类执行特定操作的意向，可以指导商家针对不同类别的用户拟定具有针对性的运营方案，进而引导复购，提升商品的交易额。

图2示意性示出了根据本公开实施例的数据处理方法的流程图。

如图2所示，该数据处理方法可以包括操作S210～S240，其中：

在操作S210，获取目标用户针对指定品类的第一操作数据，其中，第一操作数据至少反映目标用户的用户类型。

需要说明的是，目标用户可以是任意指定的用户，可以是对指定品类执行登录、浏览、加购、购买、晒单、评价等操作行为中的一种或多种操作行为的用户，在此不做限定。

指定品类可以是显示在网页上的商品分类，在本公开实施例中，对商品分类不作限定，可以包括但不限于不同种类的商品，或者同一种类商品在不同维度上的分类。另外，商品分类还可以是在交易网站中超市，优惠券等等其他分类。

操作数据可以包含一个或多个维度的操作行为及与操作行为相关特征数据，操作行为可以包括但不限于目标用户针对指定品类执行登录、浏览、加购、购买、晒单、评价等维度的操作行为，任意一个或多个维度的操作行为都是一种目标用户针对指定品类执行的特定操作，特征数据包括但不限于操作行为产生的一种或多种相关特征数据。例如，品类购买维度的操作行为，相关特征可以包括但不限于用户近1年在该品类下购买的单量、优惠后金额等，品类浏览维度的操作行为，相关特征可以包括但不限于用户近30天针对该品类的浏览天数、浏览次数、最后一次浏览距今的天数、浏览该品类下的商品个数、平均浏览时长等指标，优惠券使用维度的操作行为，相关特征可以包括但不限于领券近3年用户使用某品类优惠券带来的订单金额，也可以包括但不限于领券近3年用户使用某品类优惠券的平均面额，在此不做限定。

在操作S220，根据第一操作数据确定目标用户的用户类型。

需要说明的是，目标用户针对指定品类执行特定的操作，将产生与特定操作相对应的操作数据，对操作数据进行分析，可以确定目标用户的用户类型，即用户类型可以是由用户针对指定品类的操作数据反映的，在本公开实施例中，可以包括但不限于活跃用户类型、非活跃用户(沉默用户、潜在用户)类型等。

在操作S230，根据目标用户的用户类型，选择对应的分类器。

需要说明的是，为了达到品类用户精细化运营的要求，在本公开实施例中，不同的用户类型采用不同的分类规则来预测，而通过不同的分类规则将产生不同的分类器，因此，在确定出用户的用户类型之后，可以选择与用户类型相对应的分类器。

在操作S240，将第一操作数据输入至分类器，以预测目标用户对指定品类执行特定操作的意向。

需要说明的是，将第一操作数据输入至与目标用户类型相对应的分类器中，可以预测目标用户对指定品类执行特定操作的意向，例如，若确定出目标用户的用户类型为活跃型，则将目标用户的购买相关数据输入到活跃用户的分类器，将预测出目标用户的用户价值等级，用户价值等级可以反映目标用户对指定品类执行特定操作的意向。

通过本公开的实施例，在根据操作数据确定出用户的用户类型的基础上，针对不同的用户类型利用与用户类型相对应的分类器来预测用户对指定品类执行特定操作的意向，即针对不同的用户类型采用不同的分类器进行预测。因此，可以至少部分地克服相关技术提供的方案对用户的划分难以满足品类精细化运营要求的技术问题，进而实现提高用户划分的精细程度以达到精细化运营要求的技术效果。

下面参考图3A～图3D，结合具体实施例对图2所示的数据处理方法做进一步说明。

图3A示意性示出了根据本公开实施例的根据第一操作数据确定目标用户的用户类型的流程图。

如图3A所示，根据第一操作数据确定目标用户的用户类型可以包括操作S311～S312，其中：

在操作S311，根据第一操作数据确定目标用户在预设时间段内的操作行为。

在操作S312，根据操作行为确定目标用户的用户类型。

需要说明的是，目标用户的第一操作数据可以是所有时间段内的操作数据，为了避免数量量大，数据冗余的问题，本公开的实施例选取预设时间段内的用户操作行为来确定目标用户的用户类型，其中，预设时间段可以根据实际需要而设定，在此不做限定。

例如，目标用户可以是预设时间段内购买过某一指定品类的用户(活跃用户)，也可以是预设时间段内从未购买过某一指定品类的用户(非活跃用户)。针对预设时间段内从未购买过某一指定品类的用户，可以选取一定时间段如一个月内有过浏览、加购、关注、搜索、咨询等操作行为的用户作为潜在用户，将最后一次下单在预设时间之前的用户作为沉默用户。

通过本公开的实施例，一方面获取预设时间段内的操作行为，克服获取所有时间段内用户操作数据导致的数据量大，数据冗余等技术问题，达到合理获取有意义的交易数据的技术效果。另一方面根据目标用户对指定品类的操作行为确定目标用户所属类型，可以看做是对目标用户的第一次分类，由于对目标用户再次分类用到的分类器是利用第一次分类确定的用户类型相关的操作数据和预设分类规则生成的，因此第一次分类为第二次分类的操作数据和生成规则提供选择的依据。

图3B示意性示出了根据本公开另一实施例的数据处理方法的流程图。

在该实施例中，该数据处理方法除了可以包括上文参考图2所对应的实施例中描述的操作S210～S240之外，在根据第一操作数据确定目标用户的用户类型之后，还可以包括操作S321～S324，为了描述的简洁起见，这里省略对操作S210～S240的描述。如图3B所示，其中：

在操作S321，获取用户群针对指定品类的第二操作数据，其中，第二操作数据至少反映用户群中各用户的用户类型。

在操作S322，根据第二操作数据确定用户群中各用户的用户类型。

在操作S323，根据用户类型选择对应的分类器生成规则。

在操作S324，根据第二操作数据和分类器生成规则生成各用户类型对应的分类器。

需要说明的是，用户群中各用户可以是相同类型的用户，也可以是不同类型的用户，用户群中各用户可以对指定品类执行特定的操作行为，这些用户的各特定操作行为的操作数据组成第二操作数据，由于不同的操作行为会产生不同的操作数据，因此，根据第二操作数据可以确定各用户的用户类型。

分类器可以是对不同用户类型的用户进行分类的分类器，由于不同类型的用户对应的操作数据不同，因此，为了达到正确分类的效果，针对不同类型的用户，采用不同的分类规则，根据各类型用户的操作数据和相应的分类器生成规则生成各用户类型对应的分类器。

通过本公开的实施例，由于采用了分类器进行用户分类的技术手段，以不同的用户类型针对指定品类产生的操作数据和不同类型用户的分类器生成规则为依据进行用户分类，克服相关技术中人为因素的影响，可以实现根据分类器的效果进行分类器优化调整，使得分类器更精准有效，进而达到对大规模数据进行处理的目的，同时达到简化分类流程，提高分类销量的技术效果。

图3C示意性示出了根据本公开实施例的根据第二操作数据和分类器生成规则生成各用户类型对应的分类器的流程图。

在该实施例中，该数据处理方法除了可以包括上文参考图3B所对应的实施例中描述的操作S321～S324之外，还可以包括操作S331～S333，其中，图3B中的操作S322中各用户的用户类型至少包括活跃用户类型，另外，图3B中的操作S323包括根据活跃用户类型选择预先设定的聚类算法，图3B中的操作S324可以包括操作S331～S333。为了描述的简洁起见，这里省略对操作S321～S324的描述。如图3C所示，其中：

在操作S331，从用户群中确定出属于活跃用户类型的活跃用户。

在操作S332，从第二操作数据中提取属于活跃用户的操作数据。

在操作S333，根据确定出的活跃用户的操作数据和预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器。

需要说明的是，用户群中各用户的用户类型可以包括活跃用户，也可以包括非活跃用户，当用户群中各用户的用户类型至少包括活跃用户类型时，可以根据活跃用户针对指定品类的多维度的操作数据将活跃用户进行分类，如可以采用聚类的方法，将活跃用户进行分类，即确定每一个活跃用户所属的类簇，使得同一类簇中的活跃用户具有很高的相似度，而使不同类簇中的活跃用户具有很高的相异度，以此达到对活跃用户分类的目的。例如，可以将活跃用户分为V1、V2、V3、V4四个类簇，其中，V1、V2、V3、V4各类簇中包括的活跃用户具有高度相似，而V1、V2、V3、V4各类之间的用户高度相异。可以结合实际应用场景，预测每一个用户的价值等级，如V4等级的用户价值最高、V1等级的用户价值最低，价值等级越高的用户购买意向越强，在营销资源有限的情况下，可以优先向价值等级高的活跃用户进行营销，达到引导复购、提升交易金额的目的。

以下将以近一年针对某品类有过购物行为的用户作为活跃用户为例，对本公开的实施例进行详细阐述。从用户群中确定出属于活跃用户类型的活跃用户，从用户群针对指定品类的第二操作数据中提取属于活跃用户的操作数据，可以包括但不限于购买、流量、品类影响力、风险级别等维度的操作行为及其相关的特征数据，如表1所示。

表1

维度	特征
		购买	用户近1年在该品类下购买的单量、优惠后金额
流量	用户近1个月在该品类下的活跃天数
		品类影响力	用户近1年在该品类下评论晒单的次数
风险级别	用户近1年在该品类下投诉、退换货的次数

根据确定出的活跃用户的操作数据和预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器可以包括但不限于以下步骤：

1)异常值的处理

由于聚类算法对异常值异常敏感，因此需要在聚类之前对异常值进行处理。首先，进行异常值的识别：通过分析各特征的数据分布发现，优惠后金额会出现一些极端大值，本公开实施例将优惠后金额大于优惠后金额0.95分位数视为异常值为例。接下来，就需要对这部分用户根据规则进行归类，本公开实施例主要是基于特征均值及标准差的比较，例如优惠后金额a大于其均值+标准差，则归为V4，若均值＜a＜均值+标准差，则归为V3，若均值-标准差＜a＜均值，则归为V2，若a＜均值-标准差则归为V1。

均值是衡量数据分布的集中程度，计算公式为：

标准差σ是衡量数据的离散程度，计算公式为：

2)聚类算法的实现

为了便于阐述聚类算法，首先给出几个概念：

1.密度参数：对于数据集中每个数据点，以数据点为球心，以r为半径的球体区域中所包含的数据点的个数称为密度参数u，u越大表明该数据点所处的数据区域密度越大，反之密度越小。

2.两点x，y之间的距离dist(x，y)：本公开实施例采用欧氏距离，具体实现公式如下：

3.一个数据点x与一个数据集z之间的距离dist(x，z)：该数据点x与数据集z中所有数据点最近的距离，计算公式如下：

dist(x，z)＝min(dist(x，y))，y∈z

4.两个数据集u，v之间的距离dist(u，v)：分别位于两个数据集中的最近的两个数据点x，y之间的距离，计算公式如下：

dist(u，v)＝min(dist(x，y))，u∈x，v∈y

相关技术提供的聚类算法中随机地选取初始聚类中心忽视了数据的分布情况，会极大地影响最终的聚类效果。本公开实施例对初始聚类中心的选取进行了优化，彼此距离最远的初始聚类中心点比随机选取的要更具有代表性。但是数据集中往往会存在一些孤立点，如果仅按照彼此之间距离最远这个准则来确定中心点，则有时会将一些孤立点当做初始聚类中心，这样的聚类效果也是不准确的。通常来讲，高密度的数据区域会被低密度的数据区域分隔，这些位于低密度区域的数据点通常就称为孤立点。为了防止取到孤立点作为初始聚类中心，本公开实施例选择高密度区域中彼此距离最远的数据点作为初始聚类中心。

具体实现方法可以是首先计算每个数据点的密度参数，从中就可以找出处于高密度区域的数据点，这些数据点记为集合D。选取集合D中密度参数最大的数据点作为第一个初始聚类中心点x，并将x从集合D中移除，然后从高密度集合D中选取距离数据点x距离最远的数据点作为第二个初始聚类中心点y，同时将y也从集合D中移除；之后，再对集合D中的每一个数据点Z_i，计算其与已确定的初始聚类中心点x和y之间的距离dist(Z_i，x)、dist(Z_i，y)，若某个数据点满足距离x和y最远，则该点为第三个初始聚类中心点，以此类推，直至找到k个初始聚类中心点。

k个初始聚类中心明确之后，就可以开始进行Kmeans聚类算法，算法描述如下：计算每个数据点距离k个初始聚类中心的欧式距离，将数据点和与其距离最近的初始聚类中心点归为一个簇，此时判断是否达到停止聚类的条件即聚类中心不再发生变化，若满足停止条件则退出，否则更新每个簇的聚类中心点，取每个簇内所有点的均值作为新的聚类中心，以此类推，继续进行上述的运算。

在根据各个用户的特征数据完成聚类之后，可以确定各用户所属的类簇，最终将类簇分类结果和实际的应用场景联系起来，即可实现对用户的分类。

通过本公开的实施例，因为利用活跃用户的分类器对活跃用户进行分类，而分类器可以根据活跃用户的多维操作数据和预先设定的聚类算法生成，因此，一方面能在多维度上实现对活跃用户的分类，另一方面通过分类器对活跃用户进行分类，可以根据分类器的效果进行优化调整，使分类器更精准有效，实现用户精细化分类的技术效果。

根据本公开的实施例，根据第二操作数据和分类器生成规则生成各用户类型对应的分类器还包括，在从第二操作数据中提取属于活跃用户的操作数据之后，对活跃用户的操作数据进行标准化处理，得到标准化后的操作数据；以及根据确定出的活跃用户的操作数据和预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器包括：按照预先设定的聚类算法对标准化后的操作数据进行聚类处理，得到用于对活跃用户进行再次分类的分类器。

需要说明的是，在进行聚类算法之前，需要对特征数据进行标准化，以消除不同量纲对聚类结果带来的影响，例如有些特征是次数，有些特征是金额，有些是订单量，这些特征之间无法直接进行比较，因此需要转化成可比较、消除量纲影响的标准化特征数据。本公开实施例采用标准差标准化的方法对数据进行标准化，标准差标准化是指将特征数据减去该特征变量的均值，然后除以该变量的标准差，然后就需要对标准化后的特征变量进行聚类。

标准差标准化X_scalei计算公式为：

通过本公开的实施例，因为采用了对特征数据进行标准化的技术方案，消除由于数据单位大小不一导致数据度量效果差异问题，从而达到各个特征可比较的技术效果。

图3D示意性示出了根据本公开另一实施例的根据第二操作数据和分类器生成规则生成各用户类型对应的分类器的流程图。

在该实施例中，该数据处理方法除了可以包括上文参考图3B所对应的实施例中描述的操作S321～S324之外，还可以包括操作S341～S343，其中，图3B中的操作S322中各用户的用户类型至少包括非活跃用户类型，另外，图3B中的操作S323包括根据非活跃用户类型选择预先设定的分类器训练模型，图3B中的操作S324可以包括操作S341～S343。为了描述的简洁起见，这里省略对操作S321～S324的描述。如图3D所示，其中：

在操作S341，从用户群中确定出属于非活跃用户类型的活跃用户。

在操作S342，从第二操作数据中提取属于非活跃用户的操作数据。

在操作S343，根据确定出的非活跃用户的操作数据和预先设定的分类器训练分类器生成用于对非活跃用户进行再次分类的分类器。

需要说明的是，用户群中各用户的用户类型可以包括非活跃用户类型时，与活跃用户不同，非活跃用户可以是预设时间段内从未购买过某一指定品类的用户。针对预设时间段内从未购买过某一指定品类的用户，可以选取一定时间段内有过浏览、加购、关注、搜索、咨询等操作行为的用户作为潜在用户，将最后一次下单在预设时间之前的用户作为沉默用户。以下将分别阐述潜在用户和沉默用户生成分类器的过程。

●潜在用户

本公开的实施例将潜在用户作为待预测集，预测潜在用户即将会产生指定品类购买行为的概率，方便业务运营人员精准的选取人群进行营销，在营销资源有限的情况下，可以优先选取购买潜力大的用户进行营销。根据确定出的潜在用户的操作数据和预先设定的分类器训练分类器生成用于对潜在用户进行再次分类的分类器可以包括但不限于以下步骤：

训练样本的选取：本公开的实施例选取预设时间段内的指定品类潜在用户，这部分潜在用户在预设时间段的下一周内如果产生购买行为，则样本标记为1，若没有产生购买行为，则标记为0，这样就构成了因变量Y。

特征集的加工：训练样本已标记好，我们的目的就是要预测一组自变量数值相对应的因变量是1的概率，这就需要选取对因变量有决定性作用的自变量特征。从用户群中确定出属于潜在用户类型的潜在用户，从用户群针对指定品类的第二操作数据中提取属于潜在用户的操作数据作为特征集，操作数据可以包括但不限于潜在用户的品类浏览、品类加购、品类关注、品类咨询、品类搜索、关联购买等维度，具体如表2所示。

逻辑回归分类器训练：将上述选取的样本及操作数据输入到逻辑回归分类器中进行训练，输入的特征即作为自变量X，这样就构建了逻辑回归方程，经过分类器训练，可以得出误差最小的参数a和b₁、b₂、......b_k。

Y＝1/(1+a*exp(b₁*x₁+b₂*x₂+…+b_k*x_k))

潜在用户预测：利用上述训练出的逻辑回归分类器，就可以针对预先选取的品类潜在用户进行预测，同样加工出这部分待预测的潜在用户的同样的特征集，输入至训练好的分类器中，分类器会自动输出各用户即将产生购买行为的概率。该概率介于0至1，值越大说明潜力越大，反之越小。根据品类用户的潜力值大小就可以进行精准的用户营销。

表2

●沉默用户

本公开的实施例针对用户最后一次下单均在一年以前，近期并不活跃的沉默用户，希望可以通过合理的营销，唤醒沉默用户并刺激其产生购买行为。因此，利用优惠券进行刺激是一种行之有效的方式，通过给这部分沉默用户发放合适优惠力度的优惠券将会唤醒一部分即将流失的用户，本公开的实施例就对这部分沉默用户的优惠券敏感度进行预测，这样业务运营人员就可以选取对优惠券高敏感的用户进行优惠券的投放，以便尽最大可能的拉取最有可能购买的用户进行复购。根据确定出的沉默用户的操作数据和预先设定的分类器训练分类器生成用于对沉默用户进行再次分类的分类器可以包括但不限于以下步骤：

训练样本的选取：本公开的实施例选取预设时间段内的沉默用户，若这部分沉默用户使用优惠券产生了品类的购买行为，则样本标记为1，若没有使用优惠券产生购买行为则标记为0。

特征集的加工：训练集的用户选取好之后，就需要看这部分用户的哪些特征表现对样本标记起着关键性的作用。从用户群中确定出属于潜在沉默用户类型的沉默用户，从用户群针对指定品类的第二操作数据中提取属于沉默用户的操作数据作为特征集，操作数据可以包括但不限于潜在用户的浏览类、加入购物车类、搜索类、关注类、购买类、优惠券使用类等维度，如表3所示。

回归分类器的训练：将上述选取的样本及特征输入到逻辑回归分类器中进行训练，输入的特征即作为自变量X，样本标记作为因变量Y，这样就构建了逻辑回归方程，经过分类器训练，可以得出误差最小的参数a和b₁、b₂、......b_k。

Y＝1/(1+a*exp(b₁*x₁+b₂*x₂+…+b_k*x_k))

沉默用户券敏感度的预测：利用上述训练出的逻辑回归分类器，就可以针对预先选取的品类沉默用户进行优惠券敏感度的预测，同样加工出这部分待预测的沉默用户的同样的特征集，输入至训练好的分类器中，分类器会自动输出各用户对券的敏感概率。该概率介于0至1，值越大说明越敏感，反之越不敏感。根据沉默用户对券敏感度的数值就可以优先选取高度敏感的用户进行优惠券的营销。

通过本公开的实施例，除了对活跃用户进行分类，还对非活跃用户进行分类，将针对指定品类的所有用户纳入分类，覆盖了品类用户的全生命周期，因为利用非活跃用户的分类器对非活跃用户进行分类，而分类器可以根据非活跃用户的多维操作数据和预先设定的训练算法生成，因此，一方面能在多维度上实现对非活跃用户的分类，另一方面通过分类器对非活跃用户进行分类，可以根据分类器的效果进行优化调整，使分类器更精准有效，实现用户精细化分类的技术效果。

表3

图4示意性示出了根据本公开实施例的数据处理结果的示意图。

如图4所示，本公开的实施例，根据获取的用户群针对品类的操数据，将各用户的用户类型分为活跃用户和非活跃用户，其中，非活跃用户可以包括潜在用户、沉默用户。在此基础上，选择与用户类型相对应的分类器，将用户对指定品类的操作数据输入至相应的分类器，预测用户对指定品类执行特定操作的意向。

例如，利用聚类分类器预测活跃用户的价值等级，以V1、V2、V3、V4四个等级的用户价值预测结果为例，V4级别最高，V1级别最低，结合实际应用场景，可以预测各等级用户对指定品类执行购买行为的意向。利用逻辑回归模型分类器预测潜在用户产生品类购买行为的概率，以便运营人员精准的选取用户进行营销，在营销资源有限的情况下，更有针对性的选取潜力较高的用户进行合理的营销。利用逻辑回归模型分类器预测沉默用户对优惠券的敏感程度，运营人员可以选取对优惠券高度敏感的用户进行优惠券的投放，以便最大可能的刺激其进行购买，通过优惠券唤醒部分即将流失的用户，达到提升品类销售金额的目的。

需要说明的是，为了便于各应用场景使用分类结果，本公开的实施例将预测得到的各用户所对应的用户类型及再次分类的结果加工成规范化的hive数据表，存储在hdfs文件系统中，可通过数据库系统直接调用，或者以API接口的方式推送给业务应用方使用。

图5示意性示出了根据本公开实施例的数据处理系统的框图。

如图5所示，该数据处理系统500可以包括第一获取模块510、第一确定模块520、第一选择模块530、预测模块540。

第一获取模块510获取目标用户针对指定品类的第一操作数据，其中，第一操作数据至少反映目标用户的用户类型。

第一确定模块520用于根据第一操作数据确定目标用户的用户类型。

第一选择模块530根据目标用户的用户类型，选择对应的分类器。

预测模块540用于将第一操作数据输入至分类器，以预测目标用户对指定品类执行特定操作的意向。

通过本公开的实施例，需要说明的是，目标用户可以是任意指定的用户，可以是对指定品类执行登录、浏览、加购、购买、晒单、评价等操作行为中的一种或多种操作行为的用户，在此不做限定。

下面参考图6A～图6D，结合具体实施例对图5所示的数据处理系统做进一步说明。

图6A示意性示出了根据本公开实施例的第一确定模块的框图。

如图6A所示，该第一确定模块520可以包括第一确定单元611、第二确定单元612。

第一确定单元611用于根据第一操作数据确定目标用户在预设时间段内的操作行为。

第二确定单元612用于根据操作行为确定目标用户的用户类型。

图6B示意性示出了根据本公开另一实施例的数据处理系统的框图。

如图6B所示，该数据处理系统500还可以包括第二获取模块621、第二确定模块622、第二选择模块623、生成模块624。

第二获取模块621用于获取用户群针对指定品类的第二操作数据，其中，第二操作数据至少反映用户群中各用户的用户类型。

第二确定模块622用于根据第二操作数据确定用户群中各用户的用户类型。

第二选择模块623用于根据用户类型选择对应的分类器生成规则。

生成模块624用于根据第二操作数据和分类器生成规则生成各用户类型对应的分类器。

图6C示意性示出了根据本公开实施例的生成模块的框图。

如图6C所示，该生成模块624可以包括第三确定单元631、第一提取单元632、第一生成单元633。

第三确定单元631用于从用户群中确定出属于活跃用户类型的活跃用户。

第一提取单元632用于从第二操作数据中提取属于活跃用户的操作数据。

第一生成单元633用于根据确定出的活跃用户的操作数据和预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器。

根据本公开的实施例，生成模块还用于在从第二操作数据中提取属于活跃用户的操作数据之后，对活跃用户的操作数据进行标准化处理，得到标准化后的操作数据；以及第一生成单元还用于按照预先设定的聚类算法对标准化后的操作数据进行聚类处理，得到用于对活跃用户进行再次分类的分类器。

图6D示意性示出了根据本公开另一实施例的生成模块的框图。

如图6C所示，该生成模块624可以包括第四确定单元641、第二提取单元642、第二生成单元643。

第四确定单元641用于从用户群中确定出属于非活跃用户类型的非活跃用户。

第二提取单元642用于从第二操作数据中提取属于非活跃用户的操作数据。

第二生成单元643用于根据确定出的非活跃用户的操作数据和预先设定的分类器训练模型生成用于对非活跃用户进行再次分类的分类器。

需要说明的是，本公开实施例的数据处理方法与数据处理系统是相对应的，对于该数据处理系统的描述可以参考根据本公开实施例的数据处理方法的描述，在此不再赘述。

根据本公开的实施例，提供了一种非易失性存储介质，存储有计算机可执行指令，指令在被处理器执行时用于实现如上的数据处理方法。

根据本公开的实施例，提供了一种数据处理系统，包括：存储器，用于存储计算机可执行指令；以及处理器，用于执行指令以实现如上的数据处理方法。

图7示意性示出了根据本公开实施例的适于实现数据处理方法及其系统的计算机系统的框图。图7示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，根据本公开实施例的计算机系统700包括处理器701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行参考图2～图3D描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 703中，存储有系统700操作所需的各种程序和数据。处理器701、ROM 702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行以上参考图2～图3D描述的数据处理的各种操作。需要注意，程序也可以存储在除ROM702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在一个或多个存储器中的程序来执行以上参考图2～图3D描述的数据处理的各种操作。

根据本公开的实施例，系统700还可以包括输入/输出(I/O)接口705，输入/输出(I/O)接口705也连接至总线704。系统700还可以包括连接至I/O接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本公开的实施例，上文参考流程图描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。根据本公开的实施例，计算机可读介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行上述任一项数据处理方法。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种数据处理方法，包括：

获取目标用户针对指定品类的第一操作数据，其中，所述第一操作数据至少反映所述目标用户的用户类型；

根据所述第一操作数据确定所述目标用户的用户类型；

根据所述目标用户的用户类型，选择对应的分类器；以及

将所述第一操作数据输入至所述分类器，以预测所述目标用户对所述指定品类执行特定操作的意向。

2.根据权利要求1所述的方法，其中，根据所述第一操作数据确定所述目标用户的用户类型包括：

根据所述第一操作数据确定所述目标用户在预设时间段内的操作行为；以及

根据所述操作行为确定所述目标用户的用户类型。

3.根据权利要求1所述的方法，其中，所述方法还包括：

获取用户群针对所述指定品类的第二操作数据，其中，所述第二操作数据至少反映用户群中各用户的用户类型；

根据所述第二操作数据确定所述用户群中各用户的用户类型；

根据用户类型选择对应的分类器生成规则；以及

根据所述第二操作数据和所述分类器生成规则生成各用户类型对应的分类器。

4.根据权利要求3所述的方法，其中：

所述用户群中各用户的用户类型至少包括活跃用户类型；

所述根据用户类型选择对应的分类器生成规则包括根据所述活跃用户类型选择预先设定的聚类算法；

所述根据所述第二操作数据和所述分类器生成规则生成各用户类型对应的分类器包括：

从所述用户群中确定出属于所述活跃用户类型的活跃用户；

从所述第二操作数据中提取属于所述活跃用户的操作数据；以及

根据确定出的所述活跃用户的操作数据和所述预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器。

5.根据权利要求4所述的方法，其中：

所述根据所述第二操作数据和所述分类器生成规则生成各用户类型对应的分类器还包括，在从所述第二操作数据中提取属于所述活跃用户的操作数据之后，对所述活跃用户的操作数据进行标准化处理，得到标准化后的操作数据；以及

根据确定出的所述活跃用户的操作数据和所述预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器包括：按照所述预先设定的聚类算法对标准化后的操作数据进行聚类处理，得到所述用于对活跃用户进行再次分类的分类器。

6.根据权利要求3所述的方法，其中：

所述用户群中各用户的用户类型至少包括非活跃用户类型；

所述根据用户类型选择对应的分类器生成规则包括根据所述非活跃用户类型选择预先设定的分类器训练分类器；

从所述用户群中确定出属于所述非活跃用户类型的非活跃用户；

从所述第二操作数据中提取属于所述非活跃用户的操作数据；以及

根据确定出的所述非活跃用户的操作数据和所述预先设定的分类器训练分类器生成用于对非活跃用户进行再次分类的分类器。

7.一种数据处理系统，包括：

第一获取模块，用于获取目标用户针对指定品类的第一操作数据，其中，所述第一操作数据至少反映所述目标用户的用户类型；

第一确定模块，用于根据所述第一操作数据确定所述目标用户的用户类型；

第一选择模块，用于根据所述目标用户的用户类型，选择对应的分类器；以及

预测模块，用于将所述第一操作数据输入至所述分类器，以预测所述目标用户对所述指定品类执行特定操作的意向。

8.根据权利要求7所述的系统，其中，所述第一确定模块包括：

第一确定单元，用于根据所述第一操作数据确定所述目标用户在预设时间段内的操作行为；以及

第二确定单元，用于根据所述操作行为确定所述目标用户的用户类型。

9.根据权利要求7所述的系统，其中，所述系统还包括：

第二获取模块，用于获取用户群针对所述指定品类的第二操作数据，其中，所述第二操作数据至少反映用户群中各用户的用户类型；

第二确定模块，用于根据所述第二操作数据确定所述用户群中各用户的用户类型；

第二选择模块，用于根据用户类型选择对应的分类器生成规则；以及

生成模块，用于根据所述第二操作数据和所述分类器生成规则生成各用户类型对应的分类器。

10.根据权利要求9所述的系统，其中：

所述第二选择模块还用于根据所述活跃用户类型选择预先设定的聚类算法；

所述生成模块包括：

第三确定单元，用于从所述用户群中确定出属于所述活跃用户类型的活跃用户；

第一提取单元，用于从所述第二操作数据中提取属于所述活跃用户的操作数据；以及

第一生成单元，用于根据确定出的所述活跃用户的操作数据和所述预先设定的聚类算法生成用于对活跃用户进行再次分类的分类器。

11.根据权利要求10所述的系统，其中：

生成模块还用于在从所述第二操作数据中提取属于所述活跃用户的操作数据之后，对所述活跃用户的操作数据进行标准化处理，得到标准化后的操作数据；以及

第一生成单元还用于按照所述预先设定的聚类算法对标准化后的操作数据进行聚类处理，得到所述用于对活跃用户进行再次分类的分类器。

12.根据权利要求9所述的系统，其中：

所述第二选择模块还用于根据所述非活跃用户类型选择预先设定的分类器训练分类器；

所述生成模块包括：

第四确定单元，用于从所述用户群中确定出属于所述非活跃用户类型的非活跃用户；

第二提取单元，用于从所述第二操作数据中提取属于所述非活跃用户的操作数据；以及

第二生成单元，用于根据确定出的所述非活跃用户的操作数据和所述预先设定的分类器训练分类器生成用于对非活跃用户进行再次分类的分类器。

13.一种非易失性存储介质，存储有计算机可执行指令，所述指令在被处理器执行时用于实现权利要求1至6中任一项所述的数据处理方法。

14.一种数据处理系统，包括：

存储器，用于存储计算机可执行指令；以及

处理器，用于执行所述指令以实现权利要求1至6中任一项所述的数据处理方法。