CN117290616A

CN117290616A - 用户分类方法、装置、设备及介质

Info

Publication number: CN117290616A
Application number: CN202210671014.0A
Authority: CN
Inventors: 赵辰茜; 丁长林; 刘昊; 陈兰欢
Original assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2023-12-26

Abstract

本发明实施例公开了一种用户分类方法、装置、设备及介质，涉及人工智能技术领域，该用户分类方法包括：获取用户的发单量历史数据；将所述发单量历史数据输入预先训练的用户分类模型，得到所述用户的分类结果；所述分类结果表征所述用户的发单量所符合的发单周期，所述用户分类模型基于反映所述发单周期的特征信息进行分类，所述特征信息至少包括第一周期特征信息和第二周期特征信息，所述第一周期特征信息是反映用户年度发单周期的特征信息，所述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

Description

用户分类方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种用户分类方法、装置、设备及介质。

背景技术

随着人工智能技术的广泛应用，通常采用上周、上个月、去年今日以及同环比来描述用户历史单量的变化规律，从而识别潜在用户。

在实现本发明的过程中，发明人发现相关技术中至少存在如下技术问题：对于发单季节性较强的用户，例如，几乎只在每年的特定一两个月发单，其余月份单量几乎为零，根据上述技术若提取特征时恰好在其高频发单周期，会导致用户被识别为高潜，而若在发单量较少的月份，则会导致用户被识别为流失。因此，相关技术中提取的特征难以很好地描述用户发单周期性，缺少能准确描述客户发单周期性的相关信息，使得属于周期发单类型的用户被误识别，无法准确的识别用户的发单周期，从而无法准确对周期性发单的用户进行分类。

发明内容

第一方面，本发明的实施例提供了一种用户分类方法，该方法包括：获取用户的发单量历史数据；将上述发单量历史数据输入预先训练的用户分类模型，得到上述用户的分类结果；上述分类结果表征上述用户的发单量所符合的发单周期，上述用户分类模型基于反映上述发单周期的特征信息进行分类，上述特征信息至少包括第一周期特征信息和第二周期特征信息，上述第一周期特征信息是反映用户年度发单周期的特征信息，上述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

根据本发明的实施例，上述用户分类模型通过如下步骤训练得到：基于上述用户的发单量历史数据，分别确定发单量的第一周期特征信息、第二周期特征信息和时空特征信息；基于发单量的上述第一周期特征信息、上述第二周期特征信息和上述时空特征信息，对上述用户分类模型进行训练。

根据本发明的实施例，上述发单量历史数据包括距当前时间至少两个年度内的历史发单量，上述基于用户的发单量历史数据，确定发单量的第一周期特征信息包括：根据用户在上述至少两个年度内的历史发单量，对上述用户进行筛选，得到目标用户；基于上述目标用户在上述至少两个年度内的历史发单量，确定发单量的第一周期特征信息。

根据本发明的实施例，每个上述年度内的历史发单量包括连续12个月的历史发单量，上述根据用户在上述至少两个年度内的历史发单量，对上述用户进行筛选，得到目标用户，包括：计算上述用户在每一年度内指定月份的发单量之和，从上述用户中剔除在任一年度上述指定月份的发单量之和小于预设的第一阈值的用户；针对剔除后剩余的每一用户，计算其每一年度的候选月份发单量之和与该年度总发单量的比值；其中，上述候选月份为按照发单量由大到小的顺序，从上述用户在每一年度的上述指定月份中选取发单量排在前K位的月份，其中K为正整数；将上述至少两个年度中连续两个年度对应的上述比值均超过预设的第二阈值的用户作为保留用户；针对每一保留用户，将不同年度的候选月份中月份相同的数量作为第一数量，在上述第一数量超过预设的第三阈值的情况下，将该保留用户作为目标用户。

根据本发明的实施例，上述基于上述目标用户在上述至少两个年度内的历史发单量，确定发单量的第一周期特征信息，包括：针对每一目标用户，基于该目标用户在上述至少两个年度内的历史发单量，确定该目标用户在每一年度的候选月份和该目标用户的第一数量；将上述目标用户在各年度的候选月份的数量、上述候选月份的发单量占所属年度总发单量的比例和上述第一数量确定为发单量的第一周期特征信息。

根据本发明的实施例，以连续N个自然日作为一个切片，N为正整数，上述发单量历史数据包括距当前时间多个切片内每一天的历史发单量，上述基于用户的发单量历史数据，确定发单量的第二周期特征信息包括：针对每一切片，以该切片内每一天的发单量作为该切片的单量序列；针对每一用户，计算上述多个切片中任意两个切片的单量序列之间的相似度，将上述相似度平均值作为该用户的发单量的第二周期特征信息；将上述用户的相似度平均值作为发单量的第二周期特征信息。

根据本发明的实施例，在针对每一用户，计算上述多个切片中任意两个切片的单量序列之间的相似度之前，上述方法还包括：计算上述切片内每一天的发单量之和，作为上述切片的总发单量；从上述多个切片中剔除上述总发单量小于上述多个切片的总发单量平均值的切片。

根据本发明的实施例，上述相似度包括Pearson相关系数和DTW距离，上述计算上述多个切片中任意两个切片的单量序列之间的相似度，将上述相似度平均值作为该用户的发单量的第二周期特征信息，包括：将上述多个切片的单量序列归一化；计算上述多个切片中任意两个切片的单量序列之间的Pearson相关系数和DTW距离；将上述Pearson相关系数的平均值和上述DTW距离的平均值作为该用户的发单量的第二周期特征信息。

根据本发明的实施例，上述基于用户的发单量历史数据确定发单量的时空特征信息，包括：将上述用户的发单量历史数据输入至预设神经网络进行特征提取，以得到上述发单量的时空特征信息。

根据本发明的实施例，上述预设神经网络包括CNN-LSTM时空网络。

根据本发明的实施例，上述用户分类模型包括LR模型、GBDT模型和SVM模型。

第二方面，本发明的实施例提供了一种用户分类装置，上述装置包括：获取模块，用于获取用户的发单量历史数据；分类模块，用于将上述发单量历史数据输入预先训练的用户分类模型，得到上述用户的分类结果；上述分类结果表征上述用户的发单量所符合的发单周期，上述用户分类模型基于反映上述发单周期的特征信息进行分类，上述特征信息至少包括第一周期特征信息和第二周期特征信息，上述第一周期特征信息是反映用户年度发单周期的特征信息，上述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

第三方面，本发明的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的方法。

第四方面，本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的方法。

本发明实施例提供的上述技术方案与相关技术相比至少具有如下优点的部分或全部：根据本发明实施例的用户分类方法，通过基于反映发单周期的特征信息进行分类的用户分类模型，以用户的发单量历史数据为输入进行用户分类，发单周期的特征信息反映用户不同的发单周期，从而使得通过该用户分类方法能够准确地识别用户的发单周期，解决了相关技术缺少能准确描述客户发单周期性的相关信息，难以很好地描述用户发单周期性，使得属于周期发单类型的用户被误识别的技术问题，进而准确地对周期性发单的用户进行分类。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出适用于本发明实施例的用户分类方法及装置的系统架构；

图2示意性示出了根据本发明一实施例的用户分类方法的流程图；

图3示意性示出了根据本发明一实施例的用户分类方法中基于所述用户的发单量历史数据确定发单量的第一周期特征信息的步骤的详细实施流程图；

图4示意性示出了根据本发明一实施例的操作S301的详细实施流程图；

图5示意性示出了根据本发明另一实施例的用户分类方法中基于所述用户的发单量历史数据确定发单量的第二周期特征信息的操作的详细实施流程图；

图6示意性示出了根据本发明又一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图；

图7示意性示出了根据本发明一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图；

图8示意性示出了根据本发明另一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图；

图9示意性示出了根据本发明又一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图；

图10示意性示出了根据本发明一实施例的用户分类装置的结构框图；

图11示意性示出了本发明实施例提供的电子设备的结构框图。

具体实施方式

在应用人工智能技术在电子商务领域进行用户分类的分析等应用中，相关技术中通常采用上周、上个月、去年今日以及同环比的特征来描述用户历史单量的变化规律，从而识别潜在用户。以上述传统方法所提取的特征尽管在一定程度上可以描述用户的历史单量，但与用户发单周期性有关的信息较少，因而可能会导致一部分属于周期发单类的用户在传统的流失、挖潜、舆情等模型中被误识别。

对于发单季节性较强的用户，例如，几乎只在每年的特定一两个月发单，其余月份单量几乎为零，根据上述技术若提取特征时恰好在其高频发单周期，会导致用户被识别为高潜，而若在发单量较少的月份，则会导致用户被识别为流失。某些售卖当季水果的商家几乎只在每年的特定一两个月发单，而在其余月份单量近似为0，如果仅根据已有特征，可能会被模型识别为流失，又如，一些刚好在前几个月发单量较少的用户，在当月恰好到达其高频发单周期，具有较高增单量，因而会被模型识别为高潜用户。

因此，相关技术的方法中缺少能准确描述客户发单周期性的相关信息，使得属于周期发单类型的用户被误识别，无法准确的识别用户的发单周期，从而无法准确对周期性发单的用户进行分类。

有鉴于此，本发明的实施例提供了一种用户分类方法，该方法包括：获取用户的发单量历史数据；将上述发单量历史数据输入预先训练的用户分类模型，得到上述用户的分类结果；上述分类结果表征上述用户的发单量所符合的发单周期，上述用户分类模型基于反映上述发单周期的特征信息进行分类，上述特征信息至少包括第一周期特征信息和第二周期特征信息，上述第一周期特征信息是反映用户年度发单周期的特征信息，上述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示意性示出了适用于本发明实施例的用户分类方法及装置的系统架构。

参照图1所示，适用于本发明实施例的用户分类方法及装置的系统架构100包括：终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。发送的消息可以是查询信息，接收的消息可以是查询结果。终端设备101、102、103上可以安装有各类通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是显示屏并且支持网页浏览的各种电子设备，例如电子设备包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103访问的网页进行数据处理提供服务支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的访问请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息或数据等)反馈给终端设备。可选的，服务器105可以接收用户利用终端设备101、102、103发送的发单量数据，服务器105可以是云端服务器。服务器可以执行用户分类方法，服务器还可以将用户分类结果反馈至终端设备。

需要说明的是，本发明实施例提供的用户分类方法的执行主体可以是服务器、台式电脑、笔记本电脑、智能手机、平板电脑等电子设备，例如，图1中的终端设备或服务器可以通过有线方式或无线方式、从远程或从本地获取发单量数据。本发明实施例所提供的用户分类方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。

相应地，本发明实施例所提供的用户分类装置一般可以设置于服务器105中或上述具有一定运算能力的终端设备中，还可以由服务器和终端设备彼此配合执行。相应地，本发明实施例所提供的用户分类装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。用户分类装置包括的各个部分(例如各个单元、模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本发明的一个示例性实施例提供了一种用户分类方法。

参照图2所示，本发明实施例提供的用户分类方法，包括以下操作：S202、S204。上述操作S202～S204可以由服务器或具有一定运算能力的终端设备执行。

在操作S202，获取用户的发单量历史数据。

在操作S204，将所述发单量历史数据输入预先训练的用户分类模型，得到所述用户的分类结果；所述分类结果表征所述用户的发单量所符合的发单周期，所述用户分类模型基于反映所述发单周期的特征信息进行分类，所述特征信息至少包括第一周期特征信息和第二周期特征信息，所述第一周期特征信息是反映用户年度发单周期的特征信息，所述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

具体的，用户的发单量历史数据可以包括许多用户历史的发单数据，例如，历史上每天的发单数量(如交易数量、成单量、发货订单量等数据)，可以根据所需要的数据，提取、选取特定时间段内的历史发单信息。分类结果可以表征用户发单量所符合的发单周期，也可以理解为能够表征用户是否为周期性用户，预先训练的用户分类模型可以基于反映所述发单周期的特征信息进行分类。特征信息至少包括第一周期特征信息和第二周期特征信息，上述第一周期特征信息是反映用户年度发单周期的特征信息，上述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息，例如，某些用户会有较短的发单周期，比如周度、月度、季度。

上述第一周期特征信息是反映用户年度发单周期的特征信息，基于第一周期特征可以确定用户发单量是否符合年度周期用户的规则，从而可以确定符合的用户是属于年度周期用户这一分类的。此外，上述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息，例如，某些用户会有较短的发单周期，比如周度、月度、季度。上述时空特征信息可以通过时空网络进行提取，例如，传统的CNN网络可较好提取局部的空间特征，而LSTM网络适合处理时序数据，提取其中有关的时序特征，因此，采用CNN-LSTM网络，可以作为时空网络同时提取这两部分特征。

基于上述操作，根据本发明实施例的用户分类方法，通过基于反映发单周期的特征信息进行分类的用户分类模型，以用户的发单量历史数据为输入进行用户分类，发单周期的特征信息反映用户不同的发单周期，从而使得通过该用户分类方法能够准确地识别用户的发单周期，解决了相关技术缺少能准确描述客户发单周期性的相关信息，难以很好地描述用户发单周期性，使得属于周期发单类型的用户被误识别的技术问题，进而准确地对周期性发单的用户进行分类。

本发明的另一示例性实施例提供了一种用户分类方法，其中，用户分类模型通过如下步骤训练得到：基于所述用户的发单量历史数据，分别确定发单量的第一周期特征信息、第二周期特征信息和时空特征信息；基于发单量的所述第一周期特征信息、所述第二周期特征信息和所述时空特征信息，对所述用户分类模型进行训练。

具体的，用户分类模型可以是LR(Logistic Regression，逻辑回归)模型、SVM(Support Vector Machine，支持向量机)、GBDT(Gradient Boosting Decision Tree，梯度提升迭代决策树)模型等机器学习模型中的一种。在一些可选的实施方式中，可以采用具有可解释、训练稳定的优点的GBDT模型。

基于上述操作，用户分类模型可以分别确定发单量的第一周期特征信息、第二周期特征信息和时空特征信息，以反映不同发单周期的特征，并且基于上述特征信息对用户分类模型进行训练，从而使得用户分类模型能够准确地识别用户的发单周期，有效避免了属于周期发单类型的用户被误识别的问题，进而有效提高对不同发单周期用户的准确识别，极大提升了拟合度与准召率。

图3示意性示出了根据本发明一实施例的用户分类方法中基于所述用户的发单量历史数据确定发单量的第一周期特征信息的步骤的详细实施流程图。

其中，每个所述年度内的历史发单量包括连续12个月的历史发单量，上述发单量历史数据包括距当前时间至少两个年度内的历史发单量，基于用户的发单量历史数据，确定发单量的第一周期特征信息可以实施为包括操作S301、S302。

在操作S301，根据用户在上述至少两个年度内的历史发单量，对上述用户进行筛选，得到目标用户；

在操作S302，基于上述目标用户在上述至少两个年度内的历史发单量，确定发单量的第一周期特征信息。

示例性的，基于已获取的用户的发单量历史数据，可以确定距离当前时间至少两个年度的发单数据，年度为相对年，以当前时间为2021年9月1日，那么距离当前时间两个相对年是：2019年9月1日至2020年8月31日、2020年9月1日至2021年8月31日。

结合图3，通过操作S301，基于用户在上述至少两个年度内的历史发单量，对用户进行筛选，过滤掉一部分用户，得到目标用户，通过操作S302，根据目标用户的至少两个年度内的历史发单量，确定发单量的第一周期特征信息。

图4示意性示出了根据本发明一实施例的操作S301的详细实施流程图。

参照图4所示，上述操作S301可以实施为S401、S402、S403和S404，每个上述年度内的历史发单量包括连续12个月的历史发单量。

在操作S401，计算上述用户在每一年度内指定月份的发单量之和，从上述用户中剔除在任一年度上述指定月份的发单量之和小于预设的第一阈值的用户；

在操作S402，针对剔除后剩余的每一用户，计算其每一年度的候选月份发单量之和与该年度总发单量的比值；其中，上述候选月份为按照发单量由大到小的顺序，从上述用户在每一年度的上述指定月份中选取发单量排在前K位的月份，其中K为正整数；

在操作S403，将上述至少两个年度中连续两个年度对应的上述比值均超过预设的第二阈值的用户作为保留用户；

在操作S404，针对每一保留用户，将不同年度的候选月份中月份相同的数量作为第一数量，在上述第一数量超过预设的第三阈值的情况下，将该保留用户作为目标用户。

以距离当前时间两个年度为例，在操作S301，该近两个年度的历史发单量，包括近两年每天、每月的发单量，每个年度的发单量包括连续12个月的历史发单量，基于这些历史数据，在操作S401，可以确定用户在每一年度内指定月份的发单量之和，从上述用户中剔除在任一年度上述指定月份的发单量之和小于预设的第一阈值的用户。

每个年度的指定月份可以是1、2、3、4、5、7、8、9、10和12月，除指定月份之外的月份为6和11月。第一阈值可以根据实际需求进行设置，例如10、20、50等数值。示例性的，该步骤可以实施为，统计用户近24个月(近两年)的月单量数据，去除每个相对年单量除大6、11月以外(指定月份)和小于10(第一阈值)的用户。

在一些可能的实施方式中，结合上述示例，年度发单用户的周期性可能呈现为在6、11月发单量很大，例如该6、11月为大促月份，交易量巨大使得用户的发单量增量极大，而在其他10个月份中订单几乎为0，那么对除大促月6月和11月以外的月份(指定月份)的单量之和小于10(第一阈值)的用户进行剔除则可以很好地进行筛选，去除不符合该年度发单周期规则的用户，例如每月固定发单月100件的用户会被剔除。

通过操作S402，针对上述操作中经剔除后剩余的每一用户，计算其每一年度的候选月份发单量之和与该年度总发单量的比值。示例性的，以该年度覆盖的12个连续的月份为1～12月、K＝3为例，上述操作可以实施为，从上述用户在每一年度的上述指定月份(1、2、3、4、5、7、8、9、10和12月)中选取发单量排在前3位的月份，即，TOP3单量月份，以TOP3单量为3、2、1为例，满足TOP3单量的月份有：1月份单量为3、2月份单量为2、3月份单量为1、4月份单量为1，即该四个月份为发单量排在前3位的月份。然后，分别计算1、2、3、4月各自的月单量与该年度总单量的比值，该年度总单量为1～12月份单量之和。

可选的，上述操作还可以实施为，从上述用户在每一年度的上述指定月份(1、2、3、4、5、7、8、9、10和12月)中选取发单量排在前3位的单量非0的月份，1月份单量为3、2月份单量为2、3月份单量为1，4、5、7、8、9、10和12月的单量均为0，以K＝2为例，选取单量TOP2的月份为候选月份，那么，非0月份为1、2、3月，单量TOP2月份为1、2月，即候选月份为1、2月。然后，分别计算1、2月各自的月单量与该年度总单量的比值。

通过操作S403，将上述至少两个年度中连续两个年度对应的上述比值均超过预设的第二阈值的用户作为保留用户。示例性的，该第二阈值为比值，可以是90％、80％等。以90％为例，基于前述操作，若一用户满足其在连续两个相对年中每一年的上述比例均超过90％(第二阈值)，例如，连续两年分别为92％、95％，那么该用户可以作为保留用户。

通过操作S404，针对每一保留用户，将不同年度的候选月份中月份相同的数量作为第一数量，在上述第一数量超过预设的第三阈值的情况下，将该保留用户作为目标用户。可选的，第三阈值可根据需求进行灵活地调整和设定，例如第三阈值2、3、4等数值。

示例性的，假设当前时间为2021年9月1日，那么近两个相对年分别是：年度一(2019年9月1日至2020年8月31日)，年度二(2020年9月1日至2021年8月31日)，年度一的保留月份为2021年的2、3、4、5月，年度二的保留月份为2020年11月和2021年2、3、5月，以第三阈值为2为例，那么年度一与年度二的保留月份中包含了2021年2、3、5月这三个相同月份，因此第一数量为3，超过第二阈值，则该保留用户作为目标用户。

基于上述操作，通过一系列操作对用户进行过滤、筛选，确定目标用户，从而准确筛选出属于年度周期发单类型的用户，其中，通过在操作S401计算用户在每一年度内指定月份的发单量之和，计算并未包括指定月份之外的月，实现了剔除特殊月份(例如，在实际应用中可以将其设置为大促月)，使得数据更合理，从而拉齐对特殊月份敏感、不敏感的用户的数据。

可选的，上述基于上述目标用户在上述至少两个年度内的历史发单量，确定发单量的第一周期特征信息，包括如下操作：针对每一目标用户，基于该目标用户在上述至少两个年度内的历史发单量，确定该目标用户在每一年度的候选月份和该目标用户的第一数量；将上述目标用户在各年度的候选月份的数量、上述候选月份的发单量占所属年度总发单量的比例和上述第一数量确定为发单量的第一周期特征信息。

示例性的，在通过操作S401～S404得到目标用户之后，可以确定发单量的第一周期特征信息，即，输出反映用户年度周期的特征，以K＝3为例，可以将每一年度的候选月份(近一年top3单量月份个数、前一年top3单量月份个数)、第一数量(两年相同的top3单量对应月份个数)、候选月份的发单量占所属年度总发单量的比例(近两年top3月份分别占对应年总单量的比例，每年输出3个比值，共计6个)确定为发单量的第一周期特征信息。

基于上述操作，根据本发明实施例的用户分类方法中，基于用户的发单量历史数据，可以确定发单量的第一周期特征信息，基于上述特征信息对训练得到用户分类模型后使得用户分类方法能够准确地识别用户的发单周期，解决了相关技术缺少能准确描述客户发单周期性的相关信息，难以很好地描述用户发单周期性，使得属于周期发单类型的用户被误识别的技术问题，进而准确地对周期性发单的用户进行分类。通过将传统按年计算的规则，变为按月度滑窗，可以实现可按月进行迭代，计算至少近24个月(两个相对年)内用户发单量是否符合年度周期用户规则，实现了对年度发单周期用户的准确识别。例如，对于发单季节性较强的用户，其几乎只在每年的特定一两个月发单，其余月份单量几乎为零，第一周期特征信息能够很好地描述用户年度发单周期，从而使得用户分类模型能够准确识别年度发单用户，极大提升了拟合度与准召率。

图5示意性示出了根据本发明另一实施例的用户分类方法中基于所述用户的发单量历史数据确定发单量的第二周期特征信息的操作的详细实施流程图。其中，以连续N个自然日作为一个切片，N为正整数，上述发单量历史数据包括距当前时间多个切片内每一天的历史发单量，基于用户的发单量历史数据确定发单量的第二周期特征信息可以实施为包括操作S501、S502和S503。

在操作S501，针对每一切片，以该切片内每一天的发单量作为该切片的单量序列；

在操作S502，针对每一用户，计算上述多个切片中任意两个切片的单量序列之间的相似度，将上述相似度平均值作为该用户的发单量的第二周期特征信息。

在操作S503，将上述用户的相似度平均值作为发单量的第二周期特征信息。

示例性的，基于已获取的用户的发单量历史数据，可以确定距离当前时间至少多个切片内每一天的历史发单量，N可以是正整数，例如91天、182天等，以N＝91、多个切片为四个切片为例，基于距当前时间向前4个91天切片的发单数据，通过操作S501，可以确定该四个切片的单量序列，例如，其中一个切片的单量序列可以是S1＝[D1,D2........,D91]，Di代表第i天的单量的值，i＝1,2,.......91，从而可以得到四个切片的单量序列S1、S2、S3和S4。通过操作S502，计算该四个切片两两之间的相似度，再通过S503对这些相似度取平均值，作为发单量的第二周期特征信息。

可选的，相似度可以包括Pearson相关系数和DTW距离，皮尔森(pearson)相关系数可以衡量两个时间序列如何随时间共同变化，且可以以数字-1(负相关)、0(不相关)和1(完全相关)表示出它们之间的线性关系。此外，DTW距离，即Dynamic Time Warping动态时间规整，可以通过计算时间序列中每个点对于其他所有点的欧几里得距离欧氏距离，计算出能匹配两个时间序列的最小距离。

以上述示例为例，每一切片为91天，四个切片为364天近似于一个自然年的时长，对切片后的91天单量序列可以两两计算并求均值，反映近一年内用户发单的周期性情况；同时，91为7的倍数，一个季度天数之和多为91，因此一个切片也可以近似于一个季度，从而以这样的切片方式进行计算相当于取4个91天滑动计算，还可以识别多种发单周期，如季度、月度等比年度发单周期短的发单周期。例如，若一用户为季度发单用户，基于四个季度之间的相似度，如每季度的三个月中均为第一个月发单量大其余两月发单量极少，则可以识别该用户的发的周期特征。

图6示意性示出了根据本发明又一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图。

上述相似度包括Pearson相关系数和DTW距离，在操作S502之前，还可以包括如下操作：S601、S602，

在操作S601，计算上述切片内每一天的发单量之和，作为上述切片的总发单量；

在操作S602，从上述多个切片中剔除上述总发单量小于上述多个切片的总发单量平均值的切片。

通过操作S601～S602，对用户的多个切片进行筛选，求各个91天切片的单量和，剔除周期单量(切片的总发单量)小于4个周期单量均值的切片。

可选的，基于前述示例的得到四个切片的单量序列S1、S2、S3和S4上述相似度包括Pearson相关系数和DTW距离。

操作S502还可以被实施为包括操作S603、S604和S605。

在操作S603，将上述多个切片的单量序列归一化；

在操作S604，计算上述多个切片中任意两个切片的单量序列之间的Pearson相关系数和DTW距离；

在操作S605，将上述Pearson相关系数的平均值和上述DTW距离的平均值作为该用户的发单量的第二周期特征信息。

示例性的，在通过操作S601～602筛选后保留的切片中，对每一切片的单量序列进行归一化，然后分别求任意两序列间的Pearson相关系数、DTW距离。对于当前时间来说，向前取多个切片可以得到任意两序列间的Pearson相关系数、DTW距离，对于每一用户的每个自然日，以其中某一天为参照作为当前时间，则可以向该天向前的历史取多个切片，同样可以得到任意两序列间的Pearson相关系数、DTW距离，因此，若以每个用户的某一天为当前时间，可通过上述操作计算求得Pearson相关系数、DTW距离及这两个参数的均值。

在一种可选的实施方式中，在通过操作S601～605得到Pearson相关系数、DTW距离之后，可以确定发单量的第二周期特征信息，即，输出反映用户比年度发单周期短的发单周期的特征，以N＝91为例，可以将剔除后端切片的Pearson相关系数均值、DTW距离均值确定为发单量的第二周期特征信息。

基于上述操作，根据本发明实施例的用户分类方法中，基于用户的发单量历史数据，可以确定发单量的第二周期特征信息，基于上述特征信息对训练得到用户分类模型后使得用户分类方法能够准确地识别用户的发单周期，解决了相关技术缺少能准确描述客户发单周期性的相关信息，难以很好地描述用户发单周期性，使得属于周期发单类型的用户被误识别的技术问题，进而准确地对周期性发单的用户进行分类。第二周期特征信息能够很好地描述用户比年度发单周期短的发单周期，如周度、月度、季度等，从而使得用户分类模型能够准确识别这些周期发单用户，极大提升了拟合度与准召率。

在一种可选的实施方式中，上述基于用户的发单量历史数据确定发单量的时空特征信息，包括：将上述用户的发单量历史数据输入至预设神经网络进行特征提取，以得到上述发单量的时空特征信息。具体的，上述操作可以实施为：将用户的历史单量数据输入到神经网络中，并使用神经网络提取数据特征，提取时间、空间这两部分特征，加入到分类模型中进行训练，可提高模型的拟合度与准召率。

可选的，上述预设神经网络包括CNN-LSTM时空网络。传统的CNN网络可较好提取局部的空间特征，而LSTM网络适合处理时序数据，提取其中有关的时序特征，因此，采用CNN-LSTM网络，可以作为时空网络同时提取这两部分特征。

可选的，上述用户分类模型包括LR模型、GBDT模型和SVM模型。例如，上述提取所得的特征可以加入到GBDT模型中，以进行训练，从而在使用模型进行分类或预测时，能够准确识别不同发单周期用户，极大提升了拟合度与准召率。

图7示意性示出了根据本发明一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图。

结合图7所示，数据提取包括获取用户的发单量历史数据，数据切片包括确定至少两个年度内的历史发单量，每个上述年度内的历史发单量包括连续12个月的历史发单量，以K＝3、第二阈值为90％为例，剔除单量较小的用户，并确定剩余用户的候选月份，从而基于前述操作S401～404筛选出呈现年度周期规律的用户作为目标用户(符合年度周期规律的用户)，并输出目标用户的第一周期特征信息，至少包括目标用户在各年度的候选月份的数量、候选月份的发单量占所属年度总发单量的比例和第一数量，在一种可选的实施方式中，还可以在已输出的上述第一周期特征信息中选择符合预期的或指定维度的信息，从而添加至模型中对用户所属不同发单周期进行分类(预测用户分类)。

结合图8所示，数据提取包括获取用户的发单量历史数据，以N＝91、多个切片为四个切片为例，对每个用户每天取四个切片的单量序列(对每个用户每天取近一年单量序列)，其中一个切片的单量序列可以是由91天每天的单量数据组成(即，每个切片的单量序列可以按照91天切片)，然后，在剔除上述总发单量小于上述多个切片的总发单量平均值的切片之后，对保留的非零周期序列进行归一化，然后分别求任意两序列间的Pearson相关系数、DTW距离，并取均值作为该用户的发单量的第二周期特征信息，从而输出目标用户的第二周期特征信息，还可以在已输出的上述第二周期特征信息中选择符合预期的或指定维度的信息，从而添加至模型中对用户所属不同发单周期进行分类(预测用户分类)，使得可以准确识别用户的多种发单周期，如季度、月度等比年度发单周期短的发单周期。

图9示意性示出了根据本发明又一实施例的用户分类方法中训练得到用户分类模型的详细实施流程图。

结合图9所示，数据提取包括获取用户的发单量历史数据，将用户的单量数据输入至预设神经网络，并通过神经网络提取特征，以用于将特征添加至模型中对用户所属不同发单周期进行分类(预测用户分类)。

具体的，通过上述实施例的用户分类方法中训练得到用户分类模型的详细实施流程，训练得到用户分类模型，可以通过将已获取的用户的发单量历史数据输入模型，进行分类，得到用户所属的周期分类，例如，用户属于年度周期用户、季度周期用户、月度周期用户等，避免了将年度周期用户误识别为流失等误识别情况，从而能够很好地描述用户的发单周期，对用户的周期性特征实现了准确的识别，并有效提高了模型的拟合度与准召率。

在一些可选的实施方式中，还可以利用傅里叶变换对用户单量时间序列进行分解，可分解为多个不同周期正弦序列的叠加作为特征，利用时序差分的统计方法对序列性进行分析，如周期性分析等，从而得到是否为周期用户、用户的发单周期分类等信息。

实施例的用户分类方法中训练得到用户分类模型的详细实施流程结合了规则方法(提取第一周期特征信息)、统计方法(提取第二周期特征信息)与模型(提取时空特征信息)，从用户的历史发单量数据中提取反映周期性的特征，用于添加到已有的流失、挖潜等模型中，更加准确反映数据信息，从而使用训练得到的模型对用户进行分类，能够得到准确的发单周期分类，从而提高模型的准召率。

本发明的另一示例性实施例提供了一种用户分类装置。

图10示意性示出了根据本发明一实施例的用户分类装置的结构框图。

参照图10所示，本发明实施例提供的用于用户分类装置1200，包括获取模块1201和分类模块1202。

获取模块1201，用于获取用户的发单量历史数据；

分类模块1202，用于将所述发单量历史数据输入预先训练的用户分类模型，得到所述用户的分类结果；所述分类结果表征所述用户的发单量所符合的发单周期，所述用户分类模型基于反映所述发单周期的特征信息进行分类，所述特征信息至少包括第一周期特征信息和第二周期特征信息，所述第一周期特征信息是反映用户年度发单周期的特征信息，所述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

本发明实施例提供的用户分类装置，通过基于反映发单周期的特征信息进行分类的用户分类模型，以用户的发单量历史数据为输入进行用户分类，发单周期的特征信息反映用户不同的发单周期，从而使得通过该用户分类方法能够准确地识别用户的发单周期，解决了相关技术缺少能准确描述客户发单周期性的相关信息，难以很好地描述用户发单周期性，使得属于周期发单类型的用户被误识别的技术问题，进而准确地对周期性发单的用户进行分类。

在上述的实施例中，上述获取模块1201和分类模块1202中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。获取模块1201和分类模块1202中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块1201和分类模块1202中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本发明的又一示例性实施例提供了一种电子设备。

参照图11所示，本发明实施例提供的电子设备1300包括处理器1301、通信接口1302、存储器1303和通信总线1304，其中，处理器1301、通信接口1302和存储器1303通过通信总线1304完成相互间的通信；存储器1303，用于存放计算机程序；处理器1301，用于执行存储器上所存放的程序时，实现如上所述的用户分类方法。

本发明的第十一个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的用户分类方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的；也可以是单独存在，而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的用户分类方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户分类方法，其特征在于，包括：

获取用户的发单量历史数据；

将所述发单量历史数据输入预先训练的用户分类模型，得到所述用户的分类结果；所述分类结果表征所述用户的发单量所符合的发单周期，所述用户分类模型基于反映所述发单周期的特征信息进行分类，所述特征信息至少包括第一周期特征信息和第二周期特征信息，所述第一周期特征信息是反映用户年度发单周期的特征信息，所述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

2.根据权利要求1所述的方法，其特征在于，所述用户分类模型通过如下步骤训练得到：

基于所述用户的发单量历史数据，分别确定发单量的第一周期特征信息、第二周期特征信息和时空特征信息；

基于发单量的所述第一周期特征信息、所述第二周期特征信息和所述时空特征信息，对所述用户分类模型进行训练。

3.根据权利要求2所述的方法，其特征在于，所述发单量历史数据包括距当前时间至少两个年度内的历史发单量，所述基于所述用户的发单量历史数据，确定发单量的第一周期特征信息包括：

根据所述用户在所述至少两个年度内的历史发单量，对所述用户进行筛选，得到目标用户；

基于所述目标用户在所述至少两个年度内的历史发单量，确定发单量的第一周期特征信息。

4.根据权利要求3所述的方法，其特征在于，每个所述年度内的历史发单量包括连续12个月的历史发单量，所述根据用户在所述至少两个年度内的历史发单量，对所述用户进行筛选，得到目标用户，包括：

计算所述用户在每一年度内指定月份的发单量之和，从所述用户中剔除在任一年度所述指定月份的发单量之和小于预设的第一阈值的用户；

针对剔除后剩余的每一用户，计算其每一年度的候选月份发单量之和与该年度总发单量的比值；其中，所述候选月份为按照发单量由大到小的顺序，从所述用户在每一年度的所述指定月份中选取发单量排在前K位的月份，其中K为正整数；

将所述至少两个年度中连续两个年度对应的所述比值均超过预设的第二阈值的用户作为保留用户；

针对每一保留用户，将不同年度的候选月份中月份相同的数量作为第一数量，在所述第一数量超过预设的第三阈值的情况下，将该保留用户作为目标用户。

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标用户在所述至少两个年度内的历史发单量，确定发单量的第一周期特征信息，包括：

针对每一目标用户，基于该目标用户在所述至少两个年度内的历史发单量，确定该目标用户在每一年度的候选月份和该目标用户的第一数量；

将所述目标用户在各年度的候选月份的数量、所述候选月份的发单量占所属年度总发单量的比例和所述第一数量确定为发单量的第一周期特征信息。

6.根据权利要求2所述的方法，其特征在于，以连续N个自然日作为一个切片，N为正整数，所述发单量历史数据包括距当前时间多个切片内每一天的历史发单量，所述基于所述用户的发单量历史数据，确定发单量的第二周期特征信息包括：

针对每一切片，以该切片内每一天的发单量作为该切片的单量序列；

针对每一用户，计算所述多个切片中任意两个切片的单量序列之间的相似度，将所述相似度平均值作为该用户的发单量的第二周期特征信息；

将所述用户的相似度平均值作为发单量的第二周期特征信息。

7.根据权利要求6所述的方法，其特征在于，在针对每一用户，计算所述多个切片中任意两个切片的单量序列之间的相似度之前，所述方法还包括：

计算所述切片内每一天的发单量之和，作为所述切片的总发单量；

从所述多个切片中剔除所述总发单量小于所述多个切片的总发单量平均值的切片。

8.根据权利要求6所述的方法，其特征在于，所述相似度包括Pearson相关系数和DTW距离，所述计算所述多个切片中任意两个切片的单量序列之间的相似度，将所述相似度平均值作为该用户的发单量的第二周期特征信息，包括：

将所述多个切片的单量序列归一化；

计算所述多个切片中任意两个切片的单量序列之间的Pearson相关系数和DTW距离；

将所述Pearson相关系数的平均值和所述DTW距离的平均值作为该用户的发单量的第二周期特征信息。

9.根据权利要求2所述的方法，其特征在于，所述基于所述用户的发单量历史数据确定发单量的时空特征信息，包括：

将所述用户的发单量历史数据输入至预设神经网络进行特征提取，以得到所述发单量的时空特征信息。

10.根据权利要求9所述的方法，其特征在于，所述预设神经网络包括CNN-LSTM时空网络。

11.根据权利要求10所述的方法，其特征在于，所述用户分类模型包括LR模型、GBDT模型和SVM模型。

12.一种用户分类装置，其特征在于，所述装置包括：

获取模块，用于获取用户的发单量历史数据；

分类模块，用于将所述发单量历史数据输入预先训练的用户分类模型，得到所述用户的分类结果；所述分类结果表征所述用户的发单量所符合的发单周期，所述用户分类模型基于反映所述发单周期的特征信息进行分类，所述特征信息至少包括第一周期特征信息和第二周期特征信息，所述第一周期特征信息是反映用户年度发单周期的特征信息，所述第二周期特征信息是反映用户比年度发单周期短的发单周期的特征信息。

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至11中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法。