CN112465546B

CN112465546B - 一种用户识别方法、装置及设备

Info

Publication number: CN112465546B
Application number: CN202011346601.XA
Authority: CN
Inventors: 孙晓菲
Original assignee: Ccx Credit Technology Co ltd
Current assignee: Ccx Credit Technology Co ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2024-04-19
Anticipated expiration: 2040-11-26
Also published as: CN112465546A

Abstract

本发明实施例提供了一种用户识别方法、装置及设备，应用于计算机技术领域，其中，用户识别方法可以包括获取待识别用户在预设时长内的历史交易数据；从历史交易数据中获取待识别用户的交易信息时间序列，交易信息时间序列包括多个时间点所对应的交易信息；将交易信息时间序列划分为多个时间序列分段；计算各个时间序列分段之间的相似度；基于相似度，判断待识别用户是否具有周期性；其中，周期性表示用户的交易量在下降后会再回升的特性；当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户，周期性用户为非流失用户。通过本发明实施例提供的用户识别方法、装置及设备，能够提高识别的准确性。

Description

一种用户识别方法、装置及设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种用户识别方法、装置及设备。

背景技术

多个应用领域中，对用户的维护是日常工作中很重要的一部分，而如何有效地识别用户，会对整个维护工作效益的提升产生重大作用，即可以理解，在很多应用领域中，需要对用户进行类别识别，例如：电子商务领域、金融领域等。

对用户进行类型识别的一种实际的应用，就是识别出流失用户或非流失用户。其中，流失用户可以理解为曾经使用过产品或服务等，由于对产品或服务失去兴趣等种种原因，不再使用产品或服务等的用户，即不会再交易的客户。

已有的用户识别方法中，仅通过对待识别用户的历史行为的下降情况来进行识别，例如：获取各个用户对应的交易量；并根据各个用户不同时间的交易量计算下降比例，针对每个用户，将该用户对应的下降比例与预先设置的下降比例阈值进行比较，如果用户对应的下降比例大于该下降比例阈值，则确定该用户为流失用户，其他用户为非流失用户。

但是，用户交易量的下降有可能仅是暂时的，已有的用户识别方法会导致识别的准确性较低。

发明内容

本发明实施例的目的在于提供一种用户识别方法、装置及设备，以提高识别的准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种用户识别方法，包括：

获取待识别用户在预设时长内的历史交易数据；

从历史交易数据中获取待识别用户的交易信息时间序列，所述交易信息时间序列包括多个时间点所对应的交易信息；

将所述交易信息时间序列划分为多个时间序列分段；

计算各个时间序列分段之间的相似度；

基于所述相似度，判断所述待识别用户是否具有周期性；其中，周期性表示用户的交易量和/交易额在下降后会再回升的特性；

当所述待识别用户具有周期性时，将具有周期性的所述待识别用户，确定为周期性用户，所述周期性用户为非流失用户。

可选的，在所述基于所述相似度，判断所述待识别用户是否具有周期性之后，所述方法还包括：

当所述待识别用户不具有周期性时，将不具有周期性的所述待识别用户，确定为流失用户。

可选的，在所述获取待识别用户在预设时长内的历史交易数据之后，所述方法还包括：

针对多个待识别用户，分别计算各个待识别用户在预设时段内交易量的下降比例；

将各个待识别用户对应的下降比例，分别与预设的下降比例阈值进行比较；

当待识别用户对应的下降比例大于所述下降比例阈值，则将所述待识别用户确定为初始流失用户；

在所述当所述待识别用户具有周期性时，将具有周期性的所述待识别用户，确定为周期性用户之后，所述方法还包括：

从所述初始流失用户中排除所述周期性用户，并将所述初始流失用户中排除所述周期性用户后的待识别用户确定为流失用户。

可选的，所述将所述交易信息时间序列划分为多个时间序列分段，包括：

分别按照不同阶数，将所述交易信息时间序列划分为所述阶数对应的初始序列；计算所述阶数对应的初始序列之间的相关系数；

将不同阶数分别对应的相关系数中的最大值所对应的阶数作为划分周期；

根据所述划分周期，将所述交易信息时间序列划分为多个时间序列分段。

可选的，所述计算所述阶数对应的初始序列之间的相关系数，包括：

通过预设公式：计算所述阶数对应的初始序列之间的相关系数；

其中，ρ_k为相关系数，t为所述交易信息时间序列中的序列标号，k为阶数，n为所述交易信息时间序列的长度，z_t、z_t-k为所述交易信息时间序列，为z_t中数值的均值，/>为z_t-k中数值的均值。

可选的，所述计算各个时间序列分段之间的相似度，包括：

从各个时间序列分段中选取一个时间序列分段作为标准时间序列分段；

计算各个时间序列分段中除所述标准时间序列分段之外的其他时间序列分段，分别与所述标准时间序列分段之间的相似度。

可选的，所述基于所述相似度，判断所述待识别用户是否具有周期性，包括：

将所述其他时间序列分段分别与所述标准时间序列分段之间的相似度的均值，与预设阈值进行比较；

当所述均值小于所述预设阈值时，确定所述待识别用户具有周期性。

可选的，所述计算各个时间序列分段中除所述标准时间序列分段之外的其他时间序列分段，分别与所述标准时间序列分段之间的相似度，包括：

通过动态时间规整算法DTW，查找所述其他时间序列分段与所述标准时间序列之间的对标点对，并通过预设公式：S(i,j)＝min(DS(i-1,j),DS(i,j-1),DS(i-1,j-1))+d(q_i,s_j)计算对标点对之间的相似度；其中，DS(i,j)为对标点对(i,j)之间的相似度，DS(i-1,j)为对标点对(i-1,j)之间的相似度，DS(i,j-1)为对标点对(i,j-1)之间的相似度，DS(i-1,j-1)为对标点对(i-1,j-1)之间的相似度，d(q_i,s_j)为q_i与s_j之间的相似度度量；

将各个对标点对之间的相似度之和作为所述其他时间序列分段与所述标准时间序列分段之间的相似度。

第二方面，本发明实施例提供了一种用户识别装置，包括：

第一获取模块，用于获取待识别用户在预设时长内的历史交易数据；

第二获取模块，用于从历史交易数据中获取待识别用户的交易信息时间序列，所述交易信息时间序列包括多个时间点所对应的交易信息；

划分模块，用于将所述交易信息时间序列划分为多个时间序列分段；

第一计算模块，用于计算各个时间序列分段之间的相似度；

判断模块，用于基于所述相似度，判断所述待识别用户是否具有周期性；其中，周期性表示用户的交易量和/交易额在下降后会再回升的特性；

第一确定模块，用于当所述待识别用户具有周期性时，将具有周期性的所述待识别用户，确定为周期性用户，所述周期性用户为非流失用户。

第三方面，本发明实施例提供了一种用户识别设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的用户识别方法、装置及设备，可以获取待识别用户在预设时长内的历史交易数据；从历史交易数据中获取待识别用户的交易信息时间序列，交易信息时间序列包括多个时间点所对应的交易信息；将交易信息时间序列划分为多个时间序列分段；计算各个时间序列分段之间的相似度；基于相似度，判断待识别用户是否具有周期性；其中，周期性表示用户的交易量和/或/交易额在下降后会再回升的特性；当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户。对应周期性用户来说，在一个周期内可能会出现交易量和/或交易额下降和上升的情况，但这种下降是暂时的，因此可以确定为非流失用户。相对现有技术，只要用户对应的交易量的下降比例超过阈值，就确定为流失用户的方式，本发明实施例考虑了暂时下降的实际情况，因此提高了用户识别的准确性。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的用户识别方法的一种流程图；

图2为本发明实施例提供的用户识别方法的另一种流程图；

图3为本发明实施例提供的用户识别方法的另一种流程图；

图4为本发明实施例中DTW算法的对标结果示意图；

图5为本发明实施例提供的用户识别方法的另一种流程图；

图6为本发明实施例提供的用户识别方法的另一种流程图；

图7为本发明实施例提供的用户识别方法的另一种流程图；

图8为本发明实施例中用户识别装置的一种结构示意图；

图9为本发明实施例中用户识别装置的另一种结构示意图；

图10为本发明实施例中用户识别装置的另一种结构示意图；

图11为本发明实施例提供的用户识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的用户识别方法的执行主体可以是电子设备，具体地，电子设备可以包括终端或服务器等等。

为了提高用户识别的准确性本发明实施例提供了一种用户识别方法，该方法包括：

获取待识别用户在预设时长内的历史交易数据；

从历史交易数据中获取待识别用户的交易信息时间序列，交易信息时间序列包括多个时间点所对应的交易信息；

将交易信息时间序列划分为多个时间序列分段；

计算各个时间序列分段之间的相似度；

基于相似度，判断待识别用户是否具有周期性；其中，周期性表示用户的交易量和/交易额在下降后会再回升的特性；

当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户，周期性用户为非流失用户。

本发明实施例中，可以计算用户的交易信息时间序列划分得到的时间序列分段之间的相似度，通过时间序列分段之间的相似度判断用户是否具有周期性，当待识别用户具有周期性时，将该待识别用户确定为周期性用户，即将该周期性用户确定为非流失用户。如此，能够避免将交易量短暂下降的用户预测为流失客户，提高流失客户识别的准确性。

参照图1，对本发明实施例提供的用户识别方法进行详细说明。

S101，获取待识别用户在预设时长内的历史交易数据。

待识别用户可以一个、两个或者多个。

预设时长可以根据实际需求或者经验值确定。例如，预设时长可以为两年12个月、6个月等等。

历史交易数据可以理解为待识别用户在历史时间内交易时产生的数据。可以包括交易量、交易时间、交易类型和/或交易对象等等。

一种可实现方式中，可以以月为单位对客户与金融机构的交易量或者交易金额进行统计，得到包括客户与金融机构多个月的交易量或交易金额的历史交易数据。

S102，从历史交易数据中获取待识别用户的交易信息时间序列。

交易信息时间序列包括多个时间点所对应的交易信息。

一种可实现方式中，可以将历史交易数据保存在存储设备中，可以从存储设备中取出该历史交易数据，并从该历史交易数据中获取待识别用户的交易信息时间序列。

可以从历史交易数据中选取多个时间点对应的交易信息，例如，从历史交易数据中截取多个历史时间点对应的历史交易数据作为交易信息时间序列。

或者，可以从历史交易数据中选取待识别用户对应的预设属性的交易数据组成待识别用户的交易信息时间序列，例如历史交易数据包括交易量、交易时间、交易类型和交易对象，则选取其中交易量和交易时间组成交易信息时间序列，即可以理解得到的交易信息时间序列包括不同交易时间对应的交易量。

一种可实现方式中，可以从包括客户与金融机构多个月的交易量或交易金额的历史交易数据中获取待识别用户的交易信息时间序列，如获取当前时间之前的12个月的交易量或交易金额组成交易信息时间序列。

S103，将交易信息时间序列划分为多个时间序列分段。

可以按照预设划分周期，将交易信息时间序列按照该预设划分周期划分为多个时间序列分段，其中，预设划分周期可以预先根据历史业务数据分析得到。

可以将交易信息时间序列均分为多个时间序列分段，即划分得到的多个时间序列分段等长；或者，也可以按照预设划分周期将交易信息时间序列划分为长度不等的多个时间序列分段。

S104，计算各个时间序列分段之间的相似度。

相似度可以理解为时间序列分段之间相似性的度量。其中，该度量可以与相似性正相关，即度量的值越大则表示时间序列分段越相似，例如，该度量可以基于时间序列分段之间的余弦值计算得到。或者，该度量也可以与相似性负相关，即度量的值越小则表示时间序列分段越相似，如该度量可以基于时间序列分段之间的欧式距离计算得到。

一种可实现方式中，可以依次计算各个时间序列分段中每两个时间序列分段之间的相似度，针对两个时间序列分段，确定两个时间序列分段的对标点对，并计算各个对标点对之间的相似度，并将各个对标点对之间的相似度之和作为两个时间序列分段之间的相似度。

另一种可实现方式中，可以将各个时间序列分段划分为多个分段组，每个分段组中包括两个时间序列分段，针对每个分段组中的两个时间序列分段计算该两个时间序列分段之间的相似度。

具体地计算两个时间序列分段之间的相似度的过程中，一种可实现方式中，可以区分各个时间序列分段是否等长，针对是否等长的不同情况采用不同方式计算时间序列分段之间的相似度。若各个时间序列分段是等长的，则可以直接将两个时间序列分段对齐，计算两个等长的时间序列分段对齐的值之间的距离，并将各个对齐的值之间的距离之和作为两个等长的时间序列分段之间的相似度，其中，相似度可以为欧氏距离等。若各个时间序列不等长，则可以通过DTW算法(Dynamic Time Warping，动态时间规整算法)计算时间序列分段之间的相似度。另一种可实现方式中，可以不区分各个时间序列分段是否等长，均通过动态时间规整算法DTW计算时间序列分段之间的相似度。

其中，通过动态时间规整算法DTW计算时间序列分段之间的相似度可以包括：通过DTW算法，查找两个时间序列分段之间的对标点对，可以通过预设公式：DS(i,j)＝min(DS(i-1,j),DS(i,j-1),DS(i-1,j-1))+d(q_i,s_j)计算对标点对之间的相似度；其中，DS(i,j)为对标点对(i,j)之间的相似度，DS(i-1,j)为对标点对(i-1,j)之间的相似度，DS(i,j-1)为对标点对(i,j-1)之间的相似度，DS(i-1,j-1)为对标点对(i-1,j-1)之间的相似度，d(q_i,s_j)为q_i与s_j之间的相似度度量，一种可实现方式中可以d(q_i,s_j)可以为q_i与s_j之间的欧式距离；将各个对标点对之间的相似度之和作为两个时间序列分段之间的相似度。

S105，基于相似度，判断待识别用户是否具有周期性。

其中，周期性表示用户的交易量和/交易额在下降后会再回升的特性。

存在相似性较高的时间序列分段可以理解为交易信息时间序列中的值呈重复趋势的变化，如此，该交易信息时间序列可以理解为具有周期性。

一种可实现方式中，可以将计算得到的各个时间序列分段的相似度总和作为待识别用户对应的周期性度量值，根据该周期性度量值与预设阈值进行比较以判断待识别用户是否具有周期性。具体地，若周期性度量值与时间序列分段之间相似性正相关，则可以判断周期性度量值是否大于预设阈值，若周期性度量值大于预设阈值，则可以确定对应的待识别用户具有周期性。若周期性度量值与时间序列分段之间相似性负相关，则可以判断周期性度量值是否小于预设阈值，若周期性度量值小于预设阈值，则确定对应的待识别用户具有周期性。

一种可选的实施例中，各个时间序列分段的长度有可能是不同的，因此，互相对比的不同组的时间序列分段比较的对标点的数目是不一样的，在计算得到每两个时间序列分段的相似度之后，可以对相似度进行标准化，如将计算得到的两个时间序列分段的相似度除以其时间序列分段的长度，得到平均后的相似度。还可以将每两个时间序列分段计算得到的平均后的相似度求和，并将求和得到的值除以进行对比的时间序列分段的组数，得到均值，并将该均值作为待识别用户对应的周期性度量值。

S106，当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户，周期性用户为非流失用户。

如此，可以识别具有周期性的用户，并将具有周期性的待识别用户，确定为非流失用户。

本发明实施例中，可以计算用户的交易信息时间序列划分得到的时间序列分段之间的相似度，通过时间序列分段之间的相似度判断用户是否具有周期性，当待识别用户具有周期性时，将该待识别用户确定为周期性用户，对应周期性用户来说，在一个周期内可能会出现交易量和/或交易额下降和上升的情况，但这种下降是暂时的，因此可以确定为非流失用户。相对现有技术，只要用户对应的交易量的下降比例超过阈值，就确定为流失用户的方式，本发明实施例考虑了暂时下降的实际情况，因此提高了用户识别的准确性。

一种可实现方式中，如图2所示，在图1的基础上，S103可以包括：

S1031，分别按照不同阶数，将交易信息时间序列划分为阶数对应的初始序列；计算阶数对应的初始序列之间的相关系数。

具体地，计算阶数对应的初始序列之间的相关系数，可以包括：

通过预设公式：计算阶数对应的初始序列之间的相关系数。

其中，阶数可以根据待处理的时间序列长短预先配置，例如，阶数可以根据实际业务需求设置，例如，目前根据金融业务的季度周期性，可以设置为3的倍数，如可以为3、9、15等，一种可实现方式中可以选择15。

相关系数表示两个交易信息时间序列之间的相关性。

两个时间序列分段没有发生明显的偏移的情况下，若两个时间序列分段相关性较高可以推测理解两个时间序列分段具有周期性。

S1032，将不同阶数分别对应的相关系数中的最大值所对应的阶数作为划分周期。

例如：阶数可以为5、10、15。阶数为5时对应的相关系数为0.8，阶数为10时对应的相关系数为0.5，阶数为15时对应的相关系数为0.3，三个阶数对应的相关系数中的最大值为0.8，且0.8是阶数为5时对应的相关系数，则可以将5作为划分周期。

选取最大的相关阶数对应的阶数作为划分周期，可以最大限度将周期包含进去，以方便后续计算时间序列分段之间的相似度时可以自动寻找时间序列分段之间相互匹配的点进行对齐并计算其距离。例如，可以方便通过动态时间规整算法DTW，查找时间序列之间的对标点对，以通过计算对标点对在之间的欧式距离，进而计算时间序列分段之间的相似度。

S1033，根据划分周期，将交易信息时间序列划分为多个时间序列分段。

划分周期可以理解为对交易信息时间序列进行划分时的分割基准。

例如，交易信息时间序列是观察近期10天的交易量得到的包括10个值的序列，划分周期为5，则可以以5为基准将该序列划分为两个时间序列分段，即依次截取5个值作为一个时间序列分段，如将该序列中前5个值截取为一时间序列分段，后5个值截取为另一时间序列分段。

若交易信息时间序列是观察近期13天的交易量得到的包括13个值的序列，划分周期为5，则可以以5为基准将该序列划分为3个时间序列分段，即依次截取5个值作为一个时间序列分段，若不足5个值则完成截取，则将剩余的值作为一个时间序列分段，如将前5个截取为第一个时间序列分段，从第6个值第10个值截取为第二个时间序列分段，剩余的第11个值第13个值截取为第三个时间序列分段。

一种可实现方式中，还可以选取从大到小排序在前的预设个相关系数，并选取预设个相关系数对应的多个阶数中小于预设阈值的1个作为划分周期，其中，预设值范围可以根据实际需求或经验值确定，例如，预设阈值可以为15、10等等。举例来讲，得到阶数为5时对应的相关系数为0.8，阶数为10时对应的相关系数为0.5，阶数为15时对应的相关系数为0.3，阶数为3对应的相关系数0,4，阶数为2对应的相关系数为0.2，对得到的相关系数从大到小进行排序为0.8、0.5、0.4、0.3和0.2，选取前3个：阶数5对应的相关系数0.8、阶数10对应的相关系数0.5、阶数3对应的相关系数0.4，若预设阈值为10，选取的前3个相关系数对应的阶数中小于10的有阶数5和阶数3，则可以从中随机选取一个作为划分周期，如可以选取5和3作为划分周期。

一种可实现方式中，在将交易信息时间序列划分为多个时间序列分段后，还可以包括，对各个时间序列分段进行标准化，也可以理解为对时间序列分段中的值进行归一化。例如，可以对时间序列分段中的值求均值，并计算标准差，针对时间序列分段中的各个值，将该值减去均值后除以标准差，得到标准化后的值。进行归一化后可以将时间序列分段中的值统一缩小至较小的范围，如此可以方便计算。

一种可实现方式中，如图3所示，在图1基础上，S104可以包括：

S1041，从各个时间序列分段中选取一个时间序列分段作为标准时间序列分段。

S1042，计算各个时间序列分段中除标准时间序列分段之外的其他时间序列分段，分别与标准时间序列分段之间的相似度。

具体地，可以通过DTW算法，查找其他时间序列分段与标准时间序列之间的对标点对，并通过预设公式：DS(i,j)＝min(DS(i-1,j),DS(i,j-1),DS(i-1,j-1))+d(q_i,s_j)计算对标点对之间的相似度；其中，DS(i,j)为对标点对(i,j)之间的相似度，DS(i-1,j)为对标点对(i-1,j)之间的相似度，DS(i,j-1)为对标点对(i,j-1)之间的相似度，DS(i-1,j-1)为对标点对(i-1,j-1)之间的相似度，d(q_i,s_j)为q_i与s_j之间的相似度度量；将各个对标点对之间的相似度之和作为其他时间序列分段与标准时间序列分段之间的相似度。

DTW算法可以针对不同时间长度以及时间序列具有平移的情况下的距离的度量。

通过动态时间规整算法自动寻找对比时间序列的距离相近的点进行对标，然后对对标后的两个时间序列进行对标点之间的欧式距离求和并将时间序列的点全部求和作为两个时间序列相似性的度量。其对标结果如图4所示，图4中横坐标为时间序列分段中值的序号，纵坐标为时间序列中各点对应的统计量，例如每月的交易量，交易金额等等，视具体应用而定。实线和虚线分别表示两个时间序列对应的曲线，可以理解，时间序列对应的曲线即根据时间序列各个值生成的曲线。

具体地，对于两个时间序列分段：Q＝(q₁,q₂,q₃,…q_n),S＝(s₁,s₂,s₃,…s_m)，DTW算法求取时间序列分段的相似度的具体计算过程是基于动态规划来进行的算法过程，其计算过程如下：

限制条件：

(1)起点必须为w₁＝(q₁,s₁)，终点必须为w_nm＝(q_n,s_m)；

(2)在进行距离计算的时候，遍历的路径的移动只能是右移，上移，和右上移动一步，即w_ij的下一步只能是w_i(j+1),w_(i+1)j,w_(i+1)(j+1),其中的一个；

(3)在计算各个点之间的距离时可根据需要设定，本发明实施例中可以设定两点之间距离的度量采用传统的欧式距离来计算。

DTW算法采用动态规划，具体采用如下公式计算：

DS(i,j)＝min(DS(i-1,j),DS(i,j-1),DS(i-1,j-1))+d(q_i,s_j)

可以理解，动态时间规整算法类似于递归，只是把中间结果存储下来后续可以直接使用即演变为动态规划。

通过动态时间规整算法自动寻找对比时间序列的距离相近的点进行对标，然后对对标后的两个时间序列进行对标点之间的欧式距离求和并将时间序列的点全部求和作为两个时间序列相似性的度量，即通过DTW算法可以实现长度不同的时间序列分段之间的相似度的计算。进而可以基于相似度，判断待识别用户是否具有周期性；当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户，周期性用户为非流失用户。本发明实施例中考虑了暂时下降的实际情况，可以在预测流失用户的过程中排除识别出的具有周期性的用户，能够提高预测的流失用户的准确性。

一种可实现方式中，若通过从各个时间序列分段中选取一个时间序列分段作为标准时间序列分段；计算各个时间序列分段中除标准时间序列分段之外的其他时间序列分段，分别与标准时间序列分段之间的相似度的方式计算各个时间序列分段之间的相似度，则S105：基于相似度，判断待识别用户是否具有周期性，如图5所示，可以包括：

S1051，将其他时间序列分段分别与标准时间序列分段之间的相似度的均值，与预设阈值进行比较。

S1052，当均值小于预设阈值时，确定待识别用户具有周期性。

将其他时间序列分段分别与标准时间序列分段之间的相似度通过DTW算法计算得到，将各个对标点对之间的相似度之和作为其他时间序列分段与标准时间序列分段之间的相似度，各个对标点对之间的相似度通过欧式距离计算，故其他时间序列分段分别与标准时间序列分段之间的相似度的值越小，则表示其他时间序列分段与标准时间序列分段之间的相似性越高，则当其他时间序列分段分别与标准时间序列分段之间的相似度的均值小于预设阈值时，则可以确定待识别用户具有周期性。

其中，预设阈值可以根据经验值或者根据业务需求确定，例如，可以基于历史交易数据分析得到，举例来讲，预设阈值可以为0.4、0.5等等。不同的待识别用户可以对应相同的预设阈值，或者也可以对应不同的预设阈值。或者，可以根据业务类型的不同，根据待识别用户交易的业务类型，选取该业务类型对应预设阈值。

一种可选的实施例中，如图6所示，在图1的基础上，在S105之后，还可以包括：

S107，当待识别用户不具有周期性时，将不具有周期性的待识别用户，确定为流失用户。

本发明实施例中通过判断用户是否具有周期性识别用户是否为流失用户，即当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户，周期性用户为非流失用户；而当待识别用户不具有周期性时，将不具有周期性的待识别用户，确定为流失用户。

一种可选的实施例中，如图7所示，用户识别方法可以包括：

S701，获取多个待识别用户在预设时长内的历史交易数据。

步骤S701类似于步骤S101，执行时参照S101。

S702，针对多个待识别用户，分别计算各个待识别用户在预设时段内交易量的下降比例。

预设时段可以根据实际需求确定。例如，预设时段可以为12个月、6个月、1个月、15天、1周等等。

可以从历史交易数据中确定一个时间点对应的交易量为初始交易量，计算与预设时段内多个时间点与该初始交易量相比较的下降比例。

S703，将各个待识别用户对应的下降比例，分别与预设的下降比例阈值进行比较。

下降比例阈值可以根据实际需求或经验值确定。例如，下降比例阈值可以为60％，70％等等。

S704，当待识别用户对应的下降比例大于下降比例阈值，则将待识别用户确定为初始流失用户。

在S701之后，还可以包括S702至S704，以确定初始流失用户。

S705，从历史交易数据中获取每个待识别用户的交易信息时间序列，交易信息时间序列包括多个时间点所对应的交易信息。

S706，针对每个待识别用户，将该待识别用户对应的交易信息时间序列划分为多个时间序列分段。

S707，计算各个时间序列分段之间的相似度。

S708，基于相似度，判断该待识别用户是否具有周期性；其中，周期性表示用户的交易量在下降后会再回升的特性。

S709，当该待识别用户具有周期性时，将具有周期性的该待识别用户，确定为周期性用户，周期性用户为非流失用户。

步骤S705至S709与图1所示实施例中步骤S102至S106类似，执行时参照步骤S102至S106。

S710，从初始流失用户中排除周期性用户，并将初始流失用户中排除周期性用户后的待识别用户确定为流失用户。

S702至S704可以理解为通过初始过程先筛选出初始流失用户，即也可以理解为一个初略过程，然后从初始流失用户中将确定的周期性用户排除，初始流失用户中除确定的周期性用户之外的其他用户即为最终确定的流失用户，则除该流失用户之外的用户即为非流失用户。

如此，能够有效识别真正流失用户，进一步提升流失用户识别的准确率。

对应于上述实施例提供的用户识别方法，本发明实施例还提供了一种用户识别装置，如图8所示，可以包括：

第一获取模块801，用于获取待识别用户在预设时长内的历史交易数据；

第二获取模块802，用于从历史交易数据中获取待识别用户的交易信息时间序列，交易信息时间序列包括多个时间点所对应的交易信息；

划分模块803，用于将交易信息时间序列划分为多个时间序列分段；

第一计算模块804，用于计算各个时间序列分段之间的相似度；

判断模块805，用于基于相似度，判断待识别用户是否具有周期性；其中，周期性表示用户的交易量和/交易额在下降后会再回升的特性；

第一确定模块806，用于当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户，周期性用户为非流失用户。

可选的，如图9所示，装置还可以包括：

第二确定模块807，在基于相似度，判断待识别用户是否具有周期性之后，当待识别用户不具有周期性时，将不具有周期性的待识别用户，确定为流失用户。

可选的，如图10所示，装置还可以包括：

第二计算模块901，用于针对多个待识别用户，分别计算各个待识别用户在预设时段内交易量的下降比例；

比较模块902，用于将各个待识别用户对应的下降比例，分别与预设的下降比例阈值进行比较；

第三确定模块903，用于当待识别用户对应的下降比例大于下降比例阈值，则将待识别用户确定为初始流失用户；

第四确定模块904，用于在当待识别用户具有周期性时，将具有周期性的待识别用户，确定为周期性用户之后，从初始流失用户中排除周期性用户，并将初始流失用户中排除周期性用户后的待识别用户确定为流失用户。

可选的，划分模块803，具体用于分别按照不同阶数，将交易信息时间序列划分为阶数对应的初始序列；计算阶数对应的初始序列之间的相关系数；将不同阶数分别对应的相关系数中的最大值所对应的阶数作为划分周期；根据划分周期，将交易信息时间序列划分为多个时间序列分段。

可选的，划分模块803，具体用于计算阶数对应的初始序列之间的相关系数，包括：

通过预设公式：计算阶数对应的初始序列之间的相关系数；

其中，ρ_k为相关系数，t为交易信息时间序列中的序列标号，k为阶数，n为交易信息时间序列的长度，z_t、z_t-k为交易信息时间序列，为z_t中数值的均值，/>为z_t-k中数值的均值。

可选的，第一计算模块804，具体用于从各个时间序列分段中选取一个时间序列分段作为标准时间序列分段；计算各个时间序列分段中除标准时间序列分段之外的其他时间序列分段，分别与标准时间序列分段之间的相似度。

可选的，判断模块805，具体用于将其他时间序列分段分别与标准时间序列分段之间的相似度的均值，与预设阈值进行比较；当均值小于预设阈值时，确定待识别用户具有周期性。

可选的，第一计算模块804，具体用于通过动态时间规整算法DTW，查找其他时间序列分段与标准时间序列之间的对标点对，并通过预设公式：S(i,j)＝min(DS(i-1,j),DS(i,j-1),DS(i-1,j-1))+d(q_i,s_j)计算对标点对之间的相似度；其中，DS(i,j)为对标点对(i,j)之间的相似度，DS(i-1,j)为对标点对(i-1,j)之间的相似度，DS(i,j-1)为对标点对(i,j-1)之间的相似度，DS(i-1,j-1)为对标点对(i-1,j-1)之间的相似度，d(q_i,s_j)为q_i与s_j之间的相似度度量；将各个对标点对之间的相似度之和作为其他时间序列分段与标准时间序列分段之间的相似度。

对应于上述实施例提供的用户识别方法，本发明实施例还提供了一种用户识别设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信。

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现上述用户识别方法的方法步骤。

上述用户识别设备提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述用户识别设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述实施例中用户识别方法的方法步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中用户识别方法的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用户识别方法，其特征在于，包括：

获取待识别用户在预设时长内的历史交易数据；

将所述交易信息时间序列划分为多个时间序列分段；

计算各个时间序列分段之间的相似度；

基于所述相似度，判断所述待识别用户是否具有周期性；其中，周期性表示用户的交易量和/或交易额在下降后会再回升的特性；

当所述待识别用户具有周期性时，将具有周期性的所述待识别用户，确定为周期性用户，所述周期性用户为非流失用户；

其中，所述将所述交易信息时间序列划分为多个时间序列分段，包括：

根据所述划分周期，将所述交易信息时间序列划分为多个时间序列分段；

所述计算所述阶数对应的初始序列之间的相关系数，包括：

2.根据权利要求1所述的方法，其特征在于，在所述基于所述相似度，判断所述待识别用户是否具有周期性之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，在所述获取待识别用户在预设时长内的历史交易数据之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述计算各个时间序列分段之间的相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述相似度，判断所述待识别用户是否具有周期性，包括：

6.根据权利要求4所述的方法，其特征在于，所述计算各个时间序列分段中除所述标准时间序列分段之外的其他时间序列分段，分别与所述标准时间序列分段之间的相似度，包括：

7.一种用户识别装置，其特征在于，包括：

第一计算模块，用于计算各个时间序列分段之间的相似度；

第一确定模块，用于当所述待识别用户具有周期性时，将具有周期性的所述待识别用户，确定为周期性用户，所述周期性用户为非流失用户；

其中，所述划分模块，具体用于分别按照不同阶数，将所述交易信息时间序列划分为所述阶数对应的初始序列；计算所述阶数对应的初始序列之间的相关系数；将不同阶数分别对应的相关系数中的最大值所对应的阶数作为划分周期；根据所述划分周期，将所述交易信息时间序列划分为多个时间序列分段；所述计算所述阶数对应的初始序列之间的相关系数，包括：

8.一种用户识别设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。