CN107015993B

CN107015993B - 一种用户类型识别方法及装置

Info

Publication number: CN107015993B
Application number: CN201610058562.0A
Authority: CN
Inventors: 潘钢; 王远伟
Original assignee: China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Group Shanghai Co Ltd
Priority date: 2016-01-28
Filing date: 2016-01-28
Publication date: 2019-12-06
Anticipated expiration: 2036-01-28
Also published as: CN107015993A

Abstract

本发明涉及计算机技术领域，尤其涉及一种用户类型识别方法及装置，包括：首先获取用户的指标值，然后根据指标值及预先得到的阈值，通过识别模型识别所述用户的类型，其中所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的。该方法在确定阈值时，是通过对样本每个指标进行分组，然后根据每个分组的组值来得到指标对应的阈值，因而该方法对样本进行分类，得到多个分组，并分别确定每个分组对应的组值，从而可以基于合理的分组结果，准确有效地确定指标对应的阈值。

Description

一种用户类型识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用户类型识别方法及装置。

背景技术

随着互联网的发展，使用手机的用户越来越多，造成商家或者非法组织发送垃圾短信的数量越来越多。一个短信用户的类型，例如可以划分为普通用户，优质用户和垃圾短信用户，因而如何识别一个短信用户的类型，成为现代短信通信中的一个重要课题。

图1示出了现有技术中，通过决策树模型识别短信用户类型的示意图，该模型可以很好地利用指标(如图1中的“给陌生人发送的短信数量占比”、“所发短信群体陌生人占的比例”、“网龄”、“朋友圈人数”)及每个指标对应的阈值，对现网用户进行用户类型的识别。其中，使用该决策树模型时，最为关键的是如何对每个指标对应的阈值(如图1中的“85％”、“78％”、“3年”、“20人”)进行选择。

目前在确定指标对应的阈值时，主要通过人工经验或者是根据短信用户样本中的某个指标的平均值来确定。该种方式会造成阈值与实际数据之间的匹配程度不高，进而无法准确有效地使用该阈值判别短信用户类型。

发明内容

本发明提供一种用户类型识别方法及装置，用以解决现有技术中无法准确有效地确定用户类型识别模型中的阈值的技术问题。

一方面，本发明实施例提供一种用户类型识别方法，包括：

获取用户的指标值；

根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型；

所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的。

可选地，所述基于所述指标值，利用识别模型识别所述用户的类型之前，还包括：

针对样本中的每个指标，根据所述样本在所述指标的取值，对所述样本进行排序；

根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第一分组结果，确定所述第一分组结果对应的第一组熵总和；

将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和；

若第一组熵总和与第二组熵总和之间的差值不大于停止阈值，则确定所述第二分组结果中每个分组的组值；

根据每个分组的组值，确定所述指标对应的阈值。

可选地，所述对排序后的样本进行分组，包括：

按顺序选取排序后的样本中n个未分组的样本，生成样本集合；

根据所述样本集合中每个样本的标签，确定每类标签的样本数；

判断样本数最多的一类标签的比例是否小于当前分组阈值；

若对应样本数最多的一类标签的比例不小于当前分组阈值，则将所述样本集合中的所有样本划分到一个分组，并返回到按顺序选取排序后的样本中的n个未分组的样本，生成样本集合的步骤；

若对应样本数最多的一类标签的比例小于当前分组阈值，则按顺序增加m个未分组的样本到所述样本集合，并返回到根据所述样本集合中每个样本分别对应的标签，确定每类标签对应的样本数的步骤；

其中，n为大于1的整数，m为正整数。

可选地，将所述样本集合中的所有样本划分到一个分组之后，返回到按顺序选取排序后的样本中的n个未分组的样本，生成样本集合的步骤之前，还包括：

判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同；

若当前分组之后的下一个未分组样本对应的标签与所述分组中对应样本数最多的一类标签相同，则将所述下一个未分组样本增加到当前分组，并重复执行判断当前分组之后的下一个样本对应的标签与所述分组中对应样本数最多的一类标签是否相同的步骤。

可选地，所述将所述样本集合中的所有样本划分到一个分组之后，还包括：

判断当前分组中对应样本数最多的一类标签是否与当前分组的上一分组中对应样本数最多的一类标签相同；

若当前分组中对应样本数最多的一类标签与当前分组的上一分组中对应样本数最多的一类标签相同，则将当前分组合并到当前分组的上一分组。

可选地，所述确定第二分组结果中每个分组的组值：

根据每个分组中的所有样本在所述指标的取值，确定所述分组对应的组值。

可选地，将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和之后，还包括：

若所述第一组熵总和与所述第二组熵总和之间的差值大于所述停止阈值，则将所述第二组熵总和作为所述第一组熵总和，并返回到将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和的步骤。

可选地，根据下列公式确定一种分组结果对应的组熵总和：

其中，A表示所有分组的组熵总和，t为分组的组数，S_i为第i组中不同类标签的数量，p_ij为第i组中第j类标签出现的概率。

可选地，根据样本的指标的取值，对所述样本进行排序之前，还包括：

根据下列公式校正所述样本的指标的取值：

其中，w_j(j＝1,2,...,p)：

X为校正后的样本的指标的取值，x_j为所述样本在最近第j个时长内的取值，w_j为x_j对应的权重，p为预先设定的值，A为所有分组的组熵总和，t为分组的组数，S_i为第i组中不同类标签的数量，p_ij为第i组中第j类标签出现的概率。

另一方面，本发明实施例还提供一种用户类型识别装置，包括：

获取单元，用于获取用户的指标值；

识别单元，用于根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型；所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的。

可选地，所述装置还包括阈值确定单元，具体用于根据所述指标值，利用识别模型识别所述用户的类型之前，针对样本中的每个指标，根据所述样本在所述指标的取值，对所述样本进行排序；

根据每个分组的组值，确定所述指标对应的阈值。

可选地，所述阈值确定单元，还用于按顺序选取排序后的样本中n个未分组的样本，生成样本集合；

判断样本数最多的一类标签的比例是否小于当前分组阈值；

若对应样本数最多的一类标签的比例小于当前分组阈值，则按顺序增加m个未分组的样本到所述样本集合，并返回到根据所述样本集合中每个样本分别对应的标签，确定每类标签对应的样本数的步骤；其中，n为大于1的整数，m为正整数。

可选地，所述阈值确定单元，还用于将所述样本集合中的所有样本划分到一个分组之后，返回到按顺序选取排序后的样本中的n个未分组的样本，生成样本集合的步骤之前，判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同；

可选地，所述阈值确定单元，还用于将所述样本集合中的所有样本划分到一个分组之后，判断当前分组中对应样本数最多的一类标签是否与当前分组的上一分组中对应样本数最多的一类标签相同；

可选地，所述阈值确定单元，还用于根据每个分组中的所有样本在所述指标的取值，确定所述分组对应的组值。

可选地，所述阈值确定单元，还用于将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和之后，若所述第一组熵总和与所述第二组熵总和之间的差值大于所述停止阈值，则将所述第二组熵总和作为所述第一组熵总和，并返回到将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定对应的第二组熵总和的步骤。

可选地，所述阈值确定单元，还用于根据下列公式确定一种分组结果对应的组熵总和：

可选地，所述阈值确定单元，还用于根据样本的指标的取值，对所述样本进行排序之前，根据下列公式校正所述样本的指标的取值：

其中，w_j(j＝1,2,...,p)：

本发明实施例提供的方法，首先获取用户的指标值，然后根据指标值及预先得到的阈值，通过识别模型识别所述用户的类型，其中所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的。该方法在确定阈值时，是通过对样本每个指标进行分组，然后根据每个分组的组值来得到指标对应的阈值，因而该方法对样本进行分类，得到多个分组，并分别确定每个分组对应的组值，因而该方法可以基于合理的分组结果，准确有效地确定指标对应的阈值。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为背景技术中使用决策树方法识别短信用户类型的模型示意图；

图2为本发明实施例提供的用户类型识别方法流程图；

图3为本发明实施例提供的用户类型识别方法中的阈值确定方法流程图；

图4为本发明实施例提供的用户类型识别方法中的阈值确定方法详细流程图；

图5为本发明实施例提供的用户类型识别装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合说明书附图对本发明实施例作进一步详细描述。

如图2所示，为本发明实施例提供的用户类型识别方法流程图，包括：

步骤201、获取用户的指标值；

步骤202、根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型。

本发明实施例中识别用户类型的方法，可应用于多种场景，比如背景技术中提到的对短信用户类型的识别，识别出的用户类型例如可以分为优质用户，普通用户和垃圾短信用户；也还可以是识别商场购物用户类型，识别出的用户类型例如可以分为重要客户，普通用户，不重要客户等。

对于应用场景，本发明不做限定，对于应用场景下用户的类型，本发明也不做具体限定。

为便于理解本发明，下面以识别短信用户的类型为例进行说明，并且将短信用户类型分为优质用户、普通用户和垃圾短信用户。

另外，对于本发明实施例中使用的识别模型，也可以根据具体需要而选定，下面以决策树模型为例进行说明。如图1所示，为背景技术中使用决策树方法识别短信用户类型的模型示意图。其中，示例性地给出的指标分别为“给陌生人发送的短信数量占比”、“所发短信群体陌生人占的比例”、“网龄”、“朋友圈人数”这4个指标，并且每个指标对应至少一个阈值，例如指标“给陌生人发送的短信数量占比”对应的阈值为85％，指标“网龄”对应的阈值为3年，等等。其中，朋友圈人数指的是有电话来往的人数。

在实际应用中，短信用户类型识别模型中包含的指标可以不止以上4个，例如还可以包含用户年龄、发送的短信总数等。具体需要选取哪些指标，以及每个指标在模型中的使用顺序，本发明不做限定，视实际需要而定。

此外，每个指标对应的阈值也可以不止一个，例如还可以是2个，3个等，举例来说，最终确定指标“网龄”对应的阈值可以是2个：3年、6年，则在模型中使用指标“网龄”时，可以分为3个区间来判别短信用户的类型，如0年～3年，3年～6年，以及6年以上，具体使用时，可以是先判断判断用户是否大于3年，若是，则继续判断用户是否大于6年，从而可以使用一个指标对应的多个阈值来具体判断用户的类型。对于一个指标具体对应几个阈值，本发明也不做限定，具体阈值数量，根据最终得出的结果为准。

上述步骤201中，获取用户的指标值。用户的指标与识别模型，比如图1中的决策树模型是相对应的，以图1中的决策树模型为例，则每个待识别的用户的指标包含“给陌生人发送的短信数量占比”，“所发短信群体陌生人占的比例”，“网龄”，“朋友圈人数”，例如某个用户获取到的指标值分别为(78％，60％，2，40)。

上述步骤202中，对于每一个指标，都至少一个对应的阈值，并且阈值时预先得到的，以图1为例，指标“给陌生人发送的短信数量占比”对应的阈值为85％，指标“所发短信群体陌生人占的比例”对应的阈值为78％，指标“网龄”对应的阈值为3，指标“朋友圈人数”对应的阈值为20。

以图1中的识别模型为例，假设预先得到的阈值为(85％，78％，3，20)，步骤201中获取到的用户的指标值为(78％，60％，2，40)，则可以识别用户的类型为垃圾短信用户。

对于识别模型中阈值的确定方法，现有技术下，主要通过人工经验或者是根据短信用户样本中的某个指标的平均值来确定，该种方式会造成阈值与实际数据之间的匹配程度不高，进而无法准确有效地使用该阈值判别短信用户类型。而本发明实施例在确定阈值时，是通过对样本每个指标进行分组，然后根据每个分组的组值来得到指标对应的阈值，因而该方法对样本进行分类，得到多个分组，并分别确定每个分组对应的组值，因而该方法可以基于合理的分组结果，准确有效地确定指标对应的阈值。

下面对于本发明实施例中如何确定识别模型的阈值做重点描述。

本发明实施例中，是通过对样本每个指标进行分组，根据每个分组的组值得到阈值的。如图3所示，为本发明实施例提供的用户类型识别方法中的阈值确定方法流程图，包括：

步骤301、针对样本中的每个指标，根据所述样本在所述指标的取值，对所述样本进行排序；

步骤302、根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第一分组结果，确定所述第一分组结果对应的第一组熵总和；

步骤303、将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和；

步骤304、若第一组熵总和与第二组熵总和之间的差值不大于停止阈值，则确定所述第二分组结果中每个分组的组值；

步骤305、根据每个分组的组值，确定所述指标对应的阈值。

使用的样本是从全量的客户群中抽取一部分已经明确指标值的优质用户(白名单用户)、垃圾短信用户(黑名单用户)以及普通用户，按照一定的比例选取，用以根据这些样本来确定所有指标分别对应的阈值。可以设定三类用户在样本中的占比，从而根据这个占比来从全量客户群中选取出样本，并且每个样本都带有各个指标值及标签，其中标签用于标识该样本用户是优质用户、垃圾短信用户，还是普通用户，例如用0表示普通用户，+1表示垃圾短信用户，-1表示优质用户。

以指标为“给陌生人发送的短信数量占比”、“所发短信群体陌生人占的比例”、“网龄”、“朋友圈人数”为例，最终筛选出的样本如表1所示。

表1样本表

本发明实施例提供的方法，针对每个指标都需要确定出该指标对应的阈值，并且确定每个指标对应的阈值的方法都是相同的，具体地，根据步骤301～步骤305来确定所有指标分别对应的阈值。

下面以确定指标“网龄”对应的阈值为例进行说明，并且为便于描述，以样本用户对应的标签均为优质用户(-1)或垃圾短信用户(+1)为例进行说明，即所有的样本用户中不包含普通用户。

上述步骤301中，根据样本在指标的取值，对样本进行排序。

根据指标“网龄”对所有的样本进行排序之后，得到如表2所示的排序后的样本。

编号	网龄	标签
			1	0.5	+1
2	0.5	-1
			3	1	+1
4	2	-1
			5	2	-1
6	2.5	+1
			7	4	-1
8	4	+1
			9	4	+1
10	4.5	+1
			11	4.5	+1
12	4.5	+1
			13	5	+1
14	5	+1
			15	5	+1
16	5	-1
			17	5.5	-1
18	5.5	-1
			19	6	+1
20	6	-1
			21	6	-1
22	6	+1

表2根据指标“网龄”排序后的样本

表2给的例子中，样本总数为22个，网龄以升序排序，每个样本都包含一个标签，+1为垃圾短信用户，-1为优质用户。当然实际应用中的样本，根据实际情况而定。

上述步骤302中，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第一分组结果，确定第一分组结果对应的第一组熵总和；

具体地分组结果有很多种，比如可以是事先设定分组个数，然后根据样本总数来平均分组。举例来说，事先设定分组个数为4组，假设样本总数为10000，则可以将排序后的样本进行每2500作为一个分组；当然也还可以是其它分组结果。

本发明中，为了提高分组的自适应能力，不对分组的组数进行限制，而是自适应地确定分组组数。具体地，根据下列方式对分组后的样本进行分组。

可选地，所述对排序后的样本进行分组，包括：

判断样本数最多的一类标签的比例是否小于当前分组阈值；

其中，n为大于1的整数，m为正整数。

上述方法，以表2为例，首先选取排序后的样本中的n个未分组的样本，生成样本集合，例如n取值为7，则选取前7个样本生成一个样本集合，然后确定样本集合中每类标签的样本数，由于表2中的标签种类为2，其中一类为+1，另一类为-1，为方便描述，分别称之为+1类和-1类。选取的样本集合中，+1类有3个样本，-1类有4个样本。

然后判断对应样本数最多的一类标签的比例是否不小于分组阈值，即由于样本集合中有4个-1类样本和3个+1类样本，因此-1类标签的比例较大，因此需要判断-1类的比例是否不小于分组阈值，其中分组阈值为预先设定的值，例如可以选择60％，65％等，具体取值视实际需要而定，这里假设分组阈值取值为65％。由于样本集合中-1类标签的占比为4/7≈57，小于分组阈值65％，则按顺序增加m个未分组的样本到样本集合，这里m为增加的步长值，具体取值视实际需要而定，这里以m＝1为例进行说明，即每次只增加1个未分组的样本到样本集合中，则增加后的样本集合中包含编号为1～8的样本，由于样本数最多的一类标签的比例仍然小于分组阈值，因此往后继续增加样本到样本集合，直到将第14个样本也增加到样本集合，此时，+1类样本数为10，-1类样本数为4，并且+1类标签的占比为10/14≈71％，大于分组阈值65％，因此将第1～14个样本分为一组，成为第一分组，并且将第一分组对应的标签设置为+1类。

考虑到极端情况，比如排序后的样本是平均分散的，导致对应样本数最多的一类标签的比例一直达不到分组阈值，程序上需要设置一个跳出，即当一组的选取样本个数已经达到整个样本量的一定比例时，比如50％，需要停止并跳出，重新调整样本后再开始。

上述方法，在一个分组完成之后，对紧接着的未分组的样本，判断对应的标签与上面的分组对应的标签是否相同，若相同，则将该样本归并到上一分组。

下面接着上面的例子进行说明，第一分组中包含的样本为编号1～14，并且第一分组对应的标签为+1，由于第15个样本对应的标签为+1，因而将第15个样本也加入到第一分组中，由于第16个样本对应的标签为-1，与第一分组对应的标签不同，因而第16个样本不加入第一分组，并且停止对当前分组增加样本。

通过上述方法，第一分组中最终包含第1～15个样本，该方法可以最大程度地将具有相同或相似属性的样本归并到一组，为后续准确确定指标对应的阈值提供保证。

接下来从第16个样本开始继续分组，同样选取7个样本，即选取编号为16～22的样本生成样本集合，并确定其中对应样本数最多的一类标签的比例是否不小于分组阈值，由于对应样本数最多的一类标签为-1，并且-1类样本数为5，+1类样本数为2，因此对应样本数最多的一类标签为-1类，并且-1类标签的比例为5/7≈71％，大于分组阈值65％，因此将编号为16～22的样本划分为一个分组，称之为第二分组。

在这里，实际应用中，如果最后的一个分组中对应样本数最多的一类标签的比例小于分组阈值，可以简单地直接划分为一个分组，也可以按其他方式处理，比如抛弃改组样本等等。

通过上述方式，将22个样本根据指标“网龄”分成了两个分组，分别为第一分组，包含样本1～15；以及第二分组，包含样本16～22。

此外，在将一个样本集合中的所有样本划分到一个分组之后，或者在完成对所有的样本进行分组之后，还可以进一步地对所有的分组进行合并。

上述方法中，可以通过两种方式，对分组进行合并，使得合并后的任意两个相邻分组对应的标签不同。

方式一、生成一个分组之后，立即判断是否可以和上一分组进行合并

例如，得到第一分组，并且第一分组对应的标签为+1，然后生成第二分组，如果第二分组对应的标签也为+1，则将第二分组并入到第一分组中。

方式二、在对所有的样本完成分组之后，在进行统一合并

举例来说，将所有的样本分成了5个分组，分组为第一分组(+1)，第二分组(+1)，第三分组(-1)，第四分组(-1)，第五分组(+1)。由于第一分组和第二分组对应的标签都为+1，因此将第一分组和第二分组合并，第三分组和第四分组对应的标签都为-1，因此将第三分组和第四分组合并，经过合并，最终得到三个分组，分别为分组A(由原第一分组和第二分组合并得到)、分组B(由原第三分组和第四分组合并得到)和分组C(原第五分组)。

该方法可以最大程度地将具有相同或相似属性的样本归并到一组，为后续准确确定指标对应的阈值提供保证。

通过以上方式，可以将样本分为多个分组，并且相邻两个分组对应的标签不同。接下来需要确定第一分组结果对应的第一组熵总和。

可选地，根据下列公式确定一种分组结果对应的组熵总和：

以表2，分组阈值等于65％时，对应的分组结果为例，将所有样本(22个样本)分为了两个分组，分别为第一分组(+1)：样本1～15，第二分组(-1)：样本16～22。

第一分组中，有11个+1，4个-1，因此第一分组的组熵为：

第二分组中，有2个+1，5个-1，因此第二分组的组熵为：

因此，确定第一分组结果对应的第一组熵总和为0.2518+0.2598＝0.5116。

上述步骤303中，将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和；

该步骤中，将分组阈值增加一设定步长值之后，再按照步骤302中的方式来确定新的分组阈值对应的第二分组结果及计算第二分组结果下的第二组熵总和。

例如将步长值设定为5％，将新的分组阈值设置为70％。步长值的具体取值视实际需要而定，本发明不做限定。

在新的分组阈值下，得到新的分组结果和组熵总和，在上述实施例中，在分组阈值为70％的情况下，得到的新的分组结果正好与分组阈值为65％对应的分组结果相同，并且组熵总和也相同。

上述步骤304中，若第一组熵总和与第二组熵总和之间的差值不大于停止阈值，则确定第二分组结果中每个分组的组值。停止阈值为迭代停止的条件，例如停止阈值可以设置为0.1，0.05等，具体视实际需要而定，本发明中以停止阈值为0.1为例进行说明。

若判断两种分组阈值分别对应的分组结果下，分组熵总和之间的差值(即第一组熵总和与第二组熵总和之间的差值)不大于停止阈值，将将增加后的分组阈值对应的分组结果确定为最终的分组结果。

在上述实施例中，分组阈值为65％时，对应的分组结果为第一分组(+1)：样本1～15，第二分组(-1)：样本16～22，组熵总和为0.5116；

分组阈值为70％时，对应的分组结果为第一分组(+1)：样本1～15，第二分组(-1)：样本16～22，组熵总和为0.5116。

由于两种分组阈值对应的组熵总和的差值为0，小于停止阈值0.1，因而停止迭代，并且将分组阈值为70％对应的分组结果确定为最终的分组结果。

如果两种分组结果对应的分组熵总和的差值大于停止阈值，则继续将分组阈值增加一步长值，并且在新的分组阈值下，对所有样本按照步骤302中的分组方式重新进行分组，在新的分组阈值下，得到新的第二组熵总和，并且将上次得到的第二组熵总和的值作为当前第一组熵总和，从而可以实现第二组熵总和总是表示当前分组阈值下的分组结果对应的组熵总和，而第一组熵总和总是表示当前分组阈值的上一个分组阈值下的分组结果对应的组熵总和，通过该方法，可以通过不断迭代，直到最新两种分组结果对应的组熵总和的差值小于停止阈值为止，此时将最后一次分组结果作为最终的分组结果。

下面举个例子来说明。例如，样本数为30个，分组阈值增加步长值为5％，迭代阈值为0.1

分组阈值初始值为50％，得到分组结果为：第一分组1～10，第二分组，11～22，第三分组23～30，得到的组熵总和为1.25；

分组阈值增加5％，为55％，得到的分组结果为：第一分组1～8，第二分组，9～15，第三分组16～30，得到的组熵总和为1.4。

此时第一组熵总和为1.25，第二组熵总和为1.4，由于二者的差值为0.15，大于停止阈值0.1，因此需要增加分组阈值，继续迭代得到新的分组结果。

分组阈值增加5％，为60％，得到的分组结果为：第一分组1～11，第二分组，12～16，第三分组17～25，第四分组26～30，得到的组熵总和为1.46。

此时第一组熵总和为1.4，第二组熵总和为1.46，由于二者之差为0.06，小于停止阈值0.1，因此迭代停止，并且将分组阈值为60％下的分组结果作为最终的分组结果。

步骤304中，确定每个分组对应的组值的方式有很多，例如可以将中间值作为一个分组的组值。可选地，所述确定第二分组结果中每个分组的组值，包括：根据每个分组中的所有样本在所述指标的取值，确定所述分组对应的组值。

例如可以是，将每个分组中所有样本对应的所述指标的取值的平均值的最近整数，作为所述分组对应的组值；或者将每个分组中部分样本对应的所述指标的取值的平均值的最近整数，作为所述分组对应的组值。

通过该方法，假设第一分组中所有样本的网龄平均值为2.933，最近的整数为3，因此第一分组对应的组值为3；第二分组中所有样本的网龄平均值为5.714，因此第二分组对应的组值为6。

上述步骤305中，根据每个分组的组值，确定指标对应的阈值。

本发明实施例中，若有k(k>2)个组值，则将其中前k-1个组值作为最终的阈值，上述例子中，最终确定的组值为3和6，则最终将组值3确定为指标“网龄”对应的阈值，即根据组值3，确定图1中决策树中对于指标“网龄”进行筛选时，将用户分为两类，第一类为网龄小于或等于3的用户，第二类为网龄大于3的用户。

再举个例子，假设最终确定的组值有4个，分别为2，4，5，6，则最终将组值2，4，5确定为指标“网龄”对应的阈值，即可以确定用户属于以下哪一区间：0～2，2～4，4～5，5以上，并且每一区间都对应一种判断结果，一般与每个分组对应的标签作为该区间对应的判断结果。

通过上述步骤301～步骤305，可以得到任一指标对应的阈值，例如可以确定指标“网龄”对应的阈值。

此外，在上述步骤301之前，还可以对所有的样本进行校正，可选地，根据样本的指标的取值，对所述样本进行排序之前，还包括：

根据下列公式校正所述样本的指标的取值：

其中，w_j(j＝1,2,...,p)：

上述方法，对于一个样本的某些指标可以使用上述方法对样本的指标进行校正，例如对样本的指标“给陌生人发送短信的数量占比”，有可能因为统计错误，导致样本的统计有错误，例如某个统计结果为样本用户1当月的“给陌生人发送短信的数量占比”为100％，这种统计有可能是因为统计或者计算失误而造成数据错误，因而为降低这种错误发生的概率，可以通过上述方法对样本中的指标进行校正。

具体地，使用一个样本最近一段时长的指标取值，进行加权求和，来得到校正后的样本指标取值，例如统计样本中的指标“给陌生人发送短信的数量占比”在本月(12月)的取值，假设样本用户A在12月的取值为100％，11月的取值为40％，10月的取值为37％，9月的取值为60％，假设以最近3个月的样本指标取值作为校正数据，最终样本用户A的指标“给陌生人发送短信的数量占比”在本月(12月)的取值为：X＝w1*1+w2*0.4+w3*0.37。

对于上述权重w_j的确定方法，可以通过一个规划问题来求解，即存在某种权重的取值，使得根据在该权重下得到的样本指标取值，可以使得得到的分组组熵总和最小，从而可以确定最终的权重。

下面对本发明实施例提供的用户类型识别方法中的阈值确定方法做详细描述，如图4所示，为本发明实施例提供的用户类型识别方法中的阈值确定方法详细流程图，包括：

步骤401、根据样本的指标的取值，对样本进行排序。

步骤402、按顺序选取排序后的样本中n个未分组的样本，生成样本集合。

步骤403、根据样本集合中每个样本分别对应的标签，确定每类标签对应的样本数。

步骤404、判断对应样本数最多的一类标签的比例是否不小于分组阈值，若是则转到步骤405，否则转到步骤410。

步骤405、若对应样本数最多的一类标签的比例小于分组阈值，则将样本集合中的所有样本划分到一个分组。

步骤406、判断是否有未分组样本可以加入到该分组，若是则转到步骤407，否则转到步骤409；

步骤407、将可以加入到该分组的样本加入到该分组中。

步骤408、确定该分组中的最终样本。

步骤409、判断是否还有其它未分组样本，若是，则转到步骤402，否则转到步骤411。

步骤410、按顺序增加m个未分组的样本到样本集合中。

步骤411、对所有的分组进行组间合并，得到分组结果。

步骤412、将分组阈值增加设定步长，使用步骤402～步骤411得到新的分组结果。

步骤413、判断最近的两种分组结果对应的组熵总和的差值是否小于停止阈值，若是，则转到步骤414，否则转到步骤412。

步骤414、确定最终的分组结果以及每个分组对应的组值。

步骤415、根据每组的组值，确定指标对应的阈值。

基于相同的技术构思，本发明实施例还提供一种用户类型识别装置，如图5所示，包括：

获取单元501，用于获取用户的指标值；

识别单元502，用于根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型；所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的。

可选地，所述装置还包括阈值确定单元503，具体用于根据所述指标值，利用识别模型识别所述用户的类型之前，针对样本中的每个指标，根据所述样本在所述指标的取值，对所述样本进行排序；

根据每个分组的组值，确定所述指标对应的阈值。

可选地，所述阈值确定单元503，还用于按顺序选取排序后的样本中n个未分组的样本，生成样本集合；

判断样本数最多的一类标签的比例是否小于当前分组阈值；

可选地，所述阈值确定单元503，还用于将所述样本集合中的所有样本划分到一个分组之后，返回到按顺序选取排序后的样本中的n个未分组的样本，生成样本集合的步骤之前，判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同；

可选地，所述阈值确定单元503，还用于将所述样本集合中的所有样本划分到一个分组之后，判断当前分组中对应样本数最多的一类标签是否与当前分组的上一分组中对应样本数最多的一类标签相同；

可选地，所述阈值确定单元503，还用于根据每个分组中的所有样本在所述指标的取值，确定所述分组对应的组值。

可选地，所述阈值确定单元503，还用于将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和之后，若所述第一组熵总和与所述第二组熵总和之间的差值大于所述停止阈值，则将所述第二组熵总和作为所述第一组熵总和，并返回到将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定对应的第二组熵总和的步骤。

可选地，所述阈值确定单元503，还用于根据下列公式确定一种分组结果对应的组熵总和：

可选地，所述阈值确定单元503，还用于根据样本的指标的取值，对所述样本进行排序之前，根据下列公式校正所述样本的指标的取值：

其中，w_j(j＝1,2,...,p)：

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用户类型识别方法，其特征在于，包括：

获取用户的指标值；

所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的；

所述根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型之前，还包括：

根据每个分组的组值，确定所述指标对应的阈值。

2.如权利要求1所述的方法，其特征在于，所述对排序后的样本进行分组，包括：

判断样本数最多的一类标签的比例是否小于当前分组阈值；

其中，n为大于1的整数，m为正整数。

3.如权利要求2所述的方法，其特征在于，将所述样本集合中的所有样本划分到一个分组之后，返回到按顺序选取排序后的样本中的n个未分组的样本，生成样本集合的步骤之前，还包括：

4.如权利要求2所述的方法，其特征在于，所述将所述样本集合中的所有样本划分到一个分组之后，还包括：

5.如权利要求1所述的方法，其特征在于，所述确定第二分组结果中每个分组的组值：

6.如权利要求1所述的方法，其特征在于，将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和之后，还包括：

7.如权利要求1-6中任一项所述的方法，其特征在于，根据下列公式确定一种分组结果对应的组熵总和：

8.如权利要求1-6中任一项所述的方法，其特征在于，根据样本的指标的取值，对所述样本进行排序之前，还包括：

根据下列公式校正所述样本的指标的取值：

其中，w_j(j＝1,2,...,p)：

9.一种用户类型识别装置，其特征在于，包括：

获取单元，用于获取用户的指标值；

识别单元，用于根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型；所述阈值是对样本每个指标进行分组，根据每个分组的组值得到的；

所述装置还包括阈值确定单元，具体用于：

根据所述指标值及预先得到的阈值，通过识别模型识别所述用户的类型之前，针对样本中的每个指标，根据所述样本在所述指标的取值，对所述样本进行排序；

根据每个分组的组值，确定所述指标对应的阈值。

10.如权利要求9所述的装置，其特征在于，所述阈值确定单元，还用于：

判断样本数最多的一类标签的比例是否小于当前分组阈值；

其中，n为大于1的整数，m为正整数。

11.如权利要求10所述的装置，其特征在于，所述阈值确定单元，还用于：

将所述样本集合中的所有样本划分到一个分组之后，返回到按顺序选取排序后的样本中的n个未分组的样本，生成样本集合的步骤之前，判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同；

12.如权利要求10所述的装置，其特征在于，所述阈值确定单元，还用于：

将所述样本集合中的所有样本划分到一个分组之后，判断当前分组中对应样本数最多的一类标签是否与当前分组的上一分组中对应样本数最多的一类标签相同；

13.如权利要求9所述的装置，其特征在于，所述阈值确定单元，还用于：

14.如权利要求9所述的装置，其特征在于，所述阈值确定单元，还用于：

将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定所述第二分组结果对应的第二组熵总和之后，若所述第一组熵总和与所述第二组熵总和之间的差值大于所述停止阈值，则将所述第二组熵总和作为所述第一组熵总和，并返回到将增加一步长值之后的分组阈值作为当前分组阈值，根据每个样本对应的标签及当前分组阈值，对排序后的样本进行分组，得到第二分组结果，确定对应的第二组熵总和的步骤。

15.如权利要求9-14中任一项所述的装置，其特征在于，所述阈值确定单元，还用于根据下列公式确定一种分组结果对应的组熵总和：

16.如权利要求9-14中任一项所述的装置，其特征在于，所述阈值确定单元，还用于：

根据样本的指标的取值，对所述样本进行排序之前，根据下列公式校正所述样本的指标的取值：

其中，w_j(j＝1,2,...,p)：