CN111159243A

CN111159243A - 用户类型识别方法、装置、设备及存储介质

Info

Publication number: CN111159243A
Application number: CN201911393496.2A
Authority: CN
Inventors: 王娟; 李睿
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15
Anticipated expiration: 2039-12-30
Also published as: CN111159243B

Abstract

本发明公开了一种用户类型识别方法、装置、设备及存储介质，用户类型识别方法包括：获取M个用户的业务数据样本；根据所述业务数据样本中的用户特征以及所述用户特征的数值，将所述M个用户聚类成N个类型用户，M和N为正整数，N＜M；对于每个所述类型用户，根据所述类型用户的所述业务数据样本，确定所述类型用户是否为预定类型用户；在所述N个类型用户中的第一类型用户为预定类型用户的情况下，根据所述第一类型用户产生的业务数据，更新训练集，以根据所述训练集识别目标用户是否为所述预定类型用户；其中，所述训练集中的数据表征所述预定类型用户。根据本发明实施例，可以根据训练集更加准确地识别出用户类型。

Description

用户类型识别方法、装置、设备及存储介质

技术领域

本发明属于计算机领域，尤其涉及一种用户类型识别方法、装置、设备及存储介质。

背景技术

在流数据处理过程中为业务处理的及时性需求，系统需要提供高吞吐量与低延迟处理能力，同时降低不同类型用户之间的相互影响。在业务数据处理时需要识别用户类型，保证整个系统的针对不同类型的用户进行相应地业务处理，保障各类用户都能按需获得满意的用户体验。

现有的用户类型识别系统主要是依靠查询字典表的方式，人工事先收集各类用户的特征，将各类用户的特征插入数据库或缓存中，后续应用通过数据查询接口识别用户的类型。但是，目前的用户类型识别方案的识别准确率比较低。

发明内容

本发明实施例提供一种用户类型识别方法、装置、设备及存储介质，能够提高用户类型识别的准确率。

一方面，本发明实施例提供一种用户类型识别方法，包括：

获取M个用户的业务数据样本；

根据所述业务数据样本中的用户特征以及所述用户特征的数值，将所述M个用户聚类成N个类型用户，M和N为正整数，N＜M；

对于每个所述类型用户，根据所述类型用户的所述业务数据样本，确定所述类型用户是否为预定类型用户；

在所述N个类型用户中的第一类型用户为预定类型用户的情况下，根据所述第一类型用户产生的业务数据，更新训练集，以根据所述训练集识别目标用户是否为所述预定类型用户；其中，所述训练集中的数据表征所述预定类型用户。

另一方面，本发明实施例提供了一种用户类型识别装置，包括：

业务数据样本获取模块，用于获取M个用户的业务数据样本；

聚类模块，用于根据所述业务数据样本中的用户特征以及所述用户特征的数值，将所述M个用户聚类成N个类型用户，M和N为正整数，N＜M；

类别确定模块，用于对于每个所述类型用户，根据所述类型用户的所述业务数据样本，确定所述类型用户是否为预定类型用户；

训练集更新模块，用于在所述N个类型用户中的第一类型用户为预定类型用户的情况下，根据所述第一类型用户产生的业务数据，更新训练集，以根据所述训练集识别目标用户是否为所述预定类型用户；其中，所述训练集中的数据表征所述预定类型用户。

再一方面，本发明实施例提供了一种计算机设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现所述的用户类型识别方法。

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现所述的用户类型识别方法。

本发明实施例的用户类型识别方法、装置、设备及存储介质，能够通过聚类对用户进行分类，确定每类用户是否为预定类型用户。根据预定类型用户产生的数据，更新训练集，使得训练集支持增量更新，实现训练集中数据的积累，从而可以根据训练集更加准确地识别出用户类型。另外，本发明实施例可以使用大数据处理技术，有效地进行用户类型识别，使用户类型识别在海量数据面前从不可能变成了可能，提高了用户类型识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的用户类型识别方法的流程示意图；

图2示出了本发明一个实施例提供的用户特征提取过程的原理示意图；

图3示出了本发明一个实施例提供的用户特征画像的示意图；

图4示出了本发明一个实施例提供的布隆算法的内存结构的示意图；

图5示出了本发明另一个实施例提供的用户类型识别方法的原理示意图；

图6示出了本发明一个实施例提供的用户类型识别装置的结构示意图；

图7示出了本发明实施例提供的计算机设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

可以通过被动检查方式由运维人员将用户特征录入字典表，后续处理应用从字典表中识别，但是这种方式存在以下问题：

1、识别不准确，处理滞后：随着市场扩张、客户接触渠道的互联网化，用户信息变更频繁且无法预知，每天依靠人工检查与识别的方式数据及时性较低、工作量较大、数据容易错乱等。在分布式流处理应用过程中，因为用户类型识别错误进入正常处理通道会长时间占用通道，导致影响其他类型用户的业务处理。比如，错误地识别出用户类型为低流量用户，则会导致低流量用户的计费、查询等相关业务处理及时性产生负面影响；在产生性能影响后，为保障绝大多数用户体验，会暂时拦截大集团业务数据处理，导致大集团业务处理的延迟进一步增加。

2、海量数据下支撑困难：随着物联网海量设备的接入，数据成倍暴增，业务处理通道数越来越多，关系型数据库和内存缓存技术在海量数据面前瓶颈越来越明显。且单个用户的积压，通过横向扩展的形式无法解决。

为了解决现有技术问题，本发明实施例提供了一种用户类型识别方法、装置、设备及存储介质。下面首先对本发明实施例所提供的用户类型识别方法进行介绍。

图1示出了本发明一个实施例提供的用户类型识别方法的流程示意图。如图1所示，用户类型识别方法包括：

步骤101，获取M个用户的业务数据样本。

其中，业务数据样本可以包括话费账单或者浏览网页数据。

步骤102，根据业务数据样本中的用户特征以及用户特征的数值，将M个用户聚类成N个类型用户，M和N为正整数，N＜M。

其中，用户特征指能够代表一类用户的属性描述，例如：子用户数多、总流量大等单一属性修饰。

步骤103，对于每个类型用户，根据该类型用户的业务数据样本，确定该类型用户是否为预定类型用户。

其中，预定类型用户可以包括属于预定企业集团的员工的用户，比如，预定类型用户为大集团用户。或者，预定类型用户可以包括高流量用户。或者，预定类型用户可以包括子用户多的用户。

步骤104，在N个类型用户中的第一类型用户为预定类型用户的情况下，根据第一类型用户产生的业务数据，更新训练集，以根据训练集识别目标用户是否为预定类型用户；其中，训练集中的数据表征预定类型用户。

其中，第一类型用户产生的业务数据可以为第一类型用户新产生的业务数据，新产生的业务数据为在产生业务数据样本之后产生的业务数据。

在本发明实施例中，通过聚类对用户进行分类，确定每类用户是否为预定类型用户。根据预定类型用户产生的数据，更新训练集，使得训练集支持增量更新，实现训练集中数据的积累，从而可以根据训练集更加准确地识别出用户类型。另外，本发明实施例，可以使用大数据处理技术，有效地进行用户类型识别，使用户类型识别在海量数据面前从不可能变成了可能，提高了用户类型识别的效率。

可选地，在本发明的一个或多个实施例中，根据该类型用户的业务数据样本，确定该类型用户是否为预定类型用户，包括：

根据业务数据样本中该类型用户的用户特征的数值，利用贝叶斯算法，计算第一概率，其中，第一概率为该类型用户的用户特征满足用户特征对应的条件的情况下，该类型用户为预定类型用户的概率；

根据第一概率以及用户特征对应的权重，计算该类型用户为预定类型用户的第二概率；

根据第二概率，确定该类型用户是否为预定类型用户。

比如，在步骤102中，聚类成两个类型用户，分别是类型A用户和类型B用户。假设用户特征为子用户数量，下面说明如何根据类型A用户的业务数据样本，利用贝叶斯算法，计算类型A用户的子用户数量超过子用户数量指标的情况下，类型A用户为预定类型用户的概率。

由于类型A用户和类型B用户为样本用户，因此，对于类型A用户和类型B用户中的每个用户是否为预定类型用户是已知的。进而可以统计出类型A用户为预定类型用户的概率P(A)(先验概率)，类型A用户的子用户数量超过子用户数量指标的概率P(B)(先验概率)，在类型A用户是预定类型用户的条件下，类型A用户的子用户数量超过子用户数量指标的概率P(A|B)。

根据统计出的P(A)、P(B)和P(A|B)，通过贝叶斯公式计算出类型A用户的子用户数量超过子用户数量指标的情况下，类型A用户为预定类型用户的概率P(B|A)，概率P(B|A)即上述的第一概率。贝叶斯公式具体如下：

其中，假设预定类型用户为大集团用户，统计出的先验概率可以如表1所示：

表1

另外，类型A用户的用户特征的数量可以为一个或多个。比如，用户特征的数量为多个，多个用户特征分别为子用户数量，使用流量的多少，设备数量。因此，可以按照上述的贝叶斯算法，分别计算出类型A用户的子用户数量超过子用户数量指标的情况下，类型A用户为预定类型用户的概率P1(B|A)；类型A用户的流量超过流量指标的情况下，类型A用户为预定类型用户的概率P2(B|A)，类型A用户的设备数量超过设备数量指标的情况下，类型A用户为预定类型用户的概率P3(B|A)。

利用如下的公式计算出类型A用户为预定类型用户的概率P，该概率即为上述的第二概率，

P＝P1(B|A)×a1×P2(B|A)×a2×P3(B|A)×a3 (2)

其中，a1表示子用户数量对应的权重，a2表示流量对应的权重，a3表示设备数量对应的权重。

在本发明实施例中，在采用在贝叶斯算法的基础上增加特征权重使运算结果更贴近实际，减少二次过滤的压力。

可选地，在本发明的一个或多个实施例中，根据第一概率以及用户特征对应的权重，计算该类型用户为预定类型用户的第二概率之前，用户类型识别方法还包括：

若业务数据样本为在预定条件下产生的数据，则获取业务数据样本中的用户特征的特征指标，以及参考特征指标；

将业务数据样本中的用户特征的特征指标与参考特征指标进行比较；

在业务数据样本中的用户特征的特征指标大于参考特征指标的情况下，增大用户特征对应的权重；

在业务数据样本中的用户特征的特征指标小于参考特征指标的情况下，降低用户特征对应的权重。

其中，特征指标为能够代表一类用户的属性的值又叫特征值，例如子用户大于1000，这其中的1000就是特征指标。

可选地，在本发明的一个或多个实施例中，业务数据样本为在预定条件下产生的数据，包括：业务数据样本为在预定时间产生的数据，和/或，业务数据样本为在预定事件发生时产生的数据。

作为一个示例，权重调整过程包括：

计算用户特征的特征指标相对于参考特征指标的偏移量比例；根据偏移量比例确定权重增大或减小的幅度。比如，在国庆期间用户使用的流量是平时使用的流量的2倍，则流量对应的权重增大2倍。

其中，通过绘制偏移量历史曲线，分析偏移量历史曲线与时间及事件的关联性；从而判断出用户特征与事件或时间是否具有关联。

可选地，在本发明的一个或多个实施例中，获取业务数据样本中的用户特征的特征指标，包括：

获取用户在多个时间点的用户特征的历史数值；

根据多个时间点以及历史数值，利用线性回归算法，确定用户特征的特征指标值域；

根据特征指标值域，确定用户特征的特征指标。

比如，用户特征为流量，流量的指标值域为小于100G，那么流量的指标为100G。

线性回归算法可以为下面的公式：

假设i＝0，h_θ(x)表示的是一元一次方程，是穿过坐标系中原点的一条直线，以此类推。假设2018年10月1号某用户通话100次，该用户在2017年10月1号的通话量90，分析该用户历史年份同时期的通话次数通过二维坐标标注，发现该用户的通量近似一根直线，时间为x轴通话次数为y轴，将本年的事件带入后得到一个本年的该特征的值大概为120次。仅仅通过线性回归算法本身预测的波动性较大，因此需要结合线性回归的算法的结果波动大小，相反的调整属性的权重，以减少某时期的特殊事件对该特征的影响。

本发明实施例以用户画像为基础，围绕用户特征提取及特征管理过程，通过机器学习+业务分析人为接入的方式动态调用户特征组合及用户特征的数值，最终形成特定用户特性。其主要功能有：特征提取、用户画像。用户特征提取的模型如图2所示：

1)业务分析员确认预定类型哟用户数据的指标特性。

2)根据经验设定用户特征临时指标。

3)利用机器学习，结合线性回归算法推测用户特征的特征指标值域。

4)验证特征指标值域是否与用户实际的用户特征的数值相匹配。

5)修订特征指标或指标组合重复步骤2)、3)和4)。

6)固化用户特征，将用户特征增加到字典中；固化用户特征指标，根据用户特征指标形成特性指标。以方便分类模块引用特性字典以及特性指标，识别用户是否为预定类型用户。

经过上述步骤后，将这些用户特征进行排列组合形成用户特性的过程称之为用户画像，可以将用户画像理解为用户所具备某些特征的集合。通过这些用户特征的关联描述，可以推测出此类用户的习惯，从而针对用户习惯进行相应处理。比如，通过用户特征的关联描述，可以推测出用户在电信运营过程的消费习性，再根据这些消费习性可以提取出特性比较突出的一类用户。

由此可见，每个用户具有用户特征，用户特征可以包括用户的信息、订购、成员、消费等。用户特征通过排列组合和指标值调整后，用户自然而然的被分类，通过调整排列组合和响应指标值，不同用户特征的交集会相对较少，此时可以固化这个排列组合及相应的特征指标，以形成一类用户的用户特性，这个过程可以称之为特征提取及优化过程。用户特性指能够代表一类用户的属性集合，例如：有大集团标记并且其用户数大于100个等其他属性的集合。用户特性可以是如图3所示，图3中的用户特征的描述如下：

1)设备多：用户使用多种设备接入网络，并且都长时间使用；

2)集团标识：从用户资料里面关联出来此用户具备集团用户特征；

3)子用户多：该集团用户包含较多的子用户；

4)流量定向：该类用户访问的目标地址范围固定；

5)高流量：该类用户日、月流量使用较高，流量用量水平较为稳定；

6)流量离散：该类用户访问的目标地址不明确，访问地址较多、且无规律，并且访问时长不固定；

7)记录数较多：该类用户产生的业务数据明显大于其他用户；

8)协议固定：该类用户接入网络的协议固定多为自定义协议。

可选地，在本发明的一个或多个实施例中，根据训练集识别目标用户是否为预定类型用户，包括：

将目标用户产生的业务数据与训练集中的数据进行相似度计算，得到目标用户产生的业务数据与训练集中的数据之间的相似度；

在相似度大于预定相似度阈值的情况下，识别出目标用户为预定类型用户；

在相似度小于或等于预定相似度阈值的情况下，识别出目标用户不是预定类型用户。

目标用户的业务数据通过和训练集中的特征向量进行距离计算，根据计算的距离判断相似度，从而根据相似度可以计算出目标用户属于预定类型用户的概率。在目标用户属于预定类型用户的概率大于预定概率阈值的情况下，将目标用户划分到预定类型用户。

可选地，在本发明的一个或多个实施例中，在根据训练集识别目标用户的类型时，可以判断目标用户的用户特征对应的数值是否落在特征指标值域内，并且根据用户特征对应的数值与特征指标值域的中心点的距离进行打分。打的分数越大，则表示目标用户为预定类型用户的可能性越大。因此，在打的分数大于预定分数阈值的情况下，可以确定目标用户为预定类型用户。

可选地，在本发明的一个或多个实施例中，根据训练集识别目标用户是否为预定类型用户之后，用户类型识别方法还包括：

在根据训练集识别出目标用户不是预定类型用户的情况下，基于布隆算法，识别目标用户是否为预定类型用户；

在基于布隆算法识别出目标用户为预定类型用户的情况下，判定目标用户为预定类型用户。

本发明实施例充分挖掘算法特性，由于利用训练集进行用户类型识别有可能存在误判的情况，因此本发明实施例采用两级分类的方式实现精确识别功能。比如，利用训练集可以保障分类算法80％的分类准确率，剩下的20％的准确率可以通过布隆算法去完成。因此，本发明实施例采用多算法互补及个别算法针对性优化的方式提升整体性能。利用布隆算法的过滤特性，判断该用户是否是预定类型用户，这种方式会解耦对缓存和数据库的依赖，从而提高了分布式扩展的能力。

可选地，在本发明的一个或多个实施例中，预定类型用户的标识的比特图(bitmap)位于两级缓存中，两级缓存中的一级缓存包括预定类型用户的标识的部分比特图，两级缓存中的二级缓存包括预定类型用户的标识的全部比特图。

基于布隆算法，识别目标用户是否为预定类型用户，包括：

基于布隆算法中的k个哈希(hash)函数，分别对目标用户的标识进行哈希计算，得到k个哈希值，k为正整数；

判断在一级缓存中是否包含k个哈希值映射的比特图；

在一级缓存中不包含k个哈希值映射的比特图的情况下，将二级缓存中的包含k个哈希值映射的比特图加载至一级缓存中；

根据一级缓存，识别目标用户是否为预定类型用户。

本发明实施例中，数据从单内存改造成了内存+分布式缓存结构，结合内存淘汰算法优化一、二级缓存交互性能，在bitmap的基础上按位增加计数器可实现内存数据修改功能，防止内存空间垃圾数据过多对结果的准确率产生影响；业务处理使用黑名单逻辑，判断话单用户不在大集团用户列表里面，保障结果正确性。

可选地，在本发明的一个或多个实施例中，布隆算法中哈希函数的个数满足如下公式：

k＝ln(2)×n/m (4)

其中，k表示布隆算法中哈希函数的个数，n表示比特数组的长度，即内存缓存大小，m表示预定类型用户的个数。

本发明实施例采用多级缓存实现m值扩容的方式以达到对海量字典数据的支持。布隆算法的内存结构如图4所示：

分级缓存：将hash池分割为n断，在进行匹配时首先判断一级缓存中是否包含该段bitmap，如果该段在一级缓存中不存在，则从二级缓存中加载该段bitmap，并加载至一级缓存中，结合内存清理算法清理访问率相对较低的冷数据，以便加载其他段数据。

二级缓存：采用分布式内存缓存，利用分布式横向扩展特性突破内存bitmap瓶颈，在保证准确率的前提下使布隆算法对海量字典数据处理成为可能。

布隆算法的过滤字典中存储有表示预定类型用户的标识的数据，由此，将过滤字典简化成占位符，减少字典数据存储占用空间，从而使应用更轻量化，更有利于扩展。

可选地，在本发明的一个或多个实施例中，根据第一类型用户产生业务的数据，更新训练集，包括：

利用预定模型，对第一类型用户产生的业务数据进行计算学习，得到特征向量；

将特征向量添加至训练集中。

将多个用户特性以多维数组和阵列的方式存储后产生的文件可以称之为训练集。预定模型为通过多种属性组合形成特定用户的数据模型。将多种属性作为坐标属性最终每个用户都可以在这个空间中找到自己的一个点，这种空间数据的集合可以称之为训练集。本发明实施例可以采用多维数组阵列的方式存储训练集，根据已知是预定类型的用户产生的数据形成训练集。

本发明改进全量存储用户特征的存储结构，将用户特征简化为向量结构的数据，减少存储空间，从而使应用更轻量化，更有利于扩展。而且人工智能中的机器学习可以辅助用户智能化维护业务口径，让业务更侧重分析结果的决策，

下面通过一个具体的例子对本发明实施例的方案进行说明。

参考图5，本发明实施例以大数据流处理技术为基础，采集用户业务数据时采用多副本分流的方式将原有业务数据分为两个数据流：机器学习数据流(镜像数据)主要用于模型特性、验证以及特征模型权重学习；业务数据流(正常流程)主依赖于机器学习数据流产生的特征模型及权重，实现对话单数据筛检及分流。

机器学习数据流包括以下步骤：

1)数据整合过滤无效干扰数据，将无效的话单数据丢弃；

2)通过配置自定义用户特征属性和特征数据采集方式，自动化采集工具根据用户特性的数据字段值进行聚合输出成用户特征的数值，以用户特征及用户特征的数值为基础通过聚类分类算法实现用户分类；

3)根据业务分析员定义的用户特征、用户特征指标动态调整用户特征对应的权重，以计算出每类用户为大集团用户的概率，从而识别出大集团用户。

4)在已有的训练集的基础上，对大集团用户新产生的业务数据进行计算学习，得到大集团用户的特征向量，将大集团用户的特征向量更新到训练集中。

5)将训练集同步到用户识别模块中。

业务处理数据流包括以下步骤：

1)无结构混合数据在经过流处理引擎时对数据进行过滤、排重、回填；

2)通过用户资料及特征库对话单数据打标签；

3)针对话单的部分字段格式不合法或者空值处理不正确的异常数据在分类前进行修复或异常抛出处理；

4)经过用户识别模块将待识别用户的话单数据与训练集中的特征向量进行向量计算，根据两向量点之间的距离判断相似度，根据相似度可以计算出待识别用户是否属于大集团用户。

5)步骤4)的分类会存在误判的情况，精确匹配算法模块对待识别用户再次识别，过滤出误判的用户；

6)基于识别结果将用户数据分通道输出到业务系统。

本发明实施例具体如下的优势：

自动学习：将人工维护方式改成机器学习为主，人工微调的方式让程序自动学习如何识别用户类型。

高扩展性：抛弃传统数据存储模式，将用户特征浓缩成以向量的方式存储成训练集，完全脱离传统数据库或缓存。再结合分布式计算框架，可通过简单的横向扩展轻松实现海量数据的处理。

高精度快速识别：字典数据准实时更新、实时同步；结合布隆算法有效保护缓存，杜绝缓存被击穿的问题，减少外部交互提高大集团用户识别率及识别速度。

高稳定性：解决传统缓存在海量数据场景下易击穿的问题和传统数据库在高并发、海量数据存储场景下性能差的问题。

高适用性：本发明方法适合用户类型快速精确识别的场景。

图6示出了本发明提供的一个实施例的用户类型识别装置的结构示意图。如图6所示，用户类型识别装置200包括：

业务数据样本获取模块201，用于获取M个用户的业务数据样本；

聚类模块202，用于根据所述业务数据样本中的用户特征以及所述用户特征的数值，将所述M个用户聚类成N个类型用户，M和N为正整数，N＜M；

类别确定模块203，用于对于每个所述类型用户，根据所述类型用户的所述业务数据样本，确定所述类型用户是否为预定类型用户；

训练集更新模块204，用于在所述N个类型用户中的第一类型用户为预定类型用户的情况下，根据所述第一类型用户产生的业务数据，更新训练集，以使类型识别模块根据所述训练集识别目标用户是否为所述预定类型用户；其中，所述训练集中的数据表征所述预定类型用户。

在本发明实施例中，通过聚类对用户进行分类，确定每类用户是否为预定类型用户。根据预定类型用户产生的数据，更新训练集，使得训练集支持增量更新，实现训练集中数据的积累，从而可以根据训练集更加准确地识别出用户类型。另外，本发明实施例可以使用大数据处理技术，有效地进行用户类型识别，使用户类型识别在海量数据面前从不可能变成了可能，提高了用户类型识别的效率。

可选地，在本发明的一个或多个实施例中，类别确定模块203包括：

第一概率计算模块，用于根据所述业务数据样本中所述类型用户的所述用户特征的数值，利用所述贝叶斯算法，计算第一概率，其中，所述第一概率为所述类型用户的所述用户特征满足所述用户特征对应的条件的情况下，所述类型用户为所述预定类型用户的概率；

第二概率计算模块，用于根据所述第一概率以及所述用户特征对应的权重，计算所述类型用户为所述预定类型用户的第二概率；

用户类型确定模块，用于根据所述第二概率，确定所述类型用户是否为预定类型用户。

可选地，在本发明的一个或多个实施例中，用户类型识别装置200还包括：

信息获取模块，用于若所述业务数据样本为在预定条件下产生的数据，则获取所述业务数据样本中的所述用户特征的特征指标，以及参考特征指标；

比较模块，用于将所述业务数据样本中的所述用户特征的特征指标与所述参考特征指标进行比较；

权重增大模块，用于在所述业务数据样本中的所述用户特征的特征指标大于所述参考特征指标的情况下，增大所述用户特征对应的权重；

权重降低模块，用于在所述业务数据样本中的所述用户特征的特征指标小于所述参考特征指标的情况下，降低所述用户特征对应的权重。

可选地，在本发明的一个或多个实施例中，所述业务数据样本为在预定条件下产生的数据，包括：所述业务数据样本为在预定时间产生的数据，和/或，所述业务数据样本为在预定事件发生时产生的数据。

可选地，在本发明的一个或多个实施例中，信息获取模块包括：

特征值获取模块，用于获取用户在多个时间点的所述用户特征的历史数值；

指标值域确定模块，用于根据所述多个时间点以及所述历史数值，利用线性回归算法，确定所述用户特征的特征指标值域；

特征指标确定模块，用于根据所述特征指标值域，确定所述用户特征的特征指标。

可选地，在本发明的一个或多个实施例中，类型识别模块包括：

相似度计算模块，用于将所述目标用户产生的业务数据与所述训练集中的数据进行相似度计算，得到所述目标用户产生的业务数据与所述训练集中的数据之间的相似度；

第一类型识别模块，用于在所述相似度大于预定相似度阈值的情况下，识别出所述目标用户为所述预定类型用户；

第二类型识别模块，用于在所述相似度小于或等于预定相似度阈值的情况下，识别出所述目标用户不是所述预定类型用户。

布隆算法识别模块，用于在根据所述训练集识别出所述目标用户不是所述预定类型用户的情况下，基于布隆算法，识别所述目标用户是否为所述预定类型用户；

第三类型识别模块，用于在基于所述布隆算法识别出所述目标用户为所述预定类型用户的情况下，判定所述目标用户为所述预定类型用户。

可选地，在本发明的一个或多个实施例中，所述预定类型用户的标识的比特图位于两级缓存中，所述两级缓存中的一级缓存包括所述预定类型用户的标识的部分比特图，所述两级缓存中的二级缓存包括所述预定类型用户的标识的全部比特图；

布隆算法识别模块包括：

哈希值计算模块，用于基于所述布隆算法中的k个哈希函数，分别对所述目标用户的标识进行哈希计算，得到k个哈希值，k为正整数；

缓存判断模块，用于判断在所述一级缓存中是否包含所述k个哈希值映射的比特图；

加载模块，用于在所述一级缓存中不包含所述k个哈希值映射的比特图的情况下，将所述二级缓存中的包含所述k个哈希值映射的比特图加载至所述一级缓存中；

第四类型识别模块，用于根据所述一级缓存，识别所述目标用户是否为所述预定类型用户。

可选地，在本发明的一个或多个实施例中，训练集更新模块204包括：

学习模块，用于利用预定模型，对所述第一类型用户产生的业务数据进行计算学习，得到特征向量；

向量添加模块，用于将所述特征向量添加至所述训练集中。

可选地，在本发明的一个或多个实施例中，所述预定类型用户包括属于预定企业集团的员工的用户。

计算机设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在综合网关容灾设备的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种用户类型识别方法。

在一个示例中，计算机设备还可包括通信接口303和总线310。其中，如图7所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该计算机设备可以执行本发明实施例中的用户类型识别方法，从而实现结合图1和图6描述的用户类型识别方法和装置。

另外，结合上述实施例中的用户类型识别方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户类型识别方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种用户类型识别方法，其特征在于，包括：

获取M个用户的业务数据样本；

2.根据权利要求1所述的方法，其特征在于，所述根据所述类型用户的所述业务数据样本，确定所述类型用户是否为预定类型用户，包括：

根据所述业务数据样本中所述类型用户的所述用户特征的数值，利用贝叶斯算法，计算第一概率，其中，所述第一概率为所述类型用户的所述用户特征满足所述用户特征对应的条件的情况下，所述类型用户为所述预定类型用户的概率；

根据所述第一概率以及所述用户特征对应的权重，计算所述类型用户为所述预定类型用户的第二概率；

根据所述第二概率，确定所述类型用户是否为预定类型用户。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一概率以及所述用户特征对应的权重，计算所述类型用户为所述预定类型用户的第二概率之前，所述方法还包括：

若所述业务数据样本为在预定条件下产生的数据，则获取所述业务数据样本中的所述用户特征的特征指标，以及参考特征指标；

将所述业务数据样本中的所述用户特征的特征指标与所述参考特征指标进行比较；

在所述业务数据样本中的所述用户特征的特征指标大于所述参考特征指标的情况下，增大所述用户特征对应的权重；

在所述业务数据样本中的所述用户特征的特征指标小于所述参考特征指标的情况下，降低所述用户特征对应的权重。

4.根据权利要求3所述的方法，其特征在于，所述业务数据样本为在预定条件下产生的数据，包括：所述业务数据样本为在预定时间产生的数据，和/或，所述业务数据样本为在预定事件发生时产生的数据。

5.根据权利要求3所述的方法，其特征在于，所述获取所述业务数据样本中的所述用户特征的特征指标，包括：

获取用户在多个时间点的所述用户特征的历史数值；

根据所述多个时间点以及所述历史数值，利用线性回归算法，确定所述用户特征的特征指标值域；

根据所述特征指标值域，确定所述用户特征的特征指标。

6.根据权利要求1所述的方法，其特征在于，所述根据所述训练集识别目标用户是否为所述预定类型用户，包括：

将所述目标用户产生的业务数据与所述训练集中的数据进行相似度计算，得到所述目标用户产生的业务数据与所述训练集中的数据之间的相似度；

在所述相似度大于预定相似度阈值的情况下，识别出所述目标用户为所述预定类型用户；

在所述相似度小于或等于预定相似度阈值的情况下，识别出所述目标用户不是所述预定类型用户。

7.根据权利要求1所述的方法，其特征在于，所述根据所述训练集识别目标用户是否为所述预定类型用户之后，所述方法还包括：

在根据所述训练集识别出所述目标用户不是所述预定类型用户的情况下，基于布隆算法，识别所述目标用户是否为所述预定类型用户；

在基于所述布隆算法识别出所述目标用户为所述预定类型用户的情况下，判定所述目标用户为所述预定类型用户。

8.根据权利要求7所述的方法，其特征在于，所述预定类型用户的标识的比特图位于两级缓存中，所述两级缓存中的一级缓存包括所述预定类型用户的标识的部分比特图，所述两级缓存中的二级缓存包括所述预定类型用户的标识的全部比特图；

所述基于布隆算法，识别所述目标用户是否为所述预定类型用户，包括：

基于所述布隆算法中的k个哈希函数，分别对所述目标用户的标识进行哈希计算，得到k个哈希值，k为正整数；

判断在所述一级缓存中是否包含所述k个哈希值映射的比特图；

在所述一级缓存中不包含所述k个哈希值映射的比特图的情况下，将所述二级缓存中的包含所述k个哈希值映射的比特图加载至所述一级缓存中；

根据所述一级缓存，识别所述目标用户是否为所述预定类型用户。

9.根据权利要求1所述的方法，其特征在于，所述根据所述第一类型用户产生的业务数据，更新训练集，包括：

利用预定模型，对所述第一类型用户产生的业务数据进行计算学习，得到特征向量；

将所述特征向量添加至所述训练集中。

10.根据权利要求1所述的方法，其特征在于，所述预定类型用户包括属于预定企业集团的员工的用户。

11.一种用户类型识别装置，其特征在于，包括：

业务数据样本获取模块，用于获取M个用户的业务数据样本；

12.一种计算机设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-10任意一项所述的用户类型识别方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-10任意一项所述的用户类型识别方法。