CN105408894B

CN105408894B - 一种用户身份类别确定方法以及装置

Info

Publication number: CN105408894B
Application number: CN201480009004.4A
Authority: CN
Inventors: 强思维; 金耀辉; 王岩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2019-03-01
Anticipated expiration: 2034-06-25
Also published as: CN105408894A; WO2015196377A1

Abstract

本发明实施例公开了一种用户身份类别确定方法，包括：获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集；并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集；通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。相应地，本发明实施例还公开了一种用户身份类别确定装置。采用本发明，可以实现根据用户的上网行的记录为确定用户身份类别。

Description

一种用户身份类别确定方法以及装置

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种用户身份类别确定方法以及装置。

背景技术

随着互联网技术的不断发展，基于互联网提供的用户服务也越来越多，例如：通过互联网向用户推送业务信息或资讯信息。在提供用户服务的方式中，一概而论的撒网式服务已不再适合，个性化和差异化的服务才能更加博得用户的青睐，例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产类的网页资源。进一步地，为了实现个性化和差异化的服务，需要获取用户的基本信息，如年龄、性别、职业以及住址等，从而确定用户身份类别。然而，由于以上基本信息涉及用户的个人隐私，并不能轻易获取。解决该问题的现有技术方案是，在用户创建网络账号时，获取用户填写的基本信息，从而根据基本信息确定用户身份类别。

但是，上述获取用户的基本信息的方式需要用户进行积极配合，即需用户同意将基本信息提供出来，导致能够收集得到基本信息的数量有限。

发明内容

本发明实施例提供了一种用户身份类别确定方法以及装置，可以实现根据用户的上网行为的记录确定用户身份类别。

本发明实施例第一方面提供了一种用户身份类别确定方法，包括：

获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；

根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并

根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并

根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率；

通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

在第一方面的第一种可能实现方式中，所述获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，包括：

从AP(Access Point，网络接入点)控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录；和

从网络嗅探器的HTTP(Hyper Text Transfer Protocol，超文本传输协议)日志信息或者DPI(Deep Packet Inspection，深度报文检测)设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

结合第一方面的可能实现方式，在第二种可能实现方式中，所述根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，包括：

分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长；

将所述统计量转化为归一化的数值；

通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

结合第一方面以及第一方面的第二种可能实现方式，在第三种可能实现方式中，所述分别提取所述位置信息记录和所述网页信息记录中的特征信息之后，还包括：

若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

结合第一方面以及第一方面的第三种可能实现方式，在第四种可能实现方式中，所述若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量，包括：

通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括LR(Logistic Regression，逻辑回归)算法和Linear SVC函数。

结合第一方面以及第一方面的第二种可能实现方式，在第五种可能实现方式中，所述预设的概率算法包括以下方法的任一种：

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

结合第一方面的可能实现方式，在第六种可能实现方式中，所述根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，包括：

提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对预设的多个关键词的搜索频率；

通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

结合第一方面的可能实现方式，在第七种可能实现方式中，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别，包括：

将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别；或

将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别；或

将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别。

结合第一方面以及第一方面的第一至第七任一种的可能实现方式，在第八种可能实现方式中，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别之后，还包括：

根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

本发明实施例第二方面提供了一种计算机存储介质，所述计算机存储介质存储有程序，该程序执行时包括第一方面提供的一种用户身份类别确定方法的部分或全部步骤。

本发明实施例第三方面提供了一种用户身份类别确定装置，包括：

信息获取模块，用于获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；

概率计算模块，用于根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并

身份类别确定模块，用于通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

在第三方面的第一种可能实现方式中，所述信息获取模块包括：

第一获取单元，用于从AP(Access Point，网络接入点)控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录；

第二获取单元，用于从网络嗅探器的HTTP(Hyper Text Transfer Protocol，超文本传输协议)日志信息或者DPI(Deep Packet Inspection，深度报文检测)设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

结合第三方面的可能实现方式，在第二种可能实现方式中，所述概率计算模块包括：

特征信息提取单元，用于分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长；

数值转化单元，用于将所述统计量转化为归一化的数值；

概率计算单元，用于通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

结合第三方面以及第三方面的第二种可能实现方式，所述概率计算模块还包括：

降维单元，用于若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

结合第三方面以及第三方面的第三种可能实现方式，在第四种可能实现方式中，所述降维单元具体用于通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括LR(Logistic Regression，逻辑回归)算法和Linear SVC函数。

结合第三方面以及第三方面的第二种可能实现方式，在第五种可能实现方式中，所述预设的概率算法包括以下方法的任一种：

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

结合第三方面的可能实现方式，在第六种可能实现方式中，所述特征信息提取单元还用于提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对预设的多个关键词的搜索频率；

所述概率计算单元还用于通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

结合第三方面的可能实现方式，在第七种可能实现方式中，所述身份类别确定模块具体用于将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别；或

结合第三方面以及第三方面的第一至第七任一种的可能实现方式，在第八种可能实现方式中，所述装置还包括：

信息推送模块，用于根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

本发明实施例第四方面提供了一种用户身份类别确定装置，包括存储器以及处理器，其中，存储器中存储一组用户身份类别确定程序，且处理器用于调用存储器中的程序，用于执行以下操作：

由上可见，本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，分别计算出三个方面的各用户设备所属用户的第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，其中，三个方面的身份属性概率集均包括至少一个身份类别的概率，进而通过综合分析第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，确定各所述用户设备所属用户的身份类别，本发明实施例对用户的上网行为进行上述三个方面的深入挖掘，再构建预设的算法对挖掘出的信息记录进行计算，并综合计算结果确定用户设备所属用户的身份类别，进一步地，确定得到的用户身份类别可用于个性化和差异化的用户服务，增强用户的体验。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用户身份类别确定方法的流程示意图；

图2是本发明实施例提供的另一种用户身份类别确定方法的流程示意图；

图3是本发明实施例提供的一种用户身份类别确定装置的结构示意图；

图4是本发明实施例提供的一种信息获取模块的结构示意图；

图5是本发明实施例提供的一种概率计算模块的结构示意图；

图6是本发明实施例提供的另一种用户身份类别确定装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的用户身份类别确定装置(以下简称为本发明装置)实现于网络侧，从网络中获取用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，因此并不用在用户设备上安装或植入任何软或硬件，具有信息基数大、信息面广和成本低的优点。

本发明实施例中的用户设备(UE，User Equipment)可以包括智能手机、平板电脑、个人电脑、电子阅读器以及车载终端等电子终端，所述用户设备可接入互联网，实现数据交互的功能。

图1是本发明实施例中一种用户身份类别确定方法的流程示意图。如图所示本实施例中的用户身份类别确定方法的流程可以包括：

S101，获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录。

所述位置信息记录是用户设备接入互联网时所处的地理位置的记录，例如咖啡馆、宿舍或图书馆。所述网页信息记录是用户设备通过浏览器或应用程序所打开的网页的记录，例如汽车网、购房网或电影网。所述搜索信息记录是用户设备使用搜索引擎或检索软件时所用的关键字或关键词。

可选的一个实施方式，一方面，本发明装置可从AP(Access Point，网络接入点)控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录。其中，AP控制器是无线网络的核心，用来集中化控制接入热点，广泛应用于WiFi(Wireless Fidelity，无线保真)网络，能够获取用户登录和漫游过程中的地理位置，并生成日志信息；移动网关可以包括GGSN(Gateway GPRS Support Node，网关GPRS支持节点)或PGW(Packet Data Network Gateway，分组数据网网关)等设备，GGSN可以把GSM(GlobalSystem for Mobile communication，全球移动中心)网中的GPRS(General Packet RadioService，通用分组无线服务技术)的分组数据包进行协议转换，在转换过程中，能够获取移动用户的地理位置，并生成用户信息。简而言之，具体实现过程中，发明装置可从网络侧的设备中的日志信息或用户信息中获取包含有用户地理位置的位置信息记录。

另一方面，本发明装置可从网络嗅探器的HTTP(Hyper Text Transfer Protocol，超文本传输协议)日志信息或者DPI(Deep Packet Inspection，深度报文检测)设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。其中，所述网络嗅探器是一种通过包解析获取在网络应用层流量信息的工具，能够获取用户访问互联网流量信息中HTTP的信息，HTTP信息通常保存为日志信息，包含域名、URL(Uniform ResourceLocator，统一资源定位器)以及refer等字段，该字段均带有用户的上网痕迹，从中可直接读取用户设备访问过的网页和搜索的关键字或关键词；DPI设备是一种工作在OSI(OpenSystem Interconnection，开放式系统互联)模型中传输层到应用层的网络设备，具备业务数据流识别和业务数据流控制功能，广泛应用于城域网和企业网，能够识别出用户设备访问过的网页和搜索的关键字或关键词，并保存在检测信息中。简而言之，具体实现过程中，发明装置可从网络侧的设备中的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。

需要指出的是，本发明装置获取的是多个用户设备上网的记录，因此需要标识各个用户设备。用户设备的IP(Internet Protocol，互联网协议)地址是动态分配的，IP地址不能作为同一用户设备的标识，而MAC(Media Access Control，硬件位)地址可唯一标识用户设备，因此，可选的，本发明实施例可通过IP地址关联到由MAC地址标识的某个具体用户，具体实现过程中，请参阅表1所示的一种统计用户设备的记录的示例，用户设备通过IP地址(168.192.1.158)接入互联网时，将该IP地址关联到该用户设备的MAC地址(1F4AE2368C2)，并最终以MAC地址(1F4AE2368C2)作为用户设备的标识。

表1

临时IP地址	MAC地址	位置信息记录	网页信息记录	搜索信息记录
					168.192.1.158	1F4AE2368C2	xxx	xxx	xxx

S102，根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率。

可选的一个实施方式，一方面，本发明装置分别提取位置信息记录和网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的用户设备的多种上网行为的统计量，统计量包括次数或时长。

所述特征信息为用户上网行为的一种描述。为了准确描述上网行为，首先需构造多个预设时间段，例如工作日(Weekday)和周末(Weekends)，又如将一天分为A、B、C、D的4个时长，即00：00～06：00(A)；06：00～12：00(B)；12：00～18：00(C)；18：00～24：00(D)，再如将一天按小时分为24个时长。接着，在每个预设时间段内统计用户设备对于位置信息记录和网页信息记录的多种上网行为的统计量，其中，统计量可包括次数或时长，这里不作限定。

例如：若将一天分为A、B、C、D的4个时长，那么位置信息记录中特征信息可如表2所示。

表2

又如：若将一天分为A、B、C、D的4个时长，那么网页信息记录中特征信息可如表3所示。

表3

另一方面，本发明装置还将提取搜索信息记录中的特征信息，其中，其特征信息包括各用户设备对多个预设的关键词的搜索频率。同理，首先需构造多个预设的关键词，也可以是关键字，可根据经验设置出最具代表性的关键词，例如汽车、美容、租房或参考书。接着，对每个关键词统计用户设备的搜索频率。

例如：若关键词为汽车、美容、租房或参考书，那么搜索信息记录中特征信息可如表4所示。

表4

为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，特征矩阵的形式如(1)所示：

其中，x_i，j表示第i个用户设备的第j个上网行为的统计量，特征矩阵的每一行表示某个用户设备的全部上网行为，特征矩阵的每一列表示所有用户对应的某个上网行为。

例如：简化的用户设备的位置信息记录的特征矩阵如(2)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有5种上网行为，如某时间段内用户设备分别在数字图书馆、宿舍、教室、餐厅和咖啡馆的上网时长，假设有5个用户设备，那么可构成5X 5的矩阵。

又如：简化的用户设备的网页信息记录的特征矩阵如(3)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有5种上网行为，如某时间段内用户设备登录网页a、b、c、d和e的次数，假设有5个用户设备，那么可构成5X 5的矩阵。

再如：简化的用户设备的搜索信息记录的特征矩阵如(4)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有5种上网行为，如用户设备搜索时输入关键词a、b、c、d和e的频率，假设有5个用户设备，那么可构成5X 5的矩阵。

进一步可选的，本发明装置将提取的位置信息记录和网页信息记录中的特征信息的统计量转化为归一化的数值。所述归一化的数值即取值范围在[0，1]之间的数值，统计量为一具体数据，将具体数据转化为归一化的数值的方法很多，其中，以位置信息记录的特征信息的统计量为例，本发明实施例采用如下公式(5)实现转化：

其中，表示某个用户设备在时间段t内第i个上网行为的统计量归一化的数值，t包括时间段A、B、C或D，i可以包括数字图书馆、宿舍或咖啡馆等位置，x_i表示其统计量，x_min表示最小时长，x_max表示最大时长。需要指出的是，公式(5)仅为本发明实施例的一种可选公式，其它公式不再一一枚举。

例如：将特征矩阵(1)中的统计量转化为归一化的数值后，特征矩阵如(6)所示。

更进一步可选的，若在同一预设时间段内的不同的用户设备的同一种上网行为的统计量相似，则本发明装置从特征信息中去除相似的所述统计量。具体实现过程中，本发明装置可通过预设的降维算法，从特征信息中去除相似的统计量，其中，预设的降维算法可包括LR(Logistic Regression，逻辑回归)算法和Linear SVC函数，但不仅限于这两种降维算法。

需要指出的是，LR算法和Linear SVC函数的基本思想相似，均是采用线性拟合的方法对特征和类别进行拟合。具体实现过程中，假设有一个2分类的问题，类别为y1和y2，第i个用户对应的特征向量为[xi0，xi1，xi2…xim]，拟合系数向量为[k0，k1，k2…km]，那么平面α＝[xi0*k0，xi1*k1，xi2*k2…xim*km]将特征空间划分成2个部分，因此对于用户设备的特征信息的统计量，可通过判断出其所处的空间而做出预测和分类。其中，拟合系数的选择应使得预测值尽可能位于正确的类别对应的特征空间，如果拟合系数向量中的某个拟合系数趋近于零，则说明该拟合系数对应的统计量对预测和分类的结果影响不大，即可将其舍去，因此实现从特征信息中去除相似的所述统计量。特别地，由于LR算法和Linear SVC函数为现有常用的算法，这里就不再深入描述了。

例如：请参阅矩阵(6)，由于第3列和第5列的特征信息的统计量相近，对于区分用户设备参考价值不大，可以从特征矩阵(6)中去掉。因此，特征矩阵(6)的维度从5降到了3，降维后的特征矩阵如(7)所示。

具体的，在得到归一化和降维后的特征矩阵后，本发明装置通过将特征矩阵引入预设的概率算法，分别计算出第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集。其中，所述第一身份属性概率集、第二身份概率集和第三身份概率集均包括了至少一个身份类别的概率，所述身份类别可以是用户的年龄段、性别、住址以及职业等。

例如，假设身份类别为年龄段(包括青少年和中老年人)，算出的各身份属性概率集可如表5所示。

表5

具体实现过程中，一方面，位置信息记录和网页信息记录的身份属性概率集可通过以下任一种方法来计算：

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

需要，指出的是上述算法均为分类器算法，可根据特征矩阵分类出各用户设备所属用户的身份类别，并计算出身份类别对应的概率。

另一方面，搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。

由于朴素贝叶斯算法均可应用于位置信息记录、网页信息记录和搜索信息记录，本发明实施例将简单介绍下朴素贝叶斯算法的原理：假设x＝[a₁，a₂，a₃…a_m]为一个待分类项，a_i为x的一个特征信息的统计量，类别集合为C＝[y₁，y₂，y₃…y_m]，那么待分类项属于类别x，如果P(y_i|x)＝a_i{P(y₁|x)*P(y₂|x)*…*P(y_n|x)}。其中，通过统计可以得到概率P(y₁|x)*P(y₂|x)*…*P(y_n|x)。接着，根据贝叶斯定理即可计算得到P(y_i|x)。详细计算过程可参考朴素贝叶斯算法详解，这里不再赘述。

S103，通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

具体实现过程中，本发明装置将第一身份属性概率集中的概率大于第一身份属性概率集对应的预设阈值的身份类别作为用户设备所属用户的身份类别；或将第二身份属性概率集中的概率大于第二身份属性概率集对应的预设阈值的身份类别作为用户设备所属用户的身份类别；或将第三身份属性概率集中的概率大于第三身份属性概率集对应的预设阈值的身份类别作为用户设备所属用户的身份类别。例如，请参阅表5，假设第一身份属性集对应的预设阈值为85％，而用户A是青少年的概率(90％)大于85％，则确定用户A的身份类别是青少年。

其中，由于根据位置信息记录、网页信息记录以及搜索信息计算出的身份类别概率的准确率各不相同，因此可针对各身份属性概率集对应地设置预设阈值，若某身份属性概率集的准确率较高，则可将对应的预设阈值设置得较低。例如，假设准确率：第三身份属性概率>第一身份属性概率>第二身份属性概率，则对应的预设阈值可分别设置为60％、80％和90％。需要指出的是，各身份属性概率集的准确率可由一个训练样本来测试。

进一步可选的，如果某个身份类别的概率均不高于对应的预设阈值，则采用该身份类别的概率的和。

综合上述情况，实现确定各用户设备所属用户的身份类别的算法的伪代码可如下所示：

又可选的，本发明装置根据各用户设备所属用户的身份类别，向各用户设备推送信息，例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产类的网页资源。

本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，分别计算出三个方面的各用户设备所属用户的第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，其中，三个方面的身份属性概率集均包括至少一个身份类别的概率，进而通过综合分析第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，确定各所述用户设备所属用户的身份类别，本发明实施例对用户的上网行为进行上述三个方面的深入挖掘，再构建预设的算法对挖掘出的信息记录进行计算，并综合计算结果确定用户设备所属用户的身份类别，进一步地，确定得到的用户身份类别可用于个性化和差异化的用户服务，增强用户的体验。

图2是本发明实施例中另一种用户身份类别确定方法的流程示意图，可以包括：

S201，获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录。

表1

S202，分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长。

表2

表3

S203，将所述统计量转化为归一化的数值。

所述归一化的数值即取值范围在[0，1]之间的数值，统计量为一具体数据，将具体数据转化为归一化的数值的方法很多，其中，以位置信息记录的特征信息的统计量为例，本发明实施例采用如下公式(5)实现转化：

S204，若在同一预设时间段内的不同的用户设备的同一种上网行为的归一化数值相近，则从所述特征信息中去除相近的所述归一化数值。

具体实现过程中，本发明装置可通过预设的降维算法，从特征信息中去除相似的统计量，其中，预设的降维算法可包括LR(Logistic Regression，逻辑回归)算法和LinearSVC函数，但不仅限于这两种降维算法。

S205，通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

具体的，在得到归一化和降维后的特征矩阵后，本发明装置通过将特征矩阵引入预设的概率算法，分别计算出第一身份属性概率集和第二身份属性概率集。其中，所述第一身份属性概率集和第二身份概率集均包括了至少一个身份类别的概率，所述身份类别可以是用户的年龄段、性别、住址以及职业等。

具体实现过程中，位置信息记录和网页信息记录的身份属性概率集可通过以下任一种方法来计算：

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

S206，提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对预设的多个关键词的搜索频率。

具体的，首先需构造多个预设的关键词或关键字，可根据经验设置出最具代表性的关键词，例如汽车、美容、租房或参考书。接着，对每个关键词统计用户设备的搜索频率。

表4

同理，为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，例如：简化的用户设备的搜索信息记录的特征矩阵如(4)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有5种上网行为，如用户设备搜索时输入关键词a、b、c、d和e的频率，假设有5个用户设备，那么可构成5X 5的矩阵。

S207，通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

例如，假设身份类别为年龄段(包括青少年和中老年人)，算出的第三身份属性概率集可如表5所示。

具体的，搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。本发明实施例将简单介绍下朴素贝叶斯算法的原理：假设x＝[a₁，a₂，a₃…a_m]为一个待分类项，a_i为x的一个特征信息的统计量，类别集合为C＝[y₁，y₂，y₃…y_m]，那么待分类项属于类别x，如果P(y_i|x)＝a_i{P(y₁|x)*P(y₂|x)*…*P(y_n|x)}。其中，通过统计可以得到概率P(y₁|x)*P(y₂|x)*…*P(y_n|x)。接着，根据贝叶斯定理即可计算得到P(y_i|x)。详细计算过程可参考朴素贝叶斯算法详解，这里不再赘述。

S208，将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别；或将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别；或将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别。

例如，请参阅表5，假设第一身份属性集对应的预设阈值为85％，而用户A是青少年的概率(90％)大于85％，则确定用户A的身份类别是青少年。

S209，根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产类的网页资源。

图3是本发明实施例中一种用户身份类别确定装置的结构示意图。如图所示本发明实施例中的用户身份类别确定装置至少可以包括信息获取模块310、概率计算模块320以及身份类别确定模块330，其中：

信息获取模块310，用于获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录。具体实现中，所述信息获取模块310可以如图4所示进一步包括：第一获取单元311和第二获取单元312，其中：

第一获取单元311，用于从AP(Access Point，网络接入点)控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录。

所述AP控制器是无线网络的核心，用来集中化控制接入热点，广泛应用于WiFi(Wireless Fidelity，无线保真)网络，能够获取用户登录和漫游过程中的地理位置，并生成日志信息；移动网关可以包括GGSN(Gateway GPRS Support Node，网关GPRS支持节点)或PGW(Packet Data Network Gateway，分组数据网网关)等设备，GGSN可以把GSM(GlobalSystem for Mobile communication，全球移动中心)网中的GPRS(General Packet RadioService，通用分组无线服务技术)的分组数据包进行协议转换，在转换过程中，能够获取移动用户的地理位置，并生成用户信息。简而言之，具体实现过程中，第一获取单元311可从网络侧的设备中的日志信息或用户信息中获取包含有用户地理位置的位置信息记录。

第二获取单元312，用于从网络嗅探器的HTTP(Hyper Text Transfer Protocol，超文本传输协议)日志信息或者DPI(Deep Packet Inspection，深度报文检测)设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

所述网络嗅探器是一种通过包解析获取在网络应用层流量信息的工具，能够获取用户访问互联网流量信息中HTTP的信息，HTTP信息通常保存为日志信息，包含域名、URL(Uniform Resource Locator，统一资源定位器)以及refer等字段，该字段均带有用户的上网痕迹，从中可直接读取用户设备访问过的网页和搜索的关键字或关键词；DPI设备是一种工作在OSI(Open System Interconnection，开放式系统互联)模型中传输层到应用层的网络设备，具备业务数据流识别和业务数据流控制功能，广泛应用于城域网和企业网，能够识别出用户设备访问过的网页和搜索的关键字或关键词，并保存在检测信息中。简而言之，具体实现过程中，第二获取单元312可从网络侧的设备中的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。

概率计算模块320，用于根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率。具体实现中，所述概率计算模块320可以如图5所示进一步包括：特征信息提取单元321、数值转化单元322以及概率计算单元323，其中：

特征信息提取单元321，用于分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长。

表2

表3

另外，特征信息提取单元321还用于提取搜索信息记录中的特征信息，其中，其特征信息包括各用户设备对多个预设的关键词的搜索频率。

表4

数值转化单元322，用于将所述统计量转化为归一化的数值。

可选的，请参阅图5，如图所示的概率计算模块320还可以进一步包括降维模块324，用于若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

具体实现过程中，降维模块324可通过预设的降维算法，从特征信息中去除相似的统计量，其中，预设的降维算法可包括LR(Logistic Regression，逻辑回归)算法和LinearSVC函数，但不仅限于这两种降维算法。

概率计算单元323，用于通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

具体的，在得到归一化和降维后的特征矩阵后，概率计算单元323通过将特征矩阵引入预设的概率算法，分别计算出第一身份属性概率集和第二身份属性概率集。其中，所述第一身份属性概率集和第二身份概率集均包括了至少一个身份类别的概率，所述身份类别可以是用户的年龄段、性别、住址以及职业等。

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

另外，概率计算单元323还用于通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

身份类别确定模块330，用于通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

具体实现过程中，身份类别确定模块330将第一身份属性概率集中的概率大于第一身份属性概率集对应的预设阈值的身份类别作为用户设备所属用户的身份类别；或将第二身份属性概率集中的概率大于第二身份属性概率集对应的预设阈值的身份类别作为用户设备所属用户的身份类别；或将第三身份属性概率集中的概率大于第三身份属性概率集对应的预设阈值的身份类别作为用户设备所属用户的身份类别。例如，请参阅表5，假设第一身份属性集对应的预设阈值为85％，而用户A是青少年的概率(90％)大于85％，则确定用户A的身份类别是青少年。

可选的，请参阅图3，如图所示的用户身份类别确定装置还包括信息推送模块340，用于根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

图4是本发明实施例中的另一种用户身份类别确定装置的结构示意图，如图4所示，该用户身份类别确定装置可以包括：至少一个处理器401，例如CPU，至少一个存储器403，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。存储器403可以是高速RAM存储器，也可以是非易失的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器403还可以是至少一个位于远离前述处理器401的存储装置。存储器404中存储一组程序代码，且处理器401用于调用存储器中存储的程序代码，用于执行以下操作：

可选的，处理器401获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录的具体操作为：

相应地，处理器401根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集的具体操作为：

将所述统计量转化为归一化的数值；

进一步的，处理器401分别提取所述位置信息记录和所述网页信息记录中的特征信息之后，还执行：

可选的，处理器401根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集的具体操作为：

提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对多个预设的关键词的搜索频率；

进一步的，处理器401确定各所述用户设备所属用户的身份类别的具体操作可以为：

更进一步的，处理器401在确定各所述用户设备所属用户的身份类别之后，还执行：

本发明实施例还提出了一种计算机存储介质，所述计算机存储介质存储有程序，所述程序执行时包括本发明实施例结合图1～图2所描述的用户身份类别确定方法中的部分或全部的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种用户身份类别确定方法，其特征在于，所述方法包括：

通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别；

所述根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，包括：

将所述统计量转化为归一化的数值；

通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集；

所述根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，包括：

2.如权利要求1所述的方法，其特征在于，所述获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，包括：

3.如权利要求1所述的方法，其特征在于，所述分别提取所述位置信息记录和所述网页信息记录中的特征信息之后，还包括：

4.如权利要求3所述的方法，其特征在于，所述若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量，包括：

5.如权利要求1所述的方法，其特征在于，所述预设的概率算法包括以下方法的任一种：

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

6.如权利要求1所述的方法，其特征在于，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别之后，还包括：

8.一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序，所述程序执行时包括权利要求1～7任一项所述的方法。

9.一种用户身份类别确定装置，其特征在于，所述装置包括：

身份类别确定模块，用于通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别；

所述概率计算模块包括：

数值转化单元，用于将所述统计量转化为归一化的数值；

概率计算单元，用于通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集；

所述特征信息提取单元还用于提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对多个预设的关键词的搜索频率；

10.如权利要求9所述的装置，其特征在于，所述信息获取模块包括：

11.如权利要求9所述的装置，其特征在于，所述概率计算模块还包括：

12.如权利要求11所述的装置，其特征在于，所述降维单元具体用于通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括LR(Logistic Regression，逻辑回归)算法和Linear SVC函数。

13.如权利要求9所述的装置，其特征在于，所述预设的概率算法包括以下方法的任一种：

DT(Decision Tree，决策树)算法；

RF(Random Forest，随机森林)算法；

SVM(Support Vector Machine，支持向量机)算法；

GT(Gradient Tree，梯度提升树)算法；

NB(Naive Bayes，朴素贝叶斯)算法。

14.如权利要求9所述的装置，其特征在于，所述身份类别确定模块具体用于将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阈值的身份类别作为所述用户设备所属用户的身份类别；或

15.如权利要求9-14任一项所述的装置，其特征在于，所述装置还包括：

16.一种用户身份类别确定装置，其特征在于，所述用户身份类别确定装置包括存储器以及处理器，其中，存储器中存储一组用户身份类别确定程序，且处理器用于调用存储器中的程序，用于执行以下操作：如权利要求1-7任一权利要求记载的方法。