CN108629608A

CN108629608A - 用户数据处理方法及装置

Info

Publication number: CN108629608A
Application number: CN201710172998.7A
Authority: CN
Inventors: 蔡业首; 汤煌; 张小鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2018-10-09
Anticipated expiration: 2037-03-22
Also published as: CN108629608B

Abstract

本申请提出了一种用户数据处理方法，通过样本数据的训练可以获得每个兴趣标签的权重参数，同时还可以获得兴趣标签聚合到信息类目组后各信息类目组的权重参数，从而能够更加准确地计算用户在各信息类目下的兴趣值。本申请还提出了相应的用户数据处理装置。

Description

用户数据处理方法及装置

技术领域

本申请涉及互联网数据处理技术领域，尤其涉及一种用户数据处理方法及装置。

背景技术

随着互联网技术的发展，人们在互联网上进行的活动越来越多，不仅是简单的浏览网页，还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及，个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品，从而可节省用户搜索信息或商品的时间。

发明内容

本申请提出了一种用户数据处理方法，包括：

获取多个用户分别在指定时间段内对多条信息的访问记录，基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值；

针对所述多个用户中的每个用户，根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值，创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据；其中，所述多个用户对应的各个兴趣标签被划分到多个信息类目下，每一兴趣标签对应一个信息类目；

构建概率估计模型，其中，所述概率估计模型用于确定一用户对信息感兴趣的概率，所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数；

基于所述概率估计模型，根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数；

针对任一用户对应的任一信息类目，根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数，计算该用户对该信息类目的兴趣值。

本申请还提出了一种用户数据处理装置，包括：

访问记录获取单元，用于获取多个用户分别在指定时间段内对多条信息的访问记录，基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值；

样本数据创建单元，用于针对所述多个用户中的每个用户，根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值，创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据；其中，所述多个用户对应的各个兴趣标签被划分到多个信息类目下，每一兴趣标签对应一个信息类目；

估计模型构建单元，用于构建概率估计模型，其中，所述概率估计模型用于确定一用户对信息感兴趣的概率，所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数；

参数确定单元，用于基于所述概率估计模型，根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数；

兴趣值计算单元，用于针对任一用户对应的任一信息类目，根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数，计算该用户对该信息类目的兴趣值。

采用本申请提出的上述方案，能够更加准确地计算用户在各信息类目下的兴趣值，进而能够改善信息推送效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实例提出的用户数据处理方法涉及的系统架构示意图；

图2是本申请实例提出的用户数据处理方法的流程示意图；

图3是本申请实例提出的求解概率估计模型参数的流程示意图；

图4是本申请实例提出的迭代求解概率估计模型参数的流程示意图；

图5是本申请实例提出的用户数据处理装置的结构示意图；

图6是本申请实例提出的用户数据处理方法在广告应用场景下的流程图；

图7是本申请实例提出的用户数据处理方法在广告应用场景下的计算模型参数的流程图；及

图8是本申请实例提出的信息推送平台所在的计算设备的组成结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提出了一种用户数据处理方法，该方法可应用于图1所示的系统构架中。如图1所示，该系统构架包括：应用(APP)客户端101、媒体方服务器102、信息推送平台103和推送信息提供方客户端104，这些实体可以通过互联网105进行通信。

终端用户可以使用应用客户端101访问媒体方服务器102，比如：浏览网页或者观看在线视频等。当用户使用应用客户端101访问媒体方服务器102时，应用客户端101可以向信息推送平台103发出信息推送请求，信息推送平台103可以将与该信息推送请求相匹配的媒体内容(比如：图片、视频等)推送给应用客户端101。通过推送信息提供方客户端104，推送信息提供方可以将其要推送的媒体内容的素材上传到信息推送平台103。应用客户端101向信息推送平台103发出信息推送请求携带用户信息、展示位置信息和/或设备信息等，用户信息可以包括互联网用户在各种APP、网站上注册使用的各种账号，如：QQ等即时通讯号码、e-mail地址、微信账号、微博账号、淘宝账号等。

信息推送平台103将与信息推送请求相匹配的媒体内容推送给应用客户端101时，可以根据用户历史访问信息的记录，计算用户对不同信息的兴趣值，从而在推送信息时，推送用户更感兴趣的信息。当上述媒体内容为广告时，图1所示的系统构架可以为实现互联网广告投放的系统构架，其中，信息推送平台103可以为广告投放平台，推送信息提供方可以为广告主。具体地，对于一个使用应用客户端101的客户，根据该用户对各类广告的兴趣值，信息推送平台103推送用户更感兴趣的广告，从而能够进行更有效的广告投送。

计算用户对各种信息感兴趣的融合兴趣值的过程是将不同数据源构建的用户画像自动融合的过程，随着对各种用户行为数据的持续挖掘和探索，基于不同数据源的用户画像数量不断增加。目前计算用户的融合兴趣的过程为：依据经验人为设定每一个用户画像i的权重W_i，将一个用户的来自不同数据源的用户画像上的标签按照语意映射到不同的信息类目上，将用户映射到同一信息类目上的多个兴趣标签依据每一个兴趣标签来自的用户画像的权重W_i加权相加，计算融合兴趣。

目前的兴趣融合方法存在以下缺陷：权重设置包含很强的主观因素，可能导致权重设置不合理。人为确定兴趣特征的权重，虽然可以借助如信息增益等离线指标的计算得出，但采用这种方式对来自不同数据源的用户画像进行加权，很难找到全局最优的赋值策略。此外人为设置权重，很难做到标签粒度的权重定制，只能基于数据源层面，为数据源总体赋权。

基于上述技术问题，本申请提出一种用户数据处理方法，该方法可应用于信息推送平台，如图2所示，该方法包括以下步骤：

步骤201：获取多个用户分别在指定时间段内对多条信息的访问记录，基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值。

在本步骤中，选取多个用户作为样本，获取每一个用户的对多条信息的访问记录的用户行为记录数据，并根据所述用户行为记录数据确定每一个用户的指示值，所述指示值用于表征对应用户是否对信息感兴趣。

对于所述用户行为记录数据，终端用户在使用应用客户端访问媒体方服务器时，应用客户端将用户访问过哪些信息的行为记录下来并存储成用户行为记录数据，信息推送平台可以从应用客户端处获取上述的用户行为记录数据。

对于所述每一个用户的指示值，该指示值用于表征一个用户是否对信息感兴趣，所述指示值可以根据具体的应用环境进行定义，该指示值与一个用户在固定时间段内访问信息的次数有关。在本申请的一个实例中，我们标记七天内点击信息数量超过两个的用户为对信息感兴趣的用户，用指示值1标记，对应的用户样本为正样本，七天内点击信息数量小于等于两个的用户为对信息不感兴趣的用户，用指示值0标记，对应的用户样本为负样本。在本申请的其他实例中对于指示值还可以选用其他定义，例如7天内点击信息超过1次的用户即标记为对信息感兴趣的用户，其余为对信息不感兴趣的用户。代表每一个用户的用户ID和该用户对应的指示值形成数据格式为(userId，y_userId)的数据对，其中userId为用户ID，可以包括互联网用户在各种APP、网站上注册使用的各种账号，如：QQ等即时通讯号码、e-mail地址、微信账号、微博账号、淘宝账号等，y_userId表示用户对信息是否感兴趣的指示值。

步骤202：针对所述多个用户中的每个用户，根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值，创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据；其中，所述多个用户对应的各个兴趣标签被划分到多个信息类目下，每一兴趣标签对应一个信息类目。

在本申请的实例中，上述选取的多个作为样本的用户中，针对每一个用户，获得该用户所有的兴趣标签。一个用户所有的兴趣标签从不同的数据源获取，不同的数据源是从不同的方面记录用户的行为数据，即从不同的方面记录用户的历史访问数据。一个数据源对应一个用户画像体系，根据一个用户的一个数据源可以获得该用户在与该数据源相对应的用户画像体系中都包含哪些兴趣标签，以及每一个兴趣标签的访问量统计值。例如用户A的一个数据源中有一条用户A的行为记录为：用户A在淘宝上买了一件衣服，那么在与该数据源相对应的用户画像体系中用户A有一个服装的兴趣标签。兴趣标签的访问量统计值为用户访问一个信息的次数，例如在上述的用户A的一个数据源中，用户A在淘宝上买衣服的行为记录为5条，则对应的服装兴趣标签的访问统计值就为5。一个用户在不同的用户画像体系中可能包含一些共同的兴趣特征(即兴趣标签)，也可能包含各自不同的兴趣特征。根据与一个用户相关的所有的数据源，获得该用户在不同画像体系中的所有的兴趣标签。

获得一个用户所有的兴趣标签后，将一个用户所有的兴趣标签划分到多个信息类目下，每一个兴趣标签对应一个信息类目。例如对于广告信息来说，可以将广告分为生活类、教育类等。因为一个用户所有的兴趣标签都来源于不同数据源及不同数据源分别对应的用户画像体系，对于每一个用户画像体系，可以维护该用户画像体系中的兴趣标签到信息类目之间的映射关系，具体地可以根据用户画像体系中兴趣标签的语义将兴趣标签映射到对应的信息类目下，如将服装的兴趣标签映射到生活的广告信息类目下。针对选取的多个样本用户中的每一个用户，将一个用户的所有的兴趣标签映射到不同的信息类目下，并形成与该用户相对应的一组兴趣标签数据。其中，该组兴趣标签数据可以包括该用户的用户标识、该用户对应的信息类目的标识及兴趣标签的标识，比如：其数据格式可以为(userId，((信息类目1，兴趣标签1)、(信息类目1、兴趣标签2)…(信息类目1，兴趣标签k)、(信息类目2、兴趣标签k+1)、(信息类目2、兴趣标签k+2)…(信息类目k，兴趣标签n)))。在前述的步骤中已经介绍了，与每一个兴趣标签相对应的存在一个兴趣标签的访问量统计值，与一个样本用户相对应的有该用户的指示值y_userId，将上述的兴趣标签数据中的兴趣标签标识加上该兴趣的标签的访问统计值信息，同时将上述一个用户的兴趣标签数据加上该用户的指示值y_userId数据，得到与该用户相对应的一组样本数据，该样本数据的格式可以为：(((信息类目1，兴趣标签1访问统计值)、(信息类目1、兴趣标签2访问统计值)…(信息类目1，兴趣标签k访问统计值)、(信息类目2、兴趣标签k+1访问统计值)、(信息类目2、兴趣标签k+2访问统计值)…(信息类目k，兴趣标签n访问统计值))，y_userId)。每一个用户建立一组这样的样本数据，对于N个样本用户，分别对每个样本用户建立一组这样的样本数据，共建立N组这样的样本数据。

以广告数据为例进行说明，假设将广告分为3个类目，生活类、教育类和房产类，将用户画像体系中的服装、家电、家纺等兴趣特征(即兴趣标签)映射到生活类的广告类目下；将用户画像体系中的学前教育、兴趣班、语言培训等兴趣特征(即兴趣标签)映射到教育类的广告类目下；将用户画像中的中介公司、装修公司、装修材料、家具等兴趣特征(即兴趣标签)映射到房产类的广告类目下。假设现在存在4个样本用户A、B、C、D，在7天的时间里，用户A及用户D点击广告的数量超过2个，用户B及用户C点击广告的个数都是1个，因而与用户A及用户D相对应的指示值y_A及y_D的值为1，与用户B及用户C相对应的指示值y_B及y_C的值为0。假设用户A的来自不同数据源的所有的兴趣标签为：服装、家电、语言培训，家具，用户B的来自不同数据源的所有的兴趣标签为：家电、学前教育、中介公司，用户C的来自不同数据源的所有的兴趣标签为：家电、家纺、兴趣班、装修公司、装修材料，用户D的来自不同数据源的所有的兴趣标签为：服装、家纺、兴趣班、语言培训、装修材料、家具。这样，形成的与用户A相对应的样本数据为((生活-服装)、(生活-家电)、(教育-语言培训)，(房产-家具)，1)；与用户B相对应的样本数据为：((生活-家电)、(教育-学前教育)、(房产-中介公司)，0)，与用户C相对应的样本数据为：((生活-家电)、(生活-家纺)、(教育-兴趣班)、(房产-装修公司)、(房产-装修材料)，0)；与用户D相对应的样本数据为：((生活-服装)、(生活-家纺)、(教育-兴趣班)、(教育-语言培训)、(房产-装修材料)、(房产-家具)，1)。上述只是一个便于理解形成样本数据的简单例子，实际操作中，样本的个数，信息类目的个数以及与每个用户相对应的兴趣标签的个数，数量是非常大的。

步骤203：构建概率估计模型，其中，所述概率估计模型用于确定一用户对信息感兴趣的概率，所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数。

构建的概率估计模型是基于一个用户的所有的兴趣标签来估计该用户对信息感兴趣的概率，例如对于广告来说，该构建的概率估计模型用于根据一个用户所有的兴趣标签来估计该用户对广告感兴趣的概率。概率估计模型可以为二分类算法模型。在一实例中，以逻辑斯蒂回归算法模型来构建该概率估计模型，所述逻辑斯蒂回归算法模型可以用如下公式(1)来表达：

公式(1)中，p代表一个用户对信息感兴趣的概率，w_g代表信息类目g的权重参数，W_G代表信息类目的权重向量，是一个G维的向量，G为信息类目总数；t∈w_g代表兴趣标签t为信息类目g中的兴趣标签；x_t代表兴趣标签t的访问统计值；w_t代表兴趣标签t的权重参数，W_T代表所有兴趣标签的权重向量，是一个T维的向量，T为所有兴趣标签的个数。

本申请实例中的逻辑斯蒂回归算法模型是经过改进后的逻辑斯蒂回归算法模型，在该模型中分为两种权重，一是兴趣标签级别的权重，二是兴趣标签聚合到信息类目层级上的权重。这样层次结构的权重，一方面可以衡量标签聚合为信息类目后各信息类目之间的重要性，另一方面可以衡量信息类目内各兴趣标签之间的重要性。在本申请的其他实例中，还可以选取其他的二分类算法模型，例如支持向量机算法模型及人工神经网络算法模型来构建该概率估计模型，其原理与上述的逻辑斯蒂回归算法模型类似，在此不再赘述。

步骤204：基于所述概率估计模型，根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数；

上述构建的概率估计模型，用于估计一个用户对信息感兴趣的概率，该模型中包括每一兴趣标签的权重参数和每一信息类目的权重参数，同时在前述的内容中构建了包含N个用户的样本数据，即一个抽样结果，在本申请的一实例中以最大似然法的思想来确定概率估计模型中的每一兴趣标签的权重参数和每一信息类目的权重参数。根据概率估计模型可以估计一个用户对信息感兴趣的概率，对于包含N个用户的抽样样本，存在一个抽样结果，即抽样用户中哪些用户是对信息感兴趣的，哪些是对信息不感兴趣的，根据概率估计模型可以得到出现该抽样结果的概率，使得该抽样结果的概率取极大值的情况下得到概率估计模型中每一兴趣标签的权重参数和每一信息类目的权重参数。

步骤205：针对任一用户对应的任一信息类目，根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数，计算该用户对该信息类目的兴趣值。

具体地，图3示出了基于最大似然法的原理求解概率估计模型中的每一兴趣标签的权重参数和每一信息类目的权重参数的方法的流程图，该方法主要包括以下步骤：

步骤301：基于所述概率估计模型，利用所述各组样本数据中每个用户对应的各兴趣标签的访问量统计值，确定每个用户对信息感兴趣的概率；其中，所确定的每个用户的所述概率与该用户对应的各兴趣标签的权重参数及其对应的各信息类目的权重参数相关。

在一实例中，概率估计模型表达为上述的公式(1)，即：利用此公式(1)，根据一个用户在不同信息类目w_g下的标签t的访问量统计值x_t，可以确定该用户对信息感兴趣的概率p。对于数量为N个用户的样本数据，分别计算每一个用户对信息感兴趣的概率p。

步骤302：根据所述确定的每一个用户对信息感兴趣的概率，计算产生所述多个用户对应的多个指示值的概率，所确定的所述概率与每一兴趣标签的权重参数和每一信息类目的权重参数相关；

在一实例中，根据上述步骤中求出的每一个用户对信息感兴趣的概率p，可以利用以下公式(2)表达的最大似然函数计算产生抽样结果的概率。

公式(2)中，N为样本用户的个数，y_i为第i个用户的指示值，最大似然函数与每一兴趣标签的权重参数和每一信息类目的权重参数相关。该抽样结果的概率的对数由以下公式(3)表达：

步骤303：基于最大似然法，使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值。

在一组已经知道结果的抽样样本的情况下，使得产生该抽样结果的概率取极大值的情况下求得的模型参数是最准确的。具体地，在本申请的一些实例中，在基于最大似然法求解每一兴趣标签的权重参数和每一信息类目的权重参数的取值时，可以采用迭代求解的方法求解。图4示出了迭代求解每一兴趣标签的权重参数和每一信息类目的权重参数的流程图，该方法主要包括以下步骤：

步骤401：对所述每一兴趣标签的权重参数和每一信息类目的权重参数赋初值。

步骤402：设置学习率λ。

步骤403：根据以下迭代公式(4)和(5)，迭代求解所述每一兴趣标签的权重参数w_t和每一信息类目的权重参数w_g，直至所述每一兴趣标签的权重参数和每一信息类目的权重参数收敛。

其中，如前述公式(3)，为产生所述多个用户对应的多个指示值的概率的对数，其中N为选取的抽样用户的个数，y_i为第i个用户的指示值，p代表某个用户对信息感兴趣的概率，W_G代表信息类目的权重向量，是一个G维的向量，G为信息类目总数，W_T代表兴趣标签的权重向量，是一个T维的向量，T为所有兴趣标签的个数。

步骤404：将所述收敛的每一兴趣标签的权重参数和每一信息类目的权重参数的取值确定为每一兴趣标签的权重参数和每一信息类目的权重参数的取值。

求解得到每一兴趣标签的权重参数和每一信息类目的权重参数的取值，就可以在上述步骤205中求解任一用户在任一信息类目下的兴趣值了。

在一些实例中，上述步骤205中计算该用户对该信息类目的兴趣值的处理可以包括：获取该用户对应的在该信息类目下的各兴趣标签的访问统计值；根据所获取的在该信息类目下的各兴趣标签的访问统计值、在该信息类目下的各兴趣标签的权重参数以及该信息类目的权重参数，计算该用户对该信息类目的兴趣值。

具体地，在一些实例中，基于以下公式(6)计算用户对所述信息类目的兴趣值。

公式(6)中，v_g代表用户对信息类目g的兴趣值，w_g代表信息类目g的权重参数，t∈w_g代表兴趣标签t为信息类目g中的兴趣标签，x_t代表所述用户对兴趣标签t的访问统计值，w_t代表兴趣标签t的权重参数。

通过上述的用户数据处理方法，能够自动学习权重，减少在兴趣融合过程中的人工干预部分。具体的，可通过改造逻辑斯蒂回归算法，实现兴趣标签级别的权重参数和信息类目级别权重参数的双层权重参数。权重分为两种，一是兴趣标签级别的权重，二是兴趣标签聚合到信息类目层级上各信息类目的权重。这样层次结构的权重，一方面可以衡量兴趣标签聚合为信息类目后各信息类目之间的重要性，另一方面可以衡量信息类目内各兴趣标签之间的重要性。最后，可基于业务场景定制模型，不同业务场景下可得到通过机器学习得到不同的标签加权方案，对比人为设定更加灵活多变。例如，在广告场景下，可以在不同广告位上分别训练一组权重，定制不同的融合兴趣。具体的，将模型的训练样本按照不同的广告位进行划分训练，按照上述方法得到不同广告位上广告类目的权重参数以及每个广告位上的每个广告类目下的用户兴趣标签的权重参数。相当于是在不同的广告位上分别建立一个上述的逻辑斯蒂回归算法模型，求解每个广告位对应的模型中的广告类目的权重参数及用户兴趣标签权重参数，不同广告位的模型的训练样本选择对应广告位上的样本用户。根据所述不同广告位的广告类目权重参数以及每个广告位的用户兴趣标签的权重参数，可以计算用户对不同广告位上的不同广告类目的喜好值，后续可向用户在对应广告位上投放其兴趣值较大的广告类目下的广告。

对应上述的用户数据处理方法，本申请一些实例还提供一种用户数据处理装置，如图5所示，所述装置包括：

访问记录获取单元51，用于获取多个用户分别在指定时间段内对多条信息的访问记录，基于所述访问记录确定每个用户的用于表征其是否对信息感兴趣的指示值；

样本数据创建单元52，用于针对所述多个用户中的每个用户，根据该用户的历史访问数据确定该用户对应的每个兴趣标签的访问量统计值，创建包含该用户的所述指示值和所确定的所述访问量统计值的一组样本数据；其中，所述多个用户对应的各个兴趣标签被划分到多个信息类目下，每一兴趣标签对应一个信息类目；

估计模型构建单元53，用于构建概率估计模型，其中，所述概率估计模型用于确定一用户对信息感兴趣的概率，所述概率估计模型包括一用户对应的各兴趣标签的访问量统计值、每一兴趣标签的权重参数和每一信息类目的权重参数；

参数确定单元54，用于基于所述概率估计模型，根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数；

兴趣值计算单元55，用于针对任一用户对应的任一信息类目，根据该信息类目的权重参数以及该信息类目下该用户对应的各兴趣标签的权重参数，计算该用户对该信息类目的兴趣值。

采用本申请实施例提供的用户数据处理装置，能够自动学习权重，减少在兴趣融合过程中的人工干预部分。具体的，可通过改造逻辑斯蒂回归算法，实现兴趣标签级别的权重参数和信息类目级别权重参数的双层权重参数。权重分为两种，一是兴趣标签级别的权重，二是兴趣标签聚合到信息类目层级上各信息类目的权重。这样层次结构的权重，一方面可以衡量兴趣标签聚合为信息类目后各信息类目之间的重要性，另一方面可以衡量信息类目内各兴趣标签之间的重要性。最后，可基于业务场景定制模型，不同业务场景下可得到通过机器学习得到不同的标签加权方案，对比人为设定更加灵活多变。例如，在广告场景下，可以在不同广告位上分别训练一组权重，定制不同的融合兴趣。具体的，将模型的训练样本按照不同的广告位进行划分训练，按照上述方法得到不同广告位上广告类目的权重参数以及每个广告位上的每个广告类目下的用户兴趣标签的权重参数。相当于是在不同的广告位上分别建立一个上述的逻辑斯蒂回归算法模型，求解每个广告位对应的模型中的广告类目的权重参数及用户兴趣标签权重参数，不同广告位的模型的训练样本选择对应广告位上的样本用户。根据所述不同广告位的广告类目权重参数以及每个广告位的用户兴趣标签的权重参数，可以计算用户对不同广告位上的不同广告类目的喜好值，后续可向用户在对应广告位上投放其兴趣值较大的广告类目下的广告。

在本申请的一些实施例中上述参数确定单元54包括：

每个用户对信息感兴趣的概率计算模块，用于基于所述概率估计模型，利用所述各组样本数据中每个用户对应的各兴趣标签的访问量统计值，确定每个用户对信息感兴趣的概率；其中，所确定的每个用户的所述概率与该用户对应的各兴趣标签的权重参数及其对应的各信息类目的权重参数相关；

产生多个用户对应的多个指示值的概率计算模块，用于根据所述确定的每个用户对信息感兴趣的概率，计算产生所述多个用户对应的多个指示值的概率，所确定的所述概率与每一兴趣标签的权重参数和每一信息类目的权重参数相关；

参数确定模块，用于基于最大似然法，使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值。

在本申请的一些实施例中，上述参数确定模块，用于实现前述用户数据处理方法步骤：基于最大似然法，迭代求解每一兴趣标签的权重参数和每一信息类目的权重参数。具体实现原理在前文中已详细描述，在此不再赘述。

在本申请的一些实施例中，上述兴趣值计算单元55包括：

兴趣标签的访问量统计值获取模块，用于获取该用户对应的在该信息类目下的各兴趣标签的访问统计值；

兴趣值计算模块，用于根据所获取的在该信息类目下的各兴趣标签的访问统计值、在该信息类目下的各兴趣标签的权重参数以及该信息类目的权重参数，计算该用户对该信息类目的兴趣值。

在本申请的一些实施例中，上述兴趣值计算模块用于实现前述用户数据处理方法步骤：基于公式(6)计算用户对所述信息类目的兴趣值。具体实现原理在前文中已详细描述，在此不再赘述。

具体地，以广告应用场景为例进行说明，具体流程如图6所示。在此场景下信息推送平台为广告推送平台，广告推送平台将广告按照不同的广告类目进行分类。按照上述用户数据处理方法得到不同广告类目的权重参数以及每个广告类目下的用户兴趣标签的权重参数，即可以得到前述内容中计算用户融合兴趣的公式(6)：中的参数w_g及参数w_t，并将所述参数存储在广告推送平台所在计算机的存储设备中，也即获得了计算图6中兴趣融合的公式。在此应用场景下的公式(6)中，g为广告类目，w_g为广告类目g的权重参数，t为广告类目g下的用户兴趣标签，w_t为兴趣标签t的权重参数，x_t为兴趣标签t的访问统计值。终端用户使用应用客户端访问服务器时，应用客户端发送广告推送请求给广告推送平台，广告推送平台向应用客户端推送广告前，先计算该用户对不同广告类目的兴趣值，根据计算的兴趣值向对应的客户端投放相应广告类目下的广告。具体地计算一个用户在不同广告类目上的兴趣值时，广告推送平台所在计算机的存储设备中存储的与该用户相关的数据源为k个，与该k个数据源相对应的用户画像体系也有k个，获得该用户每一个数据源在对应的用户画像体系上的兴趣标签以及每一个兴趣标签的访问量统计值，从而得到该用户所有的兴趣标签以及每一个兴趣标签的访问量统计值，同时根据广告推送平台所在计算机的存储设备中存储的用户画像上的兴趣特征(即兴趣标签)与广告类目之间的映射关系，将所述用户所有的兴趣标签映射到不同的广告类目下，进而根据兴趣融合计算公式(6)得到所述用户的用户融合兴趣，即该用户在不同广告类目上的融合兴趣值。得到图6中的用户融合兴趣后，可以根据该融合兴趣进行后续的广告及推荐业务，例如广告推送平台可以向用户投放其用户兴趣值大的广告类目下的广告。此外，对于广告的不同广告类目下的用户兴趣特征，不同的用户兴趣特征的权重参数不同，用户兴趣特征聚合到广告类目后各广告类目的权重参数也不同，进而在后续的与广告相关的一些其他估计模型构建中，可以根据该广告的不同广告类目的权重参数及不同用户兴趣特征的权重参数选取用户兴趣特征，剔除影响较小的用户兴趣特征，从而可以降低模型的特征维度。

具体地，对于获得图6中计算兴趣融合的公式，也即获得每一广告的不同广告类目的权重参数及每一用户兴趣特征权重参数的流程如图7所示，主要分为训练数据组织，模型参数训练及融合兴趣生成三个部分，下面对流程图中的细节进行解释。对于训练数据组织部分，获得训练数据组织即获得图7中的标签训练数据706，为了获得标签训练数据706，首先选取N个样本用户，在广告推送平台所在计算机的存储设备中存储的广告曝光日志701中获得每个样本用户的点击广告的行为记录，并根据该点击广告的行为记录获得每个样本用户的训练数据类标702，所述训练数据类标表征对应样本用户是否对广告感兴趣。获得每一个样本用户的训练数据类标702后，还需要获得每一个样本用户所有的兴趣标签。针对选取的N个样本用户，根据广告推送平台所在计算机的存储设备中存储的每个用户画像体系中的兴趣特征与广告位之间的对应关系703，以及与每一个样本用户相关的数据源，得到与每一个用户相对应的一组兴趣标签数据，即获得包含分组信息用户兴趣704。之后进行图7中的映射用户兴趣705，将获得的包含分组信息用户兴趣704与训练数据类标702基于用户ID进行关联，从而得到与一个样本用户相对应的一组样本数据，针对每一个样本用户都构建一组这样的样本数据，即形成图7中的标签训练数据706。针对模型参数训练部分，根据获得的标签训练数据706计算双层权重参数的逻辑斯蒂回归算法模型中的权重参数，即图7中的双层LR权重训练707。计算得到兴趣融合计算公式(6)中的权重参数，即得到兴趣融合计算公式(6)，对应图7中的融合兴趣生成708。根据融合兴趣生成708获得的公式(6)以及一个用户的包含分组信息用户兴趣704即可计算用户在不同广告类目上的兴趣值。

本申请还提出了一种信息推送平台，所述信息推送平台包括前述所述的用户数据处理装置，基于所述用户数据处理装置获得的用户在各信息类目下的兴趣值，向用户推荐相关信息。

本申请还提出了一种信息推送系统，所述信息推送系统包括前述所述的用户数据处理装置。

上述各模块和/或平台可能实现在同一个服务器设备或者服务器集群中，也可能分布在不同的服务器设备或者服务器集群中。

上述各模块功能的实现原理前文已有详述，这里不再赘述。

在一实例中，上述信息推送平台中的各模块可运行在各种计算设备中，并加载在该计算设备的存储器中。

图8示出了信息推送平台所在的计算设备的组成结构图。如图8所示，该计算设备包括一个或者多个处理器(CPU)802、通信模块804、存储器806、用户接口810，以及用于互联这些组件的通信总线808。

处理器802可通过通信模块804接收和发送数据以实现网络通信和/或本地通信。

用户接口810包括一个或多个输出设备812，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口810也包括一个或多个输入设备814，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器806可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器806存储处理器802可执行的指令集，包括：

操作系统816，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用818，包括用于信息推送的各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图5所示的用户数据处理装置和/或前述信息推送平台中的部分或全部单元。在一些实例中，应用818可包括图5所示的用户数据处理装置中的部分或全部单元，和/或前述信息推送平台中的部分或全部单元，各单元51-55中的至少一个单元可以存储有机器可执行指令。处理器802通过执行存储器806中各单元51-55中至少一个单元中的机器可执行指令，进而能够实现上述各单元51-55中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图8中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用户数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其中，所述根据所创建的各组样本数据确定每一兴趣标签的权重参数和每一信息类目的权重参数，包括：

基于所述概率估计模型，利用所述各组样本数据中每个用户对应的各兴趣标签的访问量统计值，确定每个用户对信息感兴趣的概率；其中，所确定的每个用户的所述概率与该用户对应的各兴趣标签的权重参数及其对应的各信息类目的权重参数相关；

根据所述确定的每个用户对信息感兴趣的概率，计算产生所述多个用户对应的多个指示值的概率，所确定的所述概率与每一兴趣标签的权重参数和每一信息类目的权重参数相关；

基于最大似然法，使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值。

3.根据权利要求2所述的方法，其中，所述使得所述概率取极大值的情况下确定每一兴趣标签的权重参数和每一信息类目的权重参数的取值包括：

对所述每一兴趣标签的权重参数和每一信息类目的权重参数赋初值；

设置学习率λ；

根据迭代公式迭代求解所述每一兴趣标签的权重参数w_t和每一信息类目的权重参数w_g，直至所述每一兴趣标签的权重参数和每一信息类目的权重参数收敛，其中为产生所述多个用户对应的多个指示值的概率的对数，其中N为选取的抽样用户的个数，y_i为第i个用户的指示值，p代表某个用户对信息感兴趣的概率，W_G代表信息类目的权重向量，是一个G维的向量，G为信息类目总数，W_T代表兴趣标签的权重向量，是一个T维的向量，T为所有兴趣标签的个数；

将所述收敛的每一兴趣标签的权重参数和每一信息类目的权重参数的取值确定为每一兴趣标签的权重参数和每一信息类目的权重参数的取值。

4.根据权利要求1所述的方法，其特征在于，所述概率估计模型为二分类算法模型。

5.根据权利要求4所述的方法，其特征在于，所述二分类算法模型为以下公式表征的逻辑斯蒂回归算法模型：

其中p代表一个用户对信息感兴趣的概率，w_g代表信息类目g的权重参数，W_G代表信息类目的权重向量，是一个G维的向量，G为信息类目总数；t∈w_g代表兴趣标签t为信息类目g中的兴趣标签；x_t代表兴趣标签t的访问统计值；w_t代表兴趣标签t的权重参数，W_T代表所有兴趣标签的权重向量，是一个T维的向量，T为所有兴趣标签的个数。

6.根据权利要求1所述的方法，其特征在于，所述计算该用户对该信息类目的兴趣值包括：

获取该用户对应的在该信息类目下的各兴趣标签的访问统计值；

根据所获取的在该信息类目下的各兴趣标签的访问统计值、在该信息类目下的各兴趣标签的权重参数以及该信息类目的权重参数，计算该用户对该信息类目的兴趣值。

7.根据权利要求6所述的方法，其特征在于，所述计算该用户对该信息类目的兴趣值包括：

基于计算用户对所述信息类目的兴趣值，其中v_g代表用户对信息类目g的兴趣值，w_g代表信息类目g的权重参数，t∈w_g代表兴趣标签t为信息类目g中的兴趣标签，x_t代表所述用户对兴趣标签t的访问统计值，w_t代表兴趣标签t的权重参数。

8.一种用户数据处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其中，所述参数确定单元包括：

10.根据权利要求8所述的装置，其特征在于，所述兴趣值计算单元包括：