CN105095219A

CN105095219A - 微博推荐方法和终端

Info

Publication number: CN105095219A
Application number: CN201410167137.6A
Authority: CN
Inventors: 杨强; 甄毅; 江焯林
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-04-23
Filing date: 2014-04-23
Publication date: 2015-11-25
Anticipated expiration: 2034-04-23
Also published as: CN105095219B

Abstract

本发明实施例提供一种微博推荐方法和终端。该方法包括：获取终端的第一状态感知数据；将该第一状态感知数据按照数据类别模型进行分类，并获得分类结果；根据预设的计算规则对分类结果进行计算，确定第一兴趣状态数据；根据微博推荐模型，确定该第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。本发明通过针对每个用户建立数据类别模型和预设的微博推荐模型，实现向每个用户推送比较能满足用户需求的微博产品，使用户获得更好的体验。

Description

微博推荐方法和终端

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种微博推荐方法和终端。

背景技术

微博已成为人们日常生活的一部分，可以满足人们各方面的需求，如信息、社交和休闲等。对于微博来说，及时恰当地推荐满足用户需求的微博产品，如微博话题、微博音乐和微博商品等，可以极大地提高用户对微博的依赖性。

现有技术中，为了找到满足用户需求的产品，微博会对用户网页端的数据进行简单规则的统计，进而提供用户个性化的微博产品的推荐，但由于用户网页端的数据类型单一，对其进行简单的统计并不能准确的得出比较能满足用户需求的微博产品，导致用户体验性差。

发明内容

本发明实施例提供一种微博推荐方法和终端，用以实现向用户推送比较能满足用户需求的微博产品，使用户获得更好的体验。

第一方面，本发明实施例提供了一种微博推荐方法，包括：

获取终端的第一状态感知数据；

将所述第一状态感知数据按照数据类别模型进行分类，并获得分类结果；

根据预设的计算规则对所述分类结果进行统计，确定第一兴趣状态数据；

根据微博推荐模型，确定所述第一兴趣状态数据对应的微博产品，并向用户推荐所述微博产品。

结合第一方面，在第一方面的第一种实施方式中，所述将所述第一状态感知数据按照数据类别模型进行分类之前还包括：

按照预设的采集频率对第一交互数据进行采集，获得第二交互数据，所述第一交互数据为从微博服务提供商与所述终端交互的数据；

采用降低维度技术或者矩阵分解技术对所述第二交互数据进行过滤，获得第一数量的第三交互数据；

按照所述数据类别模型获取第二数量的所述第三交互数据并进行标注，所述第二数量小于或等于第一数量；

采用终生机器学习方法对标注后的第三交互数据进行训练，获得所述数据类别模型。

结合第一方面或第一方面的第一种实施方式，在第一方面的第二种实施方式中，所述将所述第一状态感知数据按照数据类别模型进行分类之前，还包括：

采用降低维度技术或者矩阵分解技术对所述第一状态感知数据进行过滤，获得第二状态感知数据；

所述将所述第一状态感知数据按照数据类别模型进行分类，并获得分类结果包括：

将所述第二状态感知数据按照所述数据类别模型进行分类，并获得分类结果。

结合第一方面或第一方面的第一种实施方式或第一方面的第二种实施方式，在第一方面的第三种实施方式中，所述根据微博推荐模型，确定所述第一兴趣状态数据对应的微博产品之前，还包括：

按照微博产品的类别获取第三数量的历史兴趣状态数据，并对所述历史兴趣状态数据进行标注；

利用终生机器学习方法对所述标注后的历史兴趣状态数据进行训练，确定所述微博推荐模型。

结合第一方面或第一方面的第一种实施方式或第一方面的第二种实施方式或第一方面的第三种实施方式，在第一方面的第四种实施方式中，所述向用户推荐所述微博产品之后，还包括：

获取用户反馈的微博推荐信息；

根据所述微博推荐信息，更新所述微博推荐模型。

结合第一方面或第一方面的第一种实施方式或第一方面的第二种实施方式或第一方面的第三种实施方式或第一方面的第四种实施方式，在第一方面的第五种实施方式中，根据预设的计算规则对所述分类结果进行统计，确定第一兴趣状态数据之前，还包括：确定所述分类结果对应的权重；

所述根据预设的计算规则对所述分类结果进行统计包括：

根据所述分类结果对应的权重对所述第一状态感知数据进行整合计算，得到所述第一兴趣状态数据。

第二方面，本发明实施例提供了一种终端，包括：

获取模块，用于获取所述终端的第一状态感知数据；

分类模块，用于将所述第一状态感知数据按照数据类别模型进行分类，并获得分类结果；

计算模块，用于根据预设的计算规则对所述分类结果进行统计，确定第一兴趣状态数据；

确定模块，用于根据微博推荐模型，确定所述第一兴趣状态数据对应的微博产品，并向用户推荐所述微博产品。

结合第二方面，在第二方面的第一种实施方式中，所述的终端还包括采集模块、第一过滤模块、第一标记模块以及第一训练模块，

所述采集模块，具体用于按照预设的采集频率对第一交互数据进行采集，获得第二交互数据，所述第一交互数据为微博服务提供商与所述终端交互的数据；

所述第一过滤模块，具体用于采用降低维度技术或者矩阵分解技术对所述第二交互数据进行过滤，获得第一数量的第三交互数据；

所述第一标记模块，具体用于按照所述数据类别模型获取第二数量的所述第三交互数据并进行标注；

所述第一训练模块，具体用于采用终生机器学习方法对标注后的第三交互数据进行训练，获得所述数据类别模型；

所述分类模块，具体用于将所述第一状态感知数据按照所述第一训练模块训练出的数据类别模型进行分类，并获得分类结果。结合第二方面或第二方面的第一种实施方式，在第二方面的第二种实施方式中，所述终端还包括第二过滤模块，

所述第二过滤模块，具体用于采用降低维度技术或者矩阵分解技术对所述第一状态感知数据进行过滤，获得第二状态感知数据；

所述分类模块，具体用于将所述第二状态感知数据按照所述数据类别模型进行分类，并获得分类结果。

结合第二方面或第二方面的第一种实施方式或第二方面的第二种实施方式，在第二方面的第三种实施方式中，所述终端还包括第二训练模块，

所述获取模块，还用于按照微博产品的类别获取第三数量的历史兴趣状态数据进行标注；

所述第二训练模块，具体用于利用终生机器学习方法对所述标注后的历史兴趣状态数据进行训练，确定所述微博推荐模型。

结合第二方面或第二方面的第一种实施方式或第二方面的第二种实施方式或第二方面的第三种实施方式，在第二方面的第四种实施方式中，所述终端还包括更新模块，

所述获取模块，还用于获取用户反馈的微博推荐信息；

所述更新模块，具体用于根据所述微博推荐信息，更新所述微博推荐模型。

结合第二方面或第二方面的第一种实施方式或第二方面的第二种实施方式或第二方面的第三种实施方式或第二方面的第四种实施方式，在第二方面的第五种实施方式中，

所述确定模块，还用于确定所述分类结果对应的权重；

所述计算模块，具体用于根据所述分类结果对应的权重对所述第一状态感知数据进行整合计算，得到所述第一兴趣状态数据。

本发明提供的微博推荐方法和终端，通过获取终端的第一状态感知数据；将该第一状态感知数据按照数据类别模型进行分类，并获得分类结果；根据预设的计算规则对分类结果进行计算，确定第一兴趣状态数据；根据预设的微博推荐模型，确定该第一兴趣状态数据对应的微博产品，并向用户推荐所述微博产品。本发明通过针对每个用户获取数据类别模型和预设的微博推荐模型，实现向每个用户推送比较能满足用户需求的微博产品，使用户获得更好的体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明微博推荐方法一个实施例的流程图；

图2为本发明微博推荐方法又一个实施例的流程图；

图3为本发明终端一个实施例的结构示意图；

图4为本发明终端的另一个实施例的结构示意图；

图5为本发明终端的另一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明微博推荐方法的一个实施例的流程图，如图1所示，本实施例的执行主体是终端，具体可以通过软件、硬件，或者软件和硬件相结合的方式实现。则该方法包括：

步骤101，获取终端的第一状态感知数据。

本实施例中，第一状态感知数据为微博服务提供商与当前状态下终端交互的数据。第一状态感知数据包括服务请求数据、该用户的个性化数据和地理位置数据中至少一种。

其中，服务请求数据包括该请求的接收的时间、终端的IP地址、服务类型、语言类型、关键字段等数据，如一个服务请求数据为：2013年09月20日上午9点192.168.1.3浏览网页中文体育-羽毛球比赛。根据服务请求数据中的服务类型，服务请求数据可为网页浏览请求数据，拨打电话请求数据，多媒体请求数据，网上购物请求数据等。

其中，用户个性化数据可以为该用户的基本信息数据，该终端的软件参数、硬件参数等。上述的用户基本信息数据包含该用户的性别，年龄等信息，如用户的基本信息数据为：性别：女，年龄：25岁。软件参数为该终端所使用的操作系统信息，如该终端所使用的操作系统为安卓操作系统。硬件参数为该终端的网卡地址数据。

其中，地理位置数据为在该终端和微博服务提供商交互时该终端所处的具体位置数据。

步骤102，将第一状态感知数据按照数据类别模型进行分类，并获得分类结果。

具体地，数据类别模型包括用户基本信息模型，用户语言模型，用户兴趣模型和用户活动模型。

对应于数据类别模型，对第一状态感知数据进行特征抽取处理，得到的第一状态感知数据可分为：用户基本信息数据，用户语言数据，用户兴趣数据和用户活动数据。

具体地，在将第一状态感知数据按照数据类别模型进行分类前，首先对第一对状态感知数据进行特征抽取的处理方法描述如下：

将第一状态感知数据进行线性及非线性的组合得到一组新的数值。

在本发明的一个实施例中，从每个服务请求数据中抽取该服务请求发送的时间以及服务类型数据，并与该服务请求数据对应的地理位置数据组合得到一组新的数值存储为用户活动数据；从每个服务请求数据中分别抽取语言类型数据和关键字段数据各自得到一组新的数值，将其分别存储为用户语言数据和用户兴趣数据；对用户个性化数据而言，抽取出用户基本信息数据得到一组新的数值并将其存储为用户基本信息数据，其它的用户个性化数据归为用户其它个性化数据并进行存储。

如表1所示，特征抽取后的第一状态感知数据，根据四类数据类别模型进行分类。其中，这四类数据类别模型都是通过终生机器学习算法对训练集中的数据进行训练得到的。终生机器学习算法可以为分类算法，如logistic分类法、probit分类法、支持向量机、人工神经元网络等，回归算法，如线性回归算法、多项式回归算法、支持向量回归算法等。

以第一状态感知数据为用户兴趣数据，数据类别模型为用户兴趣模型，分类算法是线性支撑矢量机为例，对将第一状态感知数据按照数据类别模型进行分类，获得分类结果的过程进行说明。

在本发明的一个实施例中，将用户兴趣数据按照用户兴趣模型进行分类前，获得用户兴趣模型。其中，该用户兴趣模型是通过线性支撑矢量机分类算法对训练集中的数据训练得到的。

具体地，对训练集中的训练样本进行标签设定，以训练集中的训练样本为两个类别为例说明，如一个类别的训练样本为与体育相关的数据，则标签设定为-1，另一个类别的训练样本为与文娱相关的数据，则标签设定为+1。如在M个训练样本的训练集中，有一个训练样本为：体育-NBA比赛，则设定的标签为：-1，再一个训练样本为：文娱-真人秀节目时，则设定标签为+1。

然后，求解一个输入量为训练样本的二次规划问题，通过Lagrange乘子方法，将原二次规划问题表示为Wolfe对偶规划问题，求解Wolfe对偶规划问题，得出最优的Lagrange乘子α_i，那么对应于α_i>0的训练样本就成为支撑矢量，这个支撑矢量即为由线性支撑矢量机分类算法得到的用户兴趣模型。

根据采用的终生机器学习算法库中的算法的不同，得到的数据类别模型的组成形式也不同，数据类别模型和对应类别的第一状态感知数据的计算方式也不同。

表1：四类第一状态感知数据示例

在采用线性支撑矢量机对训练集中的数据进行训练得到用户兴趣模型后，将该用户兴趣数据作为测试样本和用户兴趣模型输入到一个判决函数中，进行计算后得到一个输出结果，该输出结果为一个整数，根据该整数的大小确定该用户兴趣数据的分类结果。如输出的结果为+1，则表示该用户兴趣数据的兴趣类别为：体育，如输出的结果为-1，则表示该用户兴趣数据的兴趣类别为：文娱。根据输出的结果对该用户兴趣数据进行兴趣标签的设定。

那么将第一状态感知数据中所有的用户兴趣数据和用户兴趣模型进行计算后，得到所有的用户兴趣数据的所属的兴趣类别，将所有的用户兴趣数据的所属兴趣类别进行统计后，得到用户兴趣数据中每个兴趣类别的用户兴趣数据占用户第一状态感知数据中所有用户兴趣数据的百分比。建立一个2×N的矩阵，其中N表示为用户兴趣模型中训练样本的标签类别数，该矩阵的第一行的每个元素表示用户模型中训练样本的标签类别，第二行的每个元素表示对应标签类别的用户兴趣数据占所有用户兴趣数据的百分比。

如表一所示，以用户兴趣模型中训练样本为四个类别为例，建立一个2×N的矩阵，即N＝4，如一个类别的训练样本为与体育相关的数据，则标签设定为0，一个类别的训练样本为与文娱相关的数据，则标签设定为1，一个类别的训练样本为与政治相关的数据，则标签设定为2，一个类别的训练样本与购物相关的数据，则标签设定为3。在上述的5个用户兴趣数据中，将每一个用户兴趣数据输入到用户兴趣模型对应的判决函数中，有1个输出结果为0，3个输出结果为1，有1个输出结果为3，那么在用户兴趣数据中，兴趣类型为体育的用户兴趣数据占所有用户兴趣数据的百分比为：1/5×100％＝20％，兴趣类型为文娱的用户兴趣数据占所有用户兴趣数据的百分比为：3/5×100％＝60％。兴趣类型为政治和购物的用户兴趣数据各占所有用户兴趣数据的百分比为0/5×100％＝0％和1/5×100％＝20％，那么该分类结果可表示为表2所示：

表2：分类结果示例

0(体育)	1(文娱)	2(政治)	3(购物)
				20％	60％	0％	20％

那么根据表1中的第一状态感知数据，将第一状态感知数据按照数据类别模型进行分类，并获得分类结果可以表示为表3所示：

如表3所示，得到的对应于数据类别模型的分类结果可以为两种情况。第一种情况为表示分类结果的大小为2×N的矩阵的第二行元素中依次最大的两个元素相差很大，第二种情况为表示输出数据的大小为2×N的矩阵的第二行元素中依次最大的两个元素相等或相差不大，对于表示分类结果的矩阵的第二行元素中依次最大的两个元素相差大或不大判断方法可以为预先设定一个阈值，例如阈值设定为10％，当大于10％时，表示相差大，当小于或等于10％时，表示相差不大。具体设定的阈值大小，本实施例中不作限制。

那么在表3中所示的分类结果中，在用户基本信息模型所对应的分类结果中，表示该分类结果的矩阵的第二行元素中依次最大的两个元素分别为标签为0的那一列所对应的元素和标签为1(或2或3)的那一列所对应的元素，这两个元素相差为1，所以该用户基本信息模型的输出数据为第一种情况。而在用户活动模型所对应的分类结果中，表示该分类结果的矩阵的第二行元素中依次最大的两个元素分别为标签为1那一列所对应的元素和标签为2那一列所对应的元素，这两个元素相差0，所以该用户活动数据的分类结果为第二种情况。

在表3的四种类别的预设数据类别模型所对应的分类结果中，为第一种情况的分类结果的分别是用户基本信息模型、用户语言模型和用户兴趣模型所对应的分类结果。为第二种情况的分类结果的是用户活动模型所对应的分类结果。

表3：四类预设数据类别模型对应的分类结果示例

步骤103，根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据。

在本发明的一个实施例中，在根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据之前，还包括：确定分类结果对应的权重；

所述根据预设的计算规则对所述分类结果进行统计包括：

具体地，分类结果对应的权重是与分类结果所述情况有关的。

当分类结果为第一种情况时，找出表示分类结果的矩阵的第二行元素中最大的元素那一列对应的第一行元素，该第一行元素表示该标签类别的该种第一状态感知数据占所用第一状态感知数据的百分比最高，则该标签类别的该种第一状态感知数据对应的权重为1，其他标签类别的该种第一状态感知数据对应的权重为0。

当分类结果为第二种情况时，找出表示分类结果的矩阵中第二行依次最大的元素那两列所对应的第一行中的元素，该第一行的两个元素表示该两个标签类别的该种类别的第一状态感知数据占该种类别的所有的第一状态感知数据的的百分比依次最高，那么该两个标签类别的该种第一状态感知数据对应的权重分别为1，其他标签类别的该种第一状态感知数据对应的权重为0。

如从表3中的分类结果可知，用户基本信息模型对应的分类结果为第一种情况，那么用户基本信息数据中标签为0的用户基本信息数据对应的权重为1，其它标签类别的用户基本信息数据对应的权重为0；用户语言模型对应的分类结果为第一种情况，那么用户语言数据中标签为0的用户语言数据对应的权重为1，其它标签类别的用户语言数据对应的权重为0；用户兴趣模型对应的分类结果为第一种情况，那么用户兴趣数据中标签为1的用户兴趣数据对应的权重为1，其它标签类别的用户兴趣数据对应的权重为0；用户活动模型对应的分类结果为第二种情况，那么用户活动数据中标签为1和2的用户活动数据对应的权重为1，其它标签类别的用户活动数据对应的权重为0。

需要说明的是：在分类结果中可能出现第二行元素相等的情况，那么第二行依次最大的元素所对应的标签类别可能为多个，所以权重为1的该种类别的第一状态感知数据也可能为多个标签类别，所以权重为1的该种类别的第一状态感知数据具体有几类标签类别的以实际情况为准，本实施例不做限制。

获取到分类结果对应的权重后，根据获取的权重对第一状态感知数据进行整合计算，得到第一兴趣状态数据。

具体地，在四类第一状态感知数据中，保留权重为1的该种标签类别的第一状态感知数据，去除权重为0的其它标签类别的第一状态感知数据。将保留的权重为1的四类第一状态感知数据进行整合计算，整合计算的方法为：

首先，将保留的每种第一状态感知数据相应的标签去掉，并排成一个列向量，由于所保留的每种状态感知数据的多少是不确定的，所以每种状态感知数据对应的列向量的大小是不确定的，若最大的列向量的大小为L×1，那么将其它维数小于L×1的状态感知数据进行补零处理。

然后，将四种第一状态感知数据组成一个大小为L×4大小的矩阵，该矩阵就为用户的第一兴趣状态数据。该第一兴趣状态数据表示该用户的当前兴趣状态，该用户的第一兴趣状态数据的第一列数据表示保留的用户的基本信息数据，第二列数据表示保留的用户的语言数据，第三列数据表示保留的用户的兴趣数据，第四列数据表示保留的用户的活动数据。

表4：另一个四类预设数据类别模型对应的分类结果示例

当四种类别的预设数据类别模型所对应的分类结果不都为第一种情况时，第一兴趣状态数据不能明确得出用户当前的兴趣状态，如从表3所获得第一兴趣状态数据，只能从第一兴趣状态数据中明确出该用户为女性，年龄为25岁，对文娱相关的方面感兴趣，所用的语言为中文，但从第一兴趣状态数据中并不能明确该用户当前进行的活动是浏览微博话题还是收看视频。

当四种类别的预设数据类别模型所对应的分类结果都为第一种情况时，第一兴趣状态数据能明确得出用户当前的兴趣状态，如假设表3中的用户基本信息数据、用户语言数据和用户兴趣数据的分类结果不变，将表3中的用户活动模型对应的分类结果改变，四类预设数据类别模型对应的分类结果表示为表4所示：

表4中四种类别的预设数据类别模型所对应的分类结果都为第一种情况，从表4获得的第一兴趣状态数据能明确得出用户当前的兴趣状态，表4获得的第一兴趣状态数据能明确出该用户为女性，年龄为25岁，对文娱相关的方面感兴趣，所用的语言为中文，当前所进行的活动为浏览微博话题。

本实施例中，当获得的第一兴趣状态数据中能明确用户当前的活动为某一活动时，根据与用户当前活动相对应的一种微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

当获得的第一兴趣状态数据中不能明确用户当前的活动，即用户当前的活动为多种，则根据与用户当前活动相对应的多种微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

步骤104，根据微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐所述微博产品。

本实施例中，微博推荐模型包括以下至少四种：微博视频推荐模型，微博话题推荐模型，微博音乐推荐模型，微博商品推荐模型。

如上述的表4中，获得的第一兴趣状态数据中能明确用户当前的活动为浏览微博话题，则根据微博话题推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

如在上述的表3中，获得的第一兴趣状态数据中不能明确用户当前的活动，只能获知该用户当前在浏览微博话题或收看视频，则根据微博话题推荐模型和微博视频推荐模型，分别确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

本实施例中，通过获取终端的第一状态感知数据；将该第一状态感知数据按照数据类别模型进行分类，并获得分类结果；根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据；根据微博推荐模型，确定该第一兴趣状态数据对应的微博产品，并向用户推荐所述微博产品。本发明通过针对每个用户获得数据类别模型和微博推荐模型，并对第一状态感知数据和数据类别模型获得第一状态感知数据的分类结果，根据第一状态感知数据的分类结果，确定第一兴趣状态数据，根据微博推荐模型，确定第一兴趣状态数据对应的微博产品，本实施例通过针对每个用户获取数据类别模型和微博推荐模型，实现向每个用户推送比较能满足用户需求的微博产品，使用户获得更好的体验。

图2为本发明微博推荐方法的又一个实施例的流程图，如图2所示，本实施例的执行主体可以是网络侧的服务器，具体可以通过软件、硬件，或者软件和硬件相结合的方式实现。则该方法包括：

步骤201，获取终端的第一状态感知数据。

步骤201和本发明微博推荐方法一个实施例的步骤101相同，在此不再一一赘述。

步骤202，采用降低维度技术或矩阵分解技术对第一状态感知数据进行过滤，获得第二状态感知数据。

本实施例中，在获取第一状态感知数据中，存在大量噪声、缺失项甚至误差。如用户个性化数据中的地理位置数据中由于感知器出错而产生的误差，又如，服务请求数据中在用户请求的服务类型为歌曲时，由于路由器比特传送误差造成服务请求数据中含有噪声等。所以对第一状态感知数据通过降维技术或者矩阵分解技术进行过滤处理，获得第二状态感知数据。具体的如何利用降维技术或者矩阵分解技术对第一状态感知数据进行过滤处理为本领域技术人员所公知，在此将不再一一赘述。

步骤203，按照预设的采集频率对第一交互数据进行采集，获得第二交互数据。

本实施例中，第一交互数据为微博服务提供商与终端交互的数据。

本实施例中，第一交互数据包括服务请求数据、该用户的个性化数据和地理位置数据。其中，服务请求数据包括该请求的接收的时间、终端的IP地址、服务类型、语言类型、关键字段等数据，如一个服务请求数据为：2013年08月21日下午3:15192.168.1.3浏览网页中文体育-羽毛球比赛。根据服务请求数据中的服务类型，服务请求数据可为网页浏览请求数据，拨打电话请求数据，多媒体请求数据，网上购物请求数据等。该用户个性化数据可以为该用户的基本信息数据，该终端的软件参数、硬件参数等，这些用户个性化数据存储在服务提供商的服务器中，用户向微博服务提供商发送一个用户识别号，微博服务提供商根据此识别号能从服务提供商的服务器中获取相关信息，根据该用户识别号，网络侧的服务器能够获取该用户的用户个性化数据。上述的用户基本信息数据包含该用户的性别，年龄等信息，如用户的基本信息数据为：性别：女，年龄：25岁。软件参数为该终端所使用的操作系统信息，如该终端所使用的操作系统为安卓操作系统。硬件参数为该终端的网卡地址数据。地理位置数据为在该终端和微博服务提供商交互时由微博服务提供商定位出的该终端所处的具体位置数据，每定位一次具体位置，都会有标签设定。

在本发明的实施例中，由于第一交互数据是海量的，所以没有必要对所有第一交互数据全部进行处理，因此需要对第一交互数据进行采集。

具体地，采用预设采集频率的方法对获取的第一交互数据进行采集，获得第二交互数据。预设的采集频率可以是指预先设定的时间间隔。

可选的，在按照预设的采集频率对第一交互数据进行采集的过程中，也可根据预设的采集范围对第一交互数据进行采集，采集范围是指从获取的第一交互数据中对某一空间覆盖面的数据进行采集。由于每个服务请求数据中都有地理位置信息的标签设定，所以能够针对某一空间覆盖面的数据进行采集。由于该用户在不断的进行终端和微博服务提供商的交互，所以第一交互数据在进行不断更新，从第一交互数据中采集的第二交互数据也在不断进行更新。

在本发明的一个实施例中，第一交互数据为该用户在最近一个月内通过终端与微博服务提供商进行交互的数据。该最近一个月内进行的终端与微博服务提供商交互的数据的空间覆盖面为某个城市的两个区，其中在某一个区A中终端与微博服务提供商交互的数据占据了整个获取的终端与微博服务提供商交互的数据的90％，则可对获取的第一交互数据的采集原则为：在最近一个月内，每隔两个小时采集在某一个区A中的终端与微博服务提供商交互的数据。

步骤204，采用降低维度技术或者矩阵分解技术对第二交互数据进行过滤，获得第一数量的第三交互数据。

本实施例中，由于按照预设的采集频率对第一交互数据进行采集，获得的第二交互数据中存在大量噪声、缺失项甚至误差。如用户个性化数据中的地理位置数据中由于感知器出错而产生的误差，又如，服务请求数据中在用户请求的服务类型为歌曲时，由于路由器比特传送误差造成服务请求数据中含有噪声等。所以对第二交互数据通过降维技术或者矩阵分解技术进行过滤处理，获得第一数量的第三交互数据。具体的如何利用降维技术或者矩阵分解技术对第二交互数据进行过滤为本领域技术人员所公知，在此将不再一一赘述。

步骤205，按照所述数据类别模型获取第二数量的第三交互数据并进行标注，并采用终生机器学习方法对标注后的第三交互数据进行训练，获得数据类别模型，所述第二数量小于或等于第一数量。

数据类别模型包括：用户基本信息模型、用户兴趣模型、用户语言模型和用户活动模型。

本实施例中，在对第二交互数据进行过滤处理获得第二数量的第三交互数据后，由于终端与微博服务提供商交互的数据的类别多，所以要对第三交互数据进行特征抽取处理。

其中，具体的特征抽取方法为：将第三交互数据进行线性及非线性的组合得到一组新的数值。对服务请求数据和地理位置数据而言，从每个服务请求数据中抽取该服务请求发送的时间以及服务类型数据，并与该服务请求数据对应的地理位置数据组合得到一组新的数值存储为用户活动数据，从每个服务请求数据中分别抽取语言类型数据和关键字段数据各自得到一组新的数值，将其分别存储为用户语言数据和用户兴趣数据。对用户个性化数据而言，抽取出用户基本信息数据得到一组新的数值并将其存储为用户基本信息数据，其它的用户个性化数据归为用户其它个性化数据并进行存储。

所以，进过特征抽取后的第三交互的数据包括四种类别：用户基本信息数据、用户兴趣数据、用户语言数据、用户活动数据。上述的这四类第三交互数据和表1中四类第一状态感知数据的区别是每个类别的第三交互数据个数更多，每个类别的第三交互数据中具体的类别也更多。如在表1中有5个服务请求数据，在用户兴趣数据中只有和体育和文娱相关的用户兴趣数据。而第三交互数据可以具体有100个服务请求数据，在用户兴趣数据中可以包括与体育、文娱、政治、购物等相关的用户兴趣数据。具体的第三交互数据中有多少个服务请求数据与采集的第一交互数据的多少有关。

对应于特征抽取后的第三交互数据，按照预设的数据类别获取第一数量的第三交互数据并进行标注，以组成获取预设数据类别模型的训练集。

其中第一数量是自然数，可表示为m，本实施例不作限定。

如由m₁个用户基本信息数据组成训练集A₁,由m₂个用户语言数据组成训练集A₂,由m₃个用户兴趣数据组成训练集A₃，由m₄个用户兴趣数据组成训练集A₄。其中m＝m₁+m₂+m₃+m₄，每一种数据类别模型对应的训练集中的对应的第三交互数据的数量可以相同也可以不同，本实施例不作限定。

具体地，对m₁个用户基本信息数据进行标签设定，比如说某一用户基本信息数据为：用户为女性，年龄为18-25岁，则标签设定为0，用户为男性，年龄为18-25，则标签设定为1，对m₂个用户语言数据进行标签设定，比如说在m₂个用户语言数据中k₁个用户语言数据为中文，则这k₁个用户语言数据的标签设定为0，有k₂个用户语言数据为英文，则这k₂个用户语言数据的标签设定为1，有k₃个用户语言数据为韩文，则这k₃个用户语言数据的标签设定为2，有k₄个用户语言数据为日文，则这k₄个用户语言数据的标签设定为3。其中m₂＝k₁+k₂+k₃+k₄。

对m₃个用户兴趣数据进行标签设定和对m₄个用户活动数据进行标签设定方法与用户语言数据的标签设定方法相同，在此不再一一赘述。

本实施例中对四个训练集中的第三交互数据进行标签设定，具体设定多少个标签以及具体的标签设定为什么，与该第三交互数据有关。比如第三交互数据的用户兴趣数据中，只出现过关键字为体育、文娱、政治和购物的数据，从未出现过关键字为教育的数据，那么对用户兴趣数据就只设定四类标签，这四类标签可以为：与体育相关的用户兴趣数据设定为0，与文娱有关的用户兴趣数据设定为1，与政治有关的用户兴趣数据设定为2，与购物有关的用户兴趣数据设定为3。由于训练集中的训练样本的标签设定是与该第三交互数据有关的，当该第三交互数据，首次出现了某一类型的数据，则将该类型的数据存储起来并进行标签设定，以便组成训练集中的一个新的标签类别的训练样本。具体的对数据类别模型的四个训练集中的数据进行的标签设定可以表示为表5所示：

本实施例中，采用终生机器学习方法对标注后的第三交互数据进行训练，在终生机器学习算法库中存在计算模型，该计算模型可以包括线性模型，双线性模型和非线性模型。这些计算模型根据用途的不同可分为分类模型、回归模型等，对每类用户模型的建立可以根据先验知识自适应的选择终生机器学习算法库中的算法。如上述用户兴趣模型的建立，根据先验知识，其适合采用终生机器学习中的线性可分的支撑矢量机的分类算法对该用户兴趣模型进行建立，则采用线性可分的支撑矢量机的分类算法建立用户兴趣模型。具体的采用终生机器学习的技术建立多个类别的预设数据类别模型本发明微博推荐方法一个实施例中已详细说明，本实施例中将不再一一赘述。

本实施例中，预设数据类别模型是利用终生机器学习的算法获得的，所以在第三交互数据是不断更新的过程中，预设数据类别模型也是处于不断更新的，不必对第三交互数据重新训练得到预设数据模型。

表5：预设数据类别模型的四个训练集中数据的标签设定示例

步骤206，将第二状态感知数据按照数据类别模型进行分类，并获得分类结果。

将第二状态感知数据按照数据类别模型进行分类前，对第二状态感知数据进行特征抽取，第二状态感知数据可分为：用户基本信息数据，用户语言数据，用户兴趣数据和用户活动数据。

在本发明的一个实施例中，将第二状态感知数据按照数据类别模型进行分类，获得分类结果。其中，具体分类过程为：按照用户基本信息模型对用户基本信息数据进行分类，获得该用户的基于用户基本信息模型的分类结果；按照用户语言模型对用户语言数据进行分类，获得该用户的基于用户语言模型的分类结果；按照用户兴趣模型对用户兴趣数据进行分类，获得该用户的基于用户兴趣模型的分类结果；按照用户活动模型对用户活动数据进行分类，获得该用户的基于用户活动模型的分类结果。

具体地，将第二状态感知数据按照数据类别模型进行分类，并获得分类结果的方法和本发明微博推荐方法一个实施例的步骤102中将第一状态感知数据按照数据类别模型进行分类，并获得分类结果的方法相同，在此不一一赘述。

步骤207，根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据。

步骤207和本发明微博推荐方法一个实施例中的步骤103相同，在此将不再一一赘述。

步骤208，按照微博产品的类别获取第三数量的历史兴趣状态数据并对历史兴趣状态数据进行标注，利用终生机器学习方法对标注后的历史兴趣状态数据进行训练，获得微博推荐模型。

本实施例中，微博产品包括微博视频，微博话题、微博音乐和微博商品。微博产品的类别和历史兴趣状态数据中的用户活动数据类别是一一对应的，用户活动数据至少包括用户观看视频数据、用户浏览微博话题数据、用户收听音乐数据以及用户购买商品数据。

本实施例中，预设的微博推荐模型至少包括：微博视频推荐模型，微博话题推荐模型，微博音乐推荐模型，微博商品推荐模型。

所以本实施例中，按照微博产品的类别获取第三数量的历史兴趣状态数据具体是按照历史兴趣状态数据中的用户活动数据类别获取第三数量的历史兴趣状态数据。历史兴趣状态数据的第三数量表示为n，n为自然数。

在本发明的一个实施例中，按照历史兴趣状态数据中的用户活动数据的类别获取到的n个历史兴趣状态数据可分成四个训练集，并对每个训练集中的每个历史兴趣状态数据进行具体的兴趣标签的设定，由n₁个用户活动数据的类别为收看视频的历史兴趣状态数据组成训练集B₁,由n₂个用户活动数据的类别为浏览微博话题的历史兴趣状态数据组成训练集B₂，由n₃个用户活动数据的类别为收听音乐的历史兴趣状态数据组成训练集B₃，由n₄个用户活动数据的类别为网上购物的历史兴趣状态数据组成训练集B₄，其中n＝n₁+n₂+n₃+n₄，如在表6中举例说明了微博推荐模型中的四个训练集中的训练样本的兴趣标签设定示例。

表6：微博推荐模型的四个训练集中数据的标签设定示例

本实施例中，在终生机器学习的算法库中存在计算模型，计算模型包括了线性，双线性和非线性的计算模型。这些计算模型根据用途的不同可分为分类模型、回归模型等，获取每类预设的微博推荐模型时，可以根据先验知识自适应的选择终生机器学习算法库中的算法。如获取微博话题推荐模型时，根据先验知识，其适合采用终生机器学习中的非线性的支撑矢量机的分类算法对标注后的用户活动数据为浏览微博话题的历史兴趣状态数据进行训练，则采用非线性的支撑矢量机的分类算法对标注后的用户活动数据为浏览微博话题的历史兴趣状态数据进行训练，获取微博话题推荐模型。再如微博音乐推荐模型的建立，根据先验知识，其适合采用终生机器学习中的线性的支撑矢量机的分类算法获取微博音乐推荐模型，则采用线性的支撑矢量机的分类算法对标注后的用户活动数据为收听音乐的历史兴趣状态数据进行训练，获得微博音乐推荐模型。

具体的利用终生机器学习方法对标注后的历史兴趣状态数据进行训练，获得所述预设的微博推荐模型和本实施例步骤203中利用终生机器学习方法对标注后的第三交互数据进行训练确定数据类别模型的方法相同，本实施例中将不再一一赘述。

步骤209，根据微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐所述微博产品。

当获得的第一兴趣状态数据中能明确用户当前的活动为某一活动时，根据与用户当前活动相对应的一种微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

具体地，预设的微博推荐模型是根据终生机器学习对标注后的历史兴趣状态数据进行训练得到的，四种预设的微博推荐模型的具体形式根据终生机器学习算法库中的算法的不同也会有所不同，根据采用的终生机器学习算法库中的算法的不同，得到的预设的微博推荐模型的组成形式也不同，预设的微博推荐模型和对应类别的第一兴趣状态数据的计算方式也不同。

在微博推荐模型和对应类别的第一兴趣状态数据计算后，得到第一兴趣状态数据的分类结果，如在表4获得的第一兴趣状态数据得到的分类结果可表示为表7所示。

表7：第一兴趣状态数据分类结果示例

根据分类结果确定第一兴趣状态数据对应的微博产品，具体为：

在四种训练集中每种兴趣标签类别的训练样本，都和相应的微博产品相关联，根据分类结果确定第一兴趣状态数据所属的兴趣标签类别，然后找到与之相关联的微博产品，并向用户推荐微博产品。

本实施例中，根据分类结果确定第一兴趣状态数据所属的兴趣标签类别时，可能出现多个兴趣标签类别对应的分类结果相差不大的情况，那么可找到与多个兴趣标签类别相关联的微博产品，将多个微博产品推荐给用户。

需要说明的是：在初始阶段，历史兴趣状态数据是少量的，不足以构成训练集获得微博推荐模型时，将该用户第一兴趣状态数据与少量的历史兴趣状态数据进行匹配计算，具体的匹配计算方法可以为将表示该用户第一兴趣状态数据的矩阵与历史兴趣状态数据的矩阵进行内积，内积的值越大，表示匹配度越高，还可以将表示用户第一兴趣状态数据的矩阵与表示历史兴趣状态数据的矩阵相减的范数表示用户第一兴趣状态数据和历史兴趣状态数据之间的距离，距离越小表示匹配度越高。

根据用户第一兴趣状态数据和历史兴趣状态数据的匹配度获得匹配度最高的历史兴趣状态数据，该历史兴趣状态数据是与微博产品相关联的，那么为用户推荐该微博产品。

也可以获取匹配度依次最高的前L个历史兴趣状态数据，L个历史兴趣状态数据对应一个或多个微博产品，将这一个或多个微博产品推荐给用户，L为预先设置的数值。

步骤210，获取用户反馈的微博推荐信息，根据微博推荐信息，更新微博推荐模型。

本实施例中，根据第一兴趣数据的分类结果或与第一兴趣数据匹配度高的历史兴趣状态数据为用户推荐微博产品后，用户可选择性的获取自身感兴趣的微博产品，在用户选择自身感兴趣的微博产品后，会向相应的微博推荐模型中反馈微博推荐信息，如果第一兴趣状态数据为明确的第一兴趣状态数据，则将其保存到对应的微博推荐模型中成为历史兴趣状态数据并进行具体的兴趣标签的设定，作为微博推荐模型中的训练样本，历史兴趣状态数据和用户感兴趣的产品建立联系，以便训练样本的更新，由于微博推荐模型是通过终生机器学习算法获得的，所以在训练样本更新后，不需要对微博推荐模型进行训练就可完成微博推荐模型的更新过程。

在本实施例中，通过采用终生机器学习技术获得预设数据类别模型和预设微博推荐模型，并根据第三交互数据进行更新进行预设数据类别模型的更新，根据用户反馈的微博推荐信息对历史兴趣状态数据进行更新，使预设微博推荐模型能够不断进行更新，能够使微博推荐方法随着用户的成长而成长，实现向用户推荐比较满足用户需求的微博产品。

图3为本发明终端一个实施例的结构示意图，本实施例中的终端可以实现本发明图1所示实施例的流程，如图3所示，该终端可以包括：获取模块301、分类模块302、计算模块303和确定模块304。

获取模块301，用于获取终端的第一状态感知数据。

分类模块302，用于将第一状态感知数据按照数据类别模型进行分类，并获得分类结果。

计算模块303，用于根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据。

确定模块304，用于根据微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

本实施例的终端，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明终端又一个实施例的结构示意图，本实施例中的终端可以实现本发明图2所示实施例的技术方案，如图4所示，该终端包括：获取模块401、分类模块402、计算模块403、确定模块404、采集模块405、第一过滤模块406、第一标记模块407、第一训练模块408、第二过滤模块409、第二训练模块410、更新模块411。其中，获取模块401，用于获取终端的第一状态感知数据。分类模块402，用于将第一状态感知数据按照数据类别模型进行分类，并获得分类结果。计算模块403，用于根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据。确定模块404，用于根据微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

进一步地，采集模块405，具体用于按照预设的采集频率对第一交互数据进行采集，获得第二交互数据，第一交互数据为微博服务提供商与终端交互的数据。

第一过滤模块406，具体用于采用降低维度技术或者矩阵分解技术对第二交互数据进行过滤，获得第一数量的第三交互数据。

第一标记模块407，具体用于按照预设的数据类别获取第二数量的第三交互数据并进行标注。

第一训练模块408，具体用于采用终生机器学习方法对标注后的第三交互数据进行训练，获得数据类别模型。

分类模块402，具体用于将第一状态感知数据按照第一训练模块训练出的数据类别模型进行分类，并获得分类结果。

进一步地，第二过滤模块409，具体用于采用降低维度技术或者矩阵分解技术对第一状态感知数据进行过滤，获得第二状态感知数据。

分类模块402，具体用于将第二状态感知数据按照数据类别模型进行分类，并获得分类结果。

进一步地，获取模块401，还用于按照微博产品的类别获取第三数量的历史兴趣状态数据进行标注。

第二训练模块410，具体用于利用终生机器学习方法对标注后的历史兴趣状态数据进行训练，确定微博推荐模型。

进一步地，获取模块401，还用于获取用户反馈的微博推荐信息。

更新模块411，具体用于根据微博推荐信息，更新预设的微博推荐模型。

进一步地，确定模块404，还用于确定分类结果对应的权重。

计算模块403，具体用于根据所述分类结果对应的权重对所述第一状态感知数据进行整合计算，得到所述第一兴趣状态数据。

本实施例的设备，可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明终端再一个实施例的结构示意图，如图5所示，该终端可以包括：存储器501和处理器502，存储器501和处理器502通过总线通信。

其中，存储器501，用于存储指令。处理器502，用于运行存储器501中的指令，以执行本发明微博推荐方法。

具体地，处理器502，用于获取终端的第一状态感知数据。

处理器502，还用于将第一状态感知数据按照数据类别模型进行分类，并获得分类结果。处理器502，还用于根据预设的计算规则对分类结果进行统计，确定第一兴趣状态数据。处理器502，还用于根据微博推荐模型，确定第一兴趣状态数据对应的微博产品，并向用户推荐微博产品。

进一步地，处理器502，具体用于按照预设的采集频率对第一交互数据进行采集，获得第二交互数据，第一交互数据为微博服务提供商与终端交互的数据。

处理器502，具体用于采用降低维度技术或者矩阵分解技术对第二交互数据进行过滤，获得第一数量的第三交互数据。

处理器502，具体用于按照预设的数据类别获取第二数量的第三交互数据并进行标注，第二数量小于或等于第一数量。

处理器502，具体用于采用终生机器学习方法对标注后的第三交互数据进行训练，获得数据类别模型。

处理器502，具体用于将第一状态感知数据按照处理器502训练出的数据类别模型进行分类，并获得分类结果。

进一步地，处理器502，具体用于采用降低维度技术或者矩阵分解技术对第一状态感知数据进行过滤，获得第二状态感知数据；

处理器502，具体用于将第二状态感知数据按照数据类别模型进行分类，并获得分类结果。

进一步地，处理器502，还用于按照微博产品的类别获取第三数量的历史兴趣状态数据进行标注。

处理器502，具体用于利用终生机器学习方法对标注后的历史兴趣状态数据进行训练，确定微博推荐模型。

进一步地，处理器502，还用于获取用户反馈的微博推荐信息。

处理器502，具体用于根据微博推荐信息，更新微博推荐模型。

进一步地，处理器502，还用于确定分类结果对应的权重。

处理器502，具体用于根据分类结果对应的权重对第一状态感知数据进行整合计算，得到第一兴趣状态数据。

本实施例的终端，可以用于执行图1和图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM(ReadOnlyMemory，只读存储器)、RAM(RandomAccessMemory，随机存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种微博推荐方法，其特征在于，包括：

获取终端的第一状态感知数据；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一状态感知数据按照数据类别模型进行分类之前还包括：

按照预设的采集频率对第一交互数据进行采集，获得第二交互数据，所述第一交互数据为微博服务提供商与所述终端交互的数据；

3.根据权利要求1或2所述的方法，其特征在于，所述将所述第一状态感知数据按照数据类别模型进行分类之前，还包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据微博推荐模型，确定所述第一兴趣状态数据对应的微博产品之前，还包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述向用户推荐所述微博产品之后，还包括：

获取用户反馈的微博推荐信息；

根据所述微博推荐信息，更新所述微博推荐模型。

6.根据权利要求1至5任一所述的方法，其特征在于，根据预设的计算规则对所述分类结果进行统计，确定第一兴趣状态数据之前，还包括：确定所述分类结果对应的权重；

所述根据预设的计算规则对所述分类结果进行统计包括：

7.一种终端，其特征在于，包括：

获取模块，用于获取所述终端的第一状态感知数据；

8.根据权利要求7所述的终端，其特征在于，还包括采集模块、第一过滤模块、第一标记模块以及第一训练模块，

所述第一标记模块，具体用于按照所述数据类别模型获取第二数量的所述第三交互数据并进行标注，所述第二数量小于或等于第一数量；

所述分类模块，具体用于将所述第一状态感知数据按照所述第一训练模块训练出的数据类别模型进行分类，并获得分类结果。

9.根据权利要求7或8所述的终端，其特征在于，所述终端还包括第二过滤模块，

所述第二过滤模块，具体采用降低维度技术或者矩阵分解技术对所述第一状态感知数据进行过滤，获得第二状态感知数据；

10.根据权利要求7至9任一所述的终端，其特征在于，所述终端还包括第二训练模块，

11.根据权利要求7至10任一所述的终端，其特征在于，所述终端还包括更新模块，

所述获取模块，还用于获取用户反馈的微博推荐信息；

12.根据权利要求7至11任一所述的终端，其特征在于，所述确定模块，还用于确定所述分类结果对应的权重；

所述计算模块，具体用于根据所述分类结果对应的的权重对所述第一状态感知数据进行整合计算，得到所述第一兴趣状态数据。