CN104572733A

CN104572733A - 用户兴趣标签分类的方法及装置

Info

Publication number: CN104572733A
Application number: CN201310501027.4A
Authority: CN
Inventors: 王亮; 孙拔群; 李京生; 冯扬; 张娜; 柳超; 姜爱荣; 李庆国; 程刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-10-22
Filing date: 2013-10-22
Publication date: 2015-04-29
Anticipated expiration: 2033-10-22
Also published as: CN104572733B

Abstract

本发明公开了一种用户兴趣标签分类的方法及装置，涉及互联网技术领域，能够解决开放平台的用户信息无法被第三方充分且准确利用的问题。本发明的方法包括：获取活跃用户的训练数据，训练数据包括活跃用户的第一站点数据以及活跃用户在第二站点中选择的用户兴趣标签；对第二站点兴趣标签进行二元标签转换，得到二分类器；根据用户兴趣标签以及二分类器，建立第一站点数据与第二站点兴趣标签之间的关联关系；通过二元分解算法以及该关联关系训练得到用户兴趣标签分类模型；根据新用户的第一站点数据以及用户兴趣标签分类模型，计算获得新用户在第二站点中的用户兴趣标签。本发明主要应用于第三方网站或应用的用户兴趣预测过程中。

Description

用户兴趣标签分类的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种用户兴趣标签分类的方法及装置。

背景技术

随着Twitter、微博、QQ等网络社区的兴起，开放平台已经成为互联网应用的核心组成部分。开放平台拥有海量的用户和丰富的用户信息，应用开发者或第三方网站（后续统称为第三方）可以在开放协议许可的条件下，通过平台的应用程序接口（Application Program Interface，简称API）从开放平台获取这些用户信息，分析用户兴趣、好友关系等价值信息，实现开放平台与第三方之间的信息共享。

开放平台从起始到现在只有数年的时间，因此目前第三方引入开放平台用户信息辅方式还相对简单。对于用户性别、用户年龄等信息，各个网站的表达方式基本一致，第三方可以直接从开放平台引入，而对于用户兴趣这类信息，由于各个网站的兴趣分类体系互不相同（包括分类方式和分类粒度），因此第三方往往不能对开放平台的用户兴趣信息直接进行引入。例如在开放平台中的用户兴趣分类为电影、美食、足球、互联网，而某电影类第三方垂直网站中的用户兴趣则分类为惊悚、搞笑、科幻，对于开放平台中的用户兴趣信息，该垂直网站无法直接进行引入。

对于第三方无法直接引入开放平台中用户兴趣信息的问题，目前主要存在下述三种解决方案：1）通过人工分类的方式实现兴趣分类过渡；2）强制引入开放平台的用户兴趣信息，进行模糊匹配；3）丢弃无法直接引入的用户兴趣信息。

在上述引入用户兴趣信息的过程中，发明人发现现有技术中至少存在如下问题：第一，对于人工分类的方式，由于开放平台的用户信息量极大，对于第三方而言数据处理的人工成本过高并且效率低下，不适应大数据时代的发展趋势。第二、对于强制引入的方式，通常同一个用户的兴趣爱好是多方面的，如果开放平台中的兴趣分类与第三方中的兴趣分类不同，则强制引入用户兴趣信息会导致兴趣分类的准确性下降。例如在QQ空间这类强关系社区的开放平台中，用户展现出的兴趣通常为日常生活类的兴趣，如美食、电影等，而在某户外类第三方垂直网站中兴趣分类为登山、徒步、野营等。开放平台中的用户兴趣信息对于第三方而言显然缺少参考价值，容易使第三方错误的对用户进行兴趣分类，同时会引入大量毫无意义的用户兴趣信息。第三、丢弃用户兴趣信息的方式会使开放平台中的用户兴趣信息无法被充分利用，导致资源利用率过低。通常开放平台能够提供丰富全面的用户兴趣信息，开放平台与第三方之间存在的分类体系差异使得开放平台中有价值的用户兴趣信息被第三方忽略。例如，在微博开放平台中用户兴趣会被分类为电影、户外、美食等，在某摄影类第三方垂直网站中用户兴趣会被分类为器材、人像、风景等。按照一般常识，喜欢户外运动的用户大都喜爱摄影，并且通常涉及风景类摄影，开放平台中户外类的用户兴趣信息可以被分类到第三方中的风景类标签中，而这部分有价值的用户兴趣信息则被第三方丢弃掉了。

发明内容

本发明实施例提供一种用户兴趣标签分类的方法及装置，能够解决开放平台与第三方分类体系不一致时，开放平台的用户信息无法被第三方充分且准确利用的问题。

一方面，本发明实施例提供了一种用户兴趣标签分类的方法，包括：

获取活跃用户的训练数据，所述训练数据包括所述活跃用户的第一站点数据以及所述活跃用户在第二站点中选择的用户兴趣标签；

对第二站点中的第二站点兴趣标签进行二元标签转换，得到二分类器；

根据所述用户兴趣标签以及所述二分类器，建立所述第一站点数据与所述第二站点兴趣标签之间的关联关系；

通过二元分解算法以及所述第一站点数据与所述第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型；

获取新用户的第一站点数据；

根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型，计算获得所述新用户在所述第二站点中的用户兴趣标签。

另一方面，本发明实施例还提供了一种用户兴趣标签分类的装置，包括：

数据获取单元，用于获取活跃用户的训练数据，所述训练数据包括所述活跃用户的第一站点数据以及所述活跃用户在第二站点中选择的用户兴趣标签；

标签转换单元，用于对所述数据获取单元获取的第二站点中的第二站点兴趣标签进行二元标签转换，得到二分类器；

关系建立单元，用于根据所述数据获取单元获取的所述用户兴趣标签以及所述标签转换单元得到的所述二分类器，建立所述第一站点数据与所述第二站点兴趣标签之间的关联关系；

模型建立单元，用于通过二元分解算法以及所述关系建立单元建立的所述第一站点数据与所述第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型；

所述数据获取单元还用于获取新用户的第一站点数据；

标签分类单元，用于根据所述数据获取单元获取的所述新用户的第一站点数据以及所述模型建立单元训练得到的所述用户兴趣标签分类模型，计算获得所述新用户在所述第二站点中的用户兴趣标签。

本发明实施例提供的用户兴趣标签分类的方法及装置，能够以在第二站点（例如第三方站点）中选择了用户兴趣标签的活跃用户数据作为训练数据，训练得到由第一站点数据（例如开放平台站点数据）到第二站点中用户兴趣标签的分类模型，然后对没有在第二站点中选择用户兴趣标签的新用户进行第二站点的兴趣预测。在训练用户兴趣标签分类模型时，通过对第二站点兴趣标签进行二元标签转换的方式，将多标签分类问题转化为单标签分类问题，然后根据活跃用户在第二站点中选择的用户兴趣标签以及二元标签转换得到的二分类器，建立第一站点数据与第二站点兴趣标签之间的关联关系。最后通过基于单标签分类的二元分解算法，训练得到用户兴趣标签分类模型。在对用户进行兴趣预测时，根据新用户的第一站点数据以及训练得到的用户兴趣标签分类模型，在第二站点中为新用户进行兴趣标签分类，从而实现第二站点中的用户兴趣标签分类。本发明实施例提供的用户兴趣标签分类的方法及装置，能够解决开放平台信息引入的准确性问题和适用性问题，与现有技术中强制引入开放平台的用户兴趣信息相比，可以在开放平台与第三方两者分类机制不同的情况下，以活跃用户的训练信息作为关系参考，通过建立和使用用户兴趣标签分类模型，提高兴趣标签分类的准确性。此外与丢弃无法直接引入的用户兴趣信息相比，能够更加充分有效的利用开放平台的数据信息。最后与人工分类的方式相比，可以极大提高兴趣标签分类的效率和准确性，降低人工成本。与此同时，本发明实施例提供的用户兴趣标签分类的方法及装置，使用二元分解法进行模型训练，在保证训练准确率的前提下，还可以保证训练和兴趣标签分类的速度，减少分类耗时，提高分类系统性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中用户兴趣标签分类的方法流程图；

图2为本发明实施例中另一个用户兴趣标签分类的方法流程图；

图3为本发明实施例中第一站点数据的示意图；

图4为本发明实施例中另一个第一站点数据的示意图；

图5为本发明实施例中用户兴趣标签分类的装置的结构示意图；

图6为本发明实施例中另一个用户兴趣标签分类的装置的结构示意图。

具体实施方式

下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为在第一站点和第二站点之间分类机制不同的情况下，准确充分利用第一站点的用户兴趣信息预测用户在第二站点中的兴趣标签，本实施例提供了一种用户兴趣标签分类的方法。如图1所示，所述方法包括：

101、获取活跃用户的训练数据。

为对用户在第二站点中的兴趣标签进行分类，即预测用户在第二站点中的兴趣标签，首先需要根据已有活跃用户的训练数据训练用户兴趣标签分类模型。本实施例中作为兴趣标签预测对象的用户为在微博、QQ等第一站点中注册并拥有第一站点兴趣标签的用户，这些用户可以是未在第二站点中注册的用户，也可以是已在第二站点中进行注册但未在第二站点中选择用户兴趣标签的用户，所述活跃用户为从待选用户中选择出的活跃度较高的用户。所谓待选用户是指已在第一站点和第二站点中注册、并且在第二站点中选择了用户兴趣标签的用户。本实施例中，以这些活跃用户在第一站点和第二站点中的用户数据作为训练数据，训练得到用户兴趣标签分类模型。

所述训练数据包括活跃用户的第一站点数据以及活跃用户在第二站点中选择的用户兴趣标签。其中，第一站点数据包括活跃用户在第一站点中的兴趣标签，例如汽车、美食、电影等；还包括活跃用户的各人信息，例如性别、年龄等；同时第一站点数据还包括活跃用户的好友链数据，例如好友甲乙丙丁等。用户在第二站点中选择的用户兴趣标签是指，活跃用户在第二站点中，从已给出的众多第二站点兴趣标签里主观选择出来的自己偏好的兴趣标签，例如从1000个第二站点兴趣标签中选择川菜、粤菜、鲁菜3个第二站点兴趣标签作为自己的用户兴趣标签。

102、对第二站点中的第二站点兴趣标签进行二元标签转换，得到二分类器。

所述第二站点兴趣标签为第二站点中预设的兴趣标签，例如根据词频热度预设了10000个第二站点兴趣标签。而活跃用户在第二中选择的用户兴趣标签则是活跃用户在所有第二站点兴趣标签中选择的兴趣标签，例如在10000个第二站点兴趣标签中选择自己感兴趣的4个兴趣标签。本步骤中进行二元标签转换的对象为第二站点中预设的第二站点兴趣标签，而非用户选择的用户兴趣标签。

通常情况下，每个用户选择的兴趣标签数量多于一个，由此使得对应一个用户实例来说，兴趣标签分类归属到多标签分类问题中，即同一个用户实例可以由不同的标签（或称为不同的维度）进行标识。本实施例中采用二元分解算法进行用户兴趣标签分类模型的训练，由于二元分解算法只能应用于二类问题，对于多类问题的训练效果较差，因此本实施例通过步骤102将多标签分类问题转化为单标签分类问题，以便后续使用二元分解算法。进行二元标签转换后，可以将第二站点兴趣标签转化为多个大标签（或称为二分类器），每个二分类器中包含2个第二站点兴趣标签，在后续建立第一站点数据与第二站点兴趣标签之间的关联关系时，对于一个二分类器，一个活跃用户的第一站点数据只能对应2个第二站点兴趣标签中的一个标签，由此实现多标签分类问题向单标签分类问题的转化。

103、根据用户兴趣标签以及二分类器，建立第一站点数据与第二站点兴趣标签之间的关联关系。

例如，第二站点中预设有A、B、C、D和E5个第二站点兴趣标签，某一活跃用户在其中选择的用户兴趣标签为A和D。在步骤102中根据上述5个第二站点兴趣标签可以得到A+B、B+C、C+D、A+D等多个二分类器。对于一个二分类器，如果活跃用户选择的用户兴趣标签与该二分类器中的用户兴趣标签相同，则将该用户的第一站点数据与该用户兴趣标签之间建立关联关系。具体的，对于二分类器A+B，活跃用户选择了其中的用户兴趣标签A，则将活跃用户的第一站点数据与用户兴趣标签A之间建立关联关系。

104、通过二元分解算法以及第一站点数据与第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型。

训练用户兴趣标签分类模型的实质在于，学习从活跃用户的第一站点数据U到在第二站点中选择的用户兴趣标签C之间的函数关系。步骤103中已经建立了第一站点数据U与用户兴趣标签C之间的关联关系，本步骤中通过该关联关系训练学习得到用户兴趣标签分类模型。

需要说明的是，步骤103中得到的U与C之间的关联关系，与本步骤中U与C之间的函数关系并不相同，前者用于表达U与C之间的表象关系，而后者则是用于描述U与C之间的内在联系。例如第一站点兴趣标签为“旅游”的第一站点数据U与第二站点中的用户兴趣标签“摄影”之间存在关联关系，这种关联关系是由用户分别在第一站点和第二站点中主观选择兴趣标签所得到的；而步骤104中需要训练学习的则是，在第一站点中爱好旅游的用户会在第二站点中对摄影感兴趣，这种内在联系通过一般常识可以理解为爱好旅游的人通常喜欢摄影。步骤104的目的就在于将这种主观的内在联系函数化、机器化。

105、获取新用户的第一站点数据。

本实施例中，所谓新用户包括在第一站点中新注册的用户，也包括已在第一站点注册，但未在第二站点中上注册并选择用户兴趣标签的用户。在得到用户兴趣标签分类模型后，获取新用户的第一站点数据，以便后续根据其第一站点数据对新用户在第二站点中的兴趣标签进行分类（或称为预测）。

106、根据新用户的第一站点数据以及用户兴趣标签分类模型，计算获得新用户在第二站点中的用户兴趣标签。

上述步骤101至步骤104根据活跃用户的训练数据得到了用户兴趣标签分类模型，然后就可以根据用户兴趣标签分类模型以及新用户的第一站点数据，预测新用户在第二站点中的兴趣标签了。较为形象的，如果将第一站点数据U、用户兴趣标签分类模型M以及第二站点中的用户兴趣标签C三者关系描述为下式，则步骤101至步骤104的过程就是根据已知的U和C获得M，而步骤105和步骤106的过程则是根据已知的U和M获得C。

U \overset{M}{&RightArrow;} C

本实施例提供的用户兴趣标签分类的方法，能够以在第二站点（例如第三方站点）中选择了用户兴趣标签的活跃用户数据作为训练数据，训练得到由第一站点数据（例如开放平台数据）到第二站点用户兴趣标签的分类模型，然后对没有在第二站点中选择用户兴趣标签的新用户进行第二站点的兴趣预测。在训练用户兴趣标签分类模型时，通过对第二站点兴趣标签进行二元标签转换的方式，将多标签分类问题转化为单标签分类问题，然后根据活跃用户在第二站点中选择的用户兴趣标签以及二元标签转换得到的二分类器，建立第一站点数据与第二站点兴趣标签之间的关联关系。最后通过基于单标签分类的二元分解算法，训练得到用户兴趣标签分类模型。在对用户进行兴趣预测时，根据新用户的第一站点数据以及训练得到的用户兴趣标签分类模型，在第二站点中为新用户进行兴趣标签分类，从而实现第二站点中的用户兴趣标签分类。本实施例提供的用户兴趣标签分类的方法，能够解决开放平台信息引入的准确性问题和适用性问题，与现有技术中强制引入开放平台的用户兴趣信息相比，可以在开放平台与第三方两者分类机制不同的情况下，以活跃用户的训练信息作为关系参考，通过建立和使用用户兴趣标签分类模型，提高兴趣标签分类的准确性。此外与丢弃无法直接引入的用户兴趣信息相比，能够更加充分有效的利用开放平台的数据信息。最后与人工分类的方式相比，可以极大提高兴趣标签分类的效率和准确性，降低人工成本。与此同时，本实施例提供的用户兴趣标签分类的方法，使用二元分解算法进行模型训练，在保证训练准确率的前提下，还可以保证训练和兴趣标签分类的速度，减少分类耗时，提高分类系统性能。当第一站点为第三方站点、第二站点为开放平台站点时，本实施例提供的用户兴趣标签分类的方法也可以实现根据第三方站点用户数据对开放平台中的用户兴趣标签进行分类。

进一步的，作为对图1所示方法的详细说明以及进一步扩展，本实施例还提供了一种用户兴趣标签分类的方法。在该方法中，第一站点为开放平台站点，第二站点为第三方站点，也可以是第一站点为第三方站点，第二站点为开放平台站点，两者仅在表述上存在差异，其实现方式均相同。本实施例后续将以第一站点为开放平台站点、第二站点为第三方站点为例进行说明。如图2所示，所述方法包括：

201、对现有的开放平台用户进行遍历，将在第三方站点中进行注册并选择用户兴趣标签的开放平台用户确定为待选用户。

例如用户A已在开放平台中进行了注册，开放平台中存有使用户A的兴趣标签“美食”、“旅游”、“电影”，以及个人信息数据和好友链数据，同时用户A还在没事论坛类的第三方垂直站点中选择了自己感兴趣的用户兴趣标签“粤菜”、“鲁菜”和“宫保鸡丁”。本实施例将这类用户确定为所述待选用户。

202、按照第一预设比例将待选用户中活跃度较高的用户确定为活跃用户。

作为训练数据的用户数据越丰富对于模型训练的准确率越高，因此在选择训练数据时，尽量所选择数据内容较为丰富的用户数据。通常在开放平台中活跃度较高的用户相应产生的用户数据相对更加丰富，因此本实施例将从满足步骤201条件的待选用户中进一步筛选出活跃用户，以活跃用户的用户数据作为训练数据。

通常可以使用不同的指标衡量用户在开放平台中的活跃度，例如在线时长、登录次数、关注人数、收听人数、信息发布数量，好友数量等。本实施例不对判定用户活跃程度的说具体指标进行限定。当采用某个指标（或某几个指标）进行活跃度衡量时，可以按照活跃指标量对所有待选用户进行排序，按照预设比例将活跃度较高的用户选择为活跃用户。或者页可以根据开放平台规模，用户数量等因素设定具体的指标阈值，将相关参数达到指标阈值的用户确定为活跃用户。

203、获取活跃用户的训练数据。

对于活跃用户的开放平台数据，可以向开放平台服务器请求获取，开放平台数据包括下述数据中的至少一种：活跃用户在开放平台中选择的用户兴趣标签，例如“美食”、“旅游”、“电影”等，活跃用户的个人信息数据，例如性别、年龄等或活跃用户的好友链数据。对于活跃用户在第三方站点中选择的用户兴趣标签，则可以向第三方站点请求获取，例如“粤菜”、“鲁菜”和“宫保鸡丁”等。

在开放平台中，通常不同类型的用户数据具有不同维度的量级，例如，兴趣标签的维度在十万量级，个人信息数据的维度在为几十维，而好友链数据的维度则能够达到上亿的量级。对于某个活跃用户的开放平台数据，可以通过图3所示的方式进行描述，其中U表示活跃用户的开放平台数据，l表示开放平台中活跃用户的兴趣标签，p表示活跃用户的个人信息，f表示活跃用户的好友链数据。

在图3中，兴趣标签l下对应的数值反映用户偏好该兴趣的概率值，通常由词频(Term Frequency，简称TF)与逆向文件频率(Inverse DocumentFrequency，简称IDF)相乘得到。TF用于反映某个词语（本实施例中指兴趣标签）在文档中出现的频率，由该词语出现次数除以文档词语总数得到，即TF=特定词语出现次数/文档词语总数。IDF用于反映某个词语在所有文档中的普遍重要程度，由文档总数目与包含该词语的文档数目之商再取对数得到，即IDF=lg(文档总数目/包含特定词语的文档数目)。个人信息p下对应的数值用于对用户的个人信息进行标识，例如个人信息p为1时表示用户性别为男，个人信息p为0时表示用户性别为女。好友链f下对应的数值用于标识该活跃用户的好友数量或者关注数量。

在本实施例的一个优选实施例中，为提高算法的速度和效率，仅使维度量级较低的兴趣标签l和用个人信息p作为开放平台数据，舍弃维度量级过高的好友链f，开放平台数据U如图4所示。

204、按照第二预设比例选取第三方站点中词频较高的兴趣标签，作为第三方兴趣标签。

在第三方站点中，预设的第三方兴趣标签的维度量级通常在几千至上万维度不等，作为分类用的兴趣标签，如果第三方兴趣标签的维度量级过高，则容易导致算法的准确率下降，因此在本实施例的另一个优选方案中，按照一定的预设比例从第三方站点中所有的预设兴趣标签中选择部分词频较高的兴趣标签，作为第三方兴趣标签。在实际应用中，可以根据第三方兴趣标签的总数将该预设比例设置为5%或者10%，将选取的第三方兴趣标签数量控制在1000个以下。

205、对第三方站点中的第三方兴趣标签进行二元标签转换。

将K个第三方兴趣标签进行两两配对，得到K*（K-1）/2个二分类器，其中K为正整数。例如，当第三方兴趣标签为“粤菜”、“鲁菜”、“宫保鸡丁”、“家常菜”4个兴趣标签时，可以得到如下表所示的6个二分类器：

1	“粤菜”+“鲁菜”
		2	“粤菜”+“宫保鸡丁”
3	“粤菜”+“家常菜”
		4	“鲁菜”+“宫保鸡丁”
5	“鲁菜”+“家常菜”
		6	“宫保鸡丁”+“家常菜”

206、根据用户兴趣标签以及二分类器，建立开放平台数据与第三方兴趣标签之间的关联关系。

将活跃用户在第三方站点中选择的用户兴趣标签依次与每个二分类器进行匹配，可以分别得到下述三种匹配结果之一：a、与二分类器中的一个第三方兴趣标签匹配，b、与二分类器中的两个第三方兴趣标签均匹配，c、与二分类器中的两个第三方兴趣标签均不匹配。

具体的，以二分类器“粤菜”+“鲁菜”为例，当活跃用户选择的用户兴趣标签为“粤菜”、“川菜”时，与二分类器中的第三方兴趣标签“粤菜”匹配；当活跃用户选择的用户兴趣标签为“湘菜”、“鲁菜”时与二分类器中的第三方兴趣标签“鲁菜”匹配；当活跃用户选择的用户兴趣标签为“粤菜”、“鲁菜”时，与二分类器中的第三方兴趣标签“粤菜”和“鲁菜”均匹配；当活跃用户选择的用户兴趣标签为“川菜”、“湘菜”时，与二分类器中的第三方兴趣标签“粤菜”和“鲁菜”均不匹配。

当匹配结果为a时，即与二分类器中的一个第三方兴趣标签匹配时，将活跃用户的开放平台数据与匹配的第三方兴趣标签建立关联关系，例如将图4所示的开放平台数据U与第三方兴趣标签“粤菜”进行匹配；

由于第三方站点的规模一般都相对较小，标签分类的重点更多的侧重于算法的速度，而对标签分类的准确性要求并不严格，因此，为提高算法速度，在本实施例的另一个优选方案中，当匹配结果为b或c时，即与二分类器中的两个第三方兴趣标签均匹配或均不匹配时，丢弃活跃用户的开放平台数据。例如将图4所示的开放平台数据U丢弃。

207、通过二元分解算法以及开放平台数据与第三方兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型。

本步骤的实现方式与图1中步骤104的实现方式相同，此处不再赘述。

本实施例中优选以支持向量机（Support Vector Machine，简称SVM）算法对用户兴趣标签分类模型进行的分类，实际应用中还可以但不仅限于使用引导（bootstrap）算法进行模型训练。通过bootstrap算法进行模型训练的实现方式可以参考通过SVM算法进行模型训练的实现方式得以实现，此处不再赘述。

208、获取新用户的开放平台数据。

本步骤的实现方式与图1中步骤105的实现方式相同，此处不再赘述。

209、根据新用户的开放平台数据以及用户兴趣标签分类模型，计算获得新用户在第三方站点中的用户兴趣标签。

209a、根据新用户的开放平台数据以及用户兴趣标签分类模型对二元标签转换后的第三方兴趣标签进行投票。

例如对于第三方站点中“粤菜”、“鲁菜”、“宫保鸡丁”和“家常菜”4个第三方兴趣标签进行投票，4个标签的得票数依次为4、7、2、9。

209b、按照票数由多至少的顺序对第三方兴趣标签进行排序。

排序后的4个第三方兴趣标签依次为：“家常菜”、“鲁菜”、“粤菜”和“宫保鸡丁”。

209c、从票数最高的第三方兴趣标签开始，选择预设数量的第三方兴趣标签作为新用户在第三方站点中的用户兴趣标签。

例如仅选择“家常菜”和“鲁菜”作为新用户在第三方站点中的用户兴趣标签，本实施例不对预设数量做具体限制。

可选的，在本实施例的另一个优选方案中，还可以根据第三方站点的总体用户活跃度，周期性的按照图2所示的方法流程，选择活跃用户对用户兴趣标签分类模型进行更新。

本实施例提供的用户兴趣标签分类的方法，除能够充分利用开放平台数据对用户在第三方站点中的用户兴趣标签进行准确分类预测外，还可以通过舍弃好友链数据、精简第三方兴趣标签以及丢弃二分类器匹配结果等方式，提高算法的效率和准确率，更加适合大数据环境下的应用。

参考图1或图2所示方法的实现，本实施例还提供了一种用户兴趣标签分类的装置，该装置可以位于第一站点服务器侧，也可以位于第二站点服务器侧，用以实现图1或图2所示的方法。如图5所示，所述装置包括：数据获取单元51、标签转换单元52、关系建立单元53、模型建立单元54以及标签分类单元55，其中，

数据获取单元51，用于获取活跃用户的训练数据，训练数据包括活跃用户的第一站点数据以及活跃用户在第二站点中选择的用户兴趣标签；

标签转换单元52，用于对数据获取单元51获取的第二站点中的第二站点兴趣标签进行二元标签转换，得到二分类器；

关系建立单元53，用于根据数据获取单元51获取的用户兴趣标签以及标签转换单元52得到的二分类器，建立第一站点数据与第二站点兴趣标签之间的关联关系；

模型建立单元54，用于通过二元分解算法以及关系建立单元53建立的第一站点数据与第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型；

数据获取单元51还用于获取新用户的第一站点数据；

标签分类单元55，用于根据数据获取单元51获取的新用户的第一站点数据以及模型建立单元54训练得到的用户兴趣标签分类模型，计算获得新用户在第二站点中的用户兴趣标签。

进一步的，数据获取单元51用于：

向第一站点服务器请求活跃用户的第一站点数据，第一站点数据包括下述数据中的至少一种：活跃用户在第一站点中选择的用户兴趣标签、活跃用户的个人信息数据或活跃用户的好友链数据；

向第二站点请求活跃用户在第二站点中选择的用户兴趣标签。

进一步的，标签转换单元52用于将K个第二站点兴趣标签进行两两配对，得到K*（K-1）/2个二分类器，其中K为正整数。

进一步的，如图6所示，关系建立单元53，包括：

匹配子单元61，用于将活跃用户在第二站点中选择的用户兴趣标签依次与每个二分类器进行匹配，分别得到下述三种匹配结果之一：a、与二分类器中的一个第二站点兴趣标签匹配，b、与二分类器中的两个第二站点兴趣标签均匹配，c、与二分类器中的两个第二站点兴趣标签均不匹配；

关系建立子单元62，用于当匹配子单元61的匹配结果为a时，将活跃用户的第一站点数据与匹配的第二站点兴趣标签建立关联关系；

数据丢弃子单元63，用于当匹配子单元61的匹配结果为b或c时，丢弃活跃用户的第一站点数据。

进一步的，所述模型建立单元54用通过下述任意一种二元分解算法以及所述关系建立单元53建立的所述第一站点数据与所述第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型：支持向量机（SVM）算法、引导（bootstrap）算法。

进一步的，如图6所示，模型建立单元54，包括：

统计子单元64，用于根据新用户的第一站点数据以及用户兴趣标签分类模型对二元标签转换后的第二站点兴趣标签进行投票；

排序子单元65，用于按照统计子单元64得出的票数由多至少的顺序对第二站点兴趣标签进行排序；

标签选定子单元66，用于从排序子单元65得到的票数最高的第二站点兴趣标签开始，选择预设数量的第二站点兴趣标签作为新用户在第二站点中的用户兴趣标签。

本实施例提供的用户兴趣标签分类的装置，能够以在第二站点（例如第三方站点）中选择了用户兴趣标签的活跃用户数据作为训练数据，训练得到由第一站点数据（例如开放平台数据）到第二站点用户兴趣标签的分类模型，然后对没有在第二站点中选择用户兴趣标签的新用户进行第二站点的兴趣预测。在训练用户兴趣标签分类模型时，通过对第二站点兴趣标签进行二元标签转换的方式，将多标签分类问题转化为单标签分类问题，然后根据活跃用户在第二站点中选择的用户兴趣标签以及二元标签转换得到的二分类器，建立第一站点数据与第二站点兴趣标签之间的关联关系。最后通过基于单标签分类的二元分解算法，训练得到用户兴趣标签分类模型。在对用户进行兴趣预测时，根据新用户的第一站点数据以及训练得到的用户兴趣标签分类模型，在第二站点中为新用户进行兴趣标签分类，从而实现第二站点中的用户兴趣标签分类。本实施例提供的用户兴趣标签分类的装置，能够解决开放平台信息引入的准确性问题和适用性问题，与现有技术中强制引入开放平台的用户兴趣信息相比，可以在开放平台与第三方两者分类机制不同的情况下，以活跃用户的训练信息作为关系参考，通过建立和使用用户兴趣标签分类模型，提高兴趣标签分类的准确性。此外与丢弃无法直接引入的用户兴趣信息相比，能够更加充分有效的利用开放平台的数据信息。最后与人工分类的方式相比，可以极大提高兴趣标签分类的效率和准确性，降低人工成本。与此同时，本实施例提供的用户兴趣标签分类的装置，使用二元分解算法进行模型训练，在保证训练准确率的前提下，还可以保证训练和兴趣标签分类的速度，减少分类耗时，提高分类系统性能。当第一站点为第三方站点、第二站点为开放平台站点时，本实施例提供的用户兴趣标签分类的装置也可以实现根据第三方站点用户数据对开放平台中的用户兴趣标签进行分类。

此外，本实施例提供的用户兴趣标签分类的装置，除能够充分利用第一站点数据对用户在第二站点中的用户兴趣标签进行准确分类预测外，还可以通过舍弃好友链数据、精简第二站点兴趣标签以及丢弃二分类器匹配结果等方式，提高算法的效率和准确率，更加适合大数据环境下的应用。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用户兴趣标签分类的方法，其特征在于，包括：

获取新用户的第一站点数据；

2.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，在所述获取活跃用户的训练数据的步骤之前，所述方法进一步包括：

对现有的第一站点用户进行遍历，将在所述第二站点中进行注册并选择用户兴趣标签的第一站点用户确定为待选用户；

按照第一预设比例将所述待选用户中活跃度较高的用户确定为所述活跃用户。

3.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，所述获取活跃用户的训练数据的步骤，包括：

向第一站点服务器请求所述活跃用户的第一站点数据，所述第一站点数据包括下述数据中的至少一种：所述活跃用户在所述第一站点中选择的用户兴趣标签、所述活跃用户的个人信息数据或所述活跃用户的好友链数据；

向第二站点请求所述活跃用户在所述第二站点中选择的用户兴趣标签。

4.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，在所述对第二站点中的第二站点兴趣标签进行二元标签转换的步骤之前，所述方法进一步包括：

按照第二预设比例选取第二站点中词频较高的兴趣标签，作为所述第二站点兴趣标签。

5.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，所述对第二站点中的第二站点兴趣标签进行二元标签转换的步骤，包括：

将K个第二站点兴趣标签进行两两配对，得到K*（K-1）/2个二分类器，其中K为正整数。

6.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，所述根据所述用户兴趣标签以及所述二分类器，建立所述第一站点数据与所述第二站点兴趣标签之间的关联关系的步骤，包括：

将活跃用户在第二站点中选择的用户兴趣标签依次与每个二分类器进行匹配，分别得到下述三种匹配结果之一：a、与二分类器中的一个第二站点兴趣标签匹配，b、与二分类器中的两个第二站点兴趣标签均匹配，c、与二分类器中的两个第二站点兴趣标签均不匹配；

当匹配结果为a时，将所述活跃用户的第一站点数据与匹配的第二站点兴趣标签建立关联关系；

当匹配结果为b或c时，丢弃所述活跃用户的第一站点数据。

7.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，所述通过二元分解算法以及所述第一站点数据与所述第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型的步骤，包括：

通过下述任意一种二元分解算法以及所述第一站点数据与所述第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型：支持向量机（SVM）算法、引导（bootstrap）算法。

8.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，所述根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型，计算获得所述新用户在所述第二站点中的用户兴趣标签的步骤，包括：

根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型对二元标签转换后的第二站点兴趣标签进行投票；

按照票数由多至少的顺序对第二站点兴趣标签进行排序；

从票数最高的第二站点兴趣标签开始，选择预设数量的第二站点兴趣标签作为所述新用户在所述第二站点中的用户兴趣标签。

9.根据权利要求1所述的用户兴趣标签分类的方法，其特征在于，所述方法进一步包括：

根据第二站点的总体用户活跃度，周期性选择活跃用户对所述用户兴趣标签分类模型进行更新。

10.根据权利要求1至9中任一项所述的用户兴趣标签分类的方法，其特征在于，所述第一站点为开放平台站点，所述第二站点为第三方站点。

11.根据权利要求1至9中任一项所述的用户兴趣标签分类的方法，其特征在于，所述第一站点为第三方站点，所述第二站点为开放平台站点。

12.一种用户兴趣标签分类的装置，其特征在于，包括：

所述数据获取单元还用于获取新用户的第一站点数据；

13.根据权利要求12所述的用户兴趣标签分类的装置，其特征在于，所述数据获取单元用于：

14.根据权利要求12所述的用户兴趣标签分类的装置，其特征在于，所述标签转换单元用于将K个第二站点兴趣标签进行两两配对，得到K*（K-1）/2个二分类器，其中K为正整数。

15.根据权利要求12所述的用户兴趣标签分类的装置，其特征在于，所述关系建立单元，包括：

匹配子单元，用于将活跃用户在第二站点中选择的用户兴趣标签依次与每个二分类器进行匹配，分别得到下述三种匹配结果之一：a、与二分类器中的一个第二站点兴趣标签匹配，b、与二分类器中的两个第二站点兴趣标签均匹配，c、与二分类器中的两个第二站点兴趣标签均不匹配；

关系建立子单元，用于当所述匹配子单元的匹配结果为a时，将所述活跃用户的第一站点数据与匹配的第二站点兴趣标签建立关联关系；

数据丢弃子单元，用于当所述匹配子单元的匹配结果为b或c时，丢弃所述活跃用户的第一站点数据。

16.根据权利要求12所述的用户兴趣标签分类的装置，其特征在于，所述模型建立单元用通过下述任意一种二元分解算法以及所述关系建立单元建立的所述第一站点数据与所述第二站点兴趣标签之间的关联关系，训练得到用户兴趣标签分类模型：支持向量机（SVM）算法、引导（bootstrap）算法。

17.根据权利要求12所述的用户兴趣标签分类的装置，其特征在于，所述模型建立单元，包括：

统计子单元，用于根据所述新用户的第一站点数据以及所述用户兴趣标签分类模型对二元标签转换后的第二站点兴趣标签进行投票；

排序子单元，用于按照所述统计子单元得出的票数由多至少的顺序对第二站点兴趣标签进行排序；

标签选定子单元，用于从所述排序子单元得到的票数最高的第二站点兴趣标签开始，选择预设数量的第二站点兴趣标签作为所述新用户在所述第二站点中的用户兴趣标签。