CN104602042A

CN104602042A - 基于用户行为的标签设置方法

Info

Publication number: CN104602042A
Application number: CN201410842883.0A
Authority: CN
Inventors: 庞斌; 卢学裕; 严金龙; 王晓龙; 姚键; 潘柏宇; 卢述奇
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: Alibaba China Co Ltd; Youku Network Technology Beijing Co Ltd
Priority date: 2014-12-31
Filing date: 2014-12-31
Publication date: 2015-05-06
Anticipated expiration: 2034-12-31
Also published as: CN104602042B

Abstract

本申请公开了一种基于用户行为的标签设置方法，应用于服务器与客户端之间，所述客户端定期收集行为数据，并发送至所述服务器；所述服务器对接收所述客户端发送的行为数据提取其中的用户标签，并结合预置的数学模型得出带有行为元素的多维用户标签；判断出所述行为元素与所述服务器中预设的行为元素相一致时，将对应的所述带有行为元素的多维用户标签作为该用户的用户标签。本发明可以根据用户行为提取出的兴趣标签，更加准确的反应了用户的真实兴趣，对所有用户（注册或者非注册）都能提供其兴趣。可以广泛用在给用户推荐符合其兴趣的视频，个性化广告投放等领域。

Description

基于用户行为的标签设置方法

技术领域

本申请涉及用户行为领域，具体地说，涉及一种基于用户行为的标签设置方法。

背景技术

用户在门户网站点击资讯，评论资讯，在社交网站发布状态，评论状态，在电商网站浏览商品，购买商品，点评商品，以及在其他类型网站的种种行为都是用户行为。目前在互联网中识别用户的现有技术，一般都是源于用户注册时提交的资料，过于依赖用户填的资料，不能从用户的行为上提取反映其真实兴趣的标签。

而用户行为分析，是指在获得网站访问量基本数据的情况下，对有关数据进行统计、分析，从中发现用户访问网站的规律，并将这些规律与网络营销策略等相结合，从而发现目前网络营销活动中可能存在的问题，并为进一步修正或重新制定网络营销策略提供依据。

用户行为分析应该包含以下重点分析数据：用户的来源地区、来路域名和页面；用户在网站的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数；注册用户和非注册用户，分析两者之间的浏览习惯；用户所使用的搜索引擎、关键词、关联关键词和站内关键字；用户选择什么样的入口形式（广告或者网站入口链接）更为有效；用户访问网站流程，用来分析页面结构设计是否合理；用户在不同时段的访问量情况；用户是否对于网站的字体颜色的喜好程度等。

通过对用户行为监测获得的数据进行分析，可以让企业更加详细、清楚地了解用户的行为习惯，从而找出网站、推广渠道等企业营销环境存在的问题，有助于企业发掘高转化率页面，让企业的营销更加精准、有效，提高业务转化率，从而提升企业的广告收益。

如何解决上述问题，便成为亟待解决的技术问题。

发明内容

有鉴于此，本申请的目的在于提供了一种基于用户行为的标签设置方法系统，根据用户喜好，自动缓存最近更新的剧集。

为了解决上述技术问题，本发明提供一种基于用户行为的标签设置方法，应用于服务器与客户端之间，其特征在于，包括：

所述客户端定期收集行为数据，并发送至所述服务器；

所述服务器对接收所述客户端发送的行为数据提取其中的用户标签，并结合预置的数学模型得出带有行为元素的多维用户标签；

判断出所述行为元素与所述服务器中预设的行为元素相一致时，将对应的所述带有行为元素的多维用户标签作为该用户的用户标签。

优选地，其中，所述带有行为元素的多维用户标签，进一步为：一个二元组的多维用户标签，其中，该二元组，包括：用户行为标签元素和与用户行为标签元素对应的行为标签权重元素。

优选地，其中，进一步还包括：

判断出所述行为元素与所述服务器中预设的行为元素不一致时，删除对应的所述带有行为元素的多维用户标签。

优选地，其中，所述用户行为标签元素，进一步为与搜索、观看、上传、收藏、评论和顶踩行为相对应的用户行为标签元素。

优选地，其中，所述客户端定期收集行为数据，并发送至所述服务器，进一步为，

所述客户端以日、月或年为时间段收集行为数据，并发送至所述服务器。

优选地，其中，所述与用户行为标签元素对应的行为标签权重元素，进一步包括：观看行为标签权重、上传行为标签权重、收藏行为标签权重、评论行为标签权重、顶踩行为标签权重和搜索行为标签权重。

优选地，其中，所述与用户行为标签元素对应的行为标签权重元素按照所述预置的数学模型计算得到，具体为：

(a)当所述客户端以日为时间段收集行为数据时：

所述观看行为标签权重等于视频播放完成率p、视频当天热度惩罚系数h与观看权重三项的乘积，其中，所述视频播放完成率等于观看时长t_s与视频总时长L之商，所述视频当天热度惩罚系数h=1-lg(C₁/C_max)，所述C₁为当天视频的总播放次数，所述C_max为当天播放次数最多的视频的播放次数；

所述上传行为标签权重等于视频当天热度惩罚系数h与上传权重的乘积；

所述收藏行为标签权重等于视频当天热度惩罚系数h与收藏权重的乘积；

所述评论行为标签权重等于视频当天热度惩罚系数h与评论权重的乘积；

所述顶踩行为标签权重等于视频当天热度惩罚系数h与顶踩权重的乘积；

所述搜索行为标签权重等于有效搜索次数n、搜索词当天热度惩罚系数h与搜索权重三项的乘积，其中，所述搜索词当天热度惩罚系数h=1–lg(S₁/S_max)，所述S1为搜索词当天的搜索次数，所述S_max为当天搜索次数最多的搜索词对应的搜索次数；

(b)当所述客户端以月或年为时间段收集行为数据时：

多天的用户行为标签权重等于上一次的用户行为标签权重乘以衰减系数后，再加上当天的用户行为标签权重，其中，所述衰减系数为所述服务器中预置的表明随收集行为数据时间的延长而用户行为标签权重衰减的速率。

与现有技术相比，本申请所述的基于用户行为的标签设置方法，达到了如下效果：

1）根据用户行为提取出的兴趣标签，更加准确的反应了用户的真实兴趣，对所有用户（注册或者非注册）都能提供其兴趣。可以广泛用在给用户推荐符合其兴趣的视频，个性化广告投放等领域。

2）现有技术能过获得的用户信息比较少的情况下，缺乏有效的定位其兴趣的方法，即使获得用户提交的信息，也很难得到其兴趣点及兴趣点的主次。本方法能够根据用户不同行为的特点，采取有效的方法提取出用户兴趣点，并获取其重要程度。

当然，实施本申请的方法必不一定需要同时达到以上所述的所有技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一的基于用户行为的标签设置方法流程图；

图2为本发明实施例二的基于用户行为的标签设置方法流程图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”一词在此包含任何直接及间接的电性耦接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表所述第一装置可直接电性耦接于所述第二装置，或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

实施例一：

本申请中，将提供一种基于用户行为的标签设置方法，结合图1，所述方法用于客户端和服务器，本实施例中方法包括以下步骤：

步骤101：所述客户端定期收集行为数据，并发送至所述服务器；

进一步的，所述客户端以日、月或年为时间段收集行为数据，并发送至所述服务器。本实施例中的所述客户端以天为时间段收集行为数据，并发送至所述服务器。对行为数据进行分析的周期可以为一天，也可以为多天（如一个星期、一个月或一年等等）。

本发明中的所述客户端，可以是在服务器中已注册账号的客户端，还可以为未注册账号的客户端，这里不做具体限定。

步骤102：所述服务器对接收所述客户端发送的行为数据提取其中的用户标签，并结合预置的数学模型得出带有行为元素的多维用户标签；

本实施例中的所述带有行为元素的多维用户标签，进一步为：一个二元组的多维用户标签，其中，该二元组，包括：用户行为标签元素和与用户行为标签元素对应的行为标签权重元素。

这里的用户行为标签元素，进一步为与搜索、观看、上传、收藏、评论和顶踩行为相对应的用户行为标签元素。

所述与用户行为标签元素对应的行为标签权重元素，进一步包括：观看行为标签权重、上传行为标签权重、收藏行为标签权重、评论行为标签权重、顶踩行为标签权重和搜索行为标签权重。本实施例中所述与用户行为标签元素对应的行为标签权重元素按照所述预置的数学模型计算得到：

1）当行为分析的考察期为单天时，即当所述客户端以日收集行为数据时：

这里的搜索权重、观看权重、上传权重、收藏权重、评论权重和顶踩权重是与搜索、观看、上传、收藏、评论和顶踩这些用户行为相对应的权重，权重表示了重要程度，本发明中的搜索权重、观看权重、上传权重、收藏权重、评论权重和顶踩权重的排列顺序如下：搜索权重=评论权重=上传权重>收藏权重=顶踩权重>观看权重。

本发明中的行为标签权重与行为权重是不同的两种概念，行为标签权重是用于表明行为标签的重要程度，如经数学模型计算得出的多维用户标签为（收藏搞笑视频，0.254）、（上传快乐大本营，0.547）、（评论美食，0.328）、、、，那么这里的收藏搞笑视频、上传快乐大本营、评论美食就是用户行为标签元素，而0.254、0.547、0.328是与用户行为标签元素对应的行为标签权重元素，根据行为标签权重的大小就可以确定用户的真实兴趣所在。

2）当行为分析的考察期为多天时，即当所述客户端以月或年为时间段收集行为数据时:

用户行为标签权重等于上一次的用户行为标签权重乘以衰减系数后，再加上当天的用户行为标签权重，其中，所述衰减系数为所述服务器中预置的表明用户行为标签随时间衰减的速率。

用户行为标签权重会随着时间流逝慢慢衰减，衰减的快慢是跟用户在优酷上行为的频繁程度有关的。比如上一次用户在优酷发生行为（包括上面六种行为任意一种）的时间为2014年12月1日，如果2014年12月5日用户又在优酷上发生用户行为了，那么2014年12月5日最新用户行为标签及用户行为标签权重为： 2014年12月1日之前算出的用户行为标签权重会乘以一个衰减系数加上 2014年12月5日当天的行为标签权重。所以用户在优酷活跃天数越多，行为标签衰减的越快，用户的行为标签是一直随时间变化的。

步骤103：判断出所述行为元素与所述服务器中预设的行为元素一致，保留所述带有行为元素的多维用户标签，得出与用户行为相对应的用户标签。

本步骤中主要是用于对步骤102中得到的多维用户标签进行筛选，筛选的方式是将步骤102中的行为元素与服务器中预设的行为元素相对比，如果判断出所述行为元素与所述服务器中预设的行为元素一致，则保留所述带有行为元素的多维用户标签，逐一筛选后最终得出与用户行为相对应的用户标签。如本实施例中得到的一个多维用户标签为 “(dota，1.000)，(蜡笔小新，0.562)，(加速，0.368)，(全集，0.157)”，经判断“(dota，1.000)，(蜡笔小新，0.562)”是服务器中预设的搜索行为的搜索名称，所以保留该带有行为元素的多维用户标签，过滤后用户的兴趣标签为：“(dota，1.000)，(蜡笔小新，0.562)”。

实施例二：

在实施例一的基础上，本实施例提供一种基于用户行为的标签设置方法的应用实施例，所述方法用于客户端和服务器，本实施例中方法包括以下步骤：

进一步的，所述客户端以日、月或年为时间段收集行为数据，并发送至所述服务器。对行为数据进行分析的周期可以为一天，也可以为多天（如一个星期、一个月或一年等等）。本实施例中的所述客户端以月为时间段收集行为数据，并发送至所述服务器。

本发明中的所述客户端，可以为在服务器中已注册账号的客户端，还可以为未注册账号的客户端，这里不做具体限定。

这里的用户行为标签元素，进一步为与搜索、观看、上传、收藏、评论和顶踩行为相对应的用户行为标签元素。所述与用户行为标签元素对应的行为标签权重元素，进一步包括：观看行为标签权重、上传行为标签权重、收藏行为标签权重、评论行为标签权重、顶踩行为标签权重和搜索行为标签权重。

本实施例中所述与用户行为标签元素对应的行为标签权重元素按照所述预置的数学模型计算得到：

（a）当行为分析的考察期为单天时，即当所述客户端以日收集行为数据时：

上述搜索权重、观看权重、上传权重、收藏权重、评论权重和顶踩权重是与搜索、观看、上传、收藏、评论和顶踩这些用户行为相对应的权重，权重表示了重要程度，本发明中的搜索权重、观看权重、上传权重、收藏权重、评论权重和顶踩权重的排列顺序如下：搜索权重=评论权重=上传权重>收藏权重=顶踩权重>观看权重。

本实施例中搜索权重=评论权重=上传权重=2.0；

收藏权重=顶踩权重=1.5；

观看权重=1.0.

视频当天热度惩罚系数h是对热门信息进行惩罚，因为热门信息对人与人的区分度比较低，对冷门偏门信息进行加权，本实施例中一个视频“冰桶挑战集锦”，很多人都会看，那么这个视频对区分人群来说，效果就不会很明显，价值就会打折扣。而本实施例中的另外一个视频“海钓教学_海钓技术_海钓教程_船钓沉底钓”，可能只有少数人看，那么这个视频很容易把喜欢海钓的人和其他人区分出来。

（b）当行为分析的考察期为多天时，即当所述客户端以月或年为时间段收集行为数据时:

衰减系数ɑ根据考察周期（用户分析周期）确定合适的值。本实施例中的考察周期是3个月，衰减系数为0.99；本发明的另外一个实施例中考察周期为1个月，衰减系数为0.97；本发明的又一个实施例中考察周期为半个月，衰减系数为0.95。不同的应用考察周期不一样，衰减系数的值也不一样。对某一应用而言，衰减系数固定，不会实时变化。

本步骤中主要是用于对步骤102中得到的多维用户标签进行筛选，筛选的方式是将步骤102中的行为元素与服务器中预设的行为元素相对比，如果判断出所述行为元素与所述服务器中预设的行为元素一致，则保留所述带有行为元素的多维用户标签，逐一筛选后最终得出与用户行为相对应的用户标签。

本实施例中还包括步骤104：判断出所述行为元素与所述服务器中预设的行为元素不一致，则删除所述带有行为元素的多维用户标签。如本实施例中步骤102得到的一个多维用户标签为 “(穿越火线，0.960)，(柯南，0.673)，(加速，0.368)，(全集，0.157)”，经判断“加速”，“全集”这种标签与服务器中预设的行为元素不一致（不适合作为用户的兴趣标签），所以进行过滤或删除，过滤后用户的兴趣标签为：“(穿越火线，0.960)，(柯南，0.673)”。

与现有技术相比，本申请所述基于用户行为的标签设置方法，达到了如下效果：

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种基于用户行为的标签设置方法，应用于服务器与客户端之间，其特征在于，包括：

所述客户端定期收集行为数据，并发送至所述服务器；

2. 根据权利要求1所述的基于用户行为的标签设置方法，其特征在于，

所述带有行为元素的多维用户标签，进一步为：一个二元组的多维用户标签，其中，该二元组，包括：用户行为标签元素和与用户行为标签元素对应的行为标签权重元素。

3. 根据权利要求1所述的基于用户行为的标签设置方法，其特征在于，进一步还包括：

4. 根据权利要求2所述的基于用户行为的标签设置方法，其特征在于，所述用户行为标签元素，进一步为与搜索、观看、上传、收藏、评论和顶踩行为相对应的用户行为标签元素。

5. 根据权利要求1所述的基于用户行为的标签设置方法，其特征在于，所述客户端定期收集行为数据，并发送至所述服务器，进一步为，

6. 根据权利要求2所述的基于用户行为的标签设置方法，其特征在于，

所述与用户行为标签元素对应的行为标签权重元素，进一步包括：观看行为标签权重、上传行为标签权重、收藏行为标签权重、评论行为标签权重、顶踩行为标签权重和搜索行为标签权重。

7. 根据权利要求6所述的基于用户行为的标签设置方法，其特征在于，所述与用户行为标签元素对应的行为标签权重元素按照所述预置的数学模型计算得到，具体为：

(a)当所述客户端以日为时间段收集行为数据时：

(b)当所述客户端以月或年为时间段收集行为数据时：