CN107798141B

CN107798141B - 一种基于统计指标的迭代运算的确定用户标签方法

Info

Publication number: CN107798141B
Application number: CN201711187534.XA
Authority: CN
Inventors: 牟昊; 杨飞
Original assignee: Guangzhou Datastory Information Technology Co ltd
Current assignee: Guangzhou Datastory Information Technology Co ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2021-07-20
Anticipated expiration: 2037-11-24
Also published as: CN107798141A

Abstract

本发明的一种基于统计指标的迭代运算的确定用户标签方法，包括如下步骤：S1：沿目标用户的关注方向，选取若干层用户作为潜在的影响目标用户的群体；S2：预设粉丝数量范围；筛选出粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签；S3：计算最外层用户的博文内容对标签的贡献值；S4：预设贡献值阈值；筛选出贡献值大于阈值的标签，设定为内层用户的标签；判断该内层用户是否为目标用户；若否，排除原最外层用户，以该内层用户为最外层用户，并重新进行步骤S3、S4的运算；若是，则得出目标用户标签，并结束运算。本发明通过多次迭代用户标签重新确认用户标签，使及时更新的用户标签更贴合其喜好。

Description

一种基于统计指标的迭代运算的确定用户标签方法

技术领域

本发明涉及语言文字信息处理领域，具体涉及一种确定用户标签的方法。

背景技术

随着互联网进行了web 2.0时代，以微博、博客等为主体的社交网络的兴起带来了大量的非正式的文本，截止2015年10月为止，微博的月活跃人数已经达到了2.12亿人，发送的推文数以亿记。微博已经成为中文互联网世界里产生数据最多的平台，如何通过微博的内容给用户“正确”的标签，以使用户获得其感兴趣的信息，是当前的研究重点。

在原有方法中，使用用户自定义标签来作为用户的标签存在用户标签不准确问题以及用户爱好转换但没有修改标签的问题，会极大的降低标签的准确性。

发明内容

针对上述现有技术不足，本发明要解决的技术问题是，提供一种用户标签确定方法，用以及时调整用户标签，以使推荐内容更贴合用户兴趣。

为解决上述技术问题，本发明采用的技术方案为，一种基于统计指标的迭代运算的确定用户标签方法，包括如下步骤：

S1：沿目标用户的关注方向，选取若干层用户作为潜在的影响目标用户的群体；

S2：预设粉丝数量范围；筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签；

S3：计算最外层用户的博文内容对标签的贡献值；

S4：预设贡献值阈值；筛选出贡献值大于阈值的标签，设定为内层用户的标签；判断该内层用户是否为目标用户；若不是，排除原最外层用户，以该内层用户为最外层用户，并重新进行步骤S3、S4的运算；若是，则得出目标用户标签，并结束运算。

这样的方案通过目标用户多层的关注，适时调整目标用户标签。

进一步的技术方案为，所述步骤S3中，计算贡献值的公式为：

其中，x_i表示存在标签i的微博文本数量，k表示该用户的标签数量，

表示该用户出现标签的文本数量，n表示用户微博文本总数,α表示光滑系数，BDC(x_i)表示该用户的外层用户的微博对于标签i的贡献值，BDC(x_i)初始值取0。

这样的方案使标签内容出现的频率与贡献值相关，进而使标签更贴合用户。

优选的技术方案为，所述光滑系数取值范围为1-5。

优选的技术方案为，所述阈值取值范围为0.01-0.05。

优选的技术方案为，所述步骤S2中，所述粉丝数量范围为1000至50000。

优选的技术方案为，所述步骤S1中，所述潜在的影响目标用户的群体的层数为5层。

本发明的一种基于统计指标的迭代运算的确定用户标签方法的有益效果在于：从最外层向内层计算微博内容对标签的贡献值和内层用户的微博内容对标签的贡献值，选取贡献值高于阈值的标签作为内层用户的标签，多次迭代用户标签重新确认用户标签，使及时更新的用户标签更贴合其喜好。

附图说明

图1是本发明一种基于统计指标的迭代运算的确定用户标签方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述。

如图1所示，本发明的一种基于统计指标的迭代运算的确定用户标签方法，包括如下步骤：

S1：沿目标用户的关注方向，选取若干层用户作为潜在的影响目标用户的群体。

具体地，所述的沿目标用户的关注方向是指，若目标用户为A，用户A关注用户B，用户B关注用户C，即A、B、C方向为所述用户关注方向，用户B为A的一层外层用户，用户B、C皆为所述潜在的影响目标用户的群体。

考虑到相关性，优选地为选取5层用户为潜在的影响目标用户的群体，实际中根据计算量等需求，可以选取3层、6层或更多。

S2：预设粉丝数量范围；筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签。

其中，所述粉丝数量范围优选为1000至50000。即选取该5层用户中，粉丝数量在1000至50000之间的用户，作为对目标用户标签存在影响的群体。根据微博客、社交媒体统计数据，粉丝数量少的用户与粉丝数量极多的用户，一般都不是目标用户因为兴趣而关注的，因而选取一定范围的用户作为该群体的用户。

S3：计算最外层用户的博文内容对标签的贡献值；

计算贡献值的公式为：

表示该用户出现标签的文本数量，n表示用户微博文本总数，α表示光滑系数(默认取值为1，根据网络环境，可设成2、3、4、5等)，BDC(x_i)表示该用户的外层用户的微博对于标签i的贡献值，BDC(x_i)初始值取0。

示例性的，A用户的自定义标签有“金融”，“IT”，且A用户一共发布了50条微博，其中微博中含有“金融”的微博有10条，含有“IT”的微博，20条，A用户一共关注了B用户和C用户，B用户的自定义标签有“金融”，“体育”，B用户一共发布了100条微博，其中包含“金融”的有10条，包含“体育”的有20条。C用户发布了200条微博，自定义标签“体育”，其中包含“体育”的微博一共有50条，可以计算出A用户“金融”标签的贡献度为0.309。

S4：预设贡献值阈值，优选地，所述贡献值阈值设为0.01，也可以根据实际网络环境调整该贡献值阈值，如设为0.03、0.05等。

筛选出贡献值大于阈值的标签，设定为内层用户的标签。

判断该内层用户是否为目标用户；若不是，排除原最外层用户，以该内层用户为最外层用户，并重新进行步骤S3、S4的运算；即从外层向内层进行迭代。

若是，则得出目标用户标签，并结束运算。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。