CN107798141B - 一种基于统计指标的迭代运算的确定用户标签方法 - Google Patents

一种基于统计指标的迭代运算的确定用户标签方法 Download PDF

Info

Publication number
CN107798141B
CN107798141B CN201711187534.XA CN201711187534A CN107798141B CN 107798141 B CN107798141 B CN 107798141B CN 201711187534 A CN201711187534 A CN 201711187534A CN 107798141 B CN107798141 B CN 107798141B
Authority
CN
China
Prior art keywords
user
label
users
target
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711187534.XA
Other languages
English (en)
Other versions
CN107798141A (zh
Inventor
牟昊
杨飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Datastory Information Technology Co ltd
Original Assignee
Guangzhou Datastory Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Datastory Information Technology Co ltd filed Critical Guangzhou Datastory Information Technology Co ltd
Priority to CN201711187534.XA priority Critical patent/CN107798141B/zh
Publication of CN107798141A publication Critical patent/CN107798141A/zh
Application granted granted Critical
Publication of CN107798141B publication Critical patent/CN107798141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的一种基于统计指标的迭代运算的确定用户标签方法,包括如下步骤:S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体;S2:预设粉丝数量范围;筛选出粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签;S3:计算最外层用户的博文内容对标签的贡献值;S4:预设贡献值阈值;筛选出贡献值大于阈值的标签,设定为内层用户的标签;判断该内层用户是否为目标用户;若否,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;若是,则得出目标用户标签,并结束运算。本发明通过多次迭代用户标签重新确认用户标签,使及时更新的用户标签更贴合其喜好。

Description

一种基于统计指标的迭代运算的确定用户标签方法
技术领域
本发明涉及语言文字信息处理领域,具体涉及一种确定用户标签的方法。
背景技术
随着互联网进行了web 2.0时代,以微博、博客等为主体的社交网络的兴起带来了大量的非正式的文本,截止2015年10月为止,微博的月活跃人数已经达到了2.12亿人,发送的推文数以亿记。微博已经成为中文互联网世界里产生数据最多的平台,如何通过微博的内容给用户“正确”的标签,以使用户获得其感兴趣的信息,是当前的研究重点。
在原有方法中,使用用户自定义标签来作为用户的标签存在用户标签不准确问题以及用户爱好转换但没有修改标签的问题,会极大的降低标签的准确性。
发明内容
针对上述现有技术不足,本发明要解决的技术问题是,提供一种用户标签确定方法,用以及时调整用户标签,以使推荐内容更贴合用户兴趣。
为解决上述技术问题,本发明采用的技术方案为,一种基于统计指标的迭代运算的确定用户标签方法,包括如下步骤:
S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体;
S2:预设粉丝数量范围;筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签;
S3:计算最外层用户的博文内容对标签的贡献值;
S4:预设贡献值阈值;筛选出贡献值大于阈值的标签,设定为内层用户的标签;判断该内层用户是否为目标用户;若不是,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;若是,则得出目标用户标签,并结束运算。
这样的方案通过目标用户多层的关注,适时调整目标用户标签。
进一步的技术方案为,所述步骤S3中,计算贡献值的公式为:
Figure BDA0001480371750000021
其中,xi表示存在标签i的微博文本数量,k表示该用户的标签数量,
Figure BDA0001480371750000022
表示该用户出现标签的文本数量,n表示用户微博文本总数,α表示光滑系数,BDC(xi)表示该用户的外层用户的微博对于标签i的贡献值,BDC(xi)初始值取0。
这样的方案使标签内容出现的频率与贡献值相关,进而使标签更贴合用户。
优选的技术方案为,所述光滑系数取值范围为1-5。
优选的技术方案为,所述阈值取值范围为0.01-0.05。
优选的技术方案为,所述步骤S2中,所述粉丝数量范围为1000至50000。
优选的技术方案为,所述步骤S1中,所述潜在的影响目标用户的群体的层数为5层。
本发明的一种基于统计指标的迭代运算的确定用户标签方法的有益效果在于:从最外层向内层计算微博内容对标签的贡献值和内层用户的微博内容对标签的贡献值,选取贡献值高于阈值的标签作为内层用户的标签,多次迭代用户标签重新确认用户标签,使及时更新的用户标签更贴合其喜好。
附图说明
图1是本发明一种基于统计指标的迭代运算的确定用户标签方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述。
如图1所示,本发明的一种基于统计指标的迭代运算的确定用户标签方法,包括如下步骤:
S1:沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体。
具体地,所述的沿目标用户的关注方向是指,若目标用户为A,用户A关注用户B,用户B关注用户C,即A、B、C方向为所述用户关注方向,用户B为A的一层外层用户,用户B、C皆为所述潜在的影响目标用户的群体。
考虑到相关性,优选地为选取5层用户为潜在的影响目标用户的群体,实际中根据计算量等需求,可以选取3层、6层或更多。
S2:预设粉丝数量范围;筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签。
其中,所述粉丝数量范围优选为1000至50000。即选取该5层用户中,粉丝数量在1000至50000之间的用户,作为对目标用户标签存在影响的群体。根据微博客、社交媒体统计数据,粉丝数量少的用户与粉丝数量极多的用户,一般都不是目标用户因为兴趣而关注的,因而选取一定范围的用户作为该群体的用户。
S3:计算最外层用户的博文内容对标签的贡献值;
计算贡献值的公式为:
Figure BDA0001480371750000041
其中,xi表示存在标签i的微博文本数量,k表示该用户的标签数量,
Figure BDA0001480371750000042
表示该用户出现标签的文本数量,n表示用户微博文本总数,α表示光滑系数(默认取值为1,根据网络环境,可设成2、3、4、5等),BDC(xi)表示该用户的外层用户的微博对于标签i的贡献值,BDC(xi)初始值取0。
示例性的,A用户的自定义标签有“金融”,“IT”,且A用户一共发布了50条微博,其中微博中含有“金融”的微博有10条,含有“IT”的微博,20条,A用户一共关注了B用户和C用户,B用户的自定义标签有“金融”,“体育”,B用户一共发布了100条微博,其中包含“金融”的有10条,包含“体育”的有20条。C用户发布了200条微博,自定义标签“体育”,其中包含“体育”的微博一共有50条,可以计算出A用户“金融”标签的贡献度为0.309。
S4:预设贡献值阈值,优选地,所述贡献值阈值设为0.01,也可以根据实际网络环境调整该贡献值阈值,如设为0.03、0.05等。
筛选出贡献值大于阈值的标签,设定为内层用户的标签。
判断该内层用户是否为目标用户;若不是,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;即从外层向内层进行迭代。
若是,则得出目标用户标签,并结束运算。
本发明的一种基于统计指标的迭代运算的确定用户标签方法的有益效果在于:从最外层向内层计算微博内容对标签的贡献值和内层用户的微博内容对标签的贡献值,选取贡献值高于阈值的标签作为内层用户的标签,多次迭代用户标签重新确认用户标签,使及时更新的用户标签更贴合其喜好。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (6)

1.一种基于统计指标的迭代运算的确定用户标签方法,其特征在于,包括如下步骤:
S1:目标用户关注第二用户的方向为关注方向,沿目标用户的关注方向,选取若干层用户作为潜在的影响目标用户的群体,目标用户为内层用户,沿关注方向的用户为相对内层用户的外层用户;
S2:预设粉丝数量范围;筛选出潜在的影响目标用户的群体中粉丝数量符合预设范围的用户作为对目标用户标签存在影响的群体,获取该群体的博文以及标签;
S3:计算最外层用户的博文内容对标签的贡献值;
S4:预设贡献值阈值;筛选出贡献值大于阈值的标签,设定为内层用户的标签;判断该内层用户是否为目标用户;若不是,排除原最外层用户,以该内层用户为最外层用户,并重新进行步骤S3、S4的运算;若是,则得出目标用户标签,并结束运算。
2.根据权利要求1所述的基于统计指标的用户标签确定方法,其特征在于,
所述步骤S3中,计算贡献值的公式为:
Figure 373286DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
表示存在标签i的微博文本数量,k表示该用户的标签数量,
Figure 8404DEST_PATH_IMAGE004
表示该用户 出现标签i的文本数量,n表示用户微博文本总数,
Figure DEST_PATH_IMAGE005
表示光滑系数,
Figure 614966DEST_PATH_IMAGE006
表示该用户的 外层用户的微博对于标签i的贡献值,
Figure 811592DEST_PATH_IMAGE006
初始值取0。
3.根据权利要求2所述的基于统计指标的用户标签确定方法,其特征在于,所述光滑系数取值范围为1-5。
4.根据权利要求2或3所述的基于统计指标的用户标签确定方法,其特征在于,所述阈值取值范围为0.01-0.05。
5.根据权利要求1所述的基于统计指标的用户标签确定方法,其特征在于,所述步骤S2中,所述粉丝数量范围为1000至50000。
6.根据权利要求1所述的基于统计指标的用户标签确定方法,其特征在于,所述步骤S1中,所述潜在的影响目标用户的群体的层数为5层。
CN201711187534.XA 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法 Active CN107798141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711187534.XA CN107798141B (zh) 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711187534.XA CN107798141B (zh) 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法

Publications (2)

Publication Number Publication Date
CN107798141A CN107798141A (zh) 2018-03-13
CN107798141B true CN107798141B (zh) 2021-07-20

Family

ID=61536541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711187534.XA Active CN107798141B (zh) 2017-11-24 2017-11-24 一种基于统计指标的迭代运算的确定用户标签方法

Country Status (1)

Country Link
CN (1) CN107798141B (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7751592B1 (en) * 2006-01-13 2010-07-06 Google Inc. Scoring items
CN102880644B (zh) * 2012-08-24 2015-05-06 电子科技大学 社区发现方法
CN103577549B (zh) * 2013-10-16 2017-02-15 复旦大学 一种基于微博标签的人群画像系统和方法
CN104598588B (zh) * 2015-01-19 2017-08-11 河海大学 基于双聚类的微博用户标签自动生成算法
CN105069172B (zh) * 2015-09-09 2018-10-30 中国人民大学 兴趣标签生成方法
CN105938608A (zh) * 2016-04-12 2016-09-14 福建师范大学 一种基于标签影响力的半同步社区发现方法
CN106202053B (zh) * 2016-07-22 2018-11-27 福建师范大学 一种社交关系驱动的微博主题情感分析方法
CN106991160B (zh) * 2017-03-30 2020-07-24 武汉大学 一种基于用户影响力以及内容的微博传播预测方法
CN107341270B (zh) * 2017-07-28 2020-07-03 东北大学 面向社交平台的用户情感影响力分析方法

Also Published As

Publication number Publication date
CN107798141A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
US11599566B2 (en) Predicting labels using a deep-learning model
US20230146960A1 (en) Temporally Sequenced Content Recommender Method and System
US9830313B2 (en) Identifying expanding hashtags in a message
US20230252094A1 (en) Computer-implemented system and method for updating user interest profiles
US9171262B2 (en) Directed expertise level-based discovery system, method, and device
US8719213B2 (en) Contextually transformed learning layer
US20140143165A1 (en) Customizing a user-experience based on a job-seeker score
US20160371709A1 (en) Determining information inter-relationships from distributed group discussions
US10489719B2 (en) Shared per content provider prediction models
US20160232575A1 (en) Determining a number of cluster groups associated with content identifying users eligible to receive the content
US20110288935A1 (en) Optimizing targeted advertisement distribution
WO2019169021A1 (en) Vector similarity search in an embedded space
US10846613B2 (en) System and method for measuring and predicting content dissemination in social networks
US9959503B2 (en) Filtering automated selection of hashtags for computer modeling
US10929036B2 (en) Optimizing static object allocation in garbage collected programming languages
EP3188086B1 (en) Identifying entities using a deep-learning model
US20200311543A1 (en) Embedded learning for response prediction in content item relevance
US20170315676A1 (en) Dynamic content insertion
US20180012264A1 (en) Custom features for third party systems
CN107798141B (zh) 一种基于统计指标的迭代运算的确定用户标签方法
US20160189045A1 (en) Predicting computer model accuracy
US20220215431A1 (en) Social network optimization
Wang et al. Data-driven determination of the number of jumps in regression curves
Yang et al. An improved Top-N recommendation for collaborative filtering
US20240020352A1 (en) Dynamic selection and enhancement of images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant