CN105069172B - 兴趣标签生成方法 - Google Patents

兴趣标签生成方法 Download PDF

Info

Publication number
CN105069172B
CN105069172B CN201510570410.4A CN201510570410A CN105069172B CN 105069172 B CN105069172 B CN 105069172B CN 201510570410 A CN201510570410 A CN 201510570410A CN 105069172 B CN105069172 B CN 105069172B
Authority
CN
China
Prior art keywords
entity
user
weight
interest
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510570410.4A
Other languages
English (en)
Other versions
CN105069172A (zh
Inventor
刘红岩
何军
杜小勇
何威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN201510570410.4A priority Critical patent/CN105069172B/zh
Publication of CN105069172A publication Critical patent/CN105069172A/zh
Application granted granted Critical
Publication of CN105069172B publication Critical patent/CN105069172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种兴趣标签生成方法,该方法包括:构建实体与用户之间的二部图,为实体确定初始标签集,根据实体的初始标签集及实体与用户之间的兴趣行为数据,确定实体对用户的兴趣的影响权重,然后采用双向约束主题模型,模拟生成用户感兴趣的实体构成的实体集并为用户生成兴趣标签。该为用户生成兴趣标签的过程中,未涉及用户发布的文本信息,因此可以解决由于用户的文本信息疏松无法准确描述用户的兴趣,根据用户发布的文本信息无法准确为用户生成兴趣标签的问题。

Description

兴趣标签生成方法
技术领域
本发明涉及互联网技术,尤其涉及一种兴趣标签生成方法。
背景技术
随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,如浏览新闻、购物等。随着互联网信息的不断增多,用户关注的内容随着增多。为帮助用户关注其感兴趣的内容,很多互联网中增加了兴趣标签,服务器根据用户的兴趣标签向用户推荐相应的内容。其中,兴趣标签是用来描述用户兴趣的词语。
目前,服务器通过分析用户发布的文本信息,将文本信息中出现频率较高的词语作为用户的兴趣标签。其中,文本信息例如为用户发布的博客,转发、收藏、点赞的博客等。
然而,用户有时会发布与其兴趣无关的文本信息,或者用户发布的文本信息比较少,使得文本信息稀疏且噪音多。此时,根据用户发布的文本信息生成的兴趣标签无法准确描述用户的兴趣,进而导致服务器根据该兴趣标签为用户推荐的信息不适合该用户。
发明内容
本发明提供一种兴趣标签生成方法,以实现准确生成用户的兴趣标签的目的。
第一个方面,本发明实施例提供一种兴趣标签生成方法,包括:
服务器构建用户与实体之间的二部图,所述用户为需要生成兴趣标签的用户,所述实体为能为所述用户提供兴趣行为的用户,所述二部图包括有向边,所述有向边指示所述用户与所述实体之间的兴趣行为数据;
所述服务器确定所述实体的初始标签集;
所述服务器根据所述实体的初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重;
所述服务器根据所述二部图、所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签。
在第一个方面的第一种可能的实现方式中,所述服务器根据所述二部图与所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签,包括:
所述服务器确定所述用户的候选标签集,所述候选标签集为N个实体的初始标签集的并集,所述N个实体为所述二部图中,与所述用户发生兴趣行为的所述有向边对应的实体,N≥1;
所述服务器将所述N个实体形成的集合作为所述用户的实体集,根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,为所述用户生成兴趣标签。
结合第一个方面的第一种可能的实现方式,在第一个方面的第二种可能的实现方式中,所述根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,包括:
所述服务器根据所述影响权重与所述用户的主题分布θ,从所述主题分布θ中随机选取一个主题tk,所述主题分布θ为用于限定所述用户的候选标签集的多项概率分布;
所述服务器针对所述主题tk,根据所述影响权重与所述主题tk的实体分布从所述实体分布中随机选取一个实体,作为所述实体集中的一个实体,所述实体分布为用于限定使得所述选取的实体满足特定条件的多项概率分布,所述特定条件为所述选取的实体的初始标签集包含所述主题tk
结合第一个方面的第二种可能的实现方式,在第一个方面的第三种可能的实现方式中,所述双向约束主体模型下,所述实体集对应一个文档,所述实体集中的每一个实体对应所述文档中的一个词,所述文档的主题限定为所述用户的候选标签集,所述主题的词分布限定为满足所述特定条件的词的分布。
结合第一个方面的第二种或第三种可能的实现方式,在第一个方面的第四种可能的实现方式中,所述为用户生成兴趣标签,包括:
所述服务器根据所述双向约束主体模型、所述实体对所述用户的兴趣的影响权重,采用吉布斯采用求取所述主体分布θ;
所述服务器将所述主题分布θ中,高于阈值的主题对应的标签作为所述用户的兴趣标签。
结合第一个方面、第一个方面的第一种至第四种中任一种可能的实现方式,在第一个方面的第五种可能的实现方式中,所述服务器根据所述初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重,包括:
所述服务器确定第一权重FV、第二权重TV与第三权重RTuv,所述第一权重FV为根据与所述实体发生兴趣行为的用户数确定出的权重,所述第二权重Tv为根据所述实体的初始标签集确定出的权重,所述第三权重RTuv为根据所述用户转发所述实体的文本信息的次数确定出的权重;
所述服务器根据所述第一权重FV、所述第二权重TV与所述第三权重RTuv,确定所述影响权重wuv,wuv=λf×Fvt×TvrtRTuv,其中,λf为所述第一权重FV的预设权重,所述λt为所述第二权重TV的预设权重,所述λrt为所述第三权重RTuv的预设权重,且λftrt=1。
结合第一个方面的第五种可能的实现方式,在第一个方面的第六种可能的实现方式中,所述第一权重其中i为实体,i∈V,Nfi为与所述实体i发生兴趣行为的用户的个数,Nfv是与实体v发生兴趣行为的用户的个数;
所述第二权重Tv=log(1+maxi{Nrti}/Nrtv),其中,Nrti为所述实体i的初始标签集中的标签数,Nrtv是实体v对应的初始标签集中的标签数;
所述第三权重RTuv=log(1+maxi{Nti}/Ntv),其中,Nti为所述用户转发所述实体i的文本信息的次数,Ntv是用户转发实体v的文本信息的次数。
结合第一个方面、第一个方面的第一种至第四种中任一种可能的实现方式,在第一个方面的第七种可能的实现方式中,所述兴趣行为数据包括下述数据中的至少其中之一:所述用户关注所述实体、所述用户点赞所述实体、所述用户访问所述实体、所述用户转发所述实体发布的文本信息、所述用户评论所述实体发布的文本信息、所述用户引用所述实体发布的文本信息。
附图说明
图1为本发明兴趣标签生成方法实施例的流程图;
图2为本发明兴趣标签生成方法所适用的双向约束主题模型模拟实体集的生成过程的概率图;
图3为本发明兴趣标签生成方法所适用的构建实体与用户的二部图的示意图。
具体实施方式
图1为本发明兴趣标签生成方法实施例的流程图。本实施例的执行主体为服务器,适用于社会网络中需要为用户生成兴趣标签的场景。具体的,本实施例包括如下步骤:
101、服务器构建用户与实体之间的二部图,所述用户为需要生成兴趣标签的用户,所述实体为能为所述用户提供兴趣行为的用户,所述二部图包括有向边,所述有向边指示所述用户与所述实体之间的兴趣行为数据。
社交网络是近年来迅速崛起的互联网主流信息传播媒体,代表平台有国外的推特(Twitter)、脸书(Facebook)、领英(LinkedIn),以及国内的人人网、新浪微博等,社交网络允许用户以电脑或移动终端作为入口,发布文本信息、对其他用户进行关注等。本发明实施例中,将社交网络的众多用户中,文本信息疏松、需要推荐兴趣标签的对象称之为用户,而将文本信息丰富的用户称之为实体。例如,在微博类社交网络中,名人、权威媒体、机构等用户,其文本信息往往比较丰富,经常被粉丝访问。因此,可以将粉丝数较低的普通用户作为本发明实施例所述的用户,而将粉丝数量高的用户作为本发明实施例所述的实体。
本步骤中,社交网络中的服务器,即互联网服务器构建用户与实体之间的二部图。具体的,服务器中存储各个实体对应的丰富信息,如实体的描述信息、实体发布的文本信息;各个用户对应的信息,如用户的描述信息等;用户对实体发生的兴趣行为数据,如用户对实体添加的关注信息、用户转发实体发布的信息、用户与实体之间的关系连接等。服务器根据存储的该些信息,构建用户与实体的二部图,例如,对于一个具体的用户A与实体B,若用户A经常关注实体B,则实体B为与用户A有关系的实体,用户A与实体B之间的有向边表示用户A与实体B有关系;否则,若用户A从未或很少关注实体B,则实体B为与用户A无关的实体,用户A与实体B之间不存在有向边,即用户A与实体B无关系。
102、所述服务器确定所述实体的初始标签集。
本步骤中,服务器根据存储的实体的丰富信息、用户对实体的关注描述等信息,确定实体的初始标签集。例如,服务器搜集各个用户对实体添加的关注信息,将在关注信息中出现频率超过一定阈值的词作为该实体的初始标签集中的一个标签。
假设所有的初始标签都属于集合K,K={t1,t2,…,t|k|},为实体v对应的初始标签集合的0/1向量表示,其中, 表示实体v在方面k具有一定的代表性,否则,
103、所述服务器根据所述实体的初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重。
社交网络的服务器中存储有用户和实体之间的兴趣行为数据,兴趣行为数据表征用户对实体的兴趣行为。可选的,兴趣行为数据包括下述数据中的至少其中之一:所述用户关注所述实体、所述用户点赞所述实体、所述用户访问所述实体、所述用户转发所述实体发布的文本信息、所述用户评论所述实体发布的文本信息、所述用户引用所述实体发布的文本信息等。本步骤中,服务器根据兴趣行为数据,通过计算程序等计算出实体对用户的兴趣的影响权重,影响权重越大,说明用户对实体的兴趣越大。
104、所述服务器根据所述二部图、所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签。
本步骤中,服务器根据102中获得的实体对应的初始标签集以及103中获得的实体对用户的兴趣的影响权重,采用双向约束主题模型,对于一个具体的需要生成兴趣标签的用户,模拟101的过程,确定该具体用户对各个标签感兴趣的程度,将用户感兴趣程度高的标签作为用户的兴趣标签。
本发明实施例提供的兴趣标签生成方法,通过构建实体与用户之间的二部图,为实体确定初始标签集,根据实体的初始标签集及实体与用户之间的兴趣行为数据,确定实体对用户的兴趣的影响权重,然后采用双向约束主题模型,模拟生成用户感兴趣的实体构成的实体集并为用户生成兴趣标签。该为用户生成兴趣标签的过程中,未涉及用户发布的文本信息,因此可以解决由于用户的文本信息疏松无法准确描述用户的兴趣,根据用户发布的文本信息无法准确为用户生成兴趣标签的问题。同时,考虑实体之间的相似性,同时能够结合多元的用户行为数据,从而为用户生成的兴趣标签的准确度高、召回率高、适用性广。
可选的,在本发明实施例中,上述步骤103中,所述服务器根据所述初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重,具体为:所述服务器确定第一权重FV、第二权重TV与第三权重RTuv,所述第一权重FV为根据与所述实体发生兴趣行为的用户数确定出的权重,所述第二权重TV为根据所述实体的初始标签集确定出的权重,所述第三权重RTuv为根据所述用户转发所述实体的文本信息的次数确定出的权重;所述服务器根据所述第一权重FV、所述第二权重TV与所述第三权重RTuv,确定所述影响权重wuv
wuv=λf×Fvt×TvrtRTuv (1);
其中,λf为所述第一权重FV的预设权重,所述λt为所述第二权重TV的预设权重,所述λrt为所述第三权重RTuv的预设权重,且λftrt=1。第一权重FV、第二权重TV以及第三权重RTuv可根据公式(2)确定出:
Fv=log(1+maxi{Nfi}/Nfv) (2)
其中,当用公式(2)确定第一权重FV时,Ni为与所述实体发生兴趣行为的用户数,当用公式(2)确定第二权重TV时,Ni为实体的初始标签集中的标签数,当用公式(2)确定第三权重RTuv时,Ni用户转发所述实体的文本信息的次数。
具体的,上述过程中,所述第一权重Fv=log(1+maxi{Nfi}/Nfv),其中i为实体,i∈V,Nfi为与所述实体i发生兴趣行为的用户的个数,Nfv是与实体v发生兴趣行为的用户的个数;
所述第二权重Tv=log(1+maxi{Nrti}/Nrtv),其中,Nrti为实体i的初始标签集中的标签数,Nrtv是实体v对应的初始标签集中的标签数;
所述第三权重Tv=log(1+maxi{Nti}/Ntv),其中,Nti为所述用户转发实体i的文本信息的次数,Ntv是用户转发实体v的文本信息的次数。
需要说明的是,λf、λt、λrt分别为第一权重FV、第二权重TV、第三权重RTuv的预设权重,均可根据实际经验设定,或通过不同的预设权重预设实验得出。
在上述过程的基础上,服务器根据所述双向约束主体模型、所述实体对所述用户的兴趣的影响权重,采用吉布斯采样求取所述主题分布θ;将所述主题分布θ中,高于阈值的主题对应的标签作为所述用户的兴趣标签。
一般来说,传统的文档主题生成模型(Latent Dirichlet Allocation,LDA),中,每个文档对应一个特定的主题分布,而每个主题也对应一个特定的词分布。在生成一篇文档中的某个词的时候,首先要在该文档的主题分布中选择一个特定的主题,然后在该主题的词分布中选择一个特定的词,作为最终生成的词。而本发明实施例采用的双向约束主题模型,所述实体集对应一个文档,所述实体集中的每一个实体对应所述文档中的一个词,所述双向约束主题模型中标签和主题一一对应,所述文档的主题限定为所述用户的候选标签集,所述主题的词分布限定为满足所述特定条件的词的分布,即每一个用户关注的所有的实体被看成一个文档,其中每一个实体被看成一个词。简单的来说,一个用户先根据他对各个方面的感兴趣的程度从候选标签集中挑选一个主题(即标签),然后根据各个实体在这个主题(该主题必须存在于此实体的初始标签集中)下的代表性来挑选一个实体发生关系。下面,对本发明如何采用双向约束主题模型,为用户生成兴趣标签做详细说明。
具体的,上述步骤104中,所述服务器根据所述二部图、所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签,具体为:所述服务器确定所述用户的候选标签集,所述候选标签集为N个实体的初始标签集的并集,所述N个实体为所述二部图中,与所述用户发生兴趣行为的所述有向边对应的实体,N≥1;所述服务器将所述N个实体形成的集合作为所述用户的实体集,根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,为所述用户生成兴趣标签。
其中,所述根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,具体为:所述服务器根据所述影响权重与所述用户的主题分布θ,从所述主题分布θ中随机选取一个主题tk,所述主题分布θ为用于限定所述用户的候选标签集的多项概率分布;所述服务器针对所述主题tk,根据所述影响权重与所述主题tk的实体分布从所述实体分布中随机选取一个实体,作为所述实体集中的一个实体,所述实体分布为用于限定使得所述选取的实体满足特定条件的多项概率分布,所述特定条件为所述选取的实体的初始标签集包含所述主题tk。具体可参见图2。
图2为本发明兴趣标签生成方法所适用的双向约束主题模型模拟实体集的生成过程的概率图。请参照图2,该概率图可以分解为两个主要的物理过程:
过程一、α→θ(u)→zi
该过程表示在生成用户u的实体集时,首先,确定用户u的主题分布θ(u),即用户u的候选标签集的分布,该主题分布θ(u)为一个取决于参数α的多项分布;然后,从主题分布θ(u)的多项分布中随机采样一个主题zi,作为用户u的候选标签;
过程二、
该过程表示生成用户u关注的第i个实体,根据主题k=zi对应的词分布φ(k),即标签k=zi对应的实体分布,随机采样一个实体作为最终生成的
设用户的集合为U,实体的集合为V。则对于一个用户u,设为与用户u有关系的所有实体,即用户u的实体集。其中,为与用户u有关系的实体数。设K={t1,t2,…,t|k|}为所有标签的集合,为实体v对应的初始标签集合的0/1向量表示,其中,表示实体v有初始标签tk,即实体v在方面k具有一定的代表性,否则,集合{tk|k∈{1,2,…K}且为实体v的初始标签集。为用户u对应的候选标签集的0/1向量表示,其中, 表示用户u与主题tk下有代表性的实体有关系,即存在满足否则,集合{tk|k∈{1,2,…K}且为用户u的候选标签集。
本发明实施例中,双向约束主题模型定义了一个标签和主题模型的隐含主题之前的一一映射。每个文档(本发明实施例中对应一个用户)被限制只能选取与其候选标签集对应的那些主题,其中,候选标签集为与该用户发生兴趣行为的所有实体的初始标签集构成的集合;同时,一个词(实体)被限制只能属于其初始标签集对应的那些主题,也就是说,每个主题只能生成候选标签集中有其对应标签的词。
其中,服务器将所述N个实体形成的集合作为所述用户的实体集,采用双向约束主题模型模拟所述实体集的生成过程中满足如下条件:
第一、对于每个实体v∈V,每个隐含主题对应的标签tk∈K满足
第二、对于主题tk∈K,该主题下每个实体满足φ(k)~Dir(βk),其中βk是先验参数,βk=M(k)×β;
第三、对于每个用户u∈U,有主题分布θ(u)~Dir(α(u)),其中α(u)是先验参数,α(u)=L(u)×α。且每个隐含主题对应的标签tk∈K满足存在使得否则,
第四、对于每个用户u∈U:
(a)从θ(u)的多项分布Multi(θ(u))中随机采样一个主题zi,有zi~Multi(θ(u));
(b)从主题ti的多项分布Mult(φ(zi))下随机采样一个实体
其中,α={a1,…,a|k|}和β={β1,…,β|v|}分别文档的主题分布以及主题的词分布的狄利克雷先验分布的参数,θ(u)表示用户u对于各方面的感兴趣程度,φ(k):为主题tk生成各个实体的概率,即各个实体在该主题下的相对代表性。另外,L(u)和M(k)是两个矩阵,分别用于约束用户u可选的主题和主题tk可生成的实体。
为了约束用户u只能选取与其候选标签集对应的那些主题,对于每一个用户u,我们定义一个标签映射矩阵L(u),包含|K|×|K|个元素。对应矩阵中的每个元素,即i∈{1,……|K|},j∈{1,……|K|}:
也就是说,只有当标签tk属于用户u的候选标签集时,即时,否则显然,用户u对应的主题将被限制于其候选标签集对应的主题。
为了约束实体v只能属于其候选标签集对应的主题,对于每一个主题tk,定义一个标签映射矩阵M(k),包括|V|×|V|个元素。对于矩阵中的每一个元素,即i∈{1,……|K|},j∈{1,……|K|}:
也就是说,只有当标签tk属于实体i的初始标签集时,即时,否则
上述的θ(u)与φ(k),可使用吉布斯采用求解。
具体的,
其中,是用户u出于对主题tk的兴趣而产生兴趣行为的实体;为实体v因为主题tk而与用户产生关系的次数;同时表示计算时不考虑当前的实体分布的主题zi的估计值,也就是用户u对各方面的感兴趣程度,的估计值,也就是主题tk下各个实体的相对代表性。
为了更有效的使用和结合多元的用户兴趣行为的数据,计算实体v对用户u的兴趣的影响权重wuv,可更新上述公式为:
最后,服务器根据用户对各个方面的感兴趣程度为用户生成兴趣标签 越大表明用户u对于tk越感兴趣。
下面,以社交网络具体为微博应用平台Twitter为例,对本发明的兴趣标签生成方法做详细说明。
Twitter平台上,用户可以不需要得到对方的许可便加对方用户关注,主动发起关注行为的用户被称之为粉丝,而被关注的用户称之为朋友。当关注建立后,朋友发布的微博信息可以被分析阅读、共享及转发。服务器通过分析用户的粉丝数发现:粉丝数比较少(例如少于1000)的用户占总用户的90%以上,而超过80%的用户一年发布的微博少于阈值,如100条,并且该些微博中还包含很多与用户兴趣无关的微博,如日常生活琐碎、追风全球热门事件、转发幽默视频等。但是,粉丝数特别多的用户通常所示名人、权威媒体、机构等,该些用户对应的文本信息丰富。因此,定义粉丝数少于1000的用户为本发明实施例所述的用户,将粉丝数大于等于1000的用户定义为本发明实施例中的实体。由此,服务器构建二部图的过程可参见图3。
具体的,图3为本发明兴趣标签生成方法所适用的构建实体与用户的二部图的示意图。如图3所示,假设总用户为5个,分别以节点的方式在图中示出,包括:用户1、用户2、用户3、用户4和用户5。其中,用户1、用户2与用户3为本发明实施例所述的用户,而用户4与用户5为本发明实施例所述的实体,分别记为实体1与实体2。各用户和实体之间的关注关系在图中以带指向箭头的直线示出。例如,用户1关注实体2,则在图3中以用户1指向实体2的方式来代表用户1的兴趣受实体2的影响。
首先,所述微博应用服务器根据用户信息和用户之间行为数据构建上述用户与实体之间的二部图。
其次,所述微博应用服务器提取每个实体对应的信息,并为实体推荐初始标签。
具体地,粉丝量比较大的微博用户(实体)通常会被很多其它用户关注并添加到不同的分组,将在分组的名称和描述中出现频次超过一定阈值的词作为实体的初始标签。其中,所有实体的初始标签属于集合K,为实体v对应的初始标签集合的0/1向量表示,其中,表示实体v在方面k具有一定的代表性,否则,
然后,根据所述实体的初始标签及用户与所述实体之间的兴趣行为数据,即实体被其它用户关注的次数、实体对应的初始标签数、用户转发实体的发布信息的次数计算实体对各用户的兴趣的影响权重。具体可见图1步骤103。
最后,根据各实体对应的初始标签集、各实体对所述用户的兴趣的影响权重及所述用户与各实体之间的兴趣行为数据,利用双向约束主体模型为用户生成兴趣标签,通过吉布斯采样求取能表示用户对各个方面的感兴趣的程度的的估计值,从而为用户生成兴趣标签 越大表明用户u对于tk越感兴趣。
另外,本实例可通过计算Top 10的标签的折算累积获得(Discounted CumulativeGain,DCG)值来衡量采用本发明实施例提供的标签生成方法的准确度,通过计算生成Topn(n为1,3,5,10)的标签的召回率来衡量本发明实施例提供的标签生成方法的所生成标签的全面性。具体的,通过设定7组不同的权值组合,最终设定权值为λf=0.5、λt=0.5、λrt=0实验结果发现,本发明实施例所提供的兴趣标签生成方法的DCG达到47.0041,次优的方法为32.9850。本发明实施例提供的兴趣标签生成方法的召回率在Topn(n为1,3,5,10),都是比较优异的。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种兴趣标签生成方法,其特征在于,包括:
服务器构建用户与实体之间的二部图,所述用户为需要生成兴趣标签的用户,所述实体为能为所述用户提供兴趣行为的用户,所述二部图包括有向边,所述有向边指示所述用户与所述实体之间的兴趣行为数据;
所述服务器确定所述实体的初始标签集;
所述服务器根据所述实体的初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重;
所述服务器根据所述二部图、所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签;
所述服务器根据所述二部图与所述初始标签集与所述影响权重,采用双向约束主题模型,为所述用户生成兴趣标签,包括:
所述服务器确定所述用户的候选标签集,所述候选标签集为N个实体的初始标签集的并集,所述N个实体为所述二部图中,与所述用户发生兴趣行为的所述有向边对应的实体,N≥1;
所述服务器将所述N个实体形成的集合作为所述用户的实体集,根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,为所述用户生成兴趣标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述影响权重,采用双向约束主题模型模拟所述实体集的生成过程,包括:
所述服务器根据所述影响权重与所述用户的主题分布θ,从所述主题分布θ中随机选取一个主题tk,所述主题分布θ为用于限定所述用户的候选标签集的多项概率分布;
所述服务器针对所述主题tk,根据所述影响权重与所述主题tk的实体分布从所述实体分布中随机选取一个实体,作为所述实体集中的一个实体,所述实体分布为用于限定使得所述选取的实体满足特定条件的多项概率分布,所述特定条件为所述选取的实体的初始标签集包含所述主题tk
3.根据权利要求2所述的方法,其特征在于,所述双向约束主体模型下,所述实体集对应一个文档,所述实体集中的每一个实体对应所述文档中的一个词,所述文档的主题限定为所述用户的候选标签集,所述主题的词分布限定为满足所述特定条件的词的分布。
4.根据权利要求2或3所述的方法,其特征在于,所述为用户生成兴趣标签,包括:
所述服务器根据所述双向约束主体模型、所述实体对所述用户的兴趣的影响权重,采用吉布斯采用求取所述主体分布θ;
所述服务器将所述主题分布θ中,高于阈值的主题对应的标签作为所述用户的兴趣标签。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述服务器根据所述初始标签集与所述兴趣行为数据,确定所述实体对所述用户的兴趣的影响权重,包括:
所述服务器确定第一权重FV、第二权重TV与第三权重RTuv,所述第一权重FV为根据与所述实体发生兴趣行为的用户数确定出的权重,所述第二权重TV为根据所述实体的初始标签集确定出的权重,所述第三权重RTuv为根据所述用户转发所述实体的文本信息的次数确定出的权重;
所述服务器根据所述第一权重FV、所述第二权重TV与所述第三权重RTuv,确定所述影响权重wuv,wuv=λf×Fvt×TvrtRTuv,其中,λf为所述第一权重FV的预设权重,所述λt为所述第二权重TV的预设权重,所述λrt为所述第三权重RTuv的预设权重,且λftrt=1。
6.根据权利要求5所述的方法,其特征在于,
所述第一权重Fv=log(1+maxi{Nfi}/Nfv),其中i为实体,i∈V,Nfi为与实体i发生兴趣行为的用户的个数,Nfv是与实体v发生兴趣行为的用户的个数;
所述第二权重Tv=log(1+maxi{Nrti}/Nrtv),其中,Nrti为实体i的初始标签集中的标签数,Nrtv是实体v对应的初始标签集中的标签数;
所述第三权重RTuv=log(1+maxi{Nti}/Ntv),其中,Nti为所述用户转发实体i的文本信息的次数,Ntv是用户转发实体v的文本信息的次数。
7.根据权利要求1~3任一项所述的方法,其特征在于,所述兴趣行为数据包括下述数据中的至少其中之一:所述用户关注所述实体、所述用户点赞所述实体、所述用户访问所述实体、所述用户转发所述实体发布的文本信息、所述用户评论所述实体发布的文本信息、所述用户引用所述实体发布的文本信息。
CN201510570410.4A 2015-09-09 2015-09-09 兴趣标签生成方法 Active CN105069172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510570410.4A CN105069172B (zh) 2015-09-09 2015-09-09 兴趣标签生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510570410.4A CN105069172B (zh) 2015-09-09 2015-09-09 兴趣标签生成方法

Publications (2)

Publication Number Publication Date
CN105069172A CN105069172A (zh) 2015-11-18
CN105069172B true CN105069172B (zh) 2018-10-30

Family

ID=54498541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510570410.4A Active CN105069172B (zh) 2015-09-09 2015-09-09 兴趣标签生成方法

Country Status (1)

Country Link
CN (1) CN105069172B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027303B (zh) * 2016-05-24 2019-07-16 腾讯科技(深圳)有限公司 一种征信特征获取方法及其设备
CN106294744A (zh) * 2016-08-11 2017-01-04 上海动云信息科技有限公司 兴趣识别方法及系统
CN106339421B (zh) * 2016-08-15 2019-08-13 北京集奥聚合科技有限公司 一种用户浏览行为的兴趣挖掘方法
CN106528676B (zh) * 2016-10-31 2019-09-03 北京百度网讯科技有限公司 基于人工智能的实体语义检索处理方法及装置
US10762146B2 (en) * 2017-07-26 2020-09-01 Google Llc Content selection and presentation of electronic content
CN107483256B (zh) * 2017-08-24 2020-02-18 合肥工业大学 一种网络化数据流的标签提取方法
CN107506480B (zh) * 2017-09-13 2020-05-05 浙江工业大学 一种基于评论挖掘与密度聚类的双层图结构推荐方法
CN107798141B (zh) * 2017-11-24 2021-07-20 广州数说故事信息科技有限公司 一种基于统计指标的迭代运算的确定用户标签方法
CN108228804B (zh) * 2017-12-29 2020-12-11 北京奇元科技有限公司 一种更新资源文件标签权重值的方法及装置
CN109325171A (zh) * 2018-08-08 2019-02-12 微梦创科网络科技(中国)有限公司 基于领域知识的用户兴趣分析方法及系统
CN111191124A (zh) * 2019-12-23 2020-05-22 东软集团股份有限公司 确定兴趣标签权重的方法、装置、存储介质及电子设备
US11615444B2 (en) * 2020-05-01 2023-03-28 Meta Platforms, Inc. Recommending that an entity in an online system create content describing an item associated with a topic having at least a threshold value of a performance metric and to add a tag describing the item to the content
CN111737594B (zh) * 2020-06-24 2023-07-25 中网数据(北京)股份有限公司 基于无监督标签生成的虚拟网络角色行为塑造方法
CN113282807B (zh) * 2021-06-29 2022-09-02 中国平安人寿保险股份有限公司 基于二部图的关键词扩展方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279512A (zh) * 2013-05-17 2013-09-04 湖州师范学院 利用社会网络上最有影响力节点实现高效病毒营销的方法
CN103309972A (zh) * 2013-06-08 2013-09-18 清华大学 基于链路预测的推荐方法和系统
CN103336831A (zh) * 2013-07-09 2013-10-02 清华大学 基于块对角矩阵的推荐方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342854B2 (en) * 2013-05-08 2016-05-17 Yahoo! Inc. Identifying communities within a social network based on information propagation data
US11336596B2 (en) * 2013-06-11 2022-05-17 International Business Machines Corporation Personalized low latency communication

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279512A (zh) * 2013-05-17 2013-09-04 湖州师范学院 利用社会网络上最有影响力节点实现高效病毒营销的方法
CN103309972A (zh) * 2013-06-08 2013-09-18 清华大学 基于链路预测的推荐方法和系统
CN103336831A (zh) * 2013-07-09 2013-10-02 清华大学 基于块对角矩阵的推荐方法和装置

Also Published As

Publication number Publication date
CN105069172A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069172B (zh) 兴趣标签生成方法
US11659050B2 (en) Discovering signature of electronic social networks
CN109508419B (zh) 一种基于知识学习的推荐方法和系统
JP5401633B2 (ja) データ推薦方法及びデータ推薦装置
CN106649681B (zh) 一种数据处理方法、装置及设备
US10846613B2 (en) System and method for measuring and predicting content dissemination in social networks
US20160132904A1 (en) Influence score of a brand
Staszewska‐Bystrova Bootstrap prediction bands for forecast paths from vector autoregressive models
CN103136303A (zh) 在社交网络服务网站中划分用户群组的方法和设备
CN104915392A (zh) 一种微博转发行为预测方法及装置
Wang et al. Management and entrepreneurship management mechanism of college students based on support vector machine algorithm
TW201224988A (en) Dynamic real-time reports based on social networks
CN107294974A (zh) 识别目标团伙的方法和装置
CN110046981A (zh) 一种信用评估方法、装置及存储介质
CN107767152A (zh) 产品购买倾向分析方法及服务器
CN112667920A (zh) 基于文本感知的社交影响力预测方法、装置及设备
CN104035978B (zh) 社团发现方法及系统
CN107885716A (zh) 文本识别方法及装置
CN110502701B (zh) 引入注意力机制的好友推荐方法、系统和存储介质
Liu et al. VGMF: visual contents and geographical influence enhanced point‐of‐interest recommendation in location‐based social network
CN106776757A (zh) 用户完成网银操作的指示方法及装置
Huang et al. A statistical model for social network labeling
Sadatmoosavi et al. Does the superior position of countries in co-authorship networks lead to their high citation performance
CN108647739A (zh) 一种基于改进的密度峰值聚类的社交网络社区发现方法
CN105224675B (zh) 一种顾及时空效应的微博主题提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant