CN104572915A - 一种基于内容环境增强的用户事件相关度计算方法 - Google Patents

一种基于内容环境增强的用户事件相关度计算方法 Download PDF

Info

Publication number
CN104572915A
CN104572915A CN201410833448.1A CN201410833448A CN104572915A CN 104572915 A CN104572915 A CN 104572915A CN 201410833448 A CN201410833448 A CN 201410833448A CN 104572915 A CN104572915 A CN 104572915A
Authority
CN
China
Prior art keywords
user
topic
event
theta
social
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410833448.1A
Other languages
English (en)
Other versions
CN104572915B (zh
Inventor
寿黎但
陈刚
陈珂
伍赛
胡天磊
王振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410833448.1A priority Critical patent/CN104572915B/zh
Publication of CN104572915A publication Critical patent/CN104572915A/zh
Application granted granted Critical
Publication of CN104572915B publication Critical patent/CN104572915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明公开了一种基于内容环境增强的用户事件相关度计算方法。利用话题模型将用户和社交事件的档案降低维度转化成话题分布;计算得到该用户档案和该社交事件档案的用户偏好特征;将用户偏好特征作为用户参加所对应事件的概率,计算采用基于协同过滤方法提取线上、线下社交影响特征;根据用户城市的事件,得到当地兴趣的话题分布,再与事件比较来得到本地流行度特征;通过训练学习排序模型,得到用户事件相关度。本发明通过充分挖掘事件社交网络中的内容环境相关信息,提取出用户偏好、社交影响、当地流行度的特征进行计算,并通过结合多项特征提高了最终结果的准确度,解决了个性化推荐系统中针对社交事件这类新对象进行推荐的技术问题。

Description

一种基于内容环境增强的用户事件相关度计算方法
技术领域
本发明涉及一种计算机语言内容处理方法,尤其涉及计算机自然语言处理领域的一种基于内容环境增强的用户事件相关度计算方法。
背景技术
话题模型是一种在文档集合中提取抽象话题的统计学方法。隐含狄利克雷分布(Latent Dirichlet allocation,LDA)是一种常用的主题模型,它以词袋模型为前提,即一篇文档是由一组词构成的集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个话题,文档中的每一个词则由其中的某一个话题生成。LDA方法可以将文档集合中每篇文档的话题以概率分布的形式生成,并且每个话题也能以词语分布的形式来描述。由于通常话题的数量远远小于词的数量,因此主题模型还可以用来进行文本对象的降维,以优化文本处理的效果。
协同过滤是推荐系统中的一种重要方法,被广泛应用于众多商业系统中。协同过滤利用兴趣相似、拥有共同经验的其他用户对某个对象的评分,来预测目标用户对该对象的喜好程序。协同过滤可以分为基于用户的方法、基于对象的方法和基于模型的方法。协同过滤方法依赖于用户针对对象的历史评分信息,因此对于一个新加入系统的对象,只有当足够的用户对其进行评分后,推荐系统才能推荐出该对象。
学习排序是在构建信息检索系统的排序模型时的一种机器学习方法,并被广泛应用于许多领域,如文档获取、推荐系统、情感分析和广告投放等。在推荐系统中,学习排序是一种重要的排序方法。学习排序针对被推荐的用户、所要推荐的对象和推荐任务学习特定的排序模型。在用户和推荐对象之间定义多项特征,训练数据是这些特征向量的列表的集合,每个列表中的向量之间具有特定的顺序。排序模型的目标是对于新的对象产生的向量组成的列表,能够以训练集中相似的方式产生对象的排列。学习排序方法分为逐点方法、逐对方法以及逐列方法。
社交事件不同于传统的推荐内容,每一个待推荐的事件都还未发生,因此是一个新对象。已有的推荐方法不能很好地解决这类新对象的推荐问题。另一方面,事件社交网络中包含了用户之间线上和线下的双重社交关系,需要同时考虑这两种社交关系对用户和事件之间相关度的影响。本发明以用户和事件的内容为核心,充分挖掘内容环境相关的多种信息,提供了用户事件相关度的计算方法,并解决了社交事件推荐的问题。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于内容环境增强的用户事件相关度计算方法,其中包含有话题模型方法、推荐系统领域的协同过滤方法以及机器学习领域的学习排序方法,很好地解决计算机语言处理中社交事件推荐这类对象计算的技术问题。
本发明解决其技术问题采用的技术方案如下:
1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布向量;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;
2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;
3)根据用户所在地举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;即通过计算事件ej和用户ui所在城市的当地兴趣之间的话题相似度,作为事件ej的本地流行度特征。
4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度,以对用户进行事件推荐。
所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。
所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合,用户的描述信息为用户自己选择的兴趣关键词集合,社交事件的描述信息为社交事件的属性关键词集合。
本发明通过事件的内容信息,即名字和描述来构建事件ej的档案,该档案是以文本的形式表示,即一个词的集合。用户ui的档案则由两部分组成:用户自己选择的兴趣关键词以及他已参加过的社交事件,这样用户档案便同时包含了用户的自我评价和过往的行为。
然后,对用户和事件的档案进行比较,以得到用户和事件的相似度。但是,由于文本内容的高维度和稀疏性,直接对文本形式的档案之间计算相似度效果不好。因此,步骤1)的用户偏好特征采用以下方式计算得到:
采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布ui表示第i个用户,ej表示第j个社交事件,然后采用以下公式计算用户偏好特征Pref(ui,ej):
Pref ( u i , e j ) = 1 - 1 2 ( D kl ( θ u i | | M ) + D kl ( θ e j | | M ) )
其中,分别是用户档案和事件档案下的话题分布,M是用户话题分布和社交事件话题分布的平均量;
上述的是M到的Kullback-Leibler散度(Kullback-LeiblerDivergence),采用以下公式计算:
D kl ( θ u i | | M ) = Σ z θ u i ( z ) · log θ u i ( z ) M ( z )
其中,是用户档案的话题分布中第z个话题的权重,M(z)是平均量M中第z个话题的权重;
上述的是M到的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ e j | | M ) = Σ z θ e j ( z ) · log θ e j ( z ) M ( z )
其中,是社交事件档案的话题分布中第z个话题的权重。
为方便比较,把用户偏好特征Pref(ui,ej)在[0,1]范围内,在Kullback-Leibler散度的计算过程中使用以2为底的对数。本发明涉及的其他Kullback-Leibler散度的计算都使用以2为底的对数。
由于用户偏好特征代表了事件和用户个人兴趣的匹配程度,也就是用户会参加该事件的可能性。因此,将用户偏好特征作为用户参加所对应事件的概率,从而可以基于协同过滤方法提取出描述社交影响的特征。由于事件社交网络区别于传统社交网络的独特之处在于它包含了线上和线下的两种社交关系,所以需要同时考虑线上朋友和线下朋友的影响。
由此,步骤2)中的线上、线下社交影响特征采用以下方式进行计算:
将用户偏好特征作为用户参加所对应事件的概率,对所对应事件进行评分计算,并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Infon(ui,ej)和线下社交影响特征Infoff(ui,ej):
Inf on ( u i , e j ) = Σ v ∈ F i on w u i , v · Pref ( v , e j ) Σ v ∈ F i on w u i , v
Inf off ( u i , e j ) = Σ v ′ ∈ F i off w u i , v ′ · Pref ( v ′ , e j ) Σ v ′ ∈ F i off w u i , v ′
其中,v、v′分别表示用户ui的一个线上朋友和一个线下朋友,线上朋友为参加同一个小组的用户,小组为具有相同兴趣爱好的用户组成的用户集合,线下朋友为参加同一个事件的用户,分别表示用户ui线上、线下的朋友集合,Pref(v,ej)、Pref(v′,ej)分别表示用户ui的线上朋友v和线下朋友v′对事件ej的用户偏好特征,表示用户ui与其线上朋友v的用户偏好特征,表示用户ui与其线下朋友v′的用户偏好特征。
用户ui与其线上朋友v的用户偏好特征采用以下公式进行计算:
1 - 1 2 ( D kl ( θ u i | | M 1 ) + D kl ( θ v | | M 1 ) )
其中,θv是用户ui的线上朋友v档案的话题分布,M1是用户话题分布与其线上朋友v档案的话题分布θv的平均量;
上述的是M1的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ u i | | M 1 ) = Σ z θ u i ( z ) · log θ u i ( z ) M 1 ( z )
其中,是用户档案的话题分布中第z个话题的权重,M1(z)是平均量M1中第z个话题的权重;
上述的Dklv||M1)是M1到θv的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ v | | M 1 ) = Σ z θ v ( z ) · log θ v ( z ) M 1 ( z )
其中,θv(z)是线上朋友v档案的话题分布中第z个话题的权重。
用户ui与其线下朋友v′的用户偏好特征为:
1 - 1 2 ( D kl ( θ u i | | M 2 ) + D kl ( θ v ′ | | M 2 ) )
其中,θv'是用户ui的线下朋友v′档案的话题分布,M2是用户话题分布与其线下朋友v′档案的话题分布θv'的平均量;
上述的是M2的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ u i | | M 2 ) = Σ z θ u i ( z ) · log θ u i ( z ) M 2 ( z )
其中,是用户档案的话题分布中第z个话题的权重,M2(z)是平均量M2中第z个话题的权重;
上述的Dklv'||M2)是M2到θv'的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ v ′ | | M 2 ) = Σ z θ v ′ ( z ) · log θ v ′ ( z ) M 2 ( z )
其中,θv'(z)是线下朋友v′档案的话题分布中第z个话题的权重。
通过计算事件ej和用户ui所在城市的当地兴趣之间的话题相似度,来得到事件ej的当地流行。首先需要计算当地兴趣的话题分布,用户ui所在的城市中事件的当地兴趣话题和社交事件话题均呈高斯分布。
由此步骤3)中的本地流行度特征采用以下方式计算得到:
3.1)根据最大似然估计,用户ui所在城市的当地兴趣话题分布通过下式得到:
θ R i = Σ e ′ ∈ R i θ e ′ · N e ′ Σ e ′ ∈ R i N e ′
其中,Ri是在用户ui所在的城市,e'表示在城市Ri内举办的单个事件,Ne'是事件e'的参与人数,θe'为社交事件e'的话题分布;
3.2)然后比较当地兴趣话题分布和社交事件话题分布采用以下公式计算得到事件ej下的本地流行度特征Pop(Ri,ej):
Pop ( R i , e j ) = 1 - 1 2 ( D kl ( θ R i | | M 3 ) + D kl ( θ e j | | M 3 ) )
其中,M3是当地兴趣话题分布和社交事件档案的话题分布的平均量;
上述的是M3的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ R i | | M 3 ) = Σ z θ R i ( z ) · log θ R i ( z ) M 3 ( z )
其中,是当地兴趣话题分布中第z个话题的权重,M3(z)是平均量M3中第z个话题的权重;
上述的是M3的Kullback-Leibler散度,采用以下公式计算:
D kl ( θ e j | | M 3 ) = θ e j Σ z θ e j ( z ) · log θ e j ( z ) M 3 ( z )
其中,是社交事件档案的话题分布中第z个话题的权重。
所述的用户ui所在的城市中社交事件的话题分布呈高斯分布。
本发明经过上述三个特征提取阶段,从各个用户-事件对中得到了一系列内容环境相关的特征数据。接下来,把它们聚合到一个排序模型的排序函数中,通过排序模型进行学习排序。
在社交事件与用户相似度计算的情形中,用户的评价只能是二元的,即一个用户要么参加了一个事件,要么没有参加,用户也不可能多次参加同一个事件,因此采用逐对学习排序方法。从一个用户-事件对中得到的特征被表示为一个特征向量x。排序函数f是一个线性函数f(x)=<w,x>,其中w是权重向量,<·,·>代表内积操作。训练实例的形式为i=1,...,m。其中每一个训练实例由两个特征向量组成的对和一个标识yi组成。这两个特征向量必须对应同一个用户。
由此,步骤4)具体采用以下排序模型进行训练:
4.1)对于同一个用户和同一个事件,利用步骤1)~3)得到的四个特征,组成一个特征向量x;由各个用户和各个事件相互之间构建得到训练集的各个用户-事件对,并以以下公式构建包括有同一用户下两个用户-事件对的训练实例,且该用户仅参加了两个用户-事件对所对应的两个事件中任意一事件;
( ( x i 1 , x i 2 ) , y i )
其中,分别表示同一个用户对应的两个用户-事件对,yi表示顺序标识;当该用户参加了用户-事件对中的事件,而未参加用户-事件对中的事件,则顺序标识yi为1;当该用户参加了用户-事件对中的事件,而未参加用户-事件对中的事件,则顺序标识yi为-1;i=1,...,m,i为训练实例的序数,m为训练实例总数;
4.2)将所有训练实例输入排序函数f(x)=<w,x>,x为特征向量,<·,·>代表内积操作,使用梯度下降方法最小化以下公式的损失函数,得到损失函数最小值时的权重向量w,该排序模型的损失函数L(w)为:
L ( w ) = &Sigma; i = 1 m 1 N u ( i ) [ 1 - y i < w , x i 1 - x i 2 > ] + + &lambda; | | w | | 2
其中,[·]+代表函数max(·,0),w是权重向量,λ为正则化参数,u(i)是第i个训练实例所对应的用户,Nu(i)是用户u(i)拥有的训练实例个数。
上述公式的第一项表示Hinge损失,第二项是对权重向量w的正则化
4.3)对于新的用户-事件对,采用上述步骤1)~3)计算得到四个特征,组成一个特征向量x,代入采用排序函数f(x)=<w,x>中得到用户事件相关度f(x)。
根据用户与事件推荐值的大小进行排序,向该用户推荐事件,用户与事件推荐值越大排序越靠前。
本发明首先设计了基于话题内容的用户偏好计算方法,在此基础上,基于线上和线下的社交关系提取出基于协同过滤的特征,同时用当地流行度来衡量事件和用户的当地兴趣之间的相似度,最后通过排序学习方法训练得到事件排序模型,实现了用户与事件相关度的计算,并进行推荐。
本发明具有的有益效果是:
本发明通过充分挖掘事件社交网络中的内容环境相关信息,提取出用户偏好、社交影响、当地流行度的特征,使用学习好的排序模型进行用户事件相关度的计算,可用于社交事件的推荐,可克服社交事件推荐的新对象问题,并通过结合多项特征提高了结果的准确度,提高推荐的效果。
附图说明
图1是本发明实施步骤流程图。
具体实施方式
现结合具体实施和示例对本发明的技术方案作进一步说明。
如图1,本发明具体实施过程和工作原理如下:
1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布向量;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征。
用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。用户的描述信息和社交事件的描述信息均为由关键词构成的集合,用户的描述信息为用户自己选择的兴趣关键词集合,社交事件的描述信息为社交事件的属性关键词集合。
用户偏好特征采用以下方式计算得到:
采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布ui表示第i个用户,ej表示第j个社交事件,然后采用以下公式计算用户偏好特征Pref(ui,ej):
Pref ( u i , e j ) = 1 - 1 2 ( D kl ( &theta; u i | | M ) + D kl ( &theta; e j | | M ) )
其中,分别是用户档案和事件档案下的话题分布,M是用户话题分布和社交事件话题分布的平均量;
上述的是M到的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; u i | | M ) = &Sigma; z &theta; u i ( z ) &CenterDot; log &theta; u i ( z ) M ( z )
其中,是用户档案的话题分布中第z个话题的权重,M(z)是平均量M中第z个话题的权重;
上述的是M到的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; e j | | M ) = &Sigma; z &theta; e j ( z ) &CenterDot; log &theta; e j ( z ) M ( z )
其中,是社交事件档案的话题分布中第z个话题的权重。
2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;
线上、线下社交影响特征采用以下方式进行计算:将用户偏好特征作为用户参加所对应事件的概率,对所对应事件进行评分计算,并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Infon(ui,ej)和线下社交影响特征Infoff(ui,ej):
Inf on ( u i , e j ) = &Sigma; v &Element; F i on w u i , v &CenterDot; Pref ( v , e j ) &Sigma; v &Element; F i on w u i , v
Inf off ( u i , e j ) = &Sigma; v &prime; &Element; F i off w u i , v &prime; &CenterDot; Pref ( v &prime; , e j ) &Sigma; v &prime; &Element; F i off w u i , v &prime;
其中,v、v′分别表示用户ui的一个线上朋友和一个线下朋友,线上朋友为参加同一个小组的用户,小组为具有相同兴趣爱好的用户组成的用户集合,线下朋友为参加同一个事件的用户,分别表示用户ui线上、线下的朋友集合,Pref(v,ej)、Pref(v′,ej)分别表示用户ui的线上朋友v和线下朋友v′对事件ej的用户偏好特征,表示用户ui与其线上朋友v的用户偏好特征,表示用户ui与其线下朋友v′的用户偏好特征。
为:
1 - 1 2 ( D kl ( &theta; u i | | M 1 ) + D kl ( &theta; v | | M 1 ) )
其中,θv是用户ui的线上朋友v档案的话题分布,M1是用户话题分布与其线上朋友v档案的话题分布θv的平均量;
上述的是M1的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; u i | | M 1 ) = &Sigma; z &theta; u i ( z ) &CenterDot; log &theta; u i ( z ) M 1 ( z )
其中,是用户档案的话题分布中第z个话题的权重,M1(z)是平均量M1中第z个话题的权重;
上述的Dklv||M1)是M1到θv的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; v | | M 1 ) = &Sigma; z &theta; v ( z ) &CenterDot; log &theta; v ( z ) M 1 ( z )
其中,θv(z)是线上朋友v档案的话题分布中第z个话题的权重。
为:
1 - 1 2 ( D kl ( &theta; u i | | M 2 ) + D kl ( &theta; v &prime; | | M 2 ) )
其中,θv'是用户ui的线下朋友v′档案的话题分布,M2是用户话题分布与其线下朋友v′档案的话题分布θv'的平均量;
上述的是M2的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; u i | | M 2 ) = &Sigma; z &theta; u i ( z ) &CenterDot; log &theta; u i ( z ) M 2 ( z )
其中,是用户档案的话题分布中第z个话题的权重,M2(z)是平均量M2中第z个话题的权重;
上述的Dklv'||M2)是M2到θv'的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; v &prime; | | M 2 ) = &Sigma; z &theta; v &prime; ( z ) &CenterDot; log &theta; v &prime; ( z ) M 2 ( z )
其中,θv'(z)是线下朋友v′档案的话题分布中第z个话题的权重。
3)根据用户所在地举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征。
本地流行度特征采用以下方式计算得到:
3.1)根据最大似然估计,用户ui所在城市的当地兴趣话题分布通过下式得到:
&theta; R i = &Sigma; e &prime; &Element; R i &theta; e &prime; &CenterDot; N e &prime; &Sigma; e &prime; &Element; R i N e &prime;
其中,Ri是在用户ui所在的城市,e'表示在城市Ri内举办的单个事件,Ne'是事件e'的参与人数,θe'为社交事件e'的话题分布;
3.2)然后比较当地兴趣话题分布和社交事件话题分布采用以下公式计算得到事件ej下的本地流行度特征Pop(Ri,ej):
Pop ( R i , e j ) = 1 - 1 2 ( D kl ( &theta; R i | | M 3 ) + D kl ( &theta; e j | | M 3 ) )
其中,M3是当地兴趣话题分布和社交事件档案的话题分布的平均量;
上述的是M3的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; R i | | M 3 ) = &Sigma; z &theta; R i ( z ) &CenterDot; log &theta; R i ( z ) M 3 ( z )
其中,是当地兴趣话题分布中第z个话题的权重,M3(z)是平均量M3中第z个话题的权重;
上述的是M3的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; e j | | M 3 ) = &theta; e j &Sigma; z &theta; e j ( z ) &CenterDot; log &theta; e j ( z ) M 3 ( z )
其中,是社交事件档案的话题分布中第z个话题的权重。
所述的用户ui所在的城市中社交事件的话题分布呈高斯分布。
4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度。
训练一个支持向量机模型,对特征向量对的次序进行分类,从而利用排序模型来进行排序:
4.1)对于同一个用户和同一个事件,利用步骤1)~3)得到的四个特征,组成一个特征向量x;由各个用户和各个事件相互之间构建得到各个用户-事件对,并以以下公式构建包括有同一用户下两个用户-事件对的训练实例,且该用户仅参加了两个用户-事件对所对应的两个事件中任意一事件;
( ( x i 1 , x i 2 ) , y i )
其中,分别表示同一个用户对应的两个用户-事件对,yi表示顺序标识;当该用户参加了用户-事件对中的事件,而未参加用户-事件对中的事件,则顺序标识yi为1;当该用户参加了用户-事件对中的事件,而未参加用户-事件对中的事件,则顺序标识yi为-1;i=1,...,m,i为训练实例的序数,m为训练实例总数;
4.2)将训练实例输入排序函数f(x)=<w,x>,x为特征向量,<·,·>代表内积操作,使用梯度下降方法最小化以下公式的损失函数,得到损失函数最小值时的权重向量w,该排序模型的损失函数L(w)为:
L ( w ) = &Sigma; i = 1 m 1 N u ( i ) [ 1 - y i < w , x i 1 - x i 2 > ] + + &lambda; | | w | | 2
其中,[·]+代表函数max(·,0),w是权重向量,λ为正则化参数,u(i)是第i个训练实例所对应的用户,Nu(i)是用户u(i)拥有的训练实例个数。
4.3)对于新的用户-事件对,采用上述步骤1)~3)计算得到四个特征,组成一个特征向量x,代入采用排序函数f(x)=<w,x>中得到用户事件相关度f(x)。

Claims (10)

1.一种基于内容环境增强的用户事件相关度计算方法,其特征在于,该方法的步骤如下:
1)由单个用户的描述信息和单个社交事件的描述信息分别组成文本形式的用户档案和社交事件档案,利用话题模型将用户档案和社交事件档案降低维度转化成话题分布;通过比较一个用户档案和一个社交事件档案的话题分布,计算得到该用户档案和该社交事件档案对应下的用户偏好特征;
2)将用户偏好特征作为用户参加所对应事件的概率,利用该概率对该事件进行计算,采用基于协同过滤方法分别提取线上、线下社交影响特征;
3)根据用户所在城市举办的所有事件,得到该城市的当地兴趣的话题分布,通过计算事件和当地兴趣的话题分布的相似度来得到事件对于用户的本地流行度特征;
4)由步骤1)~步骤3)中得到的各个特征通过训练学习排序模型,得到用户事件相关度。
2.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户档案包括用户的描述信息以及该用户已参加过的社交事件的描述信息。
3.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户的描述信息和社交事件的描述信息均为由关键词构成的集合,用户的描述信息为用户自己选择的兴趣关键词集合,社交事件的描述信息为社交事件的属性关键词集合。
4.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的步骤1)的用户偏好特征采用以下方式计算得到:
采用话题模型中的LDA方法将文本形式的用户档案和社交事件档案分别转化成用户话题分布和社交事件话题分布ui表示第i个用户,ej表示第j个社交事件,然后采用以下公式计算用户偏好特征Pref(ui,ej):
Pref ( u i , e j ) = 1 - 1 2 ( D kl ( &theta; u i | | M ) + D kl ( &theta; e j | | M ) )
其中,分别是用户档案和事件档案下的话题分布,M是用户话题分布和社交事件话题分布的平均量;
上述的是用户话题分布M到事件档案话题分布的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; u i | | M ) = &Sigma; z &theta; u i ( z ) &CenterDot; log &theta; u i ( z ) M ( z )
其中,是用户档案的话题分布中第z个话题的权重,M(z)是平均量M中第z个话题的权重;
上述的是用户话题分布M到社交事件话题分布的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; e j | | M ) = &Sigma; z &theta; e j ( z ) &CenterDot; log &theta; e j ( z ) M ( z )
其中,是社交事件档案的话题分布中第z个话题的权重。
5.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的步骤2)中的线上、线下社交影响特征采用以下方式进行计算:将用户偏好特征作为用户参加所对应事件的概率,对所对应事件进行评分计算,并基于协同过滤方法采用以下公式提取出描述社交影响的线上社交影响特征Infon(ui,ej)和线下社交影响特征Infoff(ui,ej):
Inf on ( u i , e j ) = &Sigma; v &Element; F i on w u i , v &CenterDot; Pref ( v , e j ) &Sigma; v &Element; F i on w u i , v
Inf off ( u i , e j ) = &Sigma; v &prime; &Element; F i off w u i , v &prime; &CenterDot; Pref ( v &prime; , e j ) &Sigma; v &prime; &Element; F i off w u i , v &prime;
其中,v、v′分别表示用户ui的一个线上朋友和一个线下朋友,线上朋友为参加同一个小组的用户,小组为具有相同兴趣爱好的用户组成的用户集合,线下朋友为参加同一个事件的用户,分别表示用户ui线上、线下的朋友集合,Pref(v,ej)、Pref(v′,ej)分别表示用户ui的线上朋友v和线下朋友v′对事件ej的用户偏好特征,表示用户ui与其线上朋友v的用户偏好特征,表示用户ui与其线下朋友v′的用户偏好特征。
6.根据权利要求5所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户ui与其线上朋友v的用户偏好特征采用以下公式进行计算:
w u i , v = 1 - 1 2 ( D kl ( &theta; u i | | M 1 ) + D kl ( &theta; v | | M 1 ) )
其中,θv是用户ui的线上朋友v档案的话题分布,M1是用户话题分布与其线上朋友v档案的话题分布θv的平均量;
上述的是M1的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; u i | | M 1 ) = &Sigma; z &theta; u i ( z ) &CenterDot; log &theta; u i ( z ) M 1 ( z )
其中,是用户档案的话题分布中第z个话题的权重,M1(z)是平均量M1中第z个话题的权重;
上述的Dklv||M1)是M1到θv的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; v | | M 1 ) = &Sigma; z &theta; v ( z ) &CenterDot; log &theta; v ( z ) M 1 ( z )
其中,θv(z)是线上朋友v档案的话题分布中第z个话题的权重。
7.根据权利要求5所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户ui与其线下朋友v′的用户偏好特征采用以下公式进行计算:
1 - 1 2 ( D kl ( &theta; u i | | M 2 ) + D kl ( &theta; v &prime; | | M 2 ) )
其中,θv'是用户ui的线下朋友v′档案的话题分布,M2是用户话题分布与其线下朋友v′档案的话题分布θv'的平均量;
上述的是M2的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; u i | | M 2 ) = &Sigma; z &theta; u i ( z ) &CenterDot; log &theta; u i ( z ) M 2 ( z )
其中,是用户档案的话题分布中第z个话题的权重,M2(z)是平均量M2中第z个话题的权重;
上述的Dklv'||M2)是M2到θv'的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; v &prime; | | M 2 ) = &Sigma; z &theta; v &prime; ( z ) &CenterDot; log &theta; v &prime; ( z ) M 2 ( z )
其中,θv'(z)是线下朋友v′档案的话题分布中第z个话题的权重。
8.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的步骤3)中的本地流行度特征采用以下方式计算得到:
3.1)根据最大似然估计,用户ui所在城市的当地兴趣话题分布通过下式得到:
&theta; R i = &Sigma; e &prime; &Element; R i &theta; e &prime; &CenterDot; N e &prime; &Sigma; e &prime; &Element; R i N e &prime;
其中,Ri是在用户ui所在的城市,e'表示在城市Ri内举办的单个事件,Ne'是事件e'的参与人数,θe'为社交事件e'的话题分布;
3.2)然后比较当地兴趣话题分布和社交事件话题分布采用以下公式计算得到事件ej下的本地流行度特征Pop(Ri,ej):
Pop ( R i , e j ) = 1 - 1 2 ( D kl ( &theta; R i | | M 3 ) + D kl ( &theta; e j | | M 3 ) )
其中,M3是当地兴趣话题分布和社交事件档案的话题分布的平均量;
上述的是M3的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; R i | | M 3 ) = &Sigma; z &theta; R i ( z ) &CenterDot; log &theta; R i ( z ) M 3 ( z )
其中,是当地兴趣话题分布中第z个话题的权重,M3(z)是平均量M3中第z个话题的权重;
上述的是M3的Kullback-Leibler散度,采用以下公式计算:
D kl ( &theta; e j | | M 3 ) = &theta; e j &Sigma; z &theta; e j ( z ) &CenterDot; log &theta; e j ( z ) M 3 ( z )
其中,是社交事件档案的话题分布中第z个话题的权重。
9.根据权利要求5所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的用户ui所在的城市中事件的当地兴趣话题和社交事件话题均呈高斯分布。
10.根据权利要求1所述的一种基于内容环境增强的用户事件相关度计算方法,其特征在于:所述的步骤4)具体采用以下排序模型进行训练:
4.1)对于同一个用户和同一个事件,利用步骤1)~3)得到的四个特征,组成一个特征向量x;由各个用户和各个事件相互之间构建得到各个用户-事件对,并以以下公式构建包括有同一用户下两个用户-事件对的训练实例,且该用户仅参加了两个用户-事件对所对应的两个事件中任意一事件;
( ( x i 1 , x i 2 ) , y i )
其中,分别表示同一个用户对应的两个用户-事件对,yi表示顺序标识;当该用户参加了用户-事件对中的事件,而未参加用户-事件对中的事件,则顺序标识yi为1;当该用户参加了用户-事件对中的事件,而未参加用户-事件对中的事件,则顺序标识yi为-1;i=1,...,m,i为训练实例的序数,m为训练实例总数;
4.2)将训练实例输入排序函数f(x)=<w,x>,x为特征向量,<·,·>代表内积操作,使用梯度下降方法最小化以下公式的损失函数,得到损失函数最小值时的权重向量w,该排序模型的损失函数L(w)为:
L ( w ) = &Sigma; i = 1 m 1 N u ( i ) [ 1 - y i < 2 , x i 1 - x i 2 > ] + + &lambda; | | w | | 2
其中,[·]+代表函数max(·,0),w是权重向量,λ为正则化参数,u(i)是第i个训练实例所对应的用户,Nu(i)是用户u(i)拥有的训练实例个数。
4.3)对于新的用户-事件对,采用上述步骤1)~3)计算得到四个特征,组成一个特征向量x,代入采用排序函数f(x)=<w,x>中得到用户事件相关度f(x)。
CN201410833448.1A 2014-12-29 2014-12-29 一种基于内容环境增强的用户事件相关度计算方法 Active CN104572915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410833448.1A CN104572915B (zh) 2014-12-29 2014-12-29 一种基于内容环境增强的用户事件相关度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410833448.1A CN104572915B (zh) 2014-12-29 2014-12-29 一种基于内容环境增强的用户事件相关度计算方法

Publications (2)

Publication Number Publication Date
CN104572915A true CN104572915A (zh) 2015-04-29
CN104572915B CN104572915B (zh) 2017-10-10

Family

ID=53088977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410833448.1A Active CN104572915B (zh) 2014-12-29 2014-12-29 一种基于内容环境增强的用户事件相关度计算方法

Country Status (1)

Country Link
CN (1) CN104572915B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168944A (zh) * 2017-04-13 2017-09-15 哈尔滨工程大学 一种lda并行优化方法
CN107463624A (zh) * 2017-07-06 2017-12-12 深圳市城市规划设计研究院有限公司 一种基于社交媒体数据进行城市兴趣域识别的方法及系统
CN107851231A (zh) * 2015-07-28 2018-03-27 微软技术许可有限责任公司 基于活动模型的活动检测
CN108133296A (zh) * 2018-01-17 2018-06-08 湖南大学 基于活动的社交网络下的一种结合环境数据的活动出席预测方法
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239518A1 (en) * 2006-03-29 2007-10-11 Chung Christina Y Model for generating user profiles in a behavioral targeting system
CN101158957A (zh) * 2007-10-23 2008-04-09 浙江大学 互联网热点主题相关性挖掘方法
CN101178720A (zh) * 2007-10-23 2008-05-14 浙江大学 一种面向互联网微内容的分布式聚类方法
CN103369407A (zh) * 2012-03-29 2013-10-23 索尼公司 从社交网络服务提取媒体内容

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239518A1 (en) * 2006-03-29 2007-10-11 Chung Christina Y Model for generating user profiles in a behavioral targeting system
CN101158957A (zh) * 2007-10-23 2008-04-09 浙江大学 互联网热点主题相关性挖掘方法
CN101178720A (zh) * 2007-10-23 2008-05-14 浙江大学 一种面向互联网微内容的分布式聚类方法
CN103369407A (zh) * 2012-03-29 2013-10-23 索尼公司 从社交网络服务提取媒体内容

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851231A (zh) * 2015-07-28 2018-03-27 微软技术许可有限责任公司 基于活动模型的活动检测
CN107168944A (zh) * 2017-04-13 2017-09-15 哈尔滨工程大学 一种lda并行优化方法
CN107463624A (zh) * 2017-07-06 2017-12-12 深圳市城市规划设计研究院有限公司 一种基于社交媒体数据进行城市兴趣域识别的方法及系统
CN108133296A (zh) * 2018-01-17 2018-06-08 湖南大学 基于活动的社交网络下的一种结合环境数据的活动出席预测方法
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法

Also Published As

Publication number Publication date
CN104572915B (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN103886054B (zh) 一种网络教学资源的个性化推荐系统和推荐方法
CN103150333B (zh) 微博媒体中的意见领袖识别方法
CN106802915A (zh) 一种基于用户行为的学术资源推荐方法
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN101354714B (zh) 一种基于概率潜在语义分析的问题推荐方法
CN103246670B (zh) 微博排序、搜索、展示方法和系统
CN104834686A (zh) 一种基于混合语义矩阵的视频推荐方法
CN104133897B (zh) 一种基于话题影响力的微博话题溯源方法
CN104484380A (zh) 个性化搜索方法及装置
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN104391883B (zh) 一种基于迁移学习的在线广告受众排序方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
CN105260390A (zh) 一种面向群组的基于联合概率矩阵分解的项目推荐方法
CN106897914A (zh) 一种基于主题模型的商品推荐方法及系统
CN103699521A (zh) 文本分析方法及装置
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN107577665B (zh) 文本情感倾向的判别方法
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant