CN111241415A - 一种融合多因素社交活动的推荐方法 - Google Patents

一种融合多因素社交活动的推荐方法 Download PDF

Info

Publication number
CN111241415A
CN111241415A CN201911384143.6A CN201911384143A CN111241415A CN 111241415 A CN111241415 A CN 111241415A CN 201911384143 A CN201911384143 A CN 201911384143A CN 111241415 A CN111241415 A CN 111241415A
Authority
CN
China
Prior art keywords
user
social
distribution
activity
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911384143.6A
Other languages
English (en)
Other versions
CN111241415B (zh
Inventor
陈艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Original Assignee
SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN UNIVERSITY OF ARTS AND SCIENCE filed Critical SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Priority to CN201911384143.6A priority Critical patent/CN111241415B/zh
Publication of CN111241415A publication Critical patent/CN111241415A/zh
Application granted granted Critical
Publication of CN111241415B publication Critical patent/CN111241415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种融合多因素社交活动的推荐方法,包括以下步骤:S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户u i 与其参加过的所有社交活动的主题分布,并用用户u i 的主题分布表征其兴趣度,S2、构建用户对召集者影响力概率模型;S3、构建用户因地理位置偏好的概率模型;S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,解决了现有的社交活动推荐方法缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法的问题。

Description

一种融合多因素社交活动的推荐方法
技术领域
本发明属于社交活动推荐方法技术领域,具体涉及一种融合多因素社交活动的推荐方法。
背景技术
随着互联网技术的飞速发展,社交媒体和电子商务等迅速发展,互联网数据呈指数级增长。人们不仅是数据的制造者也是数据的消费者,如何从庞大的数据中筛选用户感兴趣的信息成为学者们亟需解决的问题。对于用户而言,感兴趣信息的获取可通过搜索获得,也可借助推荐算法推荐得到。与搜索引擎相比,推荐算法不需要用户主动提供所需信息,而是根据少量信息构建用户兴趣模型,进而利用数据挖掘获得数据背后的信息。2006年DVD在线租赁商Netflix通过悬赏奖金的形式鼓励学者们完善个性化推荐算法,期间大量针对传统协同过滤推荐的改进算法被提出来。而协同过滤推荐过度依赖于“用户-项目”评分数据,当将其引入到社交兴趣推荐中后难以获得满意的推荐效果。
但是针对社交平台日益庞大的数据以及用户个性的多样化,缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法,单一的社交活动属性的个性化推荐算法难以有效获得高精度推荐结果,客户满意度较差。
发明内容
本发明所要解决的技术问题在于针对上述现有技术的不足,提供一种融合多因素社交活动的推荐方法,以解决上述背景技术中提出的现有的社交活动推荐方法缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法,单一的社交活动属性的个性化推荐算法难以有效获得高精度推荐结果,客户满意度较差的问题。
为解决上述技术问题,本发明采用的技术方案是:一种融合多因素社交活动的推荐方法,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
Figure BDA0002343079100000031
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、
Figure BDA0002343079100000032
为幂律分布函数的参数;
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率Pi,j u为下式:
Figure BDA0002343079100000033
式中:Ph i,j表示基于用户对活动aj的兴趣度影响,
Pl i,j表示基于活动举办地点影响,
Pe i,j表示基于召集者影响力,ɑ,β为权重因子。
作为优选的,在S1中,设在某社交活动内容的文件
Figure BDA0002343079100000034
中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件
Figure BDA0002343079100000035
中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件
Figure BDA0002343079100000036
中的每个文件生成文件与单词的概率分布
Figure BDA0002343079100000037
利用LDA多项式分布函数
Figure BDA0002343079100000038
对文件
Figure BDA0002343079100000039
中的第m单词生成主题分配
Figure BDA00023430791000000310
利用LDA多项式分布函数
Figure BDA00023430791000000311
对文件
Figure BDA00023430791000000312
中的第m单词生成
Figure BDA00023430791000000313
则用户文件
Figure BDA00023430791000000314
的似然函数为:
Figure BDA00023430791000000315
式中:δ、γ为LDA分布函数的参数,
Figure BDA0002343079100000041
Γ分别表示文件
Figure BDA0002343079100000042
中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
Figure BDA0002343079100000043
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
Figure BDA0002343079100000044
Figure BDA0002343079100000045
Figure BDA0002343079100000046
式中:
Figure BDA0002343079100000047
为计数,表示从文件或主题词中剔除第i项后的数量,
Figure BDA0002343079100000048
表示文件
Figure BDA0002343079100000049
中第Nk个主题词的统计数量,
Figure BDA00023430791000000410
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件
Figure BDA00023430791000000411
采用吉布斯采样来估计社交活动aj主题分布
Figure BDA00023430791000000412
为:
Figure BDA00023430791000000413
同时,设用户ui的文件为
Figure BDA0002343079100000051
社交活动aj的文件为
Figure BDA0002343079100000052
两者所对应的主题分布为
Figure BDA0002343079100000053
Figure BDA0002343079100000054
为了求取用户与社交社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
Figure BDA0002343079100000055
Figure BDA0002343079100000056
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
Figure BDA0002343079100000057
其中,JS(ui||aj)会随着
Figure BDA0002343079100000058
Figure BDA0002343079100000059
两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率
Figure BDA00023430791000000510
Figure BDA00023430791000000511
作为优选的,在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数
Figure BDA00023430791000000512
二是感兴趣的用户数
Figure BDA00023430791000000513
同时,设社交活动本身的影响力为
Figure BDA00023430791000000514
Figure BDA0002343079100000061
式中:λ(0≤λ≤1)为权重因子,
EA表示所有结束的社交活动集合,
Figure BDA0002343079100000062
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
Figure BDA0002343079100000063
则影响力矩阵C条件分布满足如下:
Figure BDA0002343079100000064
式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
Figure BDA0002343079100000065
Figure BDA0002343079100000066
对上进行取对数,后验分布可得:
Figure BDA0002343079100000071
式中:B表示隐式特征矩阵维度,Z为常量;
将上式最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
Figure BDA0002343079100000072
式中:
Figure BDA0002343079100000073
表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
Figure BDA0002343079100000074
Figure BDA0002343079100000075
再对用户与召集者间的影响力矩阵C中的缺失值可由下式进行估值:
Figure BDA0002343079100000076
最后可得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率
Figure BDA0002343079100000077
为:
Figure BDA0002343079100000081
作为优选的,在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
Figure BDA0002343079100000082
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、
Figure BDA0002343079100000083
为幂律分布函数的参数。
然后通过取对数来估算参数ν、
Figure BDA0002343079100000084
的值:
Figure BDA0002343079100000085
由于logν和
Figure BDA0002343079100000086
为线性系数,利用最小二乘法拟合方法来估计系数logν和
Figure BDA0002343079100000087
设用户ui参加过的所有社交活动的地理位置集合为
Figure BDA0002343079100000088
对地理位置集合
Figure BDA0002343079100000089
中的任意元素gi,用户ui在其位置参加社交活动的次数为
Figure BDA00023430791000000816
给定的社交活动aj,其地理位置为
Figure BDA00023430791000000810
那么用户ui参加社交活动aj的概率为:
Figure BDA00023430791000000811
式中:
Figure BDA00023430791000000812
表示地理位置
Figure BDA00023430791000000813
间的距离,
然后得到用户ui基于地理位置参加社交活动aj的概率
Figure BDA00023430791000000814
为:
Figure BDA00023430791000000815
本发明与现有技术相比具有以下优点:
本文发明用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好等三方面因素,采用不同权值配比综合形成最终的社交活动个性推荐模型,经过对比实验表明,本发明中的个性化社交活动推荐方法不论与三个单模块个性推荐模型还是与其他两个同类网络社交活动的推荐模型相比,其准确率和召回率都有提高,便于提高用户的满意度。
附图说明
图1为本发明中基于北京数据集测试LDA在不同的Nk下Precision@5;
图2为本发明中基于北京数据集测试LDA在不同的Nk下Recall@5;
图3为本发明中基于上海数据集测试LDA在不同的Nk下Precision@5;
图4为本发明中基于上海数据集测试LDA在不同的Nk下Recall@5;
图5为本发明中基于北京数据集测试在不同的维度B值下Precision@5;
图6为本发明中基于北京数据集测试在不同的维度B值下Recall@5;
图7为本发明中基于上海数据集测试在不同的维度B值下Precision@5;
图8为本发明中基于上海数据集测试在不同的维度B值下Recall@5。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种融合多因素社交活动的推荐方法,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
具体过程为设在某社交活动内容的文件
Figure BDA0002343079100000101
中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件
Figure BDA0002343079100000102
中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件
Figure BDA0002343079100000103
中的每个文件生成文件与单词的概率分布
Figure BDA0002343079100000111
利用LDA多项式分布函数
Figure BDA0002343079100000112
对文件
Figure BDA0002343079100000113
中的第m单词生成主题分配
Figure BDA0002343079100000114
利用LDA多项式分布函数
Figure BDA0002343079100000115
对文件
Figure BDA0002343079100000116
中的第m单词生成
Figure BDA0002343079100000117
则用户文件
Figure BDA0002343079100000118
的似然函数为:
Figure BDA0002343079100000119
式中:δ、γ为LDA分布函数的参数,
Figure BDA00023430791000001110
Γ分别表示文件
Figure BDA00023430791000001111
中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
Figure BDA00023430791000001112
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
Figure BDA00023430791000001113
Figure BDA00023430791000001114
Figure BDA00023430791000001115
式中:
Figure BDA0002343079100000121
为计数,表示从文件或主题词中剔除第i项后的数量,
Figure BDA0002343079100000122
表示文件
Figure BDA0002343079100000123
中第Nk个主题词的统计数量,
Figure BDA0002343079100000124
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件
Figure BDA0002343079100000125
采用吉布斯采样来估计社交活动aj主题分布
Figure BDA0002343079100000126
为:
Figure BDA0002343079100000127
同时,设用户ui的文件为
Figure BDA0002343079100000128
社交活动aj的文件为
Figure BDA0002343079100000129
两者所对应的主题分布为
Figure BDA00023430791000001210
Figure BDA00023430791000001211
为了求取用户与社交社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
Figure BDA00023430791000001212
Figure BDA00023430791000001213
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
Figure BDA00023430791000001214
其中,JS(ui||aj)会随着
Figure BDA00023430791000001215
Figure BDA00023430791000001216
两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率
Figure BDA00023430791000001217
Figure BDA0002343079100000131
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数
Figure BDA0002343079100000132
二是感兴趣的用户数
Figure BDA0002343079100000133
同时,设社交活动本身的影响力为
Figure BDA0002343079100000134
Figure BDA0002343079100000135
式中:λ(0≤λ≤1)为权重因子,
EA表示所有结束的社交活动集合,
Figure BDA0002343079100000136
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
Figure BDA0002343079100000137
则影响力矩阵C条件分布满足如下:
Figure BDA0002343079100000138
式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
Figure BDA0002343079100000141
Figure BDA0002343079100000142
对上进行取对数,后验分布可得:
Figure BDA0002343079100000143
式中:B表示隐式特征矩阵维度,Z为常量;
将上式最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
Figure BDA0002343079100000144
式中:
Figure BDA0002343079100000145
表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
Figure BDA0002343079100000151
Figure BDA0002343079100000152
再对用户与召集者间的影响力矩阵C中的缺失值可由下式进行估值:
Figure BDA0002343079100000153
最后可得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率
Figure BDA0002343079100000154
为:
Figure BDA0002343079100000155
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
Figure BDA0002343079100000156
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、
Figure BDA0002343079100000157
为幂律分布函数的参数;
在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
Figure BDA0002343079100000158
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、
Figure BDA0002343079100000159
为幂律分布函数的参数。
然后通过取对数来估算参数ν、
Figure BDA00023430791000001510
的值:
Figure BDA00023430791000001511
由于logν和
Figure BDA00023430791000001512
为线性系数,利用最小二乘法拟合方法来估计系数logν和
Figure BDA0002343079100000161
设用户ui参加过的所有社交活动的地理位置集合为
Figure BDA0002343079100000162
对地理位置集合
Figure BDA0002343079100000163
中的任意元素gi,用户ui在其位置参加社交活动的次数为
Figure BDA0002343079100000164
给定的社交活动aj,其地理位置为
Figure BDA0002343079100000165
那么用户ui参加社交活动aj的概率为:
Figure BDA0002343079100000166
式中:
Figure BDA0002343079100000167
表示地理位置
Figure BDA0002343079100000168
间的距离,
然后得到用户ui基于地理位置参加社交活动aj的概率
Figure BDA0002343079100000169
为:
Figure BDA00023430791000001610
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率Pi,j u为下式:
Figure BDA00023430791000001611
式中:Ph i,j表示基于用户对活动aj的兴趣度影响,
Pl i,j表示基于活动举办地点影响,
Pe i,j表示基于召集者影响力,ɑ,β为权重因子。
实验数据及结果对比:选取一线城市北京和上海作为社交活动举办地,社交数据采集豆瓣同城在2017年1月1日-2018年12月31日期间举办的所有社交活动,主要采集的信息为:用户信息(用户名、用户ID、用户的兴趣、用户参加过的所有社交活动、用户所在的位置等),社交活动信息(社交活动类别、社交活动的内容,社交活动召集者、社交活动举办地、社交活动ID等)。数据统计如下:
Figure BDA0002343079100000171
仿真实验将Top-N推荐算法推荐结果,采用Precision@N和Recall@N两个评价指标评估各算法推荐的性能:
Figure BDA0002343079100000172
Figure BDA0002343079100000173
式中:U表示用户集合,
Figure BDA0002343079100000174
分别表示利用各算法按照Top-N推荐给用户ui的社交活动以及用户ui在测试集中所参与的活动集合,|*|为计算集合大小,这里设置N=1,3,5,7,10,本文默认N=5。
在LDA文件主题模型、召集者影响力概率矩阵分解模型中需要对参数进行优化设置各模块参数设置如下:
实验采用自然语言处理框架Gensim实现LDA文件主题模型,在模型中设LDA分布函数参数γ=50/Nk,δ=0.01,为了获得隐含主题s的最佳个数Nk,利用豆瓣同城北京和上海数据集测试LDA在不同的Nk下Precision@5和Recall@5,具体如图1-4所示,可知在豆瓣同城北京数据集上,Precision@5和Recall@5随着隐含主题个数的增大而增大,在Nk≤70阶段,推荐准确度增加幅度较大,在70<Nk≤100阶段,推荐准确度增加幅度缓慢,当Nk=100时,Precision@5和Recall@5取得最高值;在豆瓣同城上海数据集上,在Nk≤70阶段,推荐准确度增加幅度波动增加,在70<Nk≤100阶段,推荐准确度反而缓慢降低。综合以上,在后续实验对比中,将豆瓣同城北京数据集的隐含主题个数设置为Nk=100,而将豆瓣同城上海数据集的隐含主题个数设置为Nk=70。
在基于影响力的概率矩阵分解模型中设λ=0.5,
Figure BDA0002343079100000181
为了确定隐式特征矩阵维度B,利用豆瓣同城北京和上海数据集测试在不同的维度B值下Precision@5和Recall@5,结果如图5-8所示,可知,在基于影响力的概率矩阵分解模型中,随着隐式特征矩阵维度B值的增大,Top-5推荐评价指标Precision@5和Recall@5波动变化。在豆瓣同城北京数据集上,随着维度B值的增大,推荐评价指标Precision@5和Recall@5值在振荡减小;在豆瓣同城上海数据集上,在10≤B≤80阶段,随着维度B值的增大,推荐评价指标Precision@5和Recall@5值在振荡增大,在80<B≤100阶段,随着维度B值的增大,推荐评价指标Precision@5和Recall@5值在逐渐减小,所有在维度B=80时,推荐评价指标Precision@5和Recall@5取最大值。综合以上,在后续实验对比中,将豆瓣同城北京数据集的隐式特征矩阵维度设置为B=10,而将豆瓣同城上海数据集隐式特征矩阵维度设置为B=80。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种融合多因素社交活动的推荐方法,其特征在于,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
Figure FDA0002343079090000011
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、
Figure FDA0002343079090000012
为幂律分布函数的参数;
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率Pi,j u为下式:
Figure FDA0002343079090000013
式中:Ph i,j表示基于用户对活动aj的兴趣度影响,
Pl i,j表示基于活动举办地点影响,
Pe i,j表示基于召集者影响力,ɑ,β为权重因子。
2.根据权利要求1所述的一种融合多因素社交活动的推荐方法,其特征在于,在S1中,设在某社交活动内容的文件
Figure FDA0002343079090000021
中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件
Figure FDA0002343079090000022
中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件
Figure FDA0002343079090000023
中的每个文件生成文件与单词的概率分布
Figure FDA0002343079090000024
利用LDA多项式分布函数
Figure FDA0002343079090000025
对文件
Figure FDA0002343079090000026
中的第m单词生成主题分配
Figure FDA0002343079090000027
利用LDA多项式分布函数
Figure FDA0002343079090000028
对文件
Figure FDA0002343079090000029
中的第m单词生成
Figure FDA00023430790900000210
则用户文件
Figure FDA00023430790900000211
的似然函数为:
Figure FDA00023430790900000212
式中:δ、γ为LDA分布函数的参数,
Figure FDA00023430790900000213
Γ分别表示文件
Figure FDA00023430790900000214
中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
Figure FDA00023430790900000215
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
Figure FDA0002343079090000031
Figure FDA0002343079090000032
Figure FDA0002343079090000033
式中:
Figure FDA0002343079090000034
为计数,表示从文件或主题词中剔除第i项后的数量,
Figure FDA0002343079090000035
表示文件
Figure FDA0002343079090000036
中第Nk个主题词的统计数量,
Figure FDA0002343079090000037
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件
Figure FDA0002343079090000038
采用吉布斯采样来估计社交活动aj主题分布
Figure FDA0002343079090000039
为:
Figure FDA00023430790900000310
同时,设用户ui的文件为
Figure FDA00023430790900000311
社交活动aj的文件为
Figure FDA00023430790900000312
两者所对应的主题分布为
Figure FDA00023430790900000313
Figure FDA00023430790900000314
为了求取用户与社交社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
Figure FDA00023430790900000315
Figure FDA00023430790900000316
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
Figure FDA0002343079090000041
其中,JS(ui||aj)会随着
Figure FDA0002343079090000042
Figure FDA0002343079090000043
两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率
Figure FDA0002343079090000044
Figure FDA0002343079090000045
3.根据权利要求1所述的一种融合多因素社交活动的推荐方法,其特征在于,在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数
Figure FDA0002343079090000046
二是感兴趣的用户数
Figure FDA0002343079090000047
同时,设社交活动本身的影响力为
Figure FDA0002343079090000048
Figure FDA0002343079090000049
式中:λ(0≤λ≤1)为权重因子,
EA表示所有结束的社交活动集合,
Figure FDA00023430790900000410
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
Figure FDA0002343079090000051
则影响力矩阵C条件分布满足如下:
Figure FDA0002343079090000052
式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
Figure FDA0002343079090000053
Figure FDA0002343079090000054
对上进行取对数,后验分布可得:
Figure FDA0002343079090000055
式中:B表示隐式特征矩阵维度,Z为常量;
将上式最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
Figure FDA0002343079090000061
Figure FDA0002343079090000062
式中:
Figure FDA0002343079090000063
表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
Figure FDA0002343079090000064
Figure FDA0002343079090000065
再对用户与召集者间的影响力矩阵C中的缺失值可由下式进行估值:
Figure FDA0002343079090000066
最后可得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率
Figure FDA0002343079090000067
为:
Figure FDA0002343079090000068
4.根据权利要求1所述的一种融合多因素社交活动的推荐方法,其特征在于,在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
Figure FDA0002343079090000069
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、
Figure FDA00023430790900000610
为幂律分布函数的参数。
然后通过取对数来估算参数ν、
Figure FDA00023430790900000611
的值:
Figure FDA0002343079090000071
由于logν和
Figure FDA0002343079090000072
为线性系数,利用最小二乘法拟合方法来估计系数logν和
Figure FDA0002343079090000073
设用户ui参加过的所有社交活动的地理位置集合为
Figure FDA0002343079090000074
对地理位置集合
Figure FDA0002343079090000075
中的任意元素gi,用户ui在其位置参加社交活动的次数为
Figure FDA0002343079090000076
给定的社交活动aj,其地理位置为
Figure FDA0002343079090000077
那么用户ui参加社交活动aj的概率为:
Figure FDA0002343079090000078
式中:
Figure FDA0002343079090000079
表示地理位置gi,
Figure FDA00023430790900000710
间的距离,
然后得到用户ui基于地理位置参加社交活动aj的概率
Figure FDA00023430790900000711
为:
Figure FDA00023430790900000712
CN201911384143.6A 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法 Active CN111241415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911384143.6A CN111241415B (zh) 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911384143.6A CN111241415B (zh) 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法

Publications (2)

Publication Number Publication Date
CN111241415A true CN111241415A (zh) 2020-06-05
CN111241415B CN111241415B (zh) 2023-07-21

Family

ID=70875836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911384143.6A Active CN111241415B (zh) 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法

Country Status (1)

Country Link
CN (1) CN111241415B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077235A (zh) * 2021-04-12 2021-07-06 上海明略人工智能(集团)有限公司 一种会议日程冲突管理方法、系统、电子设备及存储介质
CN114996487A (zh) * 2022-05-24 2022-09-02 北京达佳互联信息技术有限公司 媒体资源推荐方法、装置、电子设备以及存储介质
CN118485487A (zh) * 2024-04-19 2024-08-13 上海超越信息技术有限公司 一种基于社交软件的运营活动管理系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210246A1 (en) * 2002-08-19 2009-08-20 Choicestream, Inc. Statistical personalized recommendation system
CN103780650A (zh) * 2012-10-23 2014-05-07 中兴通讯股份有限公司 一种移动终端阅读与社交网络融合的方法和装置
CN106021311A (zh) * 2016-05-05 2016-10-12 北京邮电大学 网络社交活动推荐方法和装置
CN107256508A (zh) * 2017-05-27 2017-10-17 上海交通大学 基于时间场景的商品推荐系统及其方法
CN108460101A (zh) * 2018-02-05 2018-08-28 山东师范大学 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN108460619A (zh) * 2018-01-16 2018-08-28 杭州电子科技大学 一种融合显隐式反馈的协同推荐模型
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN109522491A (zh) * 2018-11-29 2019-03-26 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与系统
CN110163520A (zh) * 2019-05-29 2019-08-23 北京师范大学 基于规模理论的企业定量诊断方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210246A1 (en) * 2002-08-19 2009-08-20 Choicestream, Inc. Statistical personalized recommendation system
CN103780650A (zh) * 2012-10-23 2014-05-07 中兴通讯股份有限公司 一种移动终端阅读与社交网络融合的方法和装置
CN106021311A (zh) * 2016-05-05 2016-10-12 北京邮电大学 网络社交活动推荐方法和装置
CN107256508A (zh) * 2017-05-27 2017-10-17 上海交通大学 基于时间场景的商品推荐系统及其方法
CN108460619A (zh) * 2018-01-16 2018-08-28 杭州电子科技大学 一种融合显隐式反馈的协同推荐模型
CN108460101A (zh) * 2018-02-05 2018-08-28 山东师范大学 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN109522491A (zh) * 2018-11-29 2019-03-26 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与系统
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN110163520A (zh) * 2019-05-29 2019-08-23 北京师范大学 基于规模理论的企业定量诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALISTAIR J. EDWARDES: "Geographical perspectives on location for location based services", 《LOCWEB \'09: PROCEEDINGS OF THE 2ND INTERNATIONAL WORKSHOP ON LOCATION AND THE WEB》, pages 1 - 4 *
傅为 等: "基于会奖旅游的二线城市旅行社转型研究——以合肥市为例", 《城市学刊》, pages 76 - 81 *
陈艺: "一种融合多因素社交活动个性化推荐模型", 《计算机应用与软件》, pages 53 - 58 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077235A (zh) * 2021-04-12 2021-07-06 上海明略人工智能(集团)有限公司 一种会议日程冲突管理方法、系统、电子设备及存储介质
CN113077235B (zh) * 2021-04-12 2024-03-22 上海明略人工智能(集团)有限公司 一种会议日程冲突管理方法、系统、电子设备及存储介质
CN114996487A (zh) * 2022-05-24 2022-09-02 北京达佳互联信息技术有限公司 媒体资源推荐方法、装置、电子设备以及存储介质
CN114996487B (zh) * 2022-05-24 2023-04-07 北京达佳互联信息技术有限公司 媒体资源推荐方法、装置、电子设备以及存储介质
CN118485487A (zh) * 2024-04-19 2024-08-13 上海超越信息技术有限公司 一种基于社交软件的运营活动管理系统

Also Published As

Publication number Publication date
CN111241415B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
Bai et al. Predicting big five personality traits of microblog users
US10565213B2 (en) Methods and systems for identifying similar schools
Li et al. Vertical, horizontal and residual skills mismatch in the Australian graduate labour market
CN102332006B (zh) 一种信息推送控制方法及装置
CN111241415A (zh) 一种融合多因素社交活动的推荐方法
Amancio et al. Comparing intermittency and network measurements of words and their dependence on authorship
Mi et al. Probabilistic graphical models for boosting cardinal and ordinal peer grading in MOOCs
CN111061962A (zh) 一种基于用户评分分析的推荐方法
Danhier How big is the handicap for disadvantaged pupils in segregated schooling systems?
CN105138624A (zh) 一种基于在线课程用户数据的个性化推荐方法
CN103353880B (zh) 一种利用相异度聚类和关联的数据挖掘方法
Bernini et al. Happiness in Italian cities
US20140019389A1 (en) Method, Software, and System for Making a Decision
CN106708938A (zh) 用于辅助推荐的方法及装置
Ida A quasi-hyperbolic discounting approach to smoking behavior
Hu et al. Methods for ranking college sports coaches based on data envelopment analysis and PageRank
Permatasari et al. Entrepreneurial behaviour among undergraduate business, social and engineering students: a case study of a private Indonesian university
Tareaf et al. Personality exploration system for online social networks: Facebook brands as a use case
Burhanudddin et al. Determinants of citizen’s intention to use online e-government services: A validation of Umega model
Forlines et al. Crowdsourcing the future: predictions made with a social network
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
US20190050917A1 (en) System and method for rating of enterprise using crowdsourcing in combination with weighted evaluator ratings
Yu Revisiting unemployment levels and trends in South Africa since the transition
Kustiyahningsih et al. Decision support system for mapping SMEs batik Bangkalan facing industry 4.0 using SMART method
Fernández et al. Statistical considerations for crowdsourced perceptual ratings of human speech productions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant