CN111241415B - 一种融合多因素社交活动的推荐方法 - Google Patents

一种融合多因素社交活动的推荐方法 Download PDF

Info

Publication number
CN111241415B
CN111241415B CN201911384143.6A CN201911384143A CN111241415B CN 111241415 B CN111241415 B CN 111241415B CN 201911384143 A CN201911384143 A CN 201911384143A CN 111241415 B CN111241415 B CN 111241415B
Authority
CN
China
Prior art keywords
user
distribution
probability
social activity
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911384143.6A
Other languages
English (en)
Other versions
CN111241415A (zh
Inventor
陈艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Original Assignee
SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SICHUAN UNIVERSITY OF ARTS AND SCIENCE filed Critical SICHUAN UNIVERSITY OF ARTS AND SCIENCE
Priority to CN201911384143.6A priority Critical patent/CN111241415B/zh
Publication of CN111241415A publication Critical patent/CN111241415A/zh
Application granted granted Critical
Publication of CN111241415B publication Critical patent/CN111241415B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种融合多因素社交活动的推荐方法,包括以下步骤:S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户u i 与其参加过的所有社交活动的主题分布,并用用户u i 的主题分布表征其兴趣度,S2、构建用户对召集者影响力概率模型;S3、构建用户因地理位置偏好的概率模型;S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,解决了现有的社交活动推荐方法缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法的问题。

Description

一种融合多因素社交活动的推荐方法
技术领域
本发明属于社交活动推荐方法技术领域,具体涉及一种融合多因素社交活动的推荐方法。
背景技术
随着互联网技术的飞速发展,社交媒体和电子商务等迅速发展,互联网数据呈指数级增长。人们不仅是数据的制造者也是数据的消费者,如何从庞大的数据中筛选用户感兴趣的信息成为学者们亟需解决的问题。对于用户而言,感兴趣信息的获取可通过搜索获得,也可借助推荐算法推荐得到。与搜索引擎相比,推荐算法不需要用户主动提供所需信息,而是根据少量信息构建用户兴趣模型,进而利用数据挖掘获得数据背后的信息。2006年DVD在线租赁商Netflix通过悬赏奖金的形式鼓励学者们完善个性化推荐算法,期间大量针对传统协同过滤推荐的改进算法被提出来。而协同过滤推荐过度依赖于“用户-项目”评分数据,当将其引入到社交兴趣推荐中后难以获得满意的推荐效果。
但是针对社交平台日益庞大的数据以及用户个性的多样化,缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法,单一的社交活动属性的个性化推荐算法难以有效获得高精度推荐结果,客户满意度较差。
发明内容
本发明所要解决的技术问题在于针对上述现有技术的不足,提供一种融合多因素社交活动的推荐方法,以解决上述背景技术中提出的现有的社交活动推荐方法缺少有效的将用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好的三方面因素进行综合而形成个性化推荐方法,单一的社交活动属性的个性化推荐算法难以有效获得高精度推荐结果,客户满意度较差的问题。
为解决上述技术问题,本发明采用的技术方案是:一种融合多因素社交活动的推荐方法,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、为幂律分布函数的参数;
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率Pi,j u为下式:
式中:Ph i,j表示基于用户对活动aj的兴趣度影响,
Pl i,j表示基于活动举办地点影响,
Pe i,j表示基于召集者影响力,ɑ,β为权重因子。
作为优选的,在S1中,设在某社交活动内容的文件中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件中的每个文件生成文件与单词的概率分布/>利用LDA多项式分布函数对文件/>中的第m单词生成主题分配/>利用LDA多项式分布函数对文件/>中的第m单词生成/>
则用户文件的似然函数为:
式中:δ、γ为LDA分布函数的参数,
Γ分别表示文件/>中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
式中:为计数,表示从文件或主题词中剔除第i项后的数量,
表示文件/>中第Nk个主题词的统计数量,
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件采用吉布斯采样来估计社交活动aj主题分布/>为:
同时,设用户ui的文件为社交活动aj的文件为/>两者所对应的主题分布为/>和/>为了求取用户与社交社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
其中,JS(ui||aj)会随着和/>两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率
作为优选的,在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数二是感兴趣的用户数/>同时,设社交活动本身的影响力为/>
式中:λ(0≤λ≤1)为权重因子,
EA表示所有结束的社交活动集合,
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
则影响力矩阵C条件分布满足如下:
式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
对上进行取对数,后验分布可得:
式中:B表示隐式特征矩阵维度,Z为常量;
将上式最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
式中:表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
再对用户与召集者间的影响力矩阵C中的缺失值可由下式进行估值:
最后可得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率为:
作为优选的,在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、为幂律分布函数的参数。
然后通过取对数来估算参数ν、的值:
由于logν和为线性系数,利用最小二乘法拟合方法来估计系数logν和/>
设用户ui参加过的所有社交活动的地理位置集合为对地理位置集合/>中的任意元素gi,用户ui在其位置参加社交活动的次数为/>给定的社交活动aj,其地理位置为/>那么用户ui参加社交活动aj的概率为:
式中:表示地理位置/>间的距离,
然后得到用户ui基于地理位置参加社交活动aj的概率为:
本发明与现有技术相比具有以下优点:
本文发明用户对活动兴趣度、活动召集者影响力以及活动举办地点偏好等三方面因素,采用不同权值配比综合形成最终的社交活动个性推荐模型,经过对比实验表明,本发明中的个性化社交活动推荐方法不论与三个单模块个性推荐模型还是与其他两个同类网络社交活动的推荐模型相比,其准确率和召回率都有提高,便于提高用户的满意度。
附图说明
图1为本发明中基于北京数据集测试LDA在不同的Nk下Precision@5;
图2为本发明中基于北京数据集测试LDA在不同的Nk下Recall@5;
图3为本发明中基于上海数据集测试LDA在不同的Nk下Precision@5;
图4为本发明中基于上海数据集测试LDA在不同的Nk下Recall@5;
图5为本发明中基于北京数据集测试在不同的维度B值下Precision@5;
图6为本发明中基于北京数据集测试在不同的维度B值下Recall@5;
图7为本发明中基于上海数据集测试在不同的维度B值下Precision@5;
图8为本发明中基于上海数据集测试在不同的维度B值下Recall@5。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种融合多因素社交活动的推荐方法,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
具体过程为设在某社交活动内容的文件中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件中的每个文件生成文件与单词的概率分布/>利用LDA多项式分布函数/>对文件/>中的第m单词生成主题分配/>利用LDA多项式分布函数/>对文件/>中的第m单词生成/>
则用户文件的似然函数为:
式中:δ、γ为LDA分布函数的参数,
Γ分别表示文件/>中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
式中:为计数,表示从文件或主题词中剔除第i项后的数量,
表示文件/>中第Nk个主题词的统计数量,
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件采用吉布斯采样来估计社交活动aj主题分布/>为:
同时,设用户ui的文件为社交活动aj的文件为/>两者所对应的主题分布为/>和/>为了求取用户与社交社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
其中,JS(ui||aj)会随着和/>两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数二是感兴趣的用户数/>同时,设社交活动本身的影响力为/>
式中:λ(0≤λ≤1)为权重因子,
EA表示所有结束的社交活动集合,
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
则影响力矩阵C条件分布满足如下:
式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
对上进行取对数,后验分布可得:
式中:B表示隐式特征矩阵维度,Z为常量;
将上式最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
式中:表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
再对用户与召集者间的影响力矩阵C中的缺失值可由下式进行估值:
最后可得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率为:
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、为幂律分布函数的参数;
在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、为幂律分布函数的参数。
然后通过取对数来估算参数ν、的值:
由于logν和为线性系数,利用最小二乘法拟合方法来估计系数logν和/>
设用户ui参加过的所有社交活动的地理位置集合为对地理位置集合/>中的任意元素gi,用户ui在其位置参加社交活动的次数为/>给定的社交活动aj,其地理位置为/>那么用户ui参加社交活动aj的概率为:
式中:表示地理位置/>间的距离,
然后得到用户ui基于地理位置参加社交活动aj的概率为:
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率Pi,j u为下式:
式中:Ph i,j表示基于用户对活动aj的兴趣度影响,
Pl i,j表示基于活动举办地点影响,
Pe i,j表示基于召集者影响力,ɑ,β为权重因子。
实验数据及结果对比:选取一线城市北京和上海作为社交活动举办地,社交数据采集豆瓣同城在2017年1月1日-2018年12月31日期间举办的所有社交活动,主要采集的信息为:用户信息(用户名、用户ID、用户的兴趣、用户参加过的所有社交活动、用户所在的位置等),社交活动信息(社交活动类别、社交活动的内容,社交活动召集者、社交活动举办地、社交活动ID等)。数据统计如下:
仿真实验将Top-N推荐算法推荐结果,采用Precision@N和Recall@N两个评价指标评估各算法推荐的性能:
式中:U表示用户集合,分别表示利用各算法按照Top-N推荐给用户ui的社交活动以及用户ui在测试集中所参与的活动集合,|*|为计算集合大小,这里设置N=1,3,5,7,10,本文默认N=5。
在LDA文件主题模型、召集者影响力概率矩阵分解模型中需要对参数进行优化设置各模块参数设置如下:
实验采用自然语言处理框架Gensim实现LDA文件主题模型,在模型中设LDA分布函数参数γ=50/Nk,δ=0.01,为了获得隐含主题s的最佳个数Nk,利用豆瓣同城北京和上海数据集测试LDA在不同的Nk下Precision@5和Recall@5,具体如图1-4所示,可知在豆瓣同城北京数据集上,Precision@5和Recall@5随着隐含主题个数的增大而增大,在Nk≤70阶段,推荐准确度增加幅度较大,在70<Nk≤100阶段,推荐准确度增加幅度缓慢,当Nk=100时,Precision@5和Recall@5取得最高值;在豆瓣同城上海数据集上,在Nk≤70阶段,推荐准确度增加幅度波动增加,在70<Nk≤100阶段,推荐准确度反而缓慢降低。综合以上,在后续实验对比中,将豆瓣同城北京数据集的隐含主题个数设置为Nk=100,而将豆瓣同城上海数据集的隐含主题个数设置为Nk=70。
在基于影响力的概率矩阵分解模型中设λ=0.5,为了确定隐式特征矩阵维度B,利用豆瓣同城北京和上海数据集测试在不同的维度B值下Precision@5和Recall@5,结果如图5-8所示,可知,在基于影响力的概率矩阵分解模型中,随着隐式特征矩阵维度B值的增大,Top-5推荐评价指标Precision@5和Recall@5波动变化。在豆瓣同城北京数据集上,随着维度B值的增大,推荐评价指标Precision@5和Recall@5值在振荡减小;在豆瓣同城上海数据集上,在10≤B≤80阶段,随着维度B值的增大,推荐评价指标Precision@5和Recall@5值在振荡增大,在80<B≤100阶段,随着维度B值的增大,推荐评价指标Precision@5和Recall@5值在逐渐减小,所有在维度B=80时,推荐评价指标Precision@5和Recall@5取最大值。综合以上,在后续实验对比中,将豆瓣同城北京数据集的隐式特征矩阵维度设置为B=10,而将豆瓣同城上海数据集隐式特征矩阵维度设置为B=80。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种融合多因素社交活动的推荐方法,其特征在于,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、为幂律分布函数的参数;
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率为下式:
式中:表示基于用户对新建社交活动aj的兴趣度影响的概率,
表示基于地理位置参加新建社交活动aj的概率,
表示基于召集者影响力参加新建社交活动aj的概率,ɑ,β为权重因子;
在S1中,设在某社交活动内容的文件中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件/>中的每个文件生成文件与单词的概率分布/>利用LDA多项式分布函数/>对文件中的第m单词生成主题分配/>利用LDA多项式分布函数/>对文件中的第m单词生成/>
则用户文件的似然函数为:
式中:δ、γ为LDA分布函数的参数,
Γ分别表示文件/>中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
式中:为计数,表示从文件或主题词中剔除第i项后的数量,
表示文件/>中第Nk个主题词的统计数量,
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件采用吉布斯采样来估计社交活动aj主题分布/>为:
同时,设用户ui的文件为社交活动aj的文件为/>两者所对应的主题分布为和/>为了求取用户与社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
其中,JS(ui||aj)会随着和/>两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率
在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数二是感兴趣的用户数同时,设社交活动本身的影响力为/>
式中:λ为权重因子,0≤λ≤1;
EA表示所有结束的社交活动集合,
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
则影响力矩阵C条件分布满足如下:
式中:N(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
对上式进行取对数,后验分布得到:
式中:B表示隐式特征矩阵维度,Z为常量;
利用豆瓣同城数据集测试在不同的隐式特征矩阵维度B值下Precision@5和Recall@5的值的方法,确定所述隐式特征矩阵维度B的值;
在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、为幂律分布函数的参数,
然后通过取对数来估算参数ν、的值:
由于logν和为线性系数,利用最小二乘法拟合方法来估计系数logν和/>
设用户ui参加过的所有社交活动的地理位置集合为对地理位置集合/>中的任意元素gi,用户ui在其位置参加社交活动的次数为/>给定的社交活动aj,其地理位置为那么用户ui参加社交活动aj的概率为:
式中:表示地理位置gi,/>间的距离,
然后得到用户ui基于地理位置参加新建社交活动aj的概率为:
2.根据权利要求1所述的一种融合多因素社交活动的推荐方法,其特征在于,将所述后验分布得到的公式进行最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
式中:表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
再对用户与召集者间的影响力矩阵C中的缺失值由下式进行估值:
最后得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率为:
CN201911384143.6A 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法 Active CN111241415B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911384143.6A CN111241415B (zh) 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911384143.6A CN111241415B (zh) 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法

Publications (2)

Publication Number Publication Date
CN111241415A CN111241415A (zh) 2020-06-05
CN111241415B true CN111241415B (zh) 2023-07-21

Family

ID=70875836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911384143.6A Active CN111241415B (zh) 2019-12-28 2019-12-28 一种融合多因素社交活动的推荐方法

Country Status (1)

Country Link
CN (1) CN111241415B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077235B (zh) * 2021-04-12 2024-03-22 上海明略人工智能(集团)有限公司 一种会议日程冲突管理方法、系统、电子设备及存储介质
CN114996487B (zh) * 2022-05-24 2023-04-07 北京达佳互联信息技术有限公司 媒体资源推荐方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103780650A (zh) * 2012-10-23 2014-05-07 中兴通讯股份有限公司 一种移动终端阅读与社交网络融合的方法和装置
CN107256508A (zh) * 2017-05-27 2017-10-17 上海交通大学 基于时间场景的商品推荐系统及其方法
CN108460101A (zh) * 2018-02-05 2018-08-28 山东师范大学 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN108460619A (zh) * 2018-01-16 2018-08-28 杭州电子科技大学 一种融合显隐式反馈的协同推荐模型
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法
CN109522491A (zh) * 2018-11-29 2019-03-26 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210246A1 (en) * 2002-08-19 2009-08-20 Choicestream, Inc. Statistical personalized recommendation system
CN106021311A (zh) * 2016-05-05 2016-10-12 北京邮电大学 网络社交活动推荐方法和装置
CN110163520A (zh) * 2019-05-29 2019-08-23 北京师范大学 基于规模理论的企业定量诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103780650A (zh) * 2012-10-23 2014-05-07 中兴通讯股份有限公司 一种移动终端阅读与社交网络融合的方法和装置
CN107256508A (zh) * 2017-05-27 2017-10-17 上海交通大学 基于时间场景的商品推荐系统及其方法
CN108460619A (zh) * 2018-01-16 2018-08-28 杭州电子科技大学 一种融合显隐式反馈的协同推荐模型
CN108460101A (zh) * 2018-02-05 2018-08-28 山东师范大学 面向位置社交网络基于地理位置正则化的兴趣点推荐方法
CN109522491A (zh) * 2018-11-29 2019-03-26 杭州飞弛网络科技有限公司 一种基于位置属性的陌生人社交活动推荐方法与系统
CN109460520A (zh) * 2019-01-21 2019-03-12 宿州学院 基于地理-社会关系与深隐式兴趣挖掘的兴趣点推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Alistair J. Edwardes.Geographical perspectives on location for location based services.《LOCWEB '09: Proceedings of the 2nd International Workshop on Location and the Web》.2009,1-4. *
一种融合多因素社交活动个性化推荐模型;陈艺;《计算机应用与软件》;53-58+115 *
基于会奖旅游的二线城市旅行社转型研究——以合肥市为例;傅为 等;《城市学刊》;76-81 *

Also Published As

Publication number Publication date
CN111241415A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN109299380B (zh) 在线教育平台中基于多维特征的习题个性化推荐方法
CN104778173B (zh) 目标用户确定方法、装置及设备
CN106960044B (zh) 一种基于张量分解及加权hits的时间感知个性化poi推荐方法
CN105426514B (zh) 个性化的移动应用app推荐方法
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN110347814B (zh) 一种律师精准推荐方法及系统
CN105630946B (zh) 一种基于大数据的领域交叉推荐方法及装置
CN111428127B (zh) 融合主题匹配与双向偏好的个性化事件推荐方法及系统
CN111061962A (zh) 一种基于用户评分分析的推荐方法
CN111241415B (zh) 一种融合多因素社交活动的推荐方法
CN104978396A (zh) 一种基于知识库的问答题目生成方法和装置
WO2013107345A1 (zh) 一种处理用户提问的方法和系统
CN106326351A (zh) 一种基于用户反馈的推荐系统冷启动解决方法
CN106708938A (zh) 用于辅助推荐的方法及装置
CN105718582A (zh) 一种E-learning平台下学习资源个性化推荐系统及方法
CN110472115B (zh) 一种基于深度学习的社交网络文本情感细粒度分类方法
CN104537552A (zh) 通过计算机实现的信息推荐方法及装置
CN109991368A (zh) 基于电子舌的酱油滋味评价方法、装置、介质和计算设备
CN112418695A (zh) 面向烟草领域科研人员的多维度画像构建方法及推荐方法
CN111475739A (zh) 一种基于元路径的异质社交网络用户锚链接识别方法
CN111428152A (zh) 一种科研人员相似社区的构建方法及装置
CN111144831A (zh) 一种适用于人员招聘的人选精准甄别系统及其甄别方法
CN115439139A (zh) 一种基于电商大数据的用户兴趣分析方法
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN110377841B (zh) 一种应用在协同过滤方法中的相似度计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant