CN109902169B - 基于电影字幕信息提升电影推荐系统性能的方法 - Google Patents

基于电影字幕信息提升电影推荐系统性能的方法 Download PDF

Info

Publication number
CN109902169B
CN109902169B CN201910076649.4A CN201910076649A CN109902169B CN 109902169 B CN109902169 B CN 109902169B CN 201910076649 A CN201910076649 A CN 201910076649A CN 109902169 B CN109902169 B CN 109902169B
Authority
CN
China
Prior art keywords
movie
matrix
subtitle
user
film
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910076649.4A
Other languages
English (en)
Other versions
CN109902169A (zh
Inventor
李璐璞
于海阳
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910076649.4A priority Critical patent/CN109902169B/zh
Publication of CN109902169A publication Critical patent/CN109902169A/zh
Application granted granted Critical
Publication of CN109902169B publication Critical patent/CN109902169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Silver Salt Photography Or Processing Solution Therefor (AREA)

Abstract

本发明公开了基于电影字幕信息提升电影推荐系统性能的方法,该方法的步骤如下:步骤(1)获取电影推荐数据集MovieLens‑Latest;步骤(2)建立字幕数据集;步骤(3)字幕主题提取;步骤(4)推荐模型训练;步骤(5)电影评分预测本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐系统性能相比于原来的推荐系统性能提升明显。

Description

基于电影字幕信息提升电影推荐系统性能的方法
技术领域
本发明涉及一种基于矩阵分解的新型电影推荐方法,属于互联网推荐系统技术领域。
背景技术
个性化推荐系统作为数据挖掘的应用之一,在购物网站、新闻、电影音乐等领域被广泛的应用,是解决信息过载、增加用户忠诚度的有效解决办法之一。由于电影推荐的历史数据集较为完善,标签明确,实验结果好量化,一直是研究和改进推荐系统常用的数据集。
典型的电影评分数据集(如图1所示),每个数字代表用户对相应的电影打分,一般是1到5分制。由于电影数据是矩阵的形式,常用的方法就是矩阵分解比如SVD算法,将高维矩阵分解为两个低维矩阵,这样当使用两个低维矩阵相乘还原高维矩阵的时候,就会对空缺部位进行填充,达到了一个预测评分的目的(如图2所示)。推荐系统性能主要受限于评分矩阵的稀疏性以及冷启动问题。
发明内容
本发明的目的在于提出了一种基于电影字幕信息来提升电影推荐系统性能的方法,本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐系统性能相比于原来的推荐系统性能提升明显。
为实现上述目的,本发明采用的技术方案为基于电影字幕信息提升电影推荐系统性能的方法,如图3所示,该方法的实现步骤如下:
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理。
步骤(2)建立字幕数据集
依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对。
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布,算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η。
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z。
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd
步骤(4)推荐模型训练
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息,因此对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为:
Figure BDA0001959061210000021
该Bias-SVD模型将用户u对电影i的评分ru,i看作是由全部电影的平均评分u、用户偏执项bu、物品偏置项bi和矩阵分解项
Figure BDA0001959061210000022
相加而得,其中u和i分别代表用户和电影的序号,T表示矩阵的转置操作,矩阵分解项可以用图2表示。如果R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就通过
Figure BDA0001959061210000023
来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
Figure BDA0001959061210000024
步骤(4.2)推荐模型训练
优化目标函数为:
Figure BDA0001959061210000025
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有用户偏置项bu、电影偏置项bi、用户向量pu和电影向量qi,←代表迭代更新,迭代过程如下:
Figure BDA0001959061210000026
Figure BDA0001959061210000027
Figure BDA0001959061210000028
Figure BDA0001959061210000031
步骤(5)电影评分预测
使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主体分本topici,然后就可以使用评分预测公式预测用户对该电影的评分了。
附图说明
图1为评分矩阵示例图。
图2为矩阵分解示例图。
图3为电影推荐系统框架图。
图4为实验结果性能对照图。
具体实施方式
本方法采用的技术方案为基于电影字幕信息提升电影推荐系统性能的方法,该方法的实现过程如下:
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理。
步骤(2)建立字幕数据集
依托movielens-Latest数据集建立电影字幕数据集,在开源的openSubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对。
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布,算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η。
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z。
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd
步骤(4)推荐模型训练
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息,因此可以对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为:
Figure BDA0001959061210000041
该模型将用户u对电影i的评分rui看作是由全部电影的平均评分u、用户偏执项bu、物品偏置项bi和矩阵分解项
Figure BDA0001959061210000042
相加而得。其中矩阵分解项可以用图4表示:
R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解可以将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就可以通过
Figure BDA0001959061210000043
来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
Figure BDA0001959061210000044
步骤(4.2)推荐模型训练
优化目标函数为:
Figure BDA0001959061210000045
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有bu、bi、pu和qi,迭代过程如下:
Figure BDA0001959061210000046
Figure BDA0001959061210000047
Figure BDA0001959061210000048
Figure BDA0001959061210000049
步骤(5)电影评分预测性能分析
实验结果部分,选用均方根差作为性能评价指标,结果越小说明标准误差越小,预测精确度也就越高。可以从实验结果(如图4所示)看出,融入了字幕信息的推荐模型,相比于只用了评分信息的模型,误差有了降低,说明了字幕信息对电影推荐系统改善的有效性。并且当随着特征数量的增加,LDA主题模型训练的收敛效果更好,对电影主题分布的表达也更加准确,对电影推荐性能的提升也更大。

Claims (2)

1.基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:该方法的时间步骤如下,
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理;
步骤(2)建立字幕数据集
依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对;
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布;
步骤(4)推荐模型训练
步骤(5)电影评分预测
使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主题分布topici,然后就使用评分预测公式预测用户对该电影的评分了;
步骤(4)的实施过程如下,
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展;字幕信息属于和电影高度相关的信息,因此对电影相关的偏置项进行扩展;扩展前的Bias-SVD模型为:
Figure FDA0002893070470000011
该Bias-SVD模型将用户u对电影i的评分ru,i看作是由全部电影的平均评分、用户偏执项bu、电影偏置项bi和矩阵分解项
Figure FDA0002893070470000012
相加而得,T表示矩阵的转置操作;如果R代表电影评分矩阵,由m个用户和n个电影组成,通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵;k远远小于m和n;通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就通过
Figure FDA0002893070470000013
来得出;将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
Figure FDA0002893070470000014
步骤(4.2)推荐模型训练
优化目标函数为:
Figure FDA0002893070470000021
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有用户偏置项bu、电影偏置项bi、用户向量pu和电影向量qi,←代表迭代更新,迭代过程如下:
Figure FDA0002893070470000022
Figure FDA0002893070470000023
Figure FDA0002893070470000024
Figure FDA0002893070470000025
a表示学习速率,r表示用户对电影的真实的评分。
2.根据权利要求1所述的基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:字幕主题提取的算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η;
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号;
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛;
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd
CN201910076649.4A 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐系统性能的方法 Active CN109902169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910076649.4A CN109902169B (zh) 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐系统性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910076649.4A CN109902169B (zh) 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐系统性能的方法

Publications (2)

Publication Number Publication Date
CN109902169A CN109902169A (zh) 2019-06-18
CN109902169B true CN109902169B (zh) 2021-03-30

Family

ID=66944331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910076649.4A Active CN109902169B (zh) 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐系统性能的方法

Country Status (1)

Country Link
CN (1) CN109902169B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401458B (zh) * 2023-04-17 2024-01-09 南京工业大学 基于Lorenz混沌自适应的推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN106469170A (zh) * 2015-08-18 2017-03-01 阿里巴巴集团控股有限公司 文本数据的处理方法和装置
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US10977322B2 (en) * 2015-11-09 2021-04-13 WP Company, LLC Systems and methods for recommending temporally relevant news content using implicit feedback data
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469170A (zh) * 2015-08-18 2017-03-01 阿里巴巴集团控股有限公司 文本数据的处理方法和装置
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Content Representation and Similarity of Movies based on Topic Extraction from Subtitles";Konstantinos Bougiatiotis等;《SETN "16: Proceedings of the 9th Hellenic Conference on Artificial Intelligence》;20160531;第1-7页 *

Also Published As

Publication number Publication date
CN109902169A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
Okura et al. Embedding-based news recommendation for millions of users
US11544474B2 (en) Generation of text from structured data
Luo et al. Online learning of interpretable word embeddings
CN107357793B (zh) 信息推荐方法和装置
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
US20140229158A1 (en) Feature-Augmented Neural Networks and Applications of Same
CN108475262A (zh) 用于文本处理的电子设备和方法
EP3499384A1 (en) Word and sentence embeddings for sentence classification
US10685012B2 (en) Generating feature embeddings from a co-occurrence matrix
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
Ramadhan et al. Analysis sentiment based on IMDB aspects from movie reviews using SVM
WO2019085332A1 (zh) 金融数据分析方法、应用服务器及计算机可读存储介质
CN113553510A (zh) 一种文本信息推荐方法、装置及可读介质
Athar et al. Sentimental analysis of movie reviews using soft voting ensemble-based machine learning
Wong et al. Feature selection and feature extraction: highlights
CN111191036A (zh) 短文本主题聚类方法、装置、设备及介质
CN112052306A (zh) 识别数据的方法和装置
CN109902169B (zh) 基于电影字幕信息提升电影推荐系统性能的方法
CN116611497B (zh) 一种点击率预估模型训练方法和装置
Hammoud et al. New Arabic medical dataset for diseases classification
Salem et al. Sentiment analysis of mobile phone products reviews using classification algorithms
Soleimani et al. Spectral word embedding with negative sampling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant