CN109902169B - 基于电影字幕信息提升电影推荐系统性能的方法 - Google Patents
基于电影字幕信息提升电影推荐系统性能的方法 Download PDFInfo
- Publication number
- CN109902169B CN109902169B CN201910076649.4A CN201910076649A CN109902169B CN 109902169 B CN109902169 B CN 109902169B CN 201910076649 A CN201910076649 A CN 201910076649A CN 109902169 B CN109902169 B CN 109902169B
- Authority
- CN
- China
- Prior art keywords
- movie
- matrix
- subtitle
- user
- film
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Silver Salt Photography Or Processing Solution Therefor (AREA)
Abstract
本发明公开了基于电影字幕信息提升电影推荐系统性能的方法,该方法的步骤如下:步骤(1)获取电影推荐数据集MovieLens‑Latest;步骤(2)建立字幕数据集;步骤(3)字幕主题提取;步骤(4)推荐模型训练;步骤(5)电影评分预测本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐系统性能相比于原来的推荐系统性能提升明显。
Description
技术领域
本发明涉及一种基于矩阵分解的新型电影推荐方法,属于互联网推荐系统技术领域。
背景技术
个性化推荐系统作为数据挖掘的应用之一,在购物网站、新闻、电影音乐等领域被广泛的应用,是解决信息过载、增加用户忠诚度的有效解决办法之一。由于电影推荐的历史数据集较为完善,标签明确,实验结果好量化,一直是研究和改进推荐系统常用的数据集。
典型的电影评分数据集(如图1所示),每个数字代表用户对相应的电影打分,一般是1到5分制。由于电影数据是矩阵的形式,常用的方法就是矩阵分解比如SVD算法,将高维矩阵分解为两个低维矩阵,这样当使用两个低维矩阵相乘还原高维矩阵的时候,就会对空缺部位进行填充,达到了一个预测评分的目的(如图2所示)。推荐系统性能主要受限于评分矩阵的稀疏性以及冷启动问题。
发明内容
本发明的目的在于提出了一种基于电影字幕信息来提升电影推荐系统性能的方法,本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐系统性能相比于原来的推荐系统性能提升明显。
为实现上述目的,本发明采用的技术方案为基于电影字幕信息提升电影推荐系统性能的方法,如图3所示,该方法的实现步骤如下:
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理。
步骤(2)建立字幕数据集
依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对。
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布,算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η。
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z。
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd。
步骤(4)推荐模型训练
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息,因此对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为:
该Bias-SVD模型将用户u对电影i的评分ru,i看作是由全部电影的平均评分u、用户偏执项bu、物品偏置项bi和矩阵分解项相加而得,其中u和i分别代表用户和电影的序号,T表示矩阵的转置操作,矩阵分解项可以用图2表示。如果R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就通过来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
步骤(4.2)推荐模型训练
优化目标函数为:
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有用户偏置项bu、电影偏置项bi、用户向量pu和电影向量qi,←代表迭代更新,迭代过程如下:
步骤(5)电影评分预测
使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主体分本topici,然后就可以使用评分预测公式预测用户对该电影的评分了。
附图说明
图1为评分矩阵示例图。
图2为矩阵分解示例图。
图3为电影推荐系统框架图。
图4为实验结果性能对照图。
具体实施方式
本方法采用的技术方案为基于电影字幕信息提升电影推荐系统性能的方法,该方法的实现过程如下:
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理。
步骤(2)建立字幕数据集
依托movielens-Latest数据集建立电影字幕数据集,在开源的openSubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对。
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布,算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η。
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z。
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd。
步骤(4)推荐模型训练
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息,因此可以对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为:
R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解可以将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就可以通过来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
步骤(4.2)推荐模型训练
优化目标函数为:
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有bu、bi、pu和qi,迭代过程如下:
步骤(5)电影评分预测性能分析
实验结果部分,选用均方根差作为性能评价指标,结果越小说明标准误差越小,预测精确度也就越高。可以从实验结果(如图4所示)看出,融入了字幕信息的推荐模型,相比于只用了评分信息的模型,误差有了降低,说明了字幕信息对电影推荐系统改善的有效性。并且当随着特征数量的增加,LDA主题模型训练的收敛效果更好,对电影主题分布的表达也更加准确,对电影推荐性能的提升也更大。
Claims (2)
1.基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:该方法的时间步骤如下,
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理;
步骤(2)建立字幕数据集
依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对;
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布;
步骤(4)推荐模型训练
步骤(5)电影评分预测
使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主题分布topici,然后就使用评分预测公式预测用户对该电影的评分了;
步骤(4)的实施过程如下,
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展;字幕信息属于和电影高度相关的信息,因此对电影相关的偏置项进行扩展;扩展前的Bias-SVD模型为:
该Bias-SVD模型将用户u对电影i的评分ru,i看作是由全部电影的平均评分、用户偏执项bu、电影偏置项bi和矩阵分解项相加而得,T表示矩阵的转置操作;如果R代表电影评分矩阵,由m个用户和n个电影组成,通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵;k远远小于m和n;通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就通过来得出;将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
步骤(4.2)推荐模型训练
优化目标函数为:
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有用户偏置项bu、电影偏置项bi、用户向量pu和电影向量qi,←代表迭代更新,迭代过程如下:
a表示学习速率,r表示用户对电影的真实的评分。
2.根据权利要求1所述的基于电影字幕信息提升电影推荐系统性能的方法,其特征在于:字幕主题提取的算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η;
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号;
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛;
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910076649.4A CN109902169B (zh) | 2019-01-26 | 2019-01-26 | 基于电影字幕信息提升电影推荐系统性能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910076649.4A CN109902169B (zh) | 2019-01-26 | 2019-01-26 | 基于电影字幕信息提升电影推荐系统性能的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902169A CN109902169A (zh) | 2019-06-18 |
CN109902169B true CN109902169B (zh) | 2021-03-30 |
Family
ID=66944331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910076649.4A Active CN109902169B (zh) | 2019-01-26 | 2019-01-26 | 基于电影字幕信息提升电影推荐系统性能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902169B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116401458B (zh) * | 2023-04-17 | 2024-01-09 | 南京工业大学 | 基于Lorenz混沌自适应的推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446135A (zh) * | 2016-09-19 | 2017-02-22 | 北京搜狐新动力信息技术有限公司 | 一种多媒体数据标签生成方法和装置 |
CN106469170A (zh) * | 2015-08-18 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 文本数据的处理方法和装置 |
CN107357793A (zh) * | 2016-05-10 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 信息推荐方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012038239A (ja) * | 2010-08-11 | 2012-02-23 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US10977322B2 (en) * | 2015-11-09 | 2021-04-13 | WP Company, LLC | Systems and methods for recommending temporally relevant news content using implicit feedback data |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
-
2019
- 2019-01-26 CN CN201910076649.4A patent/CN109902169B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469170A (zh) * | 2015-08-18 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 文本数据的处理方法和装置 |
CN107357793A (zh) * | 2016-05-10 | 2017-11-17 | 腾讯科技(深圳)有限公司 | 信息推荐方法和装置 |
CN106446135A (zh) * | 2016-09-19 | 2017-02-22 | 北京搜狐新动力信息技术有限公司 | 一种多媒体数据标签生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
"Content Representation and Similarity of Movies based on Topic Extraction from Subtitles";Konstantinos Bougiatiotis等;《SETN "16: Proceedings of the 9th Hellenic Conference on Artificial Intelligence》;20160531;第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109902169A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
Okura et al. | Embedding-based news recommendation for millions of users | |
US11544474B2 (en) | Generation of text from structured data | |
Luo et al. | Online learning of interpretable word embeddings | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN107273913B (zh) | 一种基于多特征融合的短文本相似度计算方法 | |
US20140229158A1 (en) | Feature-Augmented Neural Networks and Applications of Same | |
CN108475262A (zh) | 用于文本处理的电子设备和方法 | |
EP3499384A1 (en) | Word and sentence embeddings for sentence classification | |
US10685012B2 (en) | Generating feature embeddings from a co-occurrence matrix | |
CN110879938A (zh) | 文本情感分类方法、装置、设备和存储介质 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
Ramadhan et al. | Analysis sentiment based on IMDB aspects from movie reviews using SVM | |
WO2019085332A1 (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN113553510A (zh) | 一种文本信息推荐方法、装置及可读介质 | |
Athar et al. | Sentimental analysis of movie reviews using soft voting ensemble-based machine learning | |
Wong et al. | Feature selection and feature extraction: highlights | |
CN111191036A (zh) | 短文本主题聚类方法、装置、设备及介质 | |
CN112052306A (zh) | 识别数据的方法和装置 | |
CN109902169B (zh) | 基于电影字幕信息提升电影推荐系统性能的方法 | |
CN116611497B (zh) | 一种点击率预估模型训练方法和装置 | |
Hammoud et al. | New Arabic medical dataset for diseases classification | |
Salem et al. | Sentiment analysis of mobile phone products reviews using classification algorithms | |
Soleimani et al. | Spectral word embedding with negative sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |