CN109299330B - 一种基于影评的电影标签自动生成方法 - Google Patents
一种基于影评的电影标签自动生成方法 Download PDFInfo
- Publication number
- CN109299330B CN109299330B CN201810918216.4A CN201810918216A CN109299330B CN 109299330 B CN109299330 B CN 109299330B CN 201810918216 A CN201810918216 A CN 201810918216A CN 109299330 B CN109299330 B CN 109299330B
- Authority
- CN
- China
- Prior art keywords
- label
- labels
- movie
- similarity
- film
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于影评的电影标签自动生成算法,本发明中的算法充分考虑了目前有标签的电影的数据集中存在的缺失问题,首先采用带权重的无监督算法从影评中自动为训练集补足标签。同时,本发明还充分考虑了两部电影各项属性的相似性和标签相似性的关系,以机器学习的方法预测从各项属性到标签相似性的映射,而不是采用简单的相似性如余弦相似性计算粗略的相似性关系。最后,本方法在使用传统K近邻算法得到标签的候选多重集后,并不采用简单的评价标准排序选出标签集,而是采用基于标签共现关系的图算法来决定候选标签的顺序,从而决定最终的标签集。
Description
技术领域
本发明涉及人工智能领域,更具体的,涉及一种基于影评的电影标签自动生成方法。
背景技术
电影由于其丰富的元素迅速地成为人们日常生活中必备的休闲方式之一。电影的市场越来越大,电影的种类越来越多。琳琅满目的电影以及电影的时长导致用户不可能完整浏览一部影片,对于即将上映的电影来说,用户了解一部电影的较好方式通常包括简介,预告片,其他用户的片评论以及电影标签,但对于一些年份较古老或者较冷门的电影,用户了解的方式通常只有简介和电影标签。因此,电影的社会标签具有较大的意义,能帮助推荐系统提升为用户推荐的电影的准确性,能帮助提供电影资讯的平台进行电影细粒度分类以及丰富电影检索功能,并能帮助用户迅速的了解电影的主要信息。但是,目前对于未上映的电影或者冷门电影,由于观看的用户数目极少,因此这部分电影的社会标签通常非常少甚至没有,而这部分电影的数量远超于社会标签较为丰富的电影。手工的为这部分电影打标签不仅费时费力,而且难以较全面地覆盖电影的各个方面。
发明内容
为了解决现有技术中对于未上映的电影或者冷门电影这部分电影的社会标签通常非常少甚至没有不足,本发明提供了一种基于影评的电影标签自动生成方法。
为实现以上发明目的,采用的技术方案是:
一种基于影评的电影标签自动生成方法,包括以下步骤:
步骤S1:获取平台上所有电影的影评、属性及其对应的社会标签作为训练集;
步骤S2:若某一电影的社会标签数量低于设定的阈值,则通过标签补全算法从其影评中自动提取标签,从而为该电影补充标签;
步骤S3:对训练集中的每每两部电影计算属性的相似度,以及计算每每两部电影社会标签集合的相似度,从而构建一个新的数据集,并用其建立一个回归学习器,学习从属性到相似度的映射;
步骤S4:基于回归学习器预测的相似度采用K近邻方法确定每部无标签电影在训练集中的前K部最相似的电影,这些电影的社会标签组成的多重集成为候选标签集;
步骤S5:利用标签共现关系组成有向图,以此建立候选标签选取算法从候选标签集中确定每部无标签电影的最终标签集。
优选的,步骤S2所述的标签补全算法包括以下步骤:
步骤S201:通过所有电影的所有影评计算每个词汇的逆文档频率,计算每部电影所有影评对应词汇的频率;
步骤S202:通过训练集的所有标签计算每个标签的正向权重;
步骤S203:为训练集中每部标签数量低于设定阈值的电影补充TF-IDF乘上正向权重后最大的那些标签,补充到社会标签的数量达到设定的阈值为止。
优选的,步骤S5具体包括以下步骤:
步骤 S501:采用候选标签集构建有向带权图G的顶点,其中G的从u到v的边的权重由u,v共现次数及u和其他顶点共现次数给出;
步骤 S502:采用候选标签集中每个标签出现的次数给对应的顶点赋值;
步骤S503:不断从图中删除掉顶点值最小的顶点,并且给删掉的顶点前k大权值的边对应的顶点传输按比例分配的数值,直到图的顶点数达到预定义的数值;
步骤S504:取出图中剩下的顶点,其对应的标签组成的集合即是从候选标签集中最终选出的标签集合。
本发明中的算法充分考虑了目前有标签的电影的数据集中存在的缺失问题,首先采用带权重的无监督算法从影评中自动为训练集补足标签。同时,本发明还充分考虑了两部电影各项属性的相似性和标签相似性的关系,以机器学习的方法预测从各项属性到标签相似性的映射,而不是采用简单的相似性如余弦相似性计算粗略的相似性关系。最后,本方法在使用传统K近邻算法得到标签的候选多重集后,并不采用简单的评价标准排序选出标签集,而是采用基于标签共现关系的图算法来决定候选标签的顺序,从而决定最终的标签集。本发明能够根据为电影自动生成一套标签,具有智能,便捷的特点。
附图说明
图1为本发明的步骤流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
一种基于影评的电影标签自动生成方法,包括以下步骤:
步骤S1:获取平台上所有电影的影评、属性及其对应的社会标签作为训练集;
步骤S2:若某一电影的社会标签数量低于设定的阈值,则通过标签补全算法从其影评中自动提取标签,从而为该电影补充标签;
步骤S3:对训练集中的每每两部电影计算属性的相似度,以及计算每每两部电影社会标签集合的相似度,从而构建一个新的数据集,并用其建立一个回归学习器,学习从属性到相似度的映射;
步骤S4:基于回归学习器预测的相似度采用K近邻方法确定每部无标签电影在训练集中的前K部最相似的电影,这些电影的社会标签组成的多重集成为候选标签集;
步骤S5:利用标签共现关系组成有向图,以此建立候选标签选取算法从候选标签集中确定每部无标签电影的最终标签集。
优选的,步骤S2所述的标签补全算法包括以下步骤:
步骤S201:通过所有电影的所有影评计算每个词汇的逆文档频率,计算每部电影所有影评对应词汇的频率;
步骤S202:通过训练集的所有标签计算每个标签的正向权重;
步骤S203:为训练集中每部标签数量低于设定阈值的电影补充TF-IDF乘上正向权重后最大的那些标签,补充到社会标签的数量达到设定的阈值为止。
优选的,步骤S5具体包括以下步骤:
步骤 S501:采用候选标签集构建有向带权图G的顶点,其中G的从u到v的边的权重由u,v共现次数及u和其他顶点共现次数给出;
步骤 S502:采用候选标签集中每个标签出现的次数给对应的顶点赋值;
步骤S503:不断从图中删除掉顶点值最小的顶点,并且给删掉的顶点前k大权值的边对应的顶点传输按比例分配的数值,直到图的顶点数达到预定义的数值;
步骤S504:取出图中剩下的顶点,其对应的标签组成的集合即是从候选标签集中最终选出的标签集合。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (3)
1.一种基于影评的电影标签自动生成方法,其特征在于,包括以下步骤:
步骤S1:获取平台上所有电影的影评、属性及其对应的社会标签作为训练集;
步骤S2:若某一电影的社会标签数量低于设定的阈值,则通过标签补全算法从其影评中自动提取标签,从而为该电影补充标签;
步骤S3:对训练集中的每每两部电影计算属性的相似度,以及计算每每两部电影社会标签集合的相似度,从而构建一个新的数据集,并用其建立一个回归学习器,学习从属性到相似度的映射;
步骤S4:基于回归学习器预测的相似度采用K近邻方法确定每部无标签电影在训练集中的前K部最相似的电影,这些电影的社会标签组成的多重集成为候选标签集;
步骤S5:利用标签共现关系组成有向图,以此建立候选标签选取算法从候选标签集中确定每部无标签电影的最终标签集。
2.根据权利要求1所述的一种基于影评的电影标签自动生成方法,其特征在于,步骤S2所述的标签补全算法包括以下步骤:
步骤S201:通过所有电影的所有影评计算每个词汇的逆文档频率,计算每部电影所有影评对应词汇的频率;
步骤S202:通过训练集的所有标签计算每个标签的正向权重;
步骤S203:为训练集中每部标签数量低于设定阈值的电影补充TF-IDF乘上正向权重后最大的那些标签,补充到社会标签的数量达到设定的阈值为止。
3.根据权利要求1所述的一种基于影评的电影标签自动生成方法,其特征在于,步骤S5具体包括以下步骤:
步骤S501:采用候选标签集构建有向带权图G的顶点,其中G的从u到v的边的权重由u,v共现次数及u和其他顶点共现次数给出;
步骤S502:采用候选标签集中每个标签出现的次数给对应的顶点赋值;
步骤S503:不断从图中删除掉顶点值最小的顶点,并且给删掉的顶点前k大权值的边对应的顶点传输按比例分配的数值,直到图的顶点数达到预定义的数值;
步骤S504:取出图中剩下的顶点,其对应的标签组成的集合即是从候选标签集中最终选出的标签集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810918216.4A CN109299330B (zh) | 2018-08-13 | 2018-08-13 | 一种基于影评的电影标签自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810918216.4A CN109299330B (zh) | 2018-08-13 | 2018-08-13 | 一种基于影评的电影标签自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109299330A CN109299330A (zh) | 2019-02-01 |
CN109299330B true CN109299330B (zh) | 2021-06-25 |
Family
ID=65168382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810918216.4A Active CN109299330B (zh) | 2018-08-13 | 2018-08-13 | 一种基于影评的电影标签自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109299330B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059222B (zh) * | 2019-04-24 | 2021-10-08 | 中山大学 | 一种基于协同过滤的视频标签添加方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092911A (zh) * | 2012-11-20 | 2013-05-08 | 北京航空航天大学 | 一种融合社会标签相似度基于k近邻的协同过滤推荐系统 |
CN104834710A (zh) * | 2015-04-30 | 2015-08-12 | 广东工业大学 | 一种电影推荐评分系统的冷启动处理方法 |
US9311386B1 (en) * | 2013-04-03 | 2016-04-12 | Narus, Inc. | Categorizing network resources and extracting user interests from network activity |
CN107220352A (zh) * | 2017-05-31 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
CN107515934A (zh) * | 2017-08-29 | 2017-12-26 | 四川长虹电器股份有限公司 | 一种基于大数据的电影语义个性化标签优化方法 |
-
2018
- 2018-08-13 CN CN201810918216.4A patent/CN109299330B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103092911A (zh) * | 2012-11-20 | 2013-05-08 | 北京航空航天大学 | 一种融合社会标签相似度基于k近邻的协同过滤推荐系统 |
US9311386B1 (en) * | 2013-04-03 | 2016-04-12 | Narus, Inc. | Categorizing network resources and extracting user interests from network activity |
CN104834710A (zh) * | 2015-04-30 | 2015-08-12 | 广东工业大学 | 一种电影推荐评分系统的冷启动处理方法 |
CN107220352A (zh) * | 2017-05-31 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能构建评论图谱的方法和装置 |
CN107515934A (zh) * | 2017-08-29 | 2017-12-26 | 四川长虹电器股份有限公司 | 一种基于大数据的电影语义个性化标签优化方法 |
Non-Patent Citations (2)
Title |
---|
基于词共现有向图的中文合成词提取算法;刘兴林等;《计算机工程》;20111231;第37卷(第23期);第177-180页 * |
社会化标签语义相似度的协同过滤算法;谌颃等;《华侨大学学报(自然科学版)》;20160131;第37卷(第1期);第84-87页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109299330A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Author topic model-based collaborative filtering for personalized POI recommendations | |
US10650188B2 (en) | Constructing a narrative based on a collection of images | |
CN112836120A (zh) | 一种基于多模态知识图谱的电影推荐方法、系统及终端 | |
CN114342353B (zh) | 用于视频分割的方法和系统 | |
JP5639065B2 (ja) | 推定される社会的関係に基づいた行動の提案 | |
Subramaniyaswamy et al. | Intelligent travel recommendation system by mining attributes from community contributed photos | |
CN109460479A (zh) | 一种基于事理图谱的预测方法、装置和系统 | |
US20160180402A1 (en) | Method for recommending products based on a user profile derived from metadata of multimedia content | |
CN110851718B (zh) | 一种基于长短时记忆网络以及用户评论的电影推荐方法 | |
Zhao et al. | Photo2Trip: Exploiting visual contents in geo-tagged photos for personalized tour recommendation | |
CN102208088A (zh) | 服务器设备、客户端设备、内容推荐方法和程序 | |
KR20200125531A (ko) | 언어 단위와 이용 내역 간의 연관도를 이용한 항목 추천 관리 방법 | |
CN109272390A (zh) | 融合评分和标签信息的个性化推荐方法 | |
CN113239209A (zh) | 基于RankNet-transformer的知识图谱个性化学习路径推荐方法 | |
CN109299330B (zh) | 一种基于影评的电影标签自动生成方法 | |
CN115964560A (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
Ogudo et al. | Sentiment analysis application and natural language processing for mobile network operators’ support on social media | |
CN115203401A (zh) | 分类模型的训练方法、分类方法、装置、设备和存储介质 | |
Van Canneyt et al. | Categorizing events using spatio-temporal and user features from Flickr | |
CN114330514A (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
WO2020098669A1 (zh) | 一种表情输入的方法、装置、设备以及存储介质 | |
CN108415987B (zh) | 一种电影推荐的冷启动解决方法 | |
US20220358357A1 (en) | Utilizing a neural network model to predict content memorability based on external and biometric factors | |
CN114449342A (zh) | 视频推荐方法、装置、计算机可读存储介质和计算机设备 | |
CN115130453A (zh) | 互动信息生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |