CN108268540A - 一种基于视频相似度的视频推荐方法、系统及终端 - Google Patents

一种基于视频相似度的视频推荐方法、系统及终端 Download PDF

Info

Publication number
CN108268540A
CN108268540A CN201611266871.3A CN201611266871A CN108268540A CN 108268540 A CN108268540 A CN 108268540A CN 201611266871 A CN201611266871 A CN 201611266871A CN 108268540 A CN108268540 A CN 108268540A
Authority
CN
China
Prior art keywords
video
label
similarity
elementary
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611266871.3A
Other languages
English (en)
Inventor
田旭东
张俊锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Excellent Friends Bullock Media Development Co
Original Assignee
Shenzhen Excellent Friends Bullock Media Development Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Excellent Friends Bullock Media Development Co filed Critical Shenzhen Excellent Friends Bullock Media Development Co
Priority to CN201611266871.3A priority Critical patent/CN108268540A/zh
Publication of CN108268540A publication Critical patent/CN108268540A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于视频相似度的视频推荐方法、系统及终端。该方法包括:获取基本视频的第一标签集;将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;计算各个推荐视频与基本视频的相似度,相似度为每个推荐视频中与基本视频相同标签的分数相加得到的值;比较各个推荐视频的相似度大小,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。本发明实施例通过加法的方式计算推荐视频中与基本视频有相同标签的和作为推荐视频相对于基本视频的相似度,所以克服了现有技术中视频相似度计算复杂的问题,使得给用户推荐视频时,速度更快。

Description

一种基于视频相似度的视频推荐方法、系统及终端
技术领域
本发明涉及视频推荐技术领域,特别涉及一种基于视频相似度的推荐方法、系统及终端。
背景技术
现有技术中,主要通过分析用户的观看视频的行为来进行视频推荐,即收集大量用户的观看视频的行为,一种方法是分析出某个用户通常所看视频的种类,根据这个用户的历史观看行为,给用户推荐与历史观看视频相似的视频,另外一种是通过分析大量用户的行为,看哪些用户观看视频的类型一样,然后根据其中某个用户所观看的视频,给其他的用户进行推荐。
在实现本发明的过程中,发明人发现至少存在如下问题:现有技术中计算视频相似度的过程较为复杂,耗时较长,且在系统使用前期易出现冷启动的问题。
发明内容
本发明的目的是提供一种计算快捷、方便、效率高的基于视频相似度的视频推荐方法、系统及终端。
根据本发明实施例的一个方面,本发明提供了一种基于视频相似度的视频推荐方法,包括:获取基本视频的第一标签集;将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;计算各个推荐视频与基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;比较各个推荐视频的相似度大小,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
其中,在获取基本视频的第一标签集之前,方法还包括:对视频的简介和/或评论进行关键字提取,得到至少一个备选关键字;基于每一个备选关键字,查找标签库;若在标签库中查找到与该备选关键字相同的标签,将备选关键字作为该视频的标签;对标签赋相应分数。
其中,若在标签库中查找到与该备选关键字为近义词的标签,则将标签库中的该标签作为视频标签集中的一个标签;根据标签库中标签与备选关键字的相似程度,对标签赋相应分数。
其中,所述计算各个推荐视频与所述基本视频的相似度包括:计算每个所述推荐视频中与所述基本视频相同标签的分数的和;将所述每个所述推荐视频中与所述基本视频相同标签的分数的和,作为所述推荐视频与所述基本视频的相似度。
其中,所述方法还包括:当得到的所述推荐视频的数量小于设定阈值时,采集观看所述基本视频的用户观看视频列表,其中,所述用户观看视频列表包括用户ID和观看视频;计算所述用户观看视频列表中除所述基本视频以外的每个所述观看视频的数量;对每个所述观看视频按照数量从多到少的顺序进行排列形成观看视频排列表;提取所述观看视频排列表的前N个观看视频,形成推荐视频列表;对推荐视频列表中的观看视频按照数量从多到少的顺序进行显示。
根据本发明实施例的另一个方面,本发明实施例提供了一种基于视频相似度的视频推荐系统,包括:标签集获取模块,用于获取基本视频的第一标签集;推荐视频生成模块,用于将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;相似度计算模块,用于计算各个推荐视频与基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;比较模块,用于比较各个推荐视频的相似度大小,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
其中,该系统还包括:备选关键字提取模块,用于对视频的简介和/或评论进行关键字提取,得到至少一个备选关键字;查找模块,用于基于每一个备选关键字,查找标签库,若在标签库中查找到与该备选关键字相同的标签,将备选关键字作为该视频的标签;标签赋值模块,用于对标签赋相应分数。
其中,查找模块,还用于若在标签库中查找到与该备选关键字为近义词的标签,则将标签库中的该标签作为视频标签集中的一个标签;标签赋值模块,还用于根据标签库中标签与备选关键字的相似程度,对标签赋相应分数。
其中,相似度计算模块,具体用于计算每个所述推荐视频中与所述基本视频相同标签的分数的和,将所述每个所述推荐视频中与所述基本视频相同标签的分数的和,作为所述推荐视频与所述基本视频的相似度。
其中,所述系统还包括:用户观看列表采集模块,用于当得到的所述推荐视频的数量小于设定阈值时,采集观看所述基本视频的用户观看视频列表,其中,所述用户观看视频列表包括用户ID和观看视频;观看视频数量计算模块,用于计算所述用户观看视频列表中除所述基本视频以外的每个所述观看视频的数量;比较模块,还用于对每个所述观看视频按照数量从多到少的顺序进行排列形成观看视频排列表;推荐视频列表生成模块,用于提取所述观看视频排列表的前N个观看视频,形成推荐视频列表;推荐视频显示模块,还用于对推荐视频列表中的观看视频按照数量从多到少的顺序进行显示。
根据本发明实施例的又一方面,本发明提供了一种终端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被一个处理器执行的指令,指令被被至少一个处理器执行,以使至少一个处理器能够:获取基本视频的第一标签集;将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;计算各个推荐视频与基本视频的相似度,相似度为每个推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;比较各个推荐视频的相似度大小,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
本发明实施例通过在推荐视频过程中通过提取各个视频的标签集,然后计算标签集中每个标签的分数,在进行推荐视频时,先选定一个基本视频,然后通过加法的方式以基本视频为基准,计算推荐视频中与基本视频有相同标签的和作为推荐视频相对于基本视频的相似度,所以克服了现有技术中视频相似度计算复杂的问题,同时也消除了享有技术中冷启动的问题,使得给用户推荐视频时,速度更快。
附图说明
图1是本发明实施例1的一种基于视频相似度的视频推荐方法的流程图;
图2是本发明实施例1获取视频标签集的方法流程图;
图3是本发明实施例2的一种基于视频相似度的视频推荐方法的流程图;
图4是本发明实施例3的一种基于视频相似度的视频推荐系统的结构示意图;
图5是本发明实施例3的一种基于视频相似度的视频推荐系统的获取基本视频的第一标签集的结构示意图;
图6是本发明实施例4的一种基于视频相似度的视频推荐系统的结构示意图;
图7是本发明实施例5的一种终端结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明实施例通过在推荐视频过程中通过提取各个视频的标签集,然后计算标签集中每个标签的分数,在进行推荐视频时,先选定一个基本视频,然后通过加法的方式以基本视频为基准,计算推荐视频中与基本视频有相同标签的和作为推荐视频相对于基本视频的相似度,所以克服了现有技术中视频相似度计算复杂的问题,同时也消除了享有技术中冷启动的问题,使得给用户推荐视频时,速度更快。
实施例1
图1是本发明实施例1的一种基于视频相似度的视频推荐方法的流程图。
如图1所示,本发明实施例一种基于视频相似度的视频推荐方法,包括:
步骤S100,获取基本视频的第一标签集;
具体的,在获取基本视频的第一标签集前,本发明实施例的视频推荐方法,需要首先获取各个视频的标签集,获取各个视频标签集的方法主要以下两种。
图2是本发明实施例1获取视频标签集的方法流程图。
如图2所示,本发明实施例1获取视频标签集的第一种方法包括:
步骤S101,对视频的简介和/或评论进行关键字提取,得到至少一个备选关键字;
目前各个平台中的视频都包含有简介和/或评论,在从该视频的简介和/或评论提取关键字时,首先定义如果某个词出现的频率N,即某个词在简介和/或评论至少出现N次就将该关键字提取出来,N可以自行设置,另外,需说明的是,数据库中包含有近义词列表,如果某几个词相互为近义词,也可以将其作为一个关键词进行提取,此时提取的原则为,这近义词中的某个词出现的频率多,则用该词作为关键词,如果频率一样,则随机选取几个近义词中的一个作为关键词,提取出关键词后,形成备选关键词列表,列表中至少包含视频的名称或者代码、关键词、关键词的个数等。
步骤S102,基于每一个备选关键字,查找标签库;
首先介绍下标签库的组成:标签库中的标签种类可以按照以下中的一种或者多种进行分类,每个标签种类下都包含有该视频标签种类包含的各个元素,例如以内容进行分类,如喜剧、恐怖、剧情、悲剧等等;以类别进行分类,如动漫、少儿、电影、新闻、纪录片、综艺等等;以年龄进行分类,如:0-3岁,4-6岁,7-10岁,11-13岁,13-16岁等等;以剧中主角进行分类,如喜羊羊、孙悟空、柯南、哈利波特等;还可以以导演进行分类,以演员进行分类,以出品公司进行分类等等,用户在需要对视频进行推送时,可以选择按照哪些标签种类进行推送。
从简介和/或评论中提取到视频的关键字后,将每个关键字在标签库中进行遍历,将每个关键字与标签库中的每个标签进行匹配。
步骤S103,若在标签库中查找到与该备选关键字相同的标签,将备选关键字作为该视频的标签;对标签赋相应分数。
如果在标签库中查找到与该备选关键字相同的标签,就可以将该备选关键字作为该视频的一个标签,另外,还需要查找到该备选关键字与标签库中的标签相同的个数n,然后根据备选关键字与标签库中的标签相同的个数的多少,来为这个标签定义权重a,然后对该标签进行赋相应分数。
在进行该步骤之前,系统首先设定备选关键字与标签库中的标签相同的个数的等级与分数之间的关系,即在标签库中能查找到几个与该备选关键字相同,则相同的个数多,则该标签在该视频中的分数就高,如喜剧、爱情两个备选关键字,如果在标签库中查找到4个喜剧,6个爱情,以10分制为准,则喜剧为4分,爱情为6分。
下面我们以10分制为准,备选关键字与标签库中的标签相同的个数的等级与分数之间的关系表如下:
需要注意的是,上述备选关键字与标签库中的标签相同的个数的等级与分数之间的关系表只是一个实例,在使用该方法时,可以根据实际情况进行调整。
步骤S104,若在标签库中查找到与该备选关键字为近义词的标签,则将标签库中的该标签作为视频标签集中的一个标签;根据标签库中标签与备选关键字的相似程度,对标签赋相应分数。
如果在标签库中没有查找到与备选关键字相同的标签,但是根据标签库中保存的近义词表,在标签库的标签中匹配到与备选关键字为近义词的标签,则将与备选关键字相互为近义词的标签作为该视频标签,需要说明的是近义词表中还包含有词与词之间的相近的权重,权重以百分比的形式呈现。本步骤与步骤S103一样,同样需要查找简介和/或评论中备选关键字与标签库中某标签近似的个数,则此时计算标签分数的方式为,相近个数相对应分数乘以权重即为这个视频标签的分数,例如某视频有“害怕”这个备选关键字,在标签库中有“恐怖”这个标签,“害怕”和“恐怖”的相近权重为80%,“害怕”在该视频简介和/或评论中出现8次,则该视频中标签“恐怖”的分数为6*80%等于4.8分。
本发明实施例1获取视频标签集的第二种方法:
每个视频在上线之前,专家团中的至少一个专家会对该视频进行观看,分析出该视频的标签,然后建立这个视频的标签集,该视频标签集中每个标签的分数机房方法为:至少一个专家对标签进行打分,然后将至少一个专家对标签的分数求平均值,即为该标签的分数。
步骤S200,将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;
具体的,在步骤S100中已经得到了所有视频的标签,以及每个视频中各个标签相对应的分数,一般情况下,系统将用户正在观看的视频作为基本视频,系统首先调取基本视频的第一标签集,然后与视频库中的每个待推荐视频的第二标签集依次进行取交集,如果交集不为空,则该推荐视频即为推荐视频。在为用户推荐视频时,用户可以在界面设置中输入一个基本视频,然后选择标签的类型,然后,在待推荐视频中有目的的选择出推荐视频,即会选择出含有用户选择的标签类型的推荐视频。
步骤S300,计算各个推荐视频与所述基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;
具体的,步骤200中已经选择出了相对于基本视频的推荐视频,并且基本视频和推荐视频的各个标签及各个标签的分数也都已经获得,在计算各个推荐视频基于基本视频的相似度时,可使用正相关的计算方法进行计算,如将推荐视频与基本视频相同标签的分数进行相加得到的和作为相似度、将推荐视频与基本视频相同标签的分数进行相乘得到的乘积作为相似度、将推荐视频与基本视频相同标签的分数求平方和得到的值作为相似度以及将推荐视频与基本视频相同标签的分数求平方根得到的值作为相似度等。需说明的是,只能选择上面几个方法中的一种作为求相似度的方法。
以下表为例,来详述各个推荐视频与基本视频的相似度计算过程。
如下表是基本视频与推荐视频模型关系表:
标签1 标签2 标签3 标签4 标签5 标签6 标签7
基本视频 10 4 6 8 3
推荐视频1 6 4 9
推荐视频2 9 6 2 4
推荐视频3 3 1 8 5 9 3
若利用求和的方式计算各个推荐视频与所述基本视频的相似度,则计算每个所述推荐视频中与所述基本视频相同标签的分数的和;其中,所述每个所述推荐视频中与所述基本视频相同标签的分数的和为所述推荐视频与所述基本视频的相似度。
如上表中的基本视频和推荐视频,推荐视频1与基本视频有相同标签1、标签2和标签6,则推荐视频1相对于基本视频的相似度为标签1的分数加上标签2的分数加上标签6的分数即6+4+9=19,19就是推荐视频1相对于基本视频的相似度;推荐视频2与基本视频相同的标签有标签1、标签3、标签4和标签7,则推荐视频2相对于基本视频的相似度为标签1的分数9加上标签3的分数6加上标签4的分数2加上标签7的分数4,共计21,则21就是推荐视频2相对于基本视频的相似度,同样的推荐视频3相对于基本视频的相似度为标签1的分数3加上标签3的分数1加上标签4的分数8加上标签6的分数9加上标签7的分数3总计为24,则推荐视频3相对于基本视频的相似度为29。
若将推荐视频与基本视频相同标签的分数进行相乘得到的乘积作为相似度,则推荐视频1相对于基本视频的相似度为标签1的分数乘标签2的分数乘标签6的分数即6*4*9=216,216就是推荐视频1相对于基本视频的相似度;同样的推荐视频2相对于基本视频的相似度为9*6*2*4=432,432就是推荐视频2相对于基本视频的相似度;推荐视频3相对于基本视频的相似度为3*1*8*9*3=648,648就是推荐视频3相对于基本视频的相似度。
若将推荐视频与基本视频相同标签的分数求平方和得到的值作为相似度,则推荐视频1相对于基本视频的相似度为62+42+92=133,133就是推荐视频1相对于基本视频的相似度;推荐视频2相对于基本视频的相似度为92+62+22+42=137,137就是推荐视频2相对于基本视频的相似度;推荐视频3相对于基本视频的相似度为32+12+82+92+32=164,164就是推荐视频3相对于基本视频的相似度。
若将推荐视频与基本视频相同标签的分数求平方根得到的值作为相似度,则推荐视频1相对于基本视频的相似度为4.359就是推荐视频1相对于基本视频的相似度;推荐视频2相对于基本视频的相似度为4.583就是推荐视频2相对于基本视频的相似度;推荐视频3相对于基本视频的相似度为4.796就是推荐视频3相对于基本视频的相似度。
步骤S400,比较各个推荐视频的相似度大小;
步骤S500,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
在步骤S300中,已经计算出各个推荐视频基于基本视频的相似度,基于计算出的各个推荐视频基于基本视频的相似度,两两进行比较,最终系统按照各个推荐视频基于基本视频的相似度从大到小的顺序进行推荐,显示在用户推荐界面。
图3是本发明实施例2的一种基于视频相似度的视频推荐方法的流程图。
如图3所示,当所述推荐视频的数量为0时,视频推荐方法还包括:
步骤S600,采集观看所述基本视频的用户观看列表,其中,所述用户观看列表包括用户ID、观看视频;
步骤S700,计算所述用户观看列表中除所述基本视频外每个所述观看视频的数量;
步骤S800,对每个所述观看视频按照数量从多到少的顺序进行排列形成观看视频排列表;按照数量从多到少的顺序提取前N个视频,形成推荐视频列表,其中,N可根据用户的需要进行自行设置。
步骤S900,对推荐视频列表中的视频按照从多到少的顺序进行显示。
实施例3
图4是本发明实施例3的一种基于视频相似度的视频推荐系统的结构示意图。
如图4所示,本发明实施例一种基于视频相似度的视频推荐系统包括:
标签集获取模块1,用于获取基本视频的第一标签集;
具体的,在获取基本视频的第一标签集前,标签集获取模块1需要首先获取各个视频的标签集,获取各个视频标签集的方法主要以下两种。
第一种方法:
图5是本发明实施例3的一种基于视频相似度的视频推荐系统的获取基本视频的第一标签集的结构示意图。
如图5所示,一种基于视频相似度的视频推荐系统的获取基本视频的第一标签集的结构包括:
备选关键字提取模块5,用于对视频的简介和/或评论进行关键字提取,得到至少一个备选关键字;
目前各个平台中的视频都包含有简介或者评论,在从该视频的简介和/或评论提取关键字时,首先定义某个词出现的频率N,即某个词在简介和/或评论至少出现N次就将该关键字提取出来,N可以自行设置,另外,需说明的是,数据库中包含有近义词列表,如果某几个词相互为近义词,也可以将其作为一个关键词进行提取,此时提取的原则为,这近义词中的某个词出现的频率多,则用该词作为关键词,如果频率一样,则随机选取几个近义词中的一个作为关键词,提取出关键词后,形成备选关键词列表,列表中至少包含视频的名称或者代码、关键词、关键词的个数等。
查找模块6,与备选关键字提取模块5连接,用于基于每一个备选关键字,查找标签库,若在标签库中查找到与该备选关键字相同的标签,将备选关键字作为该视频的标签;
标签赋值模块7,与查找模块6连接,用于对标签赋相应分数。
首先介绍下标签库的组成:标签库中的标签种类可以按照以下中的一种或者多种进行分类,每个标签种类下都包含有该视频标签种类包含的各个元素,例如以内容进行分类,如喜剧、恐怖、剧情、悲剧等等;以类别进行分类,如动漫、少儿、电影、新闻、纪录片、综艺等等;以年龄进行分类,如:0-3岁,4-6岁,7-10岁,11-13岁,13-16岁等等;以剧中主角进行分类,如喜羊羊、孙悟空、柯南、哈利波特等;还可以以导演进行分类,以演员进行分类,以出品公司进行分类等等,用户在需要对视频进行推送时,可以选择按照哪些标签种类进行推送。
从简介和/或评论中提取到视频的关键字后,查找模块66将每个关键字在标签库中进行遍历,将每个关键字与标签库中的每个标签进行匹配。
如果在标签库中查找到与该备选关键字相同的标签,就可以将该备选关键字作为该视频的一个标签,另外,还需要查找到该备选关键字与标签库中的标签相同的个数n,然后根据备选关键字与标签库中的标签相同的个数的多少,来为这个标签定义权重a,然后标签赋值模块7对该标签赋相应分数。
在进行该步骤之前,系统首先设定备选关键字与标签库中的标签相同的个数的等级与分数之间的关系,即在标签库中能查找到几个与该备选关键字相同,则相同的个数多,则该标签在该视频中的分数就高,如喜剧、爱情两个备选关键字,如果在标签库中查找到4个喜剧,6个爱情,以10分制为准,则喜剧为4分,爱情为6分。
下面我们以10分制为准,备选关键字与标签库中的标签相同的个数的等级与分数之间的关系表如下:
与标签库中的某标签相同或相近的备选关键字的个数 分数
1-2 1
3-4 2
5-6 4
7-8 6
9-10 8
10个以上 10
需要注意的是,上述备选关键字与标签库中的标签相同的个数的等级与分数之间的关系表只是一个实例,在使用该方法时,可以根据实际情况进行调整。
进一步,查找模块66,还用于若在标签库中查找到与该备选关键字为近义词的标签,则将标签库中的该标签作为视频标签集中的一个标签;标签赋值模块7,还用于根据标签库中标签与备选关键字的相似程度,对标签赋相应分数。
如果查找模块66在标签库中没有查找到与备选关键字相同的标签,但是根据标签库中保存的近义词表,在标签库的标签中匹配到与备选关键字为近义词的标签,则将与备选关键字相互为近义词的标签作为该视频标签,需要说明的是近义词表中还包含有词与词之间的相近的权重,权重以百分比的形式呈现。同样需要查找简介和/或评论中备选关键字与标签库中某标签近似的个数,则此时标签赋值模块7计算标签分数的方式为,相近个数相对应分数乘以权重即为这个视频标签的分数,例如某视频有“害怕”这个备选关键字,在标签库中有“恐怖”这个标签,“害怕”和“恐怖”的相近权重为80%,“害怕”在该视频简介和/或评论中出现8次,则该视频中标签“恐怖”的分数为6*80%等于4.8分。
其中,我们一般采用十分制对每个视频的每个标签进行打分,因此分数月接近10分,说明该视频的该标签越贴近该视频内容。
本发明实施例2获取视频标签集的第二种方法:
每个视频在上线之前,专家团中的至少一个专家会对该视频进行观看,分析出该视频的标签,然后建立这个视频的标签集,该视频标签集中每个标签的分数机房方法为:至少一个专家对标签进行打分,然后将至少一个专家对标签的分数求平均值,即为该标签的分数。
推荐视频生成模块2,与标签集获取模块1连接,用于将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;
具体的,上面已经得到了所有视频的标签,以及每个视频中各个标签相对应的分数,一般情况下,系统将用户正在观看的视频作为基本视频,然后推荐视频生成模块2首先调取基本视频的第一标签集,然后与视频库中的每个待推荐视频的第二标签集依次进行取交集,如果交集不为空,则该待推荐视频即为推荐视频。在为用户推荐视频时,用户可以在界面设置中输入一个基本视频,然后选择标签的类型,然后,在待推荐视频中有目的的选择出推荐视频,即会选择出含有用户选择的标签类型的推荐视频。
相似度计算模块3,与推荐视频生成模块2连接,用于计算各个推荐视频与所述基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;
具体的,推荐视频生成模块2中已经选择出了相对于基本视频的推荐视频,并且基本视频和推荐视频的各个标签及各个标签的分数也都已经获得,相似度计算模块3在计算各个推荐视频基于基本视频的相似度时,可使用正相关的计算方法进行计算,如将推荐视频与基本视频相同标签的分数进行相加得到的和作为相似度、将推荐视频与基本视频相同标签的分数进行相乘得到的乘积作为相似度、将推荐视频与基本视频相同标签的分数求平方和得到的值作为相似度以及将推荐视频与基本视频相同标签的分数求平方根得到的值作为相似度等。需说明的是,只能选择上面几个方法中的一种作为求相似度的方法。
以下表为例,来详述各个推荐视频与基本视频的相似度计算过程。
如下表是基本视频与推荐视频模型关系表:
标签1 标签2 标签3 标签4 标签5 标签6 标签7
基本视频 10 4 6 8 3
推荐视频1 6 4 9
推荐视频2 9 6 2 4
推荐视频3 3 1 8 5 9 3
若利用求和的方式计算各个推荐视频与所述基本视频的相似度,则计算每个所述推荐视频中与所述基本视频相同标签的分数的和;其中,所述每个所述推荐视频中与所述基本视频相同标签的分数的和为所述推荐视频与所述基本视频的相似度。
如上表中的基本视频和推荐视频,推荐视频1与基本视频有相同标签1、标签2和标签6,则推荐视频1相对于基本视频的相似度为标签1的分数加上标签2的分数加上标签6的分数即6+4+9=19,19就是推荐视频1相对于基本视频的相似度;推荐视频2与基本视频相同的标签有标签1、标签3、标签4和标签7,则推荐视频2相对于基本视频的相似度为标签1的分数9加上标签3的分数6加上标签4的分数2加上标签7的分数4,共计21,则21就是推荐视频2相对于基本视频的相似度,同样的推荐视频3相对于基本视频的相似度为标签1的分数3加上标签3的分数1加上标签4的分数8加上标签6的分数9加上标签7的分数3总计为24,则推荐视频3相对于基本视频的相似度为29。
若将推荐视频与基本视频相同标签的分数进行相乘得到的乘积作为相似度,则推荐视频1相对于基本视频的相似度为标签1的分数乘标签2的分数乘标签6的分数即6*4*9=216,216就是推荐视频1相对于基本视频的相似度;同样的推荐视频2相对于基本视频的相似度为9*6*2*4=432,432就是推荐视频2相对于基本视频的相似度;推荐视频3相对于基本视频的相似度为3*1*8*9*3=648,648就是推荐视频3相对于基本视频的相似度。
若将推荐视频与基本视频相同标签的分数求平方和得到的值作为相似度,则推荐视频1相对于基本视频的相似度为62+42+92=133,133就是推荐视频1相对于基本视频的相似度;推荐视频2相对于基本视频的相似度为92+62+22+42=137,137就是推荐视频2相对于基本视频的相似度;推荐视频3相对于基本视频的相似度为32+12+82+92+32=164,164就是推荐视频3相对于基本视频的相似度。
若将推荐视频与基本视频相同标签的分数求平方根得到的值作为相似度,则推荐视频1相对于基本视频的相似度为4.359就是推荐视频1相对于基本视频的相似度;推荐视频2相对于基本视频的相似度为4.583就是推荐视频2相对于基本视频的相似度;推荐视频3相对于基本视频的相似度为4.796就是推荐视频3相对于基本视频的相似度。
比较模块4,与相似度计算模块3连接,用于比较各个推荐视频的相似度大小。
推荐视频显示模块,与比较模块4连接,用于将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
在相似度计算模块3中,已经计算出各个推荐视频基于基本视频的相似度,比较模块4基于计算出的各个推荐视频基于基本视频的相似度,两两进行比较,最终推荐视频显示模块按照各个推荐视频基于基本视频的相似度从大到小的顺序进行推荐,显示在用户推荐界面。
实施例4
图6是本发明实施例4的一种基于视频相似度的视频推荐系统的结构示意图。
如图6所示,当所述推荐视频的数量为0时,视频推荐系统还包括:
用户观看列表采集模块13,用于当所述推荐视频的数量为0时,采集观看所述基本视频的用户观看列表,其中,所述用户观看列表包括用户ID、观看视频;
观看视频数量计算模块14,与用户观看列表采集模块13连接,用于计算所述用户观看列表中除所述基本视频外每个所述观看视频的数量;
比较模块4,与观看视频数量计算模块14连接,还用于对每个所述观看视频按照数量从多到少的顺序进行排列形成观看视频排列表;
推荐视频列表生成模块15,与比较模块4连接,用于按照数量从多到少的顺序提取前N个视频,形成推荐视频列表,其中,N可根据用户的需要进行自行设置。
推荐视频显示模块12,与推荐视频列表生成模块15连接,还用于对推荐视频列表中的视频按照从多到少的顺序进行显示。
实施例5
图7是本发明实施例5的一种终端的结构示意图。
如图7所示,一种终端包括:至少一个处理器8;以及,与至少一个处理器8通信连接的存储器9;其中,存储器9存储有可被一个处理器8执行的指令,指令被被至少一个处理器8执行,以使至少一个处理器8能够:获取基本视频的第一标签集;将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;计算各个推荐视频与基本视频的相似度,相似度为每个推荐视频中与基本视频相同标签的分数相加得到的值;比较各个推荐视频的相似度大小,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
包括一个或多个处理器8以及与一个或多个处理器8通信连接的存储器930,图7中以一个处理器8为例。
还可以包括:输入装置10和输出装置11。
处理器8、存储器9、输入装置10和输出装置11可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器9作为一种非暂态计算机可读存储介质。可用于存储非暂态软件程序、非暂态计算机可执行程序,如本发明实施例中的基于视频相似度的视频推荐方法的对应的软件程序、指令以及模块。处理器8通过运行存储在存储器9中的非暂态软件程序、指令以及模块,从而执行视频推荐时的各种功能以及数据处理,即实现上述方法实施例的视频推荐。
存储器9可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据租赁车辆时所创建的数据等。此外,存储器9可以包括高速随机存取存储器9,还可以包括非暂态存储器9,例如至少一个磁盘存储期间,闪存器件、或其他非暂态固态存储器9件。在一些实施例中,存储器9可选包括相对于处理器8远程设置的存储器9,这些远程存储器9可以通过网络连接至视频推荐系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置10可接收输入的数字或字符信息,以及产生与视频推荐系统的用户设置以及功能控制有关的键信号输入。输入装置10可以包括触摸屏、键盘等,也可以包括有线接口、无线接口等。输出装置11可包括显示屏扬声器等显示设备。
其中,存储器9存储有可被一个处理器8执行的指令,指令被至少一个处理器8执行,以使至少一个处理器8能够:
获取基本视频的第一标签集;
将基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,推荐视频为包含第一标签集中至少一个标签的待推荐视频;
计算各个推荐视频与基本视频的相似度,相似度为每个推荐视频中与基本视频相同标签的分数相加得到的值;
比较各个推荐视频的相似度大小,将推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
综上,本发明实施例通过在推荐视频过程中通过提取各个视频的标签集,然后计算标签集中每个标签的分数,在进行推荐视频时,先选定一个基本视频,然后通过加法的方式以基本视频为基准,计算推荐视频中与基本视频有相同标签的和作为推荐视频相对于基本视频的相似度,所以克服了现有技术中视频相似度计算复杂的问题,同时也消除了享有技术中冷启动的问题,使得给用户推荐视频时,速度更快。
本发明实施例提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行上述任一个实施例的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
本发明旨在保护一种基于视频相似度的视频推荐方法、系统和终端,本发明实施例通过在推荐视频过程中通过提取各个视频的标签集,然后计算标签集中每个标签的分数,在进行推荐视频时,先选定一个基本视频,然后通过加法的方式以基本视频为基准,计算推荐视频中与基本视频有相同标签的和作为推荐视频相对于基本视频的相似度,所以克服了现有技术中视频相似度计算复杂的问题,同时也消除了享有技术中冷启动的问题,使得给用户推荐视频时,速度更快。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (11)

1.一种基于视频相似度的视频推荐方法,其特征在于,包括:
获取基本视频的第一标签集;
将所述基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,所述推荐视频为包含第一标签集中至少一个标签的待推荐视频;
计算各个推荐视频与所述基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;
比较各个推荐视频的相似度大小;
将所述推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
2.根据权利要求1所述的方法,其特征在于,在获取基本视频的第一标签集之前,所述方法还包括:
对所述视频的简介和/或评论进行关键字提取,得到至少一个备选关键字;
基于所述每一个备选关键字,查找标签库;
若在标签库中查找到与该备选关键字相同的标签,将所述备选关键字作为该视频的标签;
对所述标签赋相应分数。
3.根据权利要求2所述的方法,其特征在于,
若在标签库中查找到与该备选关键字为近义词的标签,则将标签库中的该标签作为所述视频标签集中的一个标签;
根据所述标签库中所述标签与所述备选关键字的相似程度,对所述标签赋相应分数。
4.根据权利要求1所述的方法,其特征在于,所述计算各个推荐视频与所述基本视频的相似度,包括:
计算每个所述推荐视频中与所述基本视频相同标签的分数的和;
将所述每个所述推荐视频中与所述基本视频相同标签的分数的和,作为所述推荐视频与所述基本视频的相似度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当得到的所述推荐视频的数量小于设定阈值时,采集观看所述基本视频的用户观看视频列表,其中,所述用户观看视频列表包括用户ID和观看视频;
计算所述用户观看视频列表中除所述基本视频以外的每个所述观看视频的数量;
对每个所述观看视频按照数量从多到少的顺序进行排列形成观看视频排列表;
提取所述观看视频排列表的前N个观看视频,形成推荐视频列表;
对推荐视频列表中的观看视频按照数量从多到少的顺序进行显示。
6.一种基于视频相似度的视频推荐系统,其特征在于,包括:
标签集获取模块(1),用于获取基本视频的第一标签集;
推荐视频生成模块(2),用于将所述基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,所述推荐视频为包含第一标签集中至少一个标签的待推荐视频;
相似度计算模块(3),用于计算各个推荐视频与所述基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;
比较模块(4),用于比较各个推荐视频的相似度大小;
推荐视频显示模块(12),用于将所述推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
备选关键字提取模块(5),用于对所述视频的简介和/或评论进行关键字提取,得到至少一个备选关键字;
查找模块(6),用于基于所述每一个备选关键字,查找标签库,若在标签库中查找到与该备选关键字相同的标签,将所述备选关键字作为该视频的标签;
标签赋值模块(7),用于对所述标签赋相应分数。
8.根据权利要求7所述的系统,其特征在于,
查找模块(6),还用于若在标签库中查找到与该备选关键字为近义词的标签,则将标签库中的该标签作为所述视频标签集中的一个标签;
标签赋值模块(7),还用于根据所述标签库中所述标签与所述备选关键字的相似程度,对所述标签赋相应分数。
9.根据权利要求6所述的系统,其特征在于,相似度计算模块(3),具体用于计算每个所述推荐视频中与所述基本视频相同标签的分数的和,将所述每个所述推荐视频中与所述基本视频相同标签的分数的和,作为所述推荐视频与所述基本视频的相似度。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:
用户观看列表采集模块(13),用于当得到的所述推荐视频的数量小于设定阈值时,采集观看所述基本视频的用户观看视频列表,其中,所述用户观看视频列表包括用户ID和观看视频;
观看视频数量计算模块(14),用于计算所述用户观看视频列表中除所述基本视频以外的每个所述观看视频的数量;
比较模块(4),还用于对每个所述观看视频按照数量从多到少的顺序进行排列形成观看视频排列表;
推荐视频列表生成模块(15),用于提取所述观看视频排列表的前N个观看视频,形成推荐视频列表;
推荐视频显示模块(12),还用于对推荐视频列表中的观看视频按照数量从多到少的顺序进行显示。
11.一种终端,包括:
至少一个处理器(8);以及,
与所述至少一个处理器(8)通信连接的存储器(9);其中,
所述存储器(9)存储有可被所述一个处理器执行的指令,所述指令被被所述至少一个处理器(8)执行,以使所述至少一个处理器(8)能够:
获取基本视频的第一标签集;
将所述基本视频的第一标签集与视频库中每个待推荐视频的第二标签集取交集,得到推荐视频,所述推荐视频为包含第一标签集中至少一个标签的待推荐视频;
计算各个推荐视频与所述基本视频的相似度,所述相似度为每个所述推荐视频与所述基本视频的相同标签的分数进行正相关计算得到的值;
比较各个推荐视频的相似度大小,将所述推荐视频按照相似度从大到小的顺序对推荐视频进行显示。
CN201611266871.3A 2016-12-31 2016-12-31 一种基于视频相似度的视频推荐方法、系统及终端 Pending CN108268540A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611266871.3A CN108268540A (zh) 2016-12-31 2016-12-31 一种基于视频相似度的视频推荐方法、系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611266871.3A CN108268540A (zh) 2016-12-31 2016-12-31 一种基于视频相似度的视频推荐方法、系统及终端

Publications (1)

Publication Number Publication Date
CN108268540A true CN108268540A (zh) 2018-07-10

Family

ID=62770235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611266871.3A Pending CN108268540A (zh) 2016-12-31 2016-12-31 一种基于视频相似度的视频推荐方法、系统及终端

Country Status (1)

Country Link
CN (1) CN108268540A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168047A (zh) * 2018-11-06 2019-01-08 北京达佳互联信息技术有限公司 视频推荐方法、装置、服务器及存储介质
CN110309360A (zh) * 2019-06-13 2019-10-08 山东大学 一种短视频的话题标签个性化推荐方法及系统
CN111010592A (zh) * 2019-12-19 2020-04-14 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN111708946A (zh) * 2020-06-18 2020-09-25 卓尔智联(武汉)研究院有限公司 一种个性化电影的推荐方法、装置及电子设备
CN112990984A (zh) * 2021-04-19 2021-06-18 广州欢网科技有限责任公司 一种广告视频推荐方法、装置、设备及存储介质
WO2021174890A1 (zh) * 2020-03-02 2021-09-10 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN114358984A (zh) * 2021-12-31 2022-04-15 城云科技(中国)有限公司 纠纷管理方法、装置、可读存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186550A (zh) * 2011-12-27 2013-07-03 盛乐信息技术(上海)有限公司 一种视频的相关视频列表的生成方法及系统
US20150073931A1 (en) * 2013-09-06 2015-03-12 Microsoft Corporation Feature selection for recommender systems
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN105512331A (zh) * 2015-12-28 2016-04-20 海信集团有限公司 一种视频推荐方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186550A (zh) * 2011-12-27 2013-07-03 盛乐信息技术(上海)有限公司 一种视频的相关视频列表的生成方法及系统
US20150073931A1 (en) * 2013-09-06 2015-03-12 Microsoft Corporation Feature selection for recommender systems
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN105512331A (zh) * 2015-12-28 2016-04-20 海信集团有限公司 一种视频推荐方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109168047A (zh) * 2018-11-06 2019-01-08 北京达佳互联信息技术有限公司 视频推荐方法、装置、服务器及存储介质
CN110309360A (zh) * 2019-06-13 2019-10-08 山东大学 一种短视频的话题标签个性化推荐方法及系统
CN111010592A (zh) * 2019-12-19 2020-04-14 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN111010592B (zh) * 2019-12-19 2022-09-30 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
WO2021174890A1 (zh) * 2020-03-02 2021-09-10 腾讯科技(深圳)有限公司 数据推荐方法、装置、计算机设备以及存储介质
CN111708946A (zh) * 2020-06-18 2020-09-25 卓尔智联(武汉)研究院有限公司 一种个性化电影的推荐方法、装置及电子设备
CN111708946B (zh) * 2020-06-18 2023-08-01 卓尔智联(武汉)研究院有限公司 一种个性化电影的推荐方法、装置及电子设备
CN112990984A (zh) * 2021-04-19 2021-06-18 广州欢网科技有限责任公司 一种广告视频推荐方法、装置、设备及存储介质
CN114358984A (zh) * 2021-12-31 2022-04-15 城云科技(中国)有限公司 纠纷管理方法、装置、可读存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN108268540A (zh) 一种基于视频相似度的视频推荐方法、系统及终端
CN108694223B (zh) 一种用户画像库的构建方法及装置
WO2017181612A1 (zh) 个性化视频推荐方法及装置
CN107657048B (zh) 用户识别方法及装置
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
CN108108821A (zh) 模型训练方法及装置
WO2016015444A1 (zh) 一种目标用户的确定方法、设备和网络服务器
CN108334632B (zh) 实体推荐方法、装置、计算机设备和计算机可读存储介质
EP2113849A2 (en) Information processing apparatus and presenting method of related items
CN110163703B (zh) 一种分类模型建立方法、文案推送方法和服务器
CN106686460B (zh) 一种视频节目推荐方法及视频节目推荐装置
CN106156157B (zh) 一种电子图书导航系统和方法
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN112364204A (zh) 视频搜索方法、装置、计算机设备及存储介质
CN113873330B (zh) 视频推荐方法、装置、计算机设备和存储介质
CN105760526A (zh) 一种新闻分类的方法和装置
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
Dezfouli et al. Deep neural review text interaction for recommendation systems
US20130212105A1 (en) Information processing apparatus, information processing method, and program
CN112100513A (zh) 基于知识图谱的推荐方法、装置、设备及计算机可读介质
CN110598126B (zh) 基于行为习惯的跨社交网络用户身份识别方法
KR101752474B1 (ko) 지식 공유 서비스 제공 장치, 방법 및 컴퓨터 프로그램
CN110110206B (zh) 物品间关系挖掘及推荐方法、装置、计算设备、存储介质
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN112699311A (zh) 信息推送方法、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180710