CN108334640A

CN108334640A - 一种视频推荐方法及装置

Info

Publication number: CN108334640A
Application number: CN201810235334.5A
Authority: CN
Inventors: 陈柏宇; 方非; 张徵
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-07-27

Abstract

本发明实施例提供一种视频推荐方法及装置，包括：分别对获取的多个源视频文档进行预处理操作，得到多个包括关键词的目标视频文档；若采用预先设定的第一相关性算法对任意两个目标视频文档进行相关性计算则，分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度；依据各预设类别之间的相似度，确定任意两个目标视频文档对应视频之间的第一相似度结果，以使当用户观看视频时，依据观看的视频与其他视频的第一相似度结果，确定目标推荐视频。本发明实施例只需要分别确定出各预设类别下的关键词在任意两个目标视频文档间的相似度，关键词相似度计算时的计算量大大减少，提高了视频推荐的效率。

Description

一种视频推荐方法及装置

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频推荐方法及装置。

背景技术

为简化用户搜索视频的操作，视频网站往往会根据用户当前观看的视频，为用户推荐与该当前视频相关的其他视频，使得用户通过点击推荐的视频就可以继续进行视频观看。

现有技术中，视频网站在推荐视频时，可以先获取各视频所包含的文本信息，将每个视频所包含的文本信息确定为一个文档，然后通过词移动距离分析方法(Word Mover'sDistance，WMD)确定各视频对应的文档之间的相关性排序，WMD距离越近说明两个文档的相关性越强。具体来说，假设有三个视频对应文档A、B和C，需要分别计算文档A与文档B、C的相关性，则在WMD分析方法中，首先分别将三个文档使用文字包(Bag of Words，BOW)模型向量化表示，得到文档对应的特征向量，同时分别求取文档A与文档B、文档A与文档C中的所有词语之间的距离，分别得到距离矩阵，将文档A与文档B所对应的特征向量和距离矩阵作为输入代入陆地移动距离(Earth Mover's Distance，EMD)算法即可求得第一WMD距离，将文档A与文档C所对应的特征向量和距离矩阵作为输入代入EMD算法即可求得第二WMD距离，依据第一WMD距离和第二WMD距离，可以得出文档B、C相对于与文档A的相关性排序。

然而，本领域技术人员在研究上述技术方案的过程中发现，上述技术方案存在如下缺陷：在不同的文档中，往往存在着差距很大的词语，例如文档A中存在词语“周星驰”，文档B中存在词语“高清”，二者完全不具有关联性，但是现有技术中确定两个文档的WMD距离时，由于需要将其中一个文档中的全部词语与另一个文档中的全部词语依次、全部计算距离，则上述“周星驰”和“高清”也需要进行距离计算，因此在分析相关性时，进行了大量不必要的距离计算，导致分析相关性的效率低下，当依据各视频间的相关性计算结果向用户视频推荐时，效率较低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频推荐方法及装置。

根据本发明的第一方面，提供了一种视频推荐方法，所述方法包括：

分别对获取的多个源视频文档进行预处理操作，得到多个目标视频文档，其中，各所述目标视频文档包括关键词；

若采用预先设定的第一相关性算法对任意两个所述目标视频文档进行相关性计算，则：

分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度；其中，所述分类操作为：分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理；

依据所述进行分类操作后的任意两个目标视频文档中各预设类别之间的相似度，确定所述任意两个目标视频文档对应视频之间的第一相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第一相似度结果，确定目标推荐视频。

根据本发明的第二方面，提供了一种视频推荐装置，所述装置包括：

预处理模块，用于分别对获取的多个源视频文档进行预处理操作，得到多个目标视频文档，其中，各所述目标视频文档包括关键词；

预设类别相似度确定模块，用于若采用预先设定的第一相关性算法对任意两个所述目标视频文档进行相关性计算，则：分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度；其中，所述分类操作为：分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理；

第一相似度结果确定模块，用于依据所述进行分类操作后的任意两个目标视频文档中各预设类别之间的相似度，确定所述任意两个目标视频文档对应视频之间的第一相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第一相似度结果，确定目标推荐视频。

本发明实施例包括以下优点：本发明实施例首先分别对获取的多个源视频文档进行预处理操作，得到多个包括关键词的目标视频文档，该源视频文档可以是视频的文字简介等文字信息，进行预处理操作后，得到包含关键词的目标视频文档；若采用预先设定的第一相关性算法对任意两个目标视频文档进行相似度计算，则在进行了分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理的分类操作后的两个目标视频文档中，各关键词都对应的设置在预设类别下，只需要分别确定各所述预设类别在所述任意两个目标视频文档间的相似度，再依据所述任意两个目标视频文档中各预设类别之间的相似度，就可以确定所述任意两个目标视频文档对应视频之间的第一相似度结果，使得当用户观看视频时，可以依据观看的视频与其他视频的第一相似度结果，确定目标推荐视频。相比于现有技术中通过WMD计算两个文档的相似度时，需要将其中一个目标视频文档中的每一个关键词，分别与另外一个目标视频文档中全部的关键词进行计算相似度的方式，本发明实施例只需要分别确定出各预设类别下的关键词在所述任意两个目标视频文档间的相似度，即将计算关键词相似度的范围缩小到各预设类别中，因此本发明实施例进行关键词相似度计算时的计算量大大减少，提高了计算视频文档相似度的效率，当需要依据各视频间的相关性计算结果向用户视频推荐时，效率较高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频推荐方法的流程图；

图2是本发明实施例提供的一种视频推荐方法的具体流程图；

图3是本发明实施例提供的一种视频推荐装置的框图；

图4是本发明实施例提供的一种视频推荐装置的具体框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

应当理解，此处所描述的具体实施例仅用以解释本发明，仅仅是本发明一部分实施例，而不是全部的实施例，并不用于限定本发明。

实施例一

参照图1，示出了一种视频推荐方法的流程图。

可以理解，本发明实施例可以应用于服务器端，该服务器端可以是WEB(WorldWide Web，万维网)服务器，也可以是其他形式的服务器，本发明实施例对此不做具体限制。

具体应用中，服务器可以在夜间用户访问量较少的情况下，对数据库中的源视频文档进行相似度计算的操作，以提升处理效率并降低服务器白天运行时的负载；服务器也可以在检测到用户观看视频后，实时确定用户观看的视频与数据库中其他视频的相似度，从而确定出需要向用户推荐的目标推荐视频，本发明实施例对进行本发明的视频推荐方法的具体实施时机不作限制。

该方法具体可以包括如下步骤：

步骤101：分别对获取的多个源视频文档进行预处理操作，得到多个目标视频文档，其中，各所述目标视频文档包括关键词。

具体应用中，每一个视频通常对应一个源视频文档，该源视频文档中可以包括该视频的文字信息，例如，该源视频文档中，可以包括视频的标签、影人、简介描述等，更具体来说，标签可以包括类型、题材、风格等；影人包括导演，主演等；简介描述可以是讲述该视频内容的一段或几段文字。

本发明实施例中，服务器可以在数据库、缓存、本地硬盘等位置获取多个源视频文档，在获取到多个源视频文档后，需要分别对每个源视频文档进行预处理操作，以得到多个目标视频文档。

具体应用中，该预处理操作可以是切词操作，通过切词工具对每个源视频文档进行切词操作，使得源视频文档中原本连贯的、符合人们阅读规则的文字，切分为可以作为该源视频文档标识的关键词，得到包括关键词的目标视频文档；可以理解，本领域技术人员也可以根据实际的应用场景，对源视频文档进行其他方式的预处理操作，得到包括关键词的目标视频文档，本发明实施例对预处理操作的具体形式不做限定。

步骤102：若采用预先设定的第一相关性算法对任意两个所述目标视频文档进行相关性计算，则：分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度；其中，所述分类操作为：分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理。

本发明实施例中，预先设定的第一相关性算法具体可以是改进后的WMD算法，具体来说：

现有技术中的WMD算法，在计算两个包含关键词的目标视频文档的相似性时，不对目标视频文档或者目标视频文档中的关键词进行处理，只是将其中一个目标视频文档中的全部关键词，与另一个目标视频文档中的全部词语依次、全部计算距离，从而确定出两个目标视频文档的相似性，因此在分析相关性时，容易进行大量不必要的距离计算，导致分析相关性的效率低。

采用本发明实施例的第一相关性算法对任意两个目标视频文档进行相关性计算时，需要先对该任意两个目标视频文档中的关键词按照预设类别进行分类处理，然后通过确定各预设类别在两个目标视频文档中的相似度，来得到两个目标视频文档的相似度，相较于现有技术的WMD算法，本发明实施例的第一相关性算法，进行相似度计算时的计算量大大减少，提高了计算视频文档相似度的效率。

具体应用中，预设类别是根据可以反映视频特点的类别元素确定，例如可以是风格、导演、主演、产地等，那么以目标视频文档是《美人鱼》、《长江七号》的目标视频文档为例，《美人鱼》的目标视频文档中可以包括关键字：喜剧、神话、环保、周星驰、邓超、林允、张雨绮、港台等；《长江七号》的目标视频文档中可以包括关键字：喜剧、神话、亲情、周星驰、周星驰、徐娇、张雨绮、港台等。

则在分类操作中，分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理的方法具体可以是：

在《美人鱼》的目标视频文档中，将关键词“喜剧”、“神话”、“环保”设置在预设类别“风格”中，将关键词“周星驰”设置在预设类别“导演”中，将关键词“邓超”、“林允”、“张雨绮”设置在预设类别“主演”中，将关键词“港台”设置在预设类别“产地”中。具体如表1所示：

表1

在《长江七号》的目标视频文档中，将关键词“喜剧”、“神话”、“亲情”设置在预设类别“风格”中，将关键词“周星驰”设置在预设类别“导演”中，将关键词“周星驰”、“徐娇”、“张雨绮”设置在预设类别“主演”中，将关键词“港台”设置在预设类别“产地”中。具体如表2所示：

表2

分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度可以是：分别确定预设类别“风格”、“导演”、“主演”、“产地”在《美人鱼》、《长江七号》的目标视频文档间的相似度。

以确定预设类别“风格”在上述两个目标视频文档间的相似度为例：

确定方法可以是：计算“风格”在《美人鱼》的目标视频文档中包含的关键词“喜剧、神话、环保”，与“风格”在《长江七号》的目标视频文档中包含的关键词“喜剧、神话、亲情”的重复度，具体来说，在“喜剧、神话、环保”与“喜剧、神话、亲情”中，三个关键词有两个是重复的，则可以认为重复度时2/3，得到0.67，从而确定出预设类别“风格”在上述两个目标视频文档间的相似度为0.67。

确定方法还可以是：基于词向量的相似度定义，计算“风格”在《美人鱼》的目标视频文档中包含的关键词“喜剧、神话、环保”，与“风格”在《长江七号》的目标视频文档中包含的关键词“喜剧、神话、亲情”的最短路程，从而确定出预设类别“风格”在上述两个目标视频文档间的相似度。

确定其他预设类别在上述两个目标视频文档间的相似度的方法与上述方法类似，在此不再赘述；当然本领域技术人员也可以根据实际的应用场景，采用其他确定各预设类别在任意两个目标视频文档间的相似度的方法，本发明实施例不作具体限定。

步骤103：依据所述进行分类操作后的任意两个目标视频文档中各预设类别之间的相似度，确定所述任意两个目标视频文档对应视频之间的第一相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第一相似度结果，确定目标推荐视频。

具体应用中，假设确定出预设类别风格、导演、主演、产地在《美人鱼》、《长江七号》的目标视频文档间的相似度分别是：0.67、1、0.67、1，则确定该两个目标视频文档之间的第一相似度结果的方法可以是：

将上述各相似度得分求和，即(0.67+1+0.67+1)，得到第一相似度结果为1.67；

或，将上述各相似度得分求平均值，即(0.67+1+0.67+1)/4，得到第一相似度结果为0.84；

或，首先定义预设类别风格、导演、主演、产地在第一相似度结果中的权重系数，例如0.1、0.4、0.4、0.1，然后，结合权重系数对各相似度得分求和，即0.1*0.67+0.4*1+0.4*0.67+0.1*1，得到第一相似度结果为0.84。

当然本领域技术人员也可以根据实际的应用场景，采用其他依据所述任意两个目标视频文档中各预设类别之间的相似度，确定所述任意两个目标视频文档对应视频之间的第一相似度结果的方法，本发明实施例不作具体限定。

具体应用中，可以通过上述方法确定一个视频的目标视频文档与其他至少一个视频的目标视频文档的第一相似度结果，则当用户观看视频时，可以根据观看的视频与其他视频的第一相似度结果，将第一相似度结果靠前的视频作为目标推荐视频推荐给用户。

综上所述，本发明实施例首先分别对获取的多个源视频文档进行预处理操作，得到多个包括关键词的目标视频文档，该源视频文档可以是视频的文字简介等文字信息，进行预处理操作后，得到包含关键词的目标视频文档；若采用预先设定的第一相关性算法对任意两个目标视频文档进行相似度计算，则在进行了分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理的分类操作后的两个目标视频文档中，各关键词都对应的设置在预设类别下，只需要分别确定各所述预设类别在所述任意两个目标视频文档间的相似度，再依据所述任意两个目标视频文档中各预设类别之间的相似度，就可以确定所述任意两个目标视频文档对应视频之间的第一相似度结果，使得当用户观看视频时，可以依据观看的视频与其他视频的第一相似度结果，确定目标推荐视频。相比于现有技术中通过WMD计算两个文档的相似度时，需要将其中一个目标视频文档中的每一个关键词，分别与另外一个目标视频文档中全部的关键词进行计算相似度的方式，本发明实施例只需要分别确定出各预设类别下的关键词在所述任意两个目标视频文档间的相似度，即将计算关键词相似度的范围缩小到各预设类别中，因此本发明实施例进行关键词相似度计算时的计算量大大减少，提高了计算视频文档相似度的效率，当需要依据各视频间的相关性计算结果向用户视频推荐时，效率较高。

实施例二

参照图2，示出了一种视频推荐方法的具体流程图，具体可以包括如下步骤：

步骤201：分别对获取的多个源视频文档进行预处理操作，得到多个目标视频文档，其中，各所述目标视频文档包括关键词。

在本发明实施例的一种优选方案中，对获取的多个源视频文档进行预处理操作可以是：分别将获取的各所述源视频文档中的标点符号、副词、介词删除，得到只包含关键词的目标视频文档。

具体应用中，源视频文档中通常包括有标点符号，副词，介词等内容，而该类内容对于计算两个视频之间的相关性没有重要作用，因此服务器在获取源视频文档后，将各源视频文档中的标点符号、副词、介词删除，得到只包含关键词的目标视频文档，使得该目标视频文档中包含的内容能简洁、准确的反映出对应视频的特点。

步骤202：若采用预先设定的第一相关性算法对任意两个所述目标视频文档进行相关性计算，则：

分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度；其中，所述分类操作为：分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理。

在本发明实施例的一种优选方案中，所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档，所述预设类别至少包括第一预设类别；所述分别确定各所述预设类别在进行分类操作后的任意两个目标视频文档间的相似度的步骤，包括：

将所述第一预设类别在进行分类操作后的第一目标视频文档中包含的关键词确定为第一关键词；

将所述第一预设类别在进行分类操作后的第二目标视频文档中包含的关键词确定为第二关键词；

将所述第一关键词与所述第二关键词的相似度，确定为所述第一预设类别在所述进行分类操作后的第一目标视频文档和所述进行分类操作后的第二目标视频文档间的相似度。

具体实施方式在步骤102中有相应记载，在此不在赘述。

步骤203：依据各所述预设类别的预设权重，和，所述各预设类别在所述进行分类操作后的任意两个目标视频文档间的相似度，确定所述任意两个目标视频文档的第一相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第一相似度结果，确定目标推荐视频。

本发明实施例中，考虑到各预设类别对相应视频的重要程度不同，例如，预设类别“导演”“风格”，比预设类别“产地”、“语言”，能更准确的反映对应视频的特点，因此，可以设定“导演”“风格”的预设权重大于“产地”、“语言”的预设权重，在计算两个目标视频文档的第一相似度结果时，同时依据各预设类别的预设权重，和，各预设类别在两个目标视频文档间的相似度，能很大程度的提高确定两个目标视频文档的第一相似度结果的准确性。

举例来说，可以分别设定“导演”、“风格”、“产地”、“语言”的预设权重为0.4、0.4、0.1、0.1，当确定进行分类操作后的任意两个目标视频文档间，预设类别“导演”的相似度是0.8，预设类别“风格”的相似度是0.9，预设类别“产地”的相似度是0.9，预设类别“语言”的相似度是0.8时，可以计算通过各预设类别的预设权重乘以相似度后相加得到两个任意目标视频文档的第一相似度结果，具体来说，可以是：0.4*0.8+0.4*0.8+0.1*0.9+0.1*0.9＝0.82,0.82就是两个任意目标视频文档的第一相似度结果。当然，本领域技术人员也可以根据实际应用场景，设定不同的预设权重，得出相应的第一相似度结果，本发明实施例对此不做具体限制。步骤204：若采用预先设定的第二相关性算法对所述第一目标视频文档和所述第二目标视频文档进行相似度计算，则：

分别确定所述第一目标视频文档中各关键词，和/或，所述第一目标视频文档中各关键词的近似关键词，与所述第二目标视频文档的关键词，和，所述第二目标视频文档中各关键词的近似关键词的重复度；其中，所述第一目标视频文档中各关键词的近似关键词为：通过对所述第一目标视频文档的关键词进行词拓展处理得到；所述第二目标视频文档中各关键词的近似关键词为：通过对所述第二目标视频文档的关键词进行词拓展处理得到。

本发明实施例中，预先设定的第二相关性算法具体可以是，改进的杰卡德相似系数(Jaccard similarity coefficient，Jaccard)算法，具体来说：

现有技术的Jaccard算法，在对第一目标视频文档和第二目标视频文档进行相似度计算时，通过比较第一目标视频文档A和第二目标视频文档B之间的相似性和差异性，Jaccard系数值越大，样本相似度越高，采用的公式可以是：

其中，当第一目标视频文档A，第二目标视频文档B都为空文档时，J(A,B)定义为1。

与Jaccard系数相关的指标叫做Jaccard距离d，用于描述集合之间的不相似度。Jaccard距离d越大，样本相似度越低。公式定义如下：

在现有技术的Jaccard算法中，在确定第一目标视频文档A和第二目标视频文档B之间的相似性时，是通过确定第一目标视频文档A和第二目标视频文档B中包含相同的关键词实现的，具体来说，假设第一目标视频文档A中包含关键词“中文”，第二目标视频文档B中也包含关键词“中文”，则认为第一目标视频文档A和第二目标视频文档B关键词相似；假设第一目标视频文档A中包含关键词“中文”，第二目标视频文档B中也包含关键词“国语”，则认为第一目标视频文档A和第二目标视频文档B关键词相异。

然而“中文”和“国语”通常都代表着汉语配音的视频，现有技术的上述计算相似性和相异性的方法显然不能得到准确的相似度计算结果。

本发明实施例中，当采用预先设定的第二相关性算法对第一目标视频文档和第二目标视频文档进行相似度计算时，需要对第一目标视频文档的关键词和第二目标视频文档的关键词进行词拓展处理。具体应用中，词拓展处理包括：拓展出各关键词相近的近似关键词，例如，通过设置关键词数据库，依据语义、词义等确定出一个关键词对应的至少一个近似关键词，建立关键词与近似关键词的映射关系，通过该映射关系，拓展出各关键词的近似关键词；当然，也可以根据词语辞典等对关键词进行拓展；还可以是采用词向量工具对关键词进行拓展，本发明实施例对词拓展处理的具体方式不做限定。

本发明实施例中，由于对各关键词进行了拓展，因此，在计算第一目标视频文档和第二目标视频文档之间的相似性和差异性时，不仅比较第一目标视频文档和第二目标视频文档包含的相同的关键词的相似度，还比较第一目标视频文档和第二目标视频文档包含的关键词的近似关键词的相似度，则只要第一目标视频文档和第二目标视频文档包含的关键词有一定相似度，就可以影响到最终的相似性得分，得到准确的重复度计算结果。

步骤205：依据所述重复度，确定所述第一目标视频文档和所述第二目标视频文档的第二相似度结果；以使当用户观看视频时，依据所述观看的视频与其他视频的第二相似度结果，确定目标推荐视频。

本发明实施例中，可以将重复度的结果直接作为第一目标视频文档和第二目标视频文档的第二相似度结果，也可以对计算重复度的结果进行加权、变换等得到第一目标视频文档和第二目标视频文档的第二相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第二相似度结果，确定目标推荐视频。

本发明实施例中，采用预先设定的第二相关性算法对第一目标视频文档和第二目标视频文档进行相似度计算时，首先对所述第一目标视频文档的关键词和所述第二目标视频文档的关键词进行词拓展处理，拓展出各所述关键词相近的近似关键词，则在计算第一目标视频文档的关键词和所述第二目标视频文档的关键词的重复度时，分别确定所述第一目标视频文档中各关键词，和/或，所述第一目标视频文档中各关键词的近似关键词，与所述第二目标视频文档的关键词，和，所述第二目标视频文档中各关键词的近似关键词的重复度，即不仅比较第一目标视频文档和第二目标视频文档包含的相同的关键词的相似度，还比较第一目标视频文档和第二目标视频文档包含的关键词的近似关键词的相似度，则只要第一目标视频文档和第二目标视频文档包含的关键词有一定相似度，就可以影响到最终的相似性得分，得到准确的重复度计算结果。因此依据所述重复度，确定所述第一目标视频文档和所述第二目标视频文档的第二相似度结果时，也能得到相较于现有技术更准确的相似度结果，当用户观看视频时，依据所述观看的视频与其他视频的第二相似度结果，确定目标推荐视频，能为用户提供更加精准的目标推荐视频。

优选的，本发明实施例中，还可以包括：

步骤A1：当采用至少两种相关性算法对所述任意两个目标视频文档进行相似度计算时，设定各所述相关性算法所确定的相似度结果的结果权重。

本发明实施例中，至少两种相关性算法具体可以包括上述步骤中的：WMD算法、Jaccard算法、第一相关性算法、第二相关性算法，还可以包括词频-逆向文件频率(termfrequency–inverse document frequency，TF-IDF)算法或其他的相关性算法，本发明实施例对相关性算法的具体形式不做限定。

其中，TF-IDF算法是一种统计方法评估一词对于文档的重要程度。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。可以算得每个词在各自文档的TF-IDF值，此时文档由其词语的TF-IDF值组合成一个向量，再将两个文档向量做内积得到一个基于TF-IDF的特征值，从而确定两个文档的相似度。

本发明实施例中，需要采用至少两种相关性算法对两个目标视频文档进行相似度计算，在计算时，要设定各相关性算法所确定的相似度结果的结果权重。

具体应用中，设定各相关性算法所确定的相似度结果的结果权重时，可以训练一个针对多种相关性算法权重赋值的模型，具体来说，可以通过任意对各相关性算法设置不同的权重，得到不同的视频相关性结果，再判定视频相关性结果的准确性，准确则认为该权重设置的合适，不准确则认为该权重设置的合适，通过大量的训练后，可以得到一个针对多种相关性算法权重赋值的模型，根据该模型中的具体参数值，设定各相关性算法所确定的相似度结果的结果权重。

本领域技术人员也可以根据实际应用场景预先设定各相关性算法所确定的相似度结果的结果权重，本发明实施例对此不作限制。

步骤A2：依据各所述相关性算法所确定的相似度结果，和各所述相关性算法所确定的相似度结果的结果权重，确定所述任意两个目标视频文档对应视频的第三相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第三相似度结果，确定目标推荐视频。

本发明实施例中，采用至少两种相关性算法对所述任意两个目标视频文档进行相似度计算，设定各所述相关性算法所确定的相似度结果的结果权重，并依据各所述相关性算法所确定的相似度结果，和各所述相关性算法所确定的相似度结果的结果权重，确定所述任意两个目标视频文档对应视频的第三相似度结果。相较于现有技术中只是单一的采用一种相关性算法计算两个目标视频文档的相似度，没有一定的针对性，本发明实施例依据预先设定的各所述相关性算法所确定的相似度结果的结果权重，和各所述相关性算法所确定的相似度结果，确定所述任意两个目标视频文档对应视频的第三相似度结果，是一种综合性的、能得到相较于现有技术更准确的相似度结果的计算方法，当用户观看视频时，依据所述观看的视频与其他视频的第三相似度结果，确定目标推荐视频，能为用户提供更加精准的目标推荐视频。

步骤A3：所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档；确定所述第一目标视频文档对应视频的第一时间标识、第一位置标识。

步骤A4：确定所述第二目标视频文档对应视频的第二时间标识、第二位置标识。

步骤A5：确定所述第一时间标识与所述第二时间标识的时间相似度结果。

步骤A6：确定所述第一位置标识与所述第二位置标识的位置相似度结果。

本发明实施例中，考虑到用户对视频的喜好会因为时间的不同、地域的不同而由很大差异，因此，将第一时间标识与所述第二时间标识的时间相似度结果，和，第一位置标识与所述第二位置标识的位置相似度结果，作为计算第一目标视频文档和第二目标视频文档的因素，能够更加符合用户的喜好，为用户推荐更加精准的感兴趣的视频。

步骤A7：依据预先设定的所述第三相似度结果的权重、所述时间相似度结果的权重、所述位置相似度结果的权重，确定所述第一目标视频文档和所述第二目标视频文档的第四相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第四相似度结果，确定目标推荐视频。

本发明实施例中，第三相似度结果的权重、时间相似度结果的权重、位置相似度结果的权重可以由本领域技术人员根据实际应用场景进行设定，本发明实施例对此不作具体限定，依据各相似度结果和个相似度结果的权重确定第一目标视频文档和第二目标视频文档的第四相似度结果的方法，与步骤103中记载的方法类似，在此不再赘述。

本发明实施例首先分别对获取的多个源视频文档进行预处理操作，得到多个包括关键词的目标视频文档，该源视频文档可以是视频的文字简介等文字信息，进行预处理操作后，得到包含关键词的目标视频文档；若采用预先设定的第一相关性算法对任意两个目标视频文档进行相似度计算，则在进行了分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理的分类操作后的两个目标视频文档中，各关键词都对应的设置在预设类别下，只需要分别确定各所述预设类别在所述任意两个目标视频文档间的相似度，再依据所述任意两个目标视频文档中各预设类别之间的相似度，就可以确定所述任意两个目标视频文档对应视频之间的第一相似度结果，使得当用户观看视频时，可以依据观看的视频与其他视频的第一相似度结果，确定目标推荐视频。相比于现有技术中通过WMD计算两个文档的相似度时，需要将其中一个目标视频文档中的每一个关键词，分别与另外一个目标视频文档中全部的关键词进行计算相似度的方式，本发明实施例只需要分别确定出各预设类别下的关键词在所述任意两个目标视频文档间的相似度，即将计算关键词相似度的范围缩小到各预设类别中，因此本发明实施例进行关键词相似度计算时的计算量大大减少，提高了计算视频文档相似度的效率，当需要依据各视频间的相关性计算结果向用户视频推荐时，效率较高。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

参照图3，示出了一种视频推荐装置的框图，该装置具体可以包括：

预处理模块310，用于分别对获取的多个源视频文档进行预处理操作，得到多个目标视频文档，其中，各所述目标视频文档包括关键词。

预设类别相似度确定模块320，用于若采用预先设定的第一相关性算法对任意两个所述目标视频文档进行相关性计算，则：分别确定各预设类别在进行分类操作后的任意两个目标视频文档间的相似度；其中，所述分类操作为：分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理。

第一相似度结果确定模块330，用于依据所述进行分类操作后的任意两个目标视频文档中各预设类别之间的相似度，确定所述任意两个目标视频文档对应视频之间的第一相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第一相似度结果，确定目标推荐视频。

优选地，参照图4，在图3的基础上，所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档，所述视频推荐装置还可以包括：

重复度确定模块340，用于分别确定所述第一目标视频文档中各关键词，和/或，所述第一目标视频文档中各关键词的近似关键词，与所述第二目标视频文档的关键词，和，所述第二目标视频文档中各关键词的近似关键词的重复度；其中，所述第一目标视频文档中各关键词的近似关键词为：通过对所述第一目标视频文档的关键词进行词拓展处理得到；所述第二目标视频文档中各关键词的近似关键词为：通过对所述第二目标视频文档关键词进行词拓展处理得到。

第二相似度结果确定模块350，用于依据所述重复度，确定所述第一目标视频文档和所述第二目标视频文档的第二相似度结果；以使当用户观看视频时，依据所述观看的视频与其他视频的第二相似度结果，确定目标推荐视频。

所述预处理模块310包括：

预处理子模块3101，用于分别将获取的各所述源视频文档中的标点符号、副词、介词删除，得到只包含关键词的目标视频文档。

所述预设类别相似度确定模块320包括：

第一关键词确定子模块3201，用于将所述第一预设类别在进行分类操作后的第一目标视频文档中包含的关键词确定为第一关键词。

第二关键词确定子模块3202，用于将所述第一预设类别在进行分类操作后的第二目标视频文档中包含的关键词确定为第二关键词。

预设类别相似度确定子模块3203，用于将所述第一关键词与所述第二关键词的相似度，确定为所述第一预设类别在所述进行分类操作后的第一目标视频文档和所述进行分类操作后的第二目标视频文档间的相似度。

所述第一相似度结果确定模块330包括：

第一相似度结果确定子模块3301，用于依据各所述预设类别的预设权重，和，所述各预设类别在所述进行分类操作后的任意两个目标视频文档间的相似度，确定所述任意两个目标视频文档的第一相似度结果。

优选地，所述装置还包括：

权重设定模块，用于当采用至少两种相关性算法对所述任意两个目标视频文档进行相似度计算时，设定各所述相关性算法所确定的相似度结果的结果权重。

第三相似度结果确定模块，用于依据各所述相关性算法所确定的相似度结果，和各所述相关性算法所确定的相似度结果的结果权重，确定所述任意两个目标视频文档对应视频的第三相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第三相似度结果，确定目标推荐视频。

第一确定模块，用于确定所述第一目标视频文档对应视频的第一时间标识、第一位置标识。

第二确定模块，用于确定所述第二目标视频文档对应视频的第二时间标识、第二位置标识。

第三确定模块，用于确定所述第一时间标识与所述第二时间标识的时间相似度结果。

第四确定模块，用于确定所述第一位置标识与所述第二位置标识的位置相似度结果。

第四相似度结果确定模块，用于依据预先设定的所述第三相似度结果的权重、所述时间相似度结果的权重、所述位置相似度结果的权重，确定所述第一目标视频文档和所述第二目标视频文档的第四相似度结果，以使当用户观看视频时，依据所述观看的视频与其他视频的第四相似度结果，确定目标推荐视频。

本发明实施例首先通过预处理模块310分别对获取的多个源视频文档进行预处理操作，得到多个包括关键词的目标视频文档，该源视频文档可以是视频的文字简介等文字信息，进行预处理操作后，得到的目标视频文档包含关键词；若采用预先设定的第一相关性算法对任意两个目标视频文档进行相似度计算，则在进行了分别对所述任意两个目标视频文档的关键词按照预设类别进行分类处理的分类操作后的两个目标视频文档中，各关键词都对应的设置在预设类别下，只需要通过预设类别相似度确定模块320分别确定各所述预设类别在所述任意两个目标视频文档间的相似度，再通过第一相似度结果确定模块330依据所述任意两个目标视频文档中各预设类别之间的相似度，就可以确定所述任意两个目标视频文档对应视频之间的第一相似度结果，使得当用户观看视频时，可以依据观看的视频与其他视频的第一相似度结果，确定目标推荐视频。相比于现有技术中通过WMD计算两个文档的相似度时，需要将其中一个目标视频文档中的每一个关键词，分别与另外一个目标视频文档中全部的关键词进行计算相似度的方式，本发明实施例只需要分别确定出各预设类别下的关键词在所述任意两个目标视频文档间的相似度，即将计算关键词相似度的范围缩小到各预设类别中，因此本发明实施例进行关键词相似度计算时的计算量大大减少，提高了计算视频文档相似度的效率，当需要依据各视频间的相关性计算结果向用户视频推荐时，效率较高。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程视频推荐终端设备的处理器以产生一个机器，使得通过计算机或其他可编程视频推荐终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程视频推荐终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程视频推荐终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频推荐方法和一种视频推荐装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频推荐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档，所述预设类别至少包括第一预设类别；所述分别确定各所述预设类别在进行分类操作后的任意两个目标视频文档间的相似度的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述依据所述进行分类操作后的任意两个目标视频文档中各预设类别的相似度，确定所述任意两个目标视频文档对应视频的第一相似度结果的步骤，包括：

依据各所述预设类别的预设权重，和，所述各预设类别在所述进行分类操作后的任意两个目标视频文档间的相似度，确定所述任意两个目标视频文档的第一相似度结果。

4.根据权利要求1所述的方法，其特征在于，所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档，所述方法还包括：

若采用预先设定的第二相关性算法对所述第一目标视频文档和所述第二目标视频文档进行相似度计算，则：

分别确定所述第一目标视频文档中各关键词，和/或，所述第一目标视频文档中各关键词的近似关键词，与所述第二目标视频文档的关键词，和，所述第二目标视频文档中各关键词的近似关键词的重复度；其中，所述第一目标视频文档中各关键词的近似关键词为：通过对所述第一目标视频文档的关键词进行词拓展处理得到；所述第二目标视频文档中各关键词的近似关键词为：通过对所述第二目标视频文档的关键词进行词拓展处理得到；

依据所述重复度，确定所述第一目标视频文档和所述第二目标视频文档的第二相似度结果；以使当用户观看视频时，依据所述观看的视频与其他视频的第二相似度结果，确定目标推荐视频。

5.根据权利要求1至4任一所述的方法，其特征在于，所述分别对获取的多个源视频文档进行预处理操作，得到多个目标视频文档包括：

分别将获取的各所述源视频文档中的标点符号、副词、介词删除，得到只包含关键词的目标视频文档。

6.一种视频推荐装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档，所述预设类别至少包括第一预设类别；所述预设类别相似度确定模块包括：

第一关键词确定子模块，用于将所述第一预设类别在进行分类操作后的第一目标视频文档中包含的关键词确定为第一关键词；

第二关键词确定子模块，用于将所述第一预设类别在进行分类操作后的第二目标视频文档中包含的关键词确定为第二关键词；

预设类别相似度确定子模块，用于将所述第一关键词与所述第二关键词的相似度，确定为所述第一预设类别在所述进行分类操作后的第一目标视频文档和所述进行分类操作后的第二目标视频文档间的相似度。

8.根据权利要求6所述的装置，其特征在于，所述第一相似度结果确定模块包括：

第一相似度结果确定子模块，用于依据各所述预设类别的预设权重，和，所述各预设类别在所述进行分类操作后的任意两个目标视频文档间的相似度，确定所述任意两个目标视频文档的第一相似度结果。

9.根据权利要求6所述的装置，其特征在于，所述任意两个目标视频文档包括：第一目标视频文档和第二目标视频文档，还包括：

重复度确定模块，用于分别确定所述第一目标视频文档中各关键词，和/或，所述第一目标视频文档中各关键词的近似关键词，与所述第二目标视频文档的关键词，和，所述第二目标视频文档中各关键词的近似关键词的重复度；其中，所述第一目标视频文档中各关键词的近似关键词为：通过对所述第一目标视频文档的关键词进行词拓展处理得到；所述第二目标视频文档中各关键词的近似关键词为：通过对所述第二目标视频文档的关键词进行词拓展处理得到；

第二相似度结果确定模块，用于依据所述重复度，确定所述第一目标视频文档和所述第二目标视频文档的第二相似度结果；以使当用户观看视频时，依据所述观看的视频与其他视频的第二相似度结果，确定目标推荐视频。

10.根据权利要求6至9任一所述的装置，其特征在于，所述预处理模块包括：

预处理子模块，用于分别将获取的各所述源视频文档中的标点符号、副词、介词删除，得到只包含关键词的目标视频文档。