CN110866563A

CN110866563A - 相似视频检测、推荐方法、电子设备和存储介质

Info

Publication number: CN110866563A
Application number: CN201911142735.7A
Authority: CN
Inventors: 马丹; 张健; 张进; 莫东松; 赵璐; 钟宜峰; 马晓琳
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-06
Anticipated expiration: 2039-11-20
Also published as: CN110866563B

Abstract

本发明实施例提供一种相似视频检测、推荐方法、电子设备和存储介质，其中方法包括：确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果；所述图像特征包括角色特征和/或场景特征。本发明实施例提供的方法、电子设备和存储介质，通过两个视频在相同录制时间的视频帧的图像特征，确定两个视频的相似度检测结果，为视频分类提供了细粒度的分类方法，以便于实现针对同一主题内容的视频分类管理，能够满足定制化聚焦同一主题内容的高层次需求。

Description

相似视频检测、推荐方法、电子设备和存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种相似视频检测、推荐方法、电子设备和存储介质。

背景技术

现有的视频平台立足于视频的上传和分享，基于视频内容进行标签分类，方便用户通过标签筛选方式进行内容观看。视频的标签通常是在用户上传视频时由用户进行人工设置，或者由平台基于人工智能技术进行分类设置。然而，现有的视频内容标签分类仍然停留在粗粒度的分类层次上，例如根据视频内容划分为“动漫”、“音乐”、“科技”、“时尚”等。

随着互联网的快速发展，大量的视频资源不断涌现，人们对于视频观看的要求不断提高。针对同一主题内容，例如一场演唱会或者一场体育赛事，用户可能存在不同视角、不同距离和不同视频质量的观看需求。而分类粒度过粗导致平台缺乏对同一主题内容的视频的分类管理，无法满足定制化聚焦同一主题内容的高层次需求。

发明内容

本发明实施例提供一种相似视频检测、推荐方法、电子设备和存储介质，用以解决现有的视频分类粒度过粗，无法满足定制化聚焦同一主题内容的高层次需求的问题。

第一方面，本发明实施例提供一种相似视频检测方法，包括：

确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；

基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果；所述图像特征包括角色特征和/或场景特征。

优选地，所述基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果，之前还包括：

确定所述第一视频和所述第二视频在相同录制时间分别对应的第一音频帧和第二音频帧；

对应地，所述基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果，具体包括：

基于所述第一视频帧和所述第二视频帧的图像特征，以及所述第一音频帧和所述第二音频帧的音频特征，确定所述第一视频和所述第二视频的相似检测结果。

优选地，所述确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧，具体包括：

若所述第一视频和所述第二视频的拍摄位置距离小于等于预设拍摄位置距离阈值，则确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；

否则，确定所述相似检测结果为不同主题内容；

其中，所述拍摄位置距离是基于所述第一视频和所述第二视频的拍摄位置确定的。

优选地，所述基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果，具体包括：

基于如下公式计算所述第一视频帧和所述第二视频帧的图像特征之间的特征距离

式中，

和

分别为所述第一视频帧和所述第二视频帧的图像特征，

为协方差矩阵；

基于预设特征距离阈值和所述特征距离，确定所述相似检测结果。

优选地，所述角色特征是基于如下步骤确定的：

确定视频帧中屏占比最大的角色为目标角色；

从所述视频帧中提取所述目标角色的人脸特征和/或姿态特征，作为角色特征。

第二方面，本发明实施例提供一种相似视频推荐方法，包括：

基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序；其中，所述相似视频集合是基于如第一方面所提供的相似视频检测方法确定的；

基于所述推荐排序进行相似视频推荐。

优选地，所述基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序，具体包括：

基于任一所述视频的质量信息，确定所述任一视频的质量评分；

基于所述任一视频的机位信息，确定所述任一视频的机位评分；

基于所述任一视频的所述质量评分和所述机位评分，确定所述任一视频的综合评分；

基于每一所述视频的所述综合评分，确定所述每一视频的推荐排序。

优选地，所述机位信息包括拍摄距离，所述拍摄距离是基于所述视频中任一角色的屏占比确定的。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行如第一方面或第二方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。

本发明实施例提供的一种相似视频检测、推荐方法、电子设备和存储介质，通过两个视频在相同录制时间的视频帧的图像特征，确定两个视频的相似度检测结果，为视频分类提供了细粒度的分类方法，以便于实现针对同一主题内容的视频分类管理，能够满足定制化聚焦同一主题内容的高层次需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的相似视频检测方法的流程示意图；

图2为本发明实施例提供的相似视频推荐方法的流程示意图；

图3为本发明另一实施例提供的相似视频推荐方法的流程示意图；

图4为本发明实施例提供的相似视频检测装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将集合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对视频平台普遍缺乏对同一主题内容的视频的分类管理，无法满足定制化聚焦同一主题内容的高层次需求的问题，本发明实施例提供一种相似视频检测方法。图1为本发明实施例提供的相似视频检测方法的流程示意图，如图1所示，相似视频检测方法包括：

步骤110，确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧。

具体地，第一视频和第二视频为需要进行相似视频检测的两个视频，视频可以是直播视频也可以是录播视频，本发明实施例对此不作具体限定。此处“第一”和“第二”仅用于对两个视频进行区分。

录制时间可以是视频录制过程中的任意时间。确定第一视频在任意录制时间对应的视频帧为第一视频帧，第二视频在相同录制时间对应的视频帧为第二视频帧。此处的第一视频帧和第二视频帧是相同录制时间对应的不同视频中的帧图像，第一视频帧和第二视频帧可以根据第一视频和第二视频在录制过程中产生的时间戳确定。需要说明的是，相同录制时间下的第一视频帧和第二视频帧，均可以是一帧图像或者多帧图像。

步骤120，基于第一视频帧和第二视频帧的图像特征，确定第一视频和第二视频的相似检测结果；图像特征包括角色特征和/或场景特征。

具体地，角色特征是指视频帧所包含角色的相关特征，视频帧所包含的角色可以是人物、动物或者卡通形象等，角色特征可以是人脸特征、虹膜特征或者姿态特征等。将角色特征应用于两个视频的相似检测，可以通过判断两个视频中出现的角色是否为同一角色，进而判断两个视频是否为同一主题内容。

场景特征是指视频帧所展现场景的特征，场景特征可以是视频帧的颜色特征、纹理特征或者空间关系特征等，本发明实施例对此不作具体限定。进一步地，图像特征可以通过预先训练好的特征提取模型得到，不同类型的图像特征可以由相同或者不同的特征提取模型提取得到。将场景特征应用于两个视频的相似检测，可以通过判断两个视频中出现的场景是否为同一场景，进而判断两个视频是否为同一主题内容。

需要说明的是，可以仅应用两个视频的角色特征进行相似视频检测，也可以仅应用两个视频的场景特征进行相似视频检测，还可以同时应用两个视频的角色特征和场景特征进行相似视频检测，本发明实施例对此不作具体限定。

此处，相似检测结果用于指示第一视频和第二视频是否相似，相似检测结果可以是“相似”或者“不相似”，也可以是具体的相似程度。在用于衡量第一视频和第二视频是否为同一主题内容时，对应的相似检测结果还可以是“同一主题内容”或者“不同主题内容”，本发明实施例对此不作具体限定。

基于第一视频帧和第二视频帧的图像特征，确定第一视频和第二视频的相似检测结果的方法可以有多种：

例如，通过欧式距离、曼哈顿距离、切比雪夫距离等算法计算第一视频帧的图像特征和第二视频帧的图像特征之间的相似度，并将计算得到的相似度有预先设定的相似度阈值进行比较，如果相似度大于相似度阈值，则确定相似检测结果为“同一主题内容”，否则为“不同主题内容”。

又例如，将第一视频帧和第二视频帧的图像特征输入预先训练好的相似视频检测模型中，得到相似视频检测模型输出的相似检测结果。此处，相似视频检测模型可以是由同一主题内容视频的视频帧的图像特征构成的正样本集合，以及不同主题内容视频的视频帧的图像特征构成的负样本集合训练得到的，相似视频检测模型可以是单一神经网络模型，也可以是多个神经网络模型的组合，本发明实施例不对相似视频检测模型的类型和结构作具体限定。

本发明实施例提供的方法，通过两个视频在相同录制时间的视频帧的图像特征，确定两个视频的相似度检测结果，为视频分类提供了细粒度的分类方法，以便于实现针对同一主题内容的视频分类管理，能够满足定制化聚焦同一主题内容的高层次需求。

基于上述实施例，相似视频检测方法中，步骤120之前还包括：步骤100，确定第一视频和第二视频在相同录制时间分别对应的第一音频帧和第二音频帧。

具体地，第一视频在任意录制时间对应的音频帧即第一音频帧，第二视频在相同录制时间对应的音频帧即第二音频帧。需要说明的是，用于确定第一视频帧和第二视频帧的录制时间，和用于确定第一音频帧和第二音频帧的录制时间，可以是同一时间，也可以是不同时间。

此外，本发明实施例不对步骤110和步骤100的执行顺序作具体限定，步骤110可以在步骤100之前或之前执行，也可以与步骤100同步执行。

对应地，步骤120具体包括：基于第一视频帧和第二视频帧的图像特征，以及第一音频帧和第二音频帧的音频特征，确定第一视频和第二视频的相似检测结果。

此处，音频特征可以是音频帧的声学特征或者声纹特征等。其中，声学特征可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征或者感知线性预测(Perceptual Linear Predictive，PLP)特征等。音频特征可以通过对音频帧进行快速傅里叶变换(Fast Fourier Transform，FFT)提取得到。

基于第一视频帧和第二视频帧的图像特征，以及第一音频帧和第二音频帧的音频特征，确定第一视频和第二视频的相似检测结果的方法可以有多种：

例如基于第一视频帧和第二视频帧的图像特征，确定第一视频和第二视频在图像方向的相似检测结果，基于第一音频帧和第二音频帧的音频特征，确定第一视频和第二视频在音频方向的相似检测结果，随后结合第一视频和第二视频分别在图像方向和音频方向的相似检测结果，确定最终的相似检测结果；

又例如，将第一视频帧的图像特征和第一音频帧的音频特征进行拼接，得到第一视频的视频特征，同样地将第二视频帧的图像特征和第二音频帧的音频特征进行拼接，得到第二视频的视频特征，基于第一视频和第二视频的视频特征，确定两者的相似检测结果。

本发明实施例提供的方法，基于两个视频的图像特征和音频特征，确定两个视频的相似度检测结果，进一步提高了相似视频检测的准确度，有助于实现针对同一主题内容的精准化视频分类管理。

基于上述任一实施例，相似视频检测方法中，步骤110具体包括：若第一视频和第二视频的拍摄位置距离小于等于预设拍摄位置距离阈值，则确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；否则，确定相似检测结果为不同主题内容；其中，拍摄位置距离是基于第一视频和第二视频的拍摄位置确定的。

具体地，第一视频和第二视频的拍摄位置可以通过视频拍摄设备内部的GPS定位器确定，在已知第一视频和第二视频的拍摄位置的情况下，可以根据两者的拍摄位置，计算两者之间的距离，即拍摄位置距离。

假设第一视频和第二视频的主题内容一致，则在拍摄第一视频和第二视频时对应的拍摄位置必然固定在主题内容的发生区域内，例如针对一场演唱会进行视频拍摄，拍摄位置必然是在演唱会场馆内部，针对一场体育赛事进行视频拍摄，拍摄位置必然是在体育场馆内部。

预设拍摄位置距离阈值是预先设定的拍摄同一主题内容时两个拍摄位置之间距离的最大值。如果拍摄位置距离小于等于预设拍摄位置距离阈值，则第一视频和第二视频的主题内容可能一致，随即通过两者的图像特征进行相似检测。如果拍摄位置距离大于预设拍摄位置距离阈值，则第一视频和第二视频的主题内容不可能一致，无需执行后续判断，可以直接确定相似检测结果为不同主题内容。

本发明实施例提供的方法，通过两个视频的拍摄位置距离确定两个视频的相似检测结果，有助于提高相似检测的准确性，并且提高检测效率。

基于上述任一实施例，相似视频检测方法中，步骤120具体包括：

基于如下公式计算第一视频帧和第二视频帧的图像特征之间的特征距离

式中，

和

分别为第一视频帧和第二视频帧的图像特征，

为协方差矩阵；

基于预设特征距离阈值和特征距离，确定相似检测结果。具体地，当图像特征中各种类型的特征时，例如图像特征中同时存在不同测量量纲的角色特征和场景特征，又例如图像特征中的角色特征包含不同测量量纲的人脸特征和姿态特征，采用通用的欧式距离进行第一视频和第二视频的相似检测会导致检测结果不准确。因此，本发明实施例提供特征距离计算公式中引入了协方差矩阵，能够消除图像特征中各种不同测量量纲下的特征带来的影响，同时排除特征之间的相关性干扰。在得到特征距离后，将特征距离与预设特征距离阈值进行比较。此处，预设特征距离阈值即预先设定的判定两个视频相似时特征距离的最大值。若特征距离小于等于预设距离阈值，则确定第一视频和第二视频的相似检测结果为“同一主题内容”，否则为“不同主题内容”。

本发明实施例提供的方法，通过应用特征距离进行相似视频检测，能够消除由于图像特征中各种不同测量量纲下的特征带来的影响，提高相似视频检测的准确性。

基于上述任一实施例，相似视频检测方法中，角色特征是基于如下步骤确定的：确定视频帧中屏占比最大的角色为目标角色；从视频帧中提取目标角色的人脸特征和/或姿态特征，作为视频帧的角色特征。

具体地，通常人们在进行视频录制时，会有意识地突出主题内容对应的目标角色，提高目标角色在视频画面中的屏占比。例如，在会议场景下，目标角色可能是会议发言人，在体育赛事场景下，目标角色可能是运动员，在演唱会场景下，目标角色可能是歌手。本发明实施例中，为了准确取得角色特征，从而更有针对性得进行视频相似检测，将视频帧中屏占比最大的角色作为目标角色。

在确定目标角色后，可以通过人脸检测模型MTCNN确定目标角色的人脸位置，进而基于人脸识别模型FaceNet提取目标角色的人脸特征，还可以通过人体姿态识别项目OpenPose提取目标角色的姿态特征，由此确定视频帧的角色特征。需要说明的是，角色特征可以仅包含人脸特征，也可以仅包含姿态特征，还可以同时包含人脸特征和姿态特征，且在同时包含人脸特征和姿态特征时，可以对人脸特征和姿态特征进行合并和归一化，本发明实施例对此不作具体限定。

基于上述任一实施例，相似视频推荐方法包括：基于相似视频集合，进行相似视频推荐；其中，相似视频集合是基于相似视频检测方法确定的。

具体地，基于相似视频检测方法，可以确定任意两个视频的相似检测结果。通过对视频两两进行相似检测，从而将相似检测结果为“相似”的视频存储在一个集合，即构成相似视频集合。相似视频集合中的任意两个视频的相似检测结果均为“相似”，即相似视频集合中视频的主题内容均是相同的。

此处，相似视频推荐是指向用户推荐相似视频集合中视频。例如，在用户发出视频切换请求后，向用户推送用户当前观看的视频所处的相似视频集合中的视频；又例如，在用户当前观看的视频中断后，主动向用户推送用户当前观看的视频所处的相似视频集合中的视频。

本发明实施例提供的方法，在实现相似视频检测的基础上，实现了相似视频的推荐，在确保用户观看相同主题内容视频的前提下提升了用户观看视频的可选择性。

基于上述任一实施例，图2为本发明实施例提供的相似视频推荐方法的流程示意图，如图2所示，相似视频推荐方法包括：

步骤210，基于相似视频集合中每一视频的质量信息和/或机位信息，确定每一视频的推荐排序。

具体地，针对相似视频集合中的视频，质量信息用于表征视频质量，质量信息可以包含视频分辨率、视频帧率或者视频码率等直接影响视频质量的信息，还可以包含视频的拍摄机型、镜头型号等可能对视频质量存在影响的信息。机位信息用于表征视频的拍摄机位的相关信息，机位信息可以包含拍摄距离、拍摄视角，还可以包含机位与拍摄对象之间是否存在明显遮挡物等。

基于相似视频集合中每一视频的质量信息和/或机位信息，衡量在进行视频推荐时相似视频集合中每一视频的推荐排序。例如，相似视频集合中，可以按照视频分辨率从高到低的顺序进行视频排序，还可以按照拍摄距离从近到远的顺序进行视频排序，又例如优先按照拍摄距离从近到远的顺序进行排序，在此过程中如果存在拍摄距离相同的视频，则按照视频分辨率从高到低的顺序排列拍摄距离相同的视频。

步骤220，基于推荐排序进行相似视频推荐。

此处，相似视频推荐可以是直接向用户推荐相似视频集合中前预设数量个视频，也可以是按照推荐排序向用户推送相似视频集合中的视频。例如，在用户发出视频切换请求后，向用户推送用户当前观看的视频所处的相似视频集合中推荐排序前3位的视频；又例如，在用户当前观看的视频中断后，主动向用户推送用户当前观看的视频所处的相似视频集合中推荐排序第一的视频。

本发明实施例提供的方法，在为用户推荐相同主题内容视频的基础上，进一步满足了用户对观看视频质量的追求，有利于优化用户体验。

基于上述任一实施例，相似视频推荐方法中，步骤210具体包括：基于任一视频的质量信息，确定该视频的质量评分；基于该视频的机位信息，确定该视频的机位评分；基于该视频的质量评分和机位评分，确定该视频的综合评分；基于每一视频的综合评分，确定每一视频的推荐排序。

具体地，在确定视频的质量信息后，可以将质量信息输入预先训练好的质量评分模型中，通过质量评分模型进行评分并输出质量评分，此处质量评分模型可以是由样本质量信息和对应的样本质量评分训练得到的，还可以根据预先设定的质量信息和质量评分之间的关系，或者预先设定的质量评分计算公式，确定质量信息对应的质量评分，本发明实施例对此不作具体限定。例如，预先设定视频分辨率为360P、480P、720P和1080P时对应的质量评分分别为10分、20分、30分和40分。

同样地，在确定视频的机位信息后，可以将机位信息输入预先训练好的机位评分模型中，通过机位评分模型进行评分并输出机位评分，此处机位评分模型可以是由样本机位信息和对应的样本机位评分训练得到的，还可以根据预先设定的机位信息和机位评分之间的关系，或者预先设定的机位评分计算公式，确定机位信息对应的机位评分，本发明实施例对此不作具体限定。例如，预先设定拍摄距离在(0,10m]、(10m,30m]、(30m,100m]对应的机位评分分别为10分、20分和30分。

在得到视频的质量评分和机位评分后，可以通过将两者直接相加、加权求和或者代入预先设定的综合评分计算公式中，以求取视频的综合评分，并按照综合评分从大到小的顺序排列相似视频集合中的每一视频，从而确定每一视频的推荐顺序。

基于上述任一实施例，相似视频推荐方法中，机位信息包括拍摄距离，拍摄距离是基于视频中任一角色的屏占比确定的。

例如，当相似视频集合中的每一视频均在拍摄角色A时，拍摄距离的远近可以通过角色A在视频中的屏占比来近似模拟，此处，角色A在视频中的屏占比可以是角色A的面部在视频中的屏占比，也可以是角色A的整体在视频中的屏占比，本发明实施例对此不作具体限定。

以角色A的面部在视频中的屏占比为例进行说明，角色A的面部在视频中的屏占比d如下式所示：

式中，Area_face是面部区域面积，Area_screen是屏幕区域面积。

不同视频在拍摄同一角色时，该角色在视频中的屏占比d与视频的拍摄距离负相关，屏占比越高，则拍摄距离越小。

当前的视频直播平台通常存在两点待解决问题：其一是对主题相同的直播内容缺乏统一聚焦性，往往只是通过开辟专区或设置标签来简单处理；其二是用户观看的直播视频基于以下原因无法保障完整性：内容共享者无法保障网络环境的稳定和完善性从而有断流的风险，内容共享者可能因为个人意愿或不可抗力随时可能终止视频内容的分享，以及内容共享者分享的内容虽然其余用户感兴趣，但无法满足其余用户对角度、距离、视频质量等方面的需求。针对上述问题，本发明实施例提供一种直播场景下的视频推荐方法。图3为本发明另一实施例提供的相似视频推荐方法的流程示意图，如图3所示，该方法包括：

首先，N个用户持续将视频分享到视频直播平台，N为正整数。其中，用户1、用户2在演唱会A分别以距离d1、d2拍摄并分享视频，用户3和用户4在演唱会B分别以距离d3、d4拍摄并分享视频，用户5至用户N在演唱会C分别以距离d5至dN拍摄并分享视频。

视频直播平台实时接收上述各视频的视频流，并基于上述各视频在同一录制时间的视频帧进行相似视频检测，具体检测步骤如下：

针对任一视频帧，基于人脸识别模型FaceNet抽取该视频帧中占屏比最大的角色的128维人脸特征f_r128；基于OpenPose抽取视频帧中占屏比最大的角色的14个骨骼点，每个骨骼点由(x,y,z)三个坐标值构成，表示为14×3＝42维特征f_p42，将f_p42补0后resize重构成128维向量f_p128；基于VGG-19分类网络抽取视频帧中128维场景特征f_s128；

随即，将人脸特征f_r128与姿态特征f_p128合并，并归一化，得到角色特征f_rp128如下式所示：

接着，将角色特征f_rp128和场景特征f_s128拼接为256维的图像特征f_rps。

针对任意两个视频中相同录制时间对应的视频帧的图像特征

和

计算两者的特征距离

若特征距离小于等于预设特征距离阈值，则确定第一视频和第二视频的相似检测结果为“同一主题内容”，否则为“不同主题内容”。

在完成相似视频检测后，即可构成不同的相似视频集合。此处，相似视频集合以队列的形似表示。其中，队列1用于存储演唱会A的相关视频，包括用户1和用户2拍摄的视频，队列2用于存储演唱会B的相关视频，包括用户3和用户4拍摄的视频，队列3用于存储演唱会C的相关视频，包括用户5至用户N拍摄的视频。

在完成基于相似视频检测的视频分类后，分别对每一队列中的视频进行推荐排序。此处，推荐排序的依据包括视频的质量信息和机位信息，进一步地，质量信息包括视频分辨率，机位信息包括拍摄距离。在队列1中，根据用户1和用户2拍摄视频的视频分辨率和拍摄距离进行排序，确定推荐排序为用户1的视频，用户2的视频；在队列2中，根据用户3和用户4拍摄视频的视频分辨率和拍摄距离进行排序，确定推荐排序为用户4的视频，用户3的视频；在队列3中，根据用户5至用户N拍摄视频的视频分辨率和拍摄距离进行排序，确定推荐排序为用户7的视频，……，用户5的视频。

例如，在演唱会A的直播过程中，用户A通过视频直播平台观看用户2分享的视频，此时视频直播平台根据演唱会A对应的队列1中的推荐排序，将排列在用户2分享的视频之前的用户1分享的视频推送给用户A供其选择，用户A在切换至用户1分享的视频后，可以获得针对演唱会A的更佳的观看体验。

又例如，在演唱会B的直播过程中，用户B通过视频直播平台观看用户4分享的视频，此时用户4终止了对演唱会B的直播分享，视频直播平台从演唱会B对应的队列2中选择推荐排序在用户4分享的视频之后的用户3分享的视频，并推送给用户B，以保证用户B能够完成观看演唱会B。

本发明实施例提供的相似视频检测方法和相似视频推荐方法，对相同主题内容的视频进行统一管理，允许观看用户主动或被动地进行视频切换，保证用户观看主题内容的一致性和完整性，并在观看相同主题内容的前提下提升用户的可选择性。

基于上述任一实施例，图4为本发明实施例提供的相似视频检测装置的结构示意图，如图4所示，相似视频检测装置包括视频帧确定单元410和相似视频检测单元420；

其中，视频帧确定单元410用于确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；

相似视频检测单元420用于基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果；所述图像特征包括角色特征和/或场景特征。

本发明实施例提供的装置，通过两个视频在相同录制时间的视频帧的图像特征，确定两个视频的相似度检测结果，为视频分类提供了细粒度的分类方法，以便于实现针对同一主题内容的视频分类管理，能够满足定制化聚焦同一主题内容的高层次需求。

基于上述任一实施例，相似视频检测装置还包括：

音频帧确定单元，用于确定所述第一视频和所述第二视频在相同录制时间分别对应的第一音频帧和第二音频帧；

对应地，所述相似视频检测单元420具体用于：

基于上述任一实施例，相似视频检测装置中，所述视频帧确定单元410具体用于：

若所述第一视频和所述第二视频的拍摄位置距离小于等于预设拍摄位置距离阈值，则确定所述第一视频和所述第二视频在相同录制时间分别对应的所述第一视频帧和所述第二视频帧；

否则，确定所述相似检测结果为不同主题内容；

基于上述任一实施例，相似视频检测装置中，所述相似视频检测单元420具体用于：

式中，

和

分别为所述第一视频帧和所述第二视频帧的图像特征，

为协方差矩阵；

基于上述任一实施例，相似视频检测装置还包括：

角色特征确定单元，用于确定视频帧中屏占比最大的角色为目标角色；从所述视频帧中提取所述目标角色的人脸特征和/或姿态特征，作为所述视频帧的角色特征。

基于上述任一实施例，相似视频推荐装置包括：

视频排序单元，用于基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序；

视频推荐单元，用于基于相似视频集合，进行相似视频推荐；

其中，所述相似视频集合是基于相似视频检测方法确定的。

本发明实施例提供的装置，在实现相似视频检测的基础上，实现了相似视频的推荐，在确保用户观看相同主题内容视频的前提下提升了用户观看视频的可选择性。

基于上述任一实施例，相似视频推荐装置中，所述视频排序单元具体用于：

基于上述任一实施例，相似视频推荐装置中，所述机位信息包括拍摄距离，所述拍摄距离是基于所述视频中任一角色的屏占比确定的。

图5为本发明实施例提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序，以执行上述各实施例提供的相似视频检测方法，例如包括：确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果；所述图像特征包括角色特征和/或场景特征。

处理器501还可以调用存储在存储器503上并可在处理器501上运行的计算机程序，以执行上述各实施例提供的相似视频推荐方法，例如包括：基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序；其中，所述相似视频集合是基于相似视频检测方法确定的；基于所述推荐排序进行相似视频推荐。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的相似视频检测方法，例如包括：确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧；基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果；所述图像特征包括角色特征和/或场景特征。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的相似视频推荐方法，例如包括：基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序；其中，所述相似视频集合是基于相似视频检测方法确定的；基于所述推荐排序进行相似视频推荐。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种相似视频检测方法，其特征在于，包括：

2.根据权利要求1所述的相似视频检测方法，其特征在于，所述基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果，之前还包括：

3.根据权利要求1所述的相似视频检测方法，其特征在于，所述确定第一视频和第二视频在相同录制时间分别对应的第一视频帧和第二视频帧，具体包括：

否则，确定所述相似检测结果为不同主题内容；

4.根据权利要求1所述的相似视频检测方法，其特征在于，所述基于所述第一视频帧和所述第二视频帧的图像特征，确定所述第一视频和所述第二视频的相似检测结果，具体包括：

式中，

和

分别为所述第一视频帧和所述第二视频帧的图像特征，

为协方差矩阵；

5.根据权利要求1至4中任一项所述的相似视频检测方法，其特征在于，所述角色特征是基于如下步骤确定的：

确定视频帧中屏占比最大的角色为目标角色；

6.一种相似视频推荐方法，其特征在于，包括：

基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序；其中，所述相似视频集合是基于权利要求1至5中任一项所述的相似视频检测方法确定的；

基于所述推荐排序进行相似视频推荐。

7.根据权利要求6所述的相似视频推荐方法，其特征在于，所述基于相似视频集合中每一视频的质量信息和/或机位信息，确定所述每一视频的推荐排序，具体包括：

基于任一视频的所述质量信息，确定所述任一视频的质量评分；

基于所述任一视频的所述机位信息，确定所述任一视频的机位评分；

8.根据权利要求6或7所述的相似视频推荐方法，其特征在于，所述机位信息包括拍摄距离，所述拍摄距离是基于所述视频中任一角色的屏占比确定的。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的相似视频检测方法或权利要求6至8中任一项所述的相似视频推荐方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的相似视频检测方法或权利要求6至8中任一项所述的相似视频推荐方法的步骤。