CN111314771A

CN111314771A - 一种视频播放方法及相关设备

Info

Publication number: CN111314771A
Application number: CN202010179195.6A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-06-19
Anticipated expiration: 2040-03-13
Also published as: CN111314771B

Abstract

本申请提供了一种视频播放方法及相关设备，通过机器学习以及自然语言处理的方式对目标视频进行处理，可以为相同视频动态配置背景音乐，提升视频对不同用户的播放兴趣。该方法包括：确定目标视频的查询标识，所述目标视频为待播放的视频，所述查询标识指示所述目标视频的多模态深度特征表示；根据所述查询标识确定与所述目标视频相关联的相似视频集合；确定所述相似视频集合对应的相似视频背景音乐集合；获取目标用户对应的兴趣背景音乐集合，所述目标用户为观看所述目标视频的用户；根据所述相似视频背景音乐集合以及所述兴趣背景音乐集合确定目标背景音乐；基于所述目标背景音乐播放所述目标视频。

Description

一种视频播放方法及相关设备

技术领域

本申请涉及人工智能领域，尤其涉及一种视频播放方法及相关设备。

背景技术

目前短视频、小视频一般都会配置一个背景音乐，如某个舞蹈视频配置一首比较符合节奏的歌曲“大田后生仔”，某个毕业纪念视频配上“怀念青春”歌曲作为背景音乐，通过背景音乐能直观的反映视频主题或者视频风格，达到升华视频内容的效果，能提升其他用户观看视频的兴趣度。

目前视频的背景音乐是用户在上传视频时就指定了，视频的背景音乐是固定的，但一般符合视频主题的背景音乐有多首，比如符合毕业纪念视频的背景音乐可以是“怀念青春”，也可以是“栀子花开”等，且不同的观众对背景音乐的偏好不同，目前这种固定的背景音乐方式不能满足不同观看用户的背景音乐兴趣需求，会导致一个优质视频在部分观看用户上的播放率不佳，不仅影响视频制作者的创作热情，也对视频平台的整体运营生态造成影响。

发明内容

本申请提供了一种视频播放方法及相关设备，可以为相同视频动态配置背景音乐，提升视频对不同用户的播放兴趣。

本申请第一方面提供了一种视频播放方法，包括：

确定目标视频的查询标识，所述目标视频为待播放的视频，所述查询标识指示所述目标视频的多模态深度特征表示；

根据所述查询标识确定与所述目标视频相关联的相似视频集合；

确定所述相似视频集合对应的相似视频背景音乐集合；

获取目标用户对应的兴趣背景音乐集合，所述目标用户为观看所述目标视频的用户；

根据所述相似视频背景音乐集合以及所述兴趣背景音乐集合确定目标背景音乐；

基于所述目标背景音乐播放所述目标视频。

可选地，所述根据所述相似视频背景音乐集合以及所述兴趣背景音乐集合确定目标背景音乐包括：

确定所述相似视频背景音乐集合中每个相似视频背景音乐与所述兴趣背景音乐集合的用户兴趣得分；

将所述相似视频背景音乐集合中与所述兴趣背景音乐集合的用户兴趣得分大于第一预设值的相似视频背景音乐确定为所述目标背景音乐。

可选地，所述确定所述相似视频背景音乐集合中每个相似视频背景音乐与所述兴趣背景音乐集合的用户兴趣得分包括：

确定目标相似视频背景音乐与所述兴趣背景音乐集合中每个兴趣背景音乐的相似度，所述目标相似视频背景音乐为所述相似视频背景音乐集合中的任意一个背景音乐；

将所述目标相似视频背景音乐与所述兴趣背景音乐集合中每个兴趣背景音乐的相似度相加，得到所述目标相似视频背景音乐的用户兴趣得分。

可选地，所述确定所述目标视频的查询标识包括：

获取所述目标视频对应的视频文本；

抽取所述目标视频的视频帧；

根据所述目标视频对应的视频文本以及所述目标视频的视频帧确定所述目标视频的查询标识。

可选地，所述根据所述视频文本以及所述目标视频的视频帧确定所述目标视频的查询标识包括：

将所述目标视频的视频帧输入第一模型，得到所述目标视频的图像特征，所述第一模型为通过对视频库中视频对应的视频帧进行图像特征训练得到的，所述视频库中视频满足预设指标；

将所述目标视频的视频文本输入第二模型，得到所述目标视频的文本特征，所述第二模型为通过对视频库中视频对应的视频文本进行文本特征训练得到的；

对所述目标视频的图像特征以及所述目标视频的文本特征进行融合，得到所述目标视频的查询标识。

可选地，所述获取目标用户对应的兴趣背景音乐集合包括：

确定所述目标视频的目标类别；

确定所述目标用户对所述目标类别对应的视频的播放完成度；

将所述目标类别对应的视频中播放完成度大于第二预设值的视频集合对应的背景音乐确定为所述兴趣背景音乐集合。

可选地，所述基于所述目标背景音乐播放所述目标视频包括：

确定所述目标背景音乐的时长以及所述目标视频的时长；

当所述目标背景音乐的时长与所述目标视频的时长不匹配时，调整所述目标背景音乐时长，并基于调整时长后的所述目标背景音乐播放所述目标视频。

本申请第二方面提供了一种视频播放装置，包括：

第一确定单元，用于确定目标视频的查询标识，所述目标视频为待播放的视频，所述查询标识指示所述目标视频的多模态深度特征表示；

第二确定单元，用于根据所述查询标识确定与所述目标视频相关联的相似视频集合；

第三确定单元，用于确定所述相似视频集合对应的相似视频背景音乐集合；

获取单元，用于获取目标用户对应的兴趣背景音乐集合，所述目标用户为观看所述目标视频的用户；

第四确定单元，用于根据所述相似视频背景音乐集合以及所述兴趣背景音乐集合确定目标背景音乐；

播放单元，用于基于所述目标背景音乐播放所述目标视频。

可选地，所述第四确定单元具体用于：

可选地，所述第四确定单元确定所述相似视频背景音乐集合中每个相似视频背景音乐与所述兴趣背景音乐集合的用户兴趣得分包括：

可选地，所述第一确定单元具体用于：

获取所述目标视频对应的视频文本；

抽取所述目标视频的视频帧；

可选地，所述第一确定单元根据所述视频文本以及所述目标视频的视频帧确定所述目标视频的查询标识包括：

可选地，所述获取单元具体用于：

确定所述目标视频的目标类别；

可选地，所述播放单元具体用于：

确定所述目标背景音乐的时长以及所述目标视频的时长；

本申请第三方面提供了一种计算机装置，其包括至少一个连接的处理器、存储器和收发器，其中，所述存储器用于存储程序代码，所述程序代码由所述处理器加载并执行以实现上述所述的视频播放方法的步骤。

本申请第四方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述所述的视频播放方法的步骤。

综上所述，可以看出，本申请中，可以构建目标视频对应的相似视频背景音乐集合，当其他用户播放该视频时，根据该用户的兴趣背景音乐集合与相似视频背景音乐集合确定目标背景音乐，选取符合用户兴趣的备选作为当前的背景音乐。这样不同用户在观看相同视频时背景音乐是不同的，打破了目前视频背景音乐的固定模式，达到动态背景音乐效果，提升视频对不同观众的兴趣。

附图说明

图1为本申请实施例提供的视频播放方法的流程示意图；

图2为本申请实施例提供的视频多模态特征深度表示模型结构示意图；

图3为本申请实施例提供的背景音乐相似度模型结构示意图；

图4为本申请实施例提供的视频播放装置的虚拟结构示意图；

图5为本申请实施例提供的终端设备的硬件结构示意图；

图6为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征向量可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例中，当视频作者将视频上传到视频平台后，视频平台基于相似视频检索来为当前视频构建出多个适用的背景音乐备选，当其他用户播放该视频时，首先获取用户的兴趣画像，计算出用户的背景音乐兴趣，然后将该视频的备选背景音乐与用户的当前兴趣进行匹配，将更符合用户兴趣的音乐备选作为当前要播放的背景音乐，通过这样实现动态背景音乐，提升视频对不同观众的播放兴趣。

下面从视频播放装置的角度对本申请的视频播放方法进行说明，该视频播放装置可以是终端设备，也可以是服务器，也可以是服务器中的服务单元，具体不做限定。

请参阅图1，图1为本申请实施例提供的视频播放方法的流程示意图，包括：

101、确定目标视频的查询标识。

本实施例中，视频播放装置可以确定目标视频的查询标识，该目标视频为待播放的视频，该查询标识指示目标视频的多模态深度特征表示。

一个实施例中，视频播放装置确定目标视频的查询标识包括：

获取目标视频对应的视频文本；

抽取目标视频的视频帧；

根据目标视频对应的视频文本以及目标视频的视频帧确定目标视频的查询标识。

本实施例中，视频播放装置可以获取目标视频对应的视频文本以及目标视频的视频帧，该视频文本包括但不限于视频标题、视频描述以及视频字幕，获取视频帧时可以是通过随机抽取的方式，也可以通过设定时间间隔进行获取(例如每1秒获取1帧视频，此处仅为举例说明，并不代表对其的限定)，还可以通过预先训练的抽帧模型抽取目标视频的关键帧(该关键帧指示该视频的种类或者该视频想要表达的内容)，当然也还可以通过其他的方式获取目标视频的视频帧，具体不做限定；之后根据视频文本以及目标视频的视频帧确定目标视频的查询标识。

在一个实施例中，视频播放装置根据视频文本以及目标视频的视频帧确定目标视频的查询标识包括：

将目标视频的视频帧输入第一模型，得到目标视频的图像特征，第一模型为通过对视频库中视频对应的视频帧进行图像特征训练得到的，视频库中视频满足预设指标；

将目标视频的视频文本输入第二模型，得到目标视频的文本特征，第二模型为通过对视频库中视频对应的视频文本进行文本特征表示训练得到的；

对目标视频的图像特征以及目标视频的文本特征进行融合，得到目标视频的查询标识。

本实施例中，视频播放装置可以分别将视频帧输入第一模型，得到目标视频的图像特征，将视频文本输入第二模型，得到目标视频的文本特征，之后将图像特征以及文本特征进行融合，得到目标视频的查询标识，该视频库由视频平台中的高质量视频构成，该高质量视频为通过线上历史行为数据，如视频的播放完成度，视频的评论量或者好评数量等指标对视频平台中的视频进行筛选，保留历史行为表现好的视频作为优质视频，这些视频的背景音乐一般也比较好。

也就是说，可以通过对目标视频构建深度多模态表示来得到目标视频的查询标识，将视频库中每个视频表示为一定维度的向量(例如256维浮点数向量)，两个视频的向量的相似度表示了其视频内容的相似程度，通过这样可以获取目标视频的相似视频，视频库中存在大量的视频类别标注，类别如喜剧、动作以及武侠等，通过使用视频的多维度特征，训练类别分类模型，将分类模型分类网络层前一层的隐藏层表示作为视频的多模态深度表示：

在图像特征侧，通过抽取目标视频的视频帧序列，然后将目标视频的视频帧通过预先训练的模型结构，如递归切片网络(Recurrent Slice Networks，Rsnet)模型构建初步视频帧表示，多帧Resnet特征经过BiLSTM时序模型(该BiLSTM是Bi-directional LongShort-Term Memory的缩写，是由前向长短期记忆网络(Long Short-Term Memory，LSTM)与后向LSTM组合而成，在自然语言处理任务中被用来建模上下文信息)对目标视频构建图像特征(该Resnet模型以及BiLSTM时序模型共同构成第一模型，当然也还可以是其他的模型，具体不做限定)。

文本侧特征使用目标视频的视频文本，例如视频标题、视频描述以及视频字幕，该视频文本中的视频标题、视频描述以及视频字幕分别经过Transformer-Encoder模型(也即第二模型，此处的Transformer-Encoder模型仅为举例说明，并不代表对第二模型的限定，只要能将视频文本构建为文本特征即，Transformer是一种新的、基于attention机制来实现的特征提取器，可用于代替卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Network,RNN)来提取序列的特征)构建文本特征；然后将图像特征和文本特征拼接起来，后面经过全连接网络以及视频类别分类模型的训练，使模型具备构建视频多模态深度表示的能力，深度多模态特征表示为多维浮点数向量，如256位浮点型向量。

参阅图2，图2为本申请实施例提供的视频多模态特征深度表示模型结构示意图，201为图像特征构建，202为文本特征构建，203为视频多模态特征融合，204为全连接层网络，205为视频分类概率输出；

通过201图像特征构建可以得到视频的图像特征，具体的，抽取目标视频的视频帧序列，之后将该视频帧序列通过Resnet+BiLSTM模型(此处以第一模型为Resnet+BiLSTM模型为例进行说明，当然也还可以是其他的模型，具体不做限定)构建图像表示，之后得到图像特征；通过202文本特征构建可以得到视频的文本特征，具体的，可以获取目标视频的视频文本，例如标题、描述以及字幕，之后将视频文本进行分词等处理，并将处理后的视频文本输入Transformer-Encoder模型得到文本特征，之后通过203视频多模态特征融合表示，将图像特征以及文本特征进行融合表示，然后经过204全连接层网络以及视频类别分类模型(也即图2中的205)的训练，最终得到视频的多模态特征表示，视频的多模态特征表示为多维浮点数向量，例如265位浮点型向量。

102、根据查询标识确定与目标视频相关联的相似视频集合。

本实施例中，视频播放装置可以将查询标识输入预先训练好的近似最近邻检索(Approximate Nearest Neighbor，ANN)索引进行查询，以确定与目标视频相关联的相似视频集合。也就是说，可以对视频库中的视频进行深度表示构建，如使用开源的ElasticFaiss工具构建ANN索引，对视频库构建近邻检索数据库。之后通过目标视频的查询标识对ANN索引进行检索，得到与目标视频相关联的相似视频集合。

103、确定相似视频集合对应的相似视频背景音乐集合。

本实施例中，视频播放装置在得到与目标视频相关联的相似视频集合之后，可以确定相似视频集合对应的相似视频背景音乐集合。也即提取相似视频集合中每个视频的背景音乐作为相似视频背景音乐集合。

104、获取目标用户对应的兴趣背景音乐集合。

本实施例中，视频播放装置可以获取目标用户对应的兴趣背景音乐集合。具体的，视频播放装置可以确定目标视频的目标类别；并确定目标用户对目标类别对应的视频的播放完成度；之后将目标类别对应的视频中播放完成度大于第二预设值的视频集合对应的背景音乐确定为兴趣背景音乐集合。

也就是说，可以获取目标用户的历史播放记录，从历史播放记录中选取与目标视频的视频类别(如舞蹈类)一致的部分视频，且将目标用户播放完成度高大于第二预设值(如播放完成度大于90％)视频的背景音乐作为目标用户对此类视频的兴趣背景音乐集合，兴趣背景音乐集合里面包括至少一首背景音乐。

需要说明的是，通过步骤101至步骤103可以确定相似背景音乐集合，通过步骤104可以获取目标用户对应的兴趣背景音乐集合，然而这两个步骤之间并没有先后执行顺序的限制，可以先执行步骤101至步骤103，也可以先执行步骤104，或者同时执行，具体不做限定。

105、根据相似视频背景音乐集合以及兴趣背景音乐集合确定目标背景音乐。

本实施例中，视频播放装置在得到相似视频背景音乐集合以及兴趣背景音乐集合之后看，可以根据相似视频背景音乐集合以及兴趣背景音乐集合确定目标背景音乐。

一个实施例中，视频播放装置根据相似视频背景音乐集合以及兴趣背景音乐集合确定目标背景音乐包括：

确定相似视频背景音乐集合中每个相似视频背景音乐与兴趣背景音乐集合的用户兴趣得分；

将相似视频背景音乐集合中与所述兴趣背景音乐集合的用户兴趣得分大于第一预设值的相似视频背景音乐确定为目标背景音乐。

本实施例中，视频播放装置可以确定目标相似视频背景音乐与兴趣背景音乐集合中每个兴趣背景音乐的相似度，目标相似视频背景音乐为相似视频背景音乐集合中的任意一个背景音乐；之后将目标相似视频背景音乐与兴趣背景音乐集合中每个兴趣背景音乐的相似度相加，得到目标相似视频背景音乐的用户兴趣得分。最后将相似视频背景音乐集合中与兴趣背景音乐集合的用户兴趣得分大于第一预设值的相似视频背景音乐确定为目标背景音乐。

也就是说，将目标前视频的相似视频背景音乐与目标用户的兴趣背景音乐集合进行一一匹配，每个相似背景音乐的用户兴趣得分为该相似视频背景音乐与用户的兴趣背景音乐集合中每个背景音乐的相似度之和。

下面通过图3对如何确定两个背景音乐的相似度进行说明，请参阅图3，图3为本申请实施例提供的背景音乐相似度模型结构示意图，包括：

301、从相似视频背景音乐集合中挑选背景音乐1，从兴趣背景音乐集合中任意挑选一个背景音乐2；

302、分别抽取背景音乐1以及背景音乐2的音频帧序列，此处具体不限定抽取的方式，例如可以按照预设的时间间隔来抽取(例如每1秒抽1帧)；

303、通过背景音乐1的音频帧序列构建背景音乐1对应的梅尔频谱图特征，通过背景音乐2的音频帧序列构建背景音乐2对应的梅尔频谱图特征；

304、将背景音乐1对应的梅尔频谱图特征输入预设的先训练好的模型(如图3中所示的Vggish/yamnet+BiLSTM模型)得到背景音乐1的深度表示，将背景音乐2对应的梅尔频谱图特征输入预先训练好的模型，得到背景音乐2的深度表示305；

306、根据背景音乐1的深度表示以及背景音乐2的深度表示计算两个背景音乐的距离，例如余弦距离或者欧式距离；

307、根据两个背景音乐的距离确定两个背景音乐的相似度得分，例如提前维护一个映射关系，该映射关系为相似度得分与距离的映射关系，通过该映射关系确定相似度得分，或者是一个表格，具体不做限定。之后重复执行步骤301至步骤307即可以得到相似视频背景音乐集合中的每个相似视频背景音乐与兴趣背景音乐集合中每个兴趣背景音乐集合的相似度得分，将每个相似视频背景音乐与兴趣背景音乐集合中每个兴趣背景音乐集合的相似度得分相加得到每个相似视频背景音乐与与兴趣背景音乐集合的用户兴趣得分。

106、基于目标背景音乐播放目标视频。

本实施例中，视频播放装置可以确定目标背景音乐的时长以及目标视频的时长，之后判断目标背景音乐的时长与目标视频的时长是否匹配，当目标背景音乐的时长与目标视频的时长不匹配时，调整目标背景音乐时长，并基于调整时长后的目标背景音乐播放目标视频。也就是说，如目标背景音乐与目标视频的时长不一致时，可以依据目标视频的时长对目标背景音乐进行相应裁剪或者是循环补齐。另外，当目标背景音乐有多首时，可以从其中任意选择一个。

综上所述，可以看出，本申请提供的实施例中，可以构建目标视频对应的相似视频背景音乐集合，当其他用户播放该视频时，根据该用户的兴趣背景音乐集合与相似视频背景音乐集合确定目标背景音乐，选取符合用户兴趣的备选作为当前的背景音乐。这样不同用户在观看相同视频时背景音乐是不同的，打破了目前视频背景音乐的固定模式，达到动态背景音乐效果，提升视频对不同观众的兴趣。

上面从的视频播放方法的角度对本申请进行说明，下面从视频播放装置的角度对本申请进行说明。

请参阅图4，图4为本申请实施例提供的一种视频播放装置的虚拟结构示意图，包括：

第一确定单元401，用于确定目标视频的查询标识，所述目标视频为待播放的视频，所述查询标识指示所述目标视频的多模态深度特征表示；

第二确定单元402，用于根据所述查询标识确定与所述目标视频相关联的相似视频集合；

第三确定单元403，用于确定所述相似视频集合对应的相似视频背景音乐集合；

获取单元404，用于获取目标用户对应的兴趣背景音乐集合，所述目标用户为观看所述目标视频的用户；

第四确定单元405，用于根据所述相似视频背景音乐集合以及所述兴趣背景音乐集合确定目标背景音乐；

播放单元406，用于基于所述目标背景音乐播放所述目标视频。

可选地，所述第四确定单元405具体用于：

可选地，所述第四确定单元405确定所述相似视频背景音乐集合中每个相似视频背景音乐与所述兴趣背景音乐集合的用户兴趣得分包括：

可选地，所述第一确定单元401具体用于：

获取所述目标视频对应的视频文本；

抽取所述目标视频的视频帧；

可选地，所述第一确定单元401根据所述视频文本以及所述目标视频的视频帧确定所述目标视频的查询标识包括：

可选地，所述获取单元404具体用于：

确定所述目标视频的目标类别；

可选地，所述播放单元406具体用于：

确定所述目标背景音乐的时长以及所述目标视频的时长；

本申请实施例还提供了另一种视频播放装置，如图5所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该视频播放装置可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以视频播放装置为手机为例：

图5示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请施例中，该终端所包括的处理器580还可以执行上述由视频播放装置所执行的操作。

图6是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

上述实施例中由视频播放装置所执行的步骤可以基于该图6所示的服务器结构。

本申请实施例还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述所述视频播放方法的步骤。

本申请实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述视频播放方法的步骤。

本申请实施例还提供了一种终端设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，所述程序代码由所述处理器加载并执行以实现上述所述视频播放方法的步骤。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行上述所述视频播放方法的步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频播放方法，其特征在于，包括：

确定所述相似视频集合对应的相似视频背景音乐集合；

基于所述目标背景音乐播放所述目标视频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述相似视频背景音乐集合以及所述兴趣背景音乐集合确定目标背景音乐包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述相似视频背景音乐集合中每个相似视频背景音乐与所述兴趣背景音乐集合的用户兴趣得分包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频的查询标识包括：

获取所述目标视频对应的视频文本；

抽取所述目标视频的视频帧；

5.根据权利要求4所述的方法，其特征在于，所述根据所述视频文本以及所述目标视频的视频帧确定所述目标视频的查询标识包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述获取目标用户对应的兴趣背景音乐集合包括：

确定所述目标视频的目标类别；

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于所述目标背景音乐播放所述目标视频包括：

确定所述目标背景音乐的时长以及所述目标视频的时长；

8.一种视频播放装置，其特征在于，包括：

播放单元，用于基于所述目标背景音乐播放所述目标视频。

9.根据权利要求8所述的视频播放装置，其特征在于，所述第四确定单元具体用于：

10.根据权利要求8所述的视频播放装置，其特征在于，所述第一确定单元具体用于：

获取所述目标视频对应的视频文本；

抽取所述目标视频的视频帧；