CN111263227B

CN111263227B - 一种多媒体播放方法、装置、存储介质以及终端

Info

Publication number: CN111263227B
Application number: CN202010085553.7A
Authority: CN
Inventors: 符德恩; 黄小凤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2023-12-08
Anticipated expiration: 2040-02-10
Also published as: CN111263227A

Abstract

本申请实施例公开了一种多媒体播放方法、装置、存储介质以及终端，其中，本申请实施例可以从多媒体内容流中，获取当前需要识别的目标多媒体片段；对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征；基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景；在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。本申请实施例通过自动识别待播放的多媒体内容流所述的目标场景，并根据所述目标场景播放相应的氛围效果元素。从而高效地丰富播放内容、活跃播放氛围，从而改善用户体验。

Description

一种多媒体播放方法、装置、存储介质以及终端

技术领域

本申请涉及播放技术领域，具体涉及一种多媒体播放方法、装置、存储介质以及终端。

背景技术

近年来，多媒体播放的形式越来越丰富，但是在播放多媒体内容时，有时内容较为枯燥单调，使得观看的用户难以融入，导致用户体验不佳。

比如，直播作为一种可以实时发布和接收信息的通信方式，越来越受到人们的欢迎，直播可以在现场随着事件的发生、发展进程同步制作和发布消息，具有双向流通过程。在直播过程中，主播可以在现场架设独立的信号采集设备将音频和视频导入导播客户端(导播设备或平台)，再通过网络上传至服务器，发布至网址供播放客户端观看。目前直播允许主播人工操作点击导播客户端界面上的控件，设置氛围音效、表情图、音乐伴奏、歌词等氛围元素，并在播放多媒体内容时，显示主播设置的氛围元素。但是这种方式需要主播一边录制多媒体内容，一边人工设置氛围效果元素，效率较低，操作较复杂，当主播不设置氛围元素时，会导致多媒体内容单调，不够丰富，直播氛围冷清，使得用户难以融入直播氛围。导致观众和主播体验不佳。

发明内容

有鉴于此，本申请实施例提供了一种多媒体播放方法、装置、存储介质以及终端，可以高效地丰富播放内容、活跃播放氛围，从而改善用户体验。

一方面，本申请实施例提供了一种多媒体播放方法，包括：

从多媒体内容流中，获取当前需要识别的目标多媒体片段；

对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征；

基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景；

在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。

在一实施例中，在当播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素之前，还包括：

根据所述目标场景对应的目标场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容。

在一实施例中，所述在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素，包括：

显示播放客户端的直播页面，所述直播页面包括所述多媒体内容流中当前播放的内容；

当所述当前播放的内容处于所述目标场景的氛围节点时，在所述直播页面中播放所述氛围节点对应的氛围效果元素。

在一实施例中，所述在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素，还包括：

当所述当前播放的内容为所述目标场景对应的氛围内容时，在所述直播页面中播放所述氛围内容对应的氛围效果元素。

在一实施例中，所述氛围节点包括起始氛围节点和结束氛围节点；所述根据所述目标场景对应的目标场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容，包括：

确定所述目标视频片段处于所述目标场景的起始氛围节点；

根据所述多媒体内容流的播放顺序，从所述多媒体内容流中获取目标多媒体片段的后续多媒体片段进行识别；

根据所述目标场景的类型，识别所述后续多媒体片段中目标类型的内容，得到所述后续多媒体片段的目标内容特征；

若所述目标场景特征与所述目标内容特征匹配，确定所述目标内容特征对应的内容为所述目标场景对应的氛围内容；

当所述目标场景特征与所述目标内容特征不匹配时，根据预设第一时间差，确定所述目标场景的结束氛围节点。

在一实施例中，所述氛围节点还包括通用氛围节点，所述根据所述目标场景对应的目标场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容，还包括：

若所述目标场景为通用场景，则根据预设第二时间差以及所述多媒体内容流的播放顺序，获取所述多媒体内容流中上一氛围节点与当前待识别节点之间的播放时间差；

当所述播放时间差达到所述第二时间差时，则确定所述当前待识别节点为所述通用氛围节点。

在一实施例中，所述目标多媒体片段包括语音内容和视频内容；所述内容特征包括文本内容和目标物体的姿态流；

所述对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征，包括：

对所述语音内容进行识别，得到所述语音内容对应的文本内容；

对所述视频内容进行目标物体的姿态识别，得到所述视频内容对应的目标物体的姿态流。

在一实施例中，所述场景特征包括文本特征和动作特征；

基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景，包括：

基于所述候选语音场景对应的候选文本特征，对所述文本内容进行匹配，得到语音匹配结果；

基于所述候选姿态场景对应的候选动作特征，对所述目标物体的姿态流进行识别，得到姿态流匹配结果。

根据所述语音匹配结果和所述姿态流匹配结果，确定所述多媒体内容流所处的目标场景。

在一实施例中，所述对所述语音内容进行识别，得到所述语音内容对应的文本内容，包括：

对所述语音内容进行划分，得到语音片段流；

对所述语音片段流进行特征提取，得到所述语音片段流对应的语音特征信息流；

根据预设特征映射集合，对所述语音特征信息流进行比较和匹配，得到所述语音特征流对应的文本单词流；

将所述文本单词流作为所述语音内容对应的文本内容。

在一实施例中，所述对所述视频内容进行目标物体的姿态识别，得到所述视频内容对应的目标物体的姿态流，包括：

识别所述视频内容中各视频帧中目标物体的关键点；

基于所述关键点的关联关系，连接所述关键点，得到所述各视频帧中的目标物体的姿态；

对相邻视频帧之间的所述关键点进行跟踪，得到所述视频内容的目标物体的姿态流。

另一方面，本申请的实施例提供了一种多媒体播放装置，包括:

获取单元，用于从多媒体内容流中，获取当前需要识别的目标多媒体片段；

识别单元，用于对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征；

场景匹配单元，用于基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景；

播放单元，用于在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。

另一方面，本申请的实施例提供的存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如本申请任一实施例提供的多媒体播放方法。

本申请实施例可以从多媒体内容流中，获取当前需要识别的目标多媒体片段；对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征；基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景；在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。本申请实施例通过自动识别待播放的多媒体内容流所述的目标场景，并根据所述目标场景播放相应的氛围效果元素。从而高效地丰富播放内容、活跃播放氛围，从而改善用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的多媒体播放方法的一种应用场景示意图。

图1b为本申请实施例提供的多媒体播放方法的另一种应用场景示意图；

图2a是本申请实施例提供的多媒体播放方法的第一个流程示意图；

图2b是本申请实施例提供的多媒体播放方法的第二个流程示意图；

图3a是本申请实施例提供的多媒体播放装置的一种结构示意图；

图3b是本申请实施例提供的多媒体播放装置的另一种结构示意图；

图4是本申请实施例提供的播放终端的结构示意图；

图5a是本申请实施例提供的多媒体播放方法的第一种场景的开场氛围元素显示示意图；

图5b是本申请实施例提供的多媒体播放方法的第二种场景的另一种氛围元素显示示意图；

图5c是本申请实施例提供的多媒体播放方法的第一种场景的结束氛围元素显示示意图；

图5d是本申请实施例提供的多媒体播放方法的第二种场景的结束氛围元素显示示意图；

图5e是本申请实施例提供的多媒体播放方法的第三种场景的一种氛围元素显示示意图；

图5f是本申请实施例提供的多媒体播放方法的第三种场景的结束氛围元素显示示意图；

图5g是本申请实施例提供的多媒体播放方法的第四种场景的氛围元素显示示意图；

图5h是本申请实施例提供的多媒体播放方法的第五种场景的一种氛围元素显示示意图；

图6a是本申请实施例提供的多媒体播放系统内的交互示意图；

图6b是本申请实施例提供的多媒体播放方法的场景匹配流程示意图；

图6c是本申请实施例提供的多媒体播放方法的第一种场景的氛围元素显示流程示意图；

图6d是本申请实施例提供的多媒体播放方法的第二种场景下的氛围元素显示流程示意图；

图6e是本申请实施例提供的多媒体播放方法的第三种场景下的氛围元素显示流程示意图；

图6f是本申请实施例提供的多媒体播放方法的第四种场景下的氛围元素显示流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种多媒体播放方法、装置、存储介质以及终端。

具体地，本申请实施例提供适用于计算机设备的多媒体播放装置。其中，该计算机设备可以为终端或服务器等设备，该终端可以为手机、平板电脑、笔记本电脑等设备。该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

参考图1a，以计算机设备为终端为例，本申请实施例提供了多媒体播放系统至少包括播放终端10和服务器20等；播放终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等。本申请实施例可以通过集成在计算机设备中的多媒体播放装置，来自动识别多媒体内容所处的目标场景，并确定所述目标场景对应的氛围效果元素，比如文字特效、表情包特效、声音特效和伴奏音乐等。从而高效地丰富播放内容、活跃播放氛围，从而改善用户体验。

其中，播放终端10，可以获取多媒体内容流数据，并进行解码，得到待播放的多媒体内容流。比如，可以从服务器20获取多媒体内容流数据，对多媒体内容流数据解封装解码得到多媒体内容流。多媒体播放装置可以集成在播放终端10中，比如，以播放客户端的形式集成在播放终端10中，该播放客户端可以是应用客户端，浏览器客户端等。在解封装解码后，识别多媒体内容流。

其中，服务器20用于将多媒体内容流发送给播放终端10，多媒体播放装置也可以集成在服务器20中。服务器20可以对多媒体内容流进行识别，然后将多媒体内容流和得到氛围效果元素编码和封装，并发送给播放终端10。

参考图1b，在另一实施例中，多媒体播放系统还包括发布终端30，发布终端30与服务器20之间通过网络连接，其中，发布终端30中集成有导播客户端，发布终端30可以与信号采集设备(比如，摄像头、话筒等)相连，将信号采集设备采集到的音频信号流和视频信号流导入导播客户端，录制多媒体内容流，并对多媒体内容流进行编码和封装得到多媒体内容流数据，由导播客户端通过网络讲多媒体内容流数据，发送给服务器20，由服务器20转发给播放终端10。其中，多媒体播放装置还可以集成在发布终端30中，具体地，可以以导播客户端的形式集成在发布终端30中。在编码和封装之前，识别多媒体内容流，然后将所述多媒体内容流和得到氛围效果元素编码和封装，并发送服务器20。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

参考图6a和图6b，本申请实施例提供了一种多媒体播放方法，该方法可以由播放终端10、服务器20或者发布终端30执行；本申请实施例以多媒体播放方法由服务器20执行为例来进行说明，具体的，由集成在服务器中的多媒体播放装置来执行。如图2a所示，该多媒体播放方法的具体流程可以如下：

101、从多媒体内容流中，获取当前需要识别的目标多媒体片段。

其中，本申请实施例的多媒体播放方法涉及到流媒体(Streaming Media)技术，流媒体(Streaming Media)技术是指将一连串的媒体数据压缩后，以数据流的形式在网络中分段传送，实现在网络上实时传输多媒体内容流以供播放的一种技术。

其中，多媒体播放方法可以包括直播和录播两种情形，比如，录播情形可以从本地存储中直接获取多媒体内容流，直播情形也可以通过网络从其他设备获取。在本实施例中，主要以直播情形为例进行说明。其中，直播是一种可以实时发布和接收多媒体内容的通信方式，通常包括录制、编码、网络传输、解码和播放5个步骤，本申请实施例在播放之前，还需要识别多媒体内容所处的目标场景，并根据目标场景播放氛围效果元素。

其中，多媒体内容流是以流的形式传输的多媒体内容，可以理解为多个按照获取顺序排列的多媒体片段。

其中，目标多媒体片段是当前时刻需要识别的多媒体片段，是目标多媒体片段中第一个被识别的多媒体片段。可以作为目标场景的起始部分。

其中，目标多媒体片段可以包括语音内容和视频内容。当然，目标多媒体片段也可以只包括语音内容或者只包括视频内容。以下将以目标多媒体片段包括语音内容和视频内容为例进行说明。

其中，由服务器对获取到的多媒体内容流数据进行解码得到目标多媒体片段，可以包括如下步骤：

按照播放顺序，对获取到的目标多媒体片段压缩包进行解封装处理，得到独立的视频数据流和音频数据流；

分别对视频数据流和音频数据流进行解码，得到目标多媒体片段的视频流和目标多媒体片段的音频帧流。

其中，视频帧流为多媒体内容流对应的视频内容，包括多张视频帧。音频帧流为多媒体内容流中的音频内容，包括多个音频帧。

其中，多媒体内容流数据可以以多媒体片段压缩包的形式进行传输。多媒体片段的压缩包含关键帧，可以解码得到可播放的多媒体片段。若只获取到的数据不包含关键帧，则无法解码成功。

其中，多媒体压缩包的封装格式不做限定，比如，目前广泛应用的封装格式为mp4(Moving Picture Experts Group 4，动态图像专家组)，ts，mkv等。在一实施例中可以使用解封装软件对这些主流封装格式进行解封装。比如，使用ffmpeg(Fast Forward Mpeg)或第三方的软件工具均可对这些主流封装格式进行解封装，得到视频流和音频流。接下来解码软件如可使用ffmpeg或者第三方的工具软件分别对视频流和音频流解码，得到可供处理的视频帧流和音频帧流。

在一实施例中，当用户观看内容直播时，需要实时获取并播放导播客户端发布的多媒体内容流数据，可以根据实时传输协议，从服务器获取用于控制播放顺序的控制信息。该控制信息是服务器根据导播客户端当前时刻发布的视频和音频数据确定的。

102、对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征。

其中，内容特征是指多媒体片段内容的特征信息，可以用于表征目标多媒体片段的内容。

在一实施例中，目标多媒体片段包括语音内容和视频内容，内容特征包括文本内容和目标物体的姿态流。所述对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征，可以包括如下步骤：

其中，对语音内容进行识别涉及到人工智能的ASR技术。其中，ASR(AutomaticSpeech Recognition，自动语音识别技术)用于将将语音信息中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符流。ASR是语音技术(Speech Technology)的关键技术之一。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在一实施例中，所述对所述语音内容进行识别，得到所述语音内容对应的文本内容，具体可以包括如下步骤：

对所述语音内容进行划分，得到语音片段流；

将所述文本单词流作为所述语音内容对应的文本内容。

其中，预设特征映射集合包含了从文本单词(words)到语音片段(phones)之间的映射，这种特征映射集合也可以称为发音字典。

在一实施例中，可以用帧(frames)去划分语音内容的波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的特征，用特征向量来表示，该特征向量即为该帧语音的语音特征信息。可以采用隐马尔科夫模型(HMM)根据预设特征映射集合，对所述语音特征信息流进行比较和匹配，得到所述语音特征流对应的文本单词流。其中，隐马尔科夫模型(HMM)一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。

其中，发音字典并不是描述文本单词(words)到语音片段(phones)之间的映射的唯一方法。可以通过运用机器学习算法去学习得到一些复杂的函数去完成映射功能。通过训练神经网络模型使学会该映射功能，从而根据语音特征信息流得到文本单词流。

在一实施例中，对所述视频内容进行目标物体的姿态识别，得到所述视频内容对应的目标物体的姿态流，具体可以包括如下步骤：

识别所述视频内容中各视频帧中目标物体的关键点；

其中，目标物体是视频内容中活动的、具有姿态变化的人或者动物等物体。关键点是目标物体中有一定自由度的关节点，比如，人体中的鼻子/颈部/四肢等主要关节部位。

在一实施例中，以目标物体为人体为例，可以采用开源的OpenPose网络识别人体中的关键点，具体地，采用卷积网络对各视频帧进行多尺度特征提取，得到一组特征图，然后将特征图分别输入到卷积层的两个并行分支中，分别得到一组Part Confidence Maps(关键点置信图)和一组Part Affinity Fields(关键点关联程度图)。其中，视频帧包括多个候选关节区域，候选关节区域中每个点都有一个置信度值，构成置信度图，每个点的置信度可以理解为每个点为关键点的概率。Part Affinity Fields是每个肢体的2D矢量场：对于属于特定肢体的区域中的每个像素，2D矢量编码从肢体的一部分指向另一部分的方向。每种类型的肢体都有一个对应的亲和区域(affinity field)，用于连接两个相关的身体部。得到这两个信息后，我们使用图论中的Bipartite Matching(偶匹配)求出PartAssociation(不同关键点之间的关联关系)，将同一个人的关键点连接起来，最终合并为一个人的整体骨架。其中，还可以使用其他的神经网络模型识别所述视频内容中各视频帧中人体的关键点，但是关键点识别通常都涉及到多尺度特征提取，不同尺度的图像对于不同关键点的检测效果是不同的。例如，在更低尺度的图像中，具有更丰富的语义信息，对头部等关键点的检测效果较好，在更高尺度的图像中，空间纹理信息更加丰富，对于检测踝关节等部位关键点的效果较好。因此，在所有人体关键点检测算法中，必不可少的一个过程就是多尺度特征的提取。

其中，目标物体的姿态流是用于表示不同视频帧中目标物体的姿态变化的信息。在一实施例中，可以把各视频帧中的同一个人物关联起来，对每一个人物赋予一个独特的ID。通过分析前后若干帧的人体姿态之间的联系来完成关键点捕捉。主要思路是对于模糊、遮挡的帧，利用前后帧的信息来进行恢复。我们采用如下方法：首先获取视频帧帧中的一个姿态在相邻帧中对应的候选姿态集，再根据一段时间内所有候选姿态集中关键点的置信度信息通过优化方法得到最终的姿态流，其中，姿态流包含关键点的位置信息以及位置变化信息。具体的优化方法可以包括：将姿态流进行非极大值抑制和融合，得到最终的姿态流。其中，非极大值抑制就是选取候选姿态集中具有最大置信度得分的姿态流。其中，姿态流融合是将候选姿态集中具有最大置信度得分的姿态流作为参考，使用预设函数，融合靠近参考姿态流的其他流，形成新的姿态流，即最终的姿态流。非极大值抑制和融合可以有效减少冗余姿态流，重新链接时间不相交的姿态流。其中，姿态流时间不相交可以是由于模糊、缺帧导致的。

103、基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景。

在一实施例中，基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景，具体而言可以包括如下步骤：

根据所述语音匹配结果和所述动作匹配结果，确定所述多媒体内容流所处的目标场景。

在一实施例中，所述根据所述语音识别结果和所述姿态流识别结果，确定所述目标多媒体片段所处的目标场景，具体可以包括如下步骤：

若所述语音识别结果为存在与所述文本内容匹配的语音场景，且所述姿态流识别结果为不存在与所述姿态流匹配的姿态场景，则从所述候选场景中确定匹配的语音场景为目标场景；

若所述语音识别结果为不存在与所述文本内容匹配的语音场景，且所述姿态流识别结果为存在与所述姿态流匹配的姿态场景，则从所述候选场景中确定匹配的姿态场景为目标场景；

否则，则确定所述目标多媒体片段所处的目标场景为通用场景。

当目标多媒体片段只包含语音内容、或者不具有匹配的姿态场景时，仅根据语音识别结果确定目标场景，当目标多媒体片段只包含视频内容，或者不具有匹配的语音场景时，仅根据姿态识别结果确定目标场景。

其中，候选文本特征是指预设候选语音场景对应的文本内容，可以包括场景名称关键词、唱歌场景对应的歌词、讲故事场景对应的“狗叫”、“闪电”、“害怕”等内容关键词等。可以采用字符匹配的方法识别所述文本内容与所述候选文本特征是否匹配。

其中，场景名称关键词可以包括“讲故事”、“讲/说笑话”、“讲段子”等关键词。在一实施例中，当识别到目标多媒体片段的语音内容包括“故事/段子/笑话/事情/事”等场景名称关键词时，确定所述目标多媒体片段处于“故事/段子/笑话/事情/事”场景。

当初次识别到当前播放的语音内容包括预设歌词库中的歌词等场景特征时，确定所述目标多媒体片段处于唱歌场景。

在一实施例中，为了提高匹配的准确率，区分讲故事和唱歌场景，可以设置所述文本内容中至少有预设数量的字符与预设歌词匹配时，认为匹配成功。若少于预设数量的字符与预设歌词匹配，则认为歌词匹配失败，若大于或者等于预设数量的字符与预设歌词匹配，则认为歌词匹配成功。其中，该预设数量是开发人员根据经验预先设定的，比如可以设置该预设数量大于2个，如可以为5个。

当初次识别到目标多媒体片段包括预设舞蹈模型库中的舞蹈动作特征等场景特征时，确定所述目标多媒体片段处于舞蹈场景。可以通过训练后的动作分类模型识别所述目标物体的姿态流与预设候选姿态场景是否匹配。若目标多媒体片段中包括预设舞蹈模型库中的舞蹈动作姿势，那么训练后的动作分类模型可以识别出该舞蹈动作所属的舞蹈类型，将所述舞蹈类型作为姿态流识别结果，若目标多媒体片段包括舞蹈模型库中不包含预设舞蹈动作、或者识别不到活动的目标物体，则姿态流识别结果为不具有匹配的姿态场景。其中，预设舞蹈动作来自于用于训练的舞蹈模型库。

在一实施例中，所述否则，则确定所述目标多媒体片段所处的目标场景为通用场景，可以按照如下原则进行：

若同时识别到唱歌跳舞等多个匹配的场景，或未识别到匹配的预设候选场景，则将目标场景确定为通用场景。

在一实施例中，基于所述候选姿态场景对应的候选动作特征，对所述目标物体的姿态流进行识别，得到姿态流匹配结果之前，需要用舞蹈模型库训练预设动作分类模型，具体可以包括如下步骤：

获取多个标注有场景类型真实值的动作特征样本；

通过预设动作分类模型，获取所述动作特征样本对应的目标物体的场景类型预测值；

对比所述场景类型真实值和所述场景类型预测值，确定预测结果；

采用损失函数对所述动作分类模型进行收敛，直至所述预测结果为预测正确，得到训练后的动作分类模型。

其中，收敛指的是一种训练结果，当训练次数趋近无穷的时候，所述场景类型真实值和所述场景类型预测值之间的误差趋近小，这种情形下我们认为动作分类模型收敛。本实施例中采用的是通过预设的损失函数来计算所述场景类型真实值和所述场景类型预测值之间的误差。若模型不能收敛，则模型训练失败。

其中，该损失函数可以根据实际应用需求进行灵活设置，比如，损失函数J可以选为交叉熵，如下：

其中，C为姿态场景类型数目，为输出的姿态场景类型预测值，y^k为姿态场景类型真实值。为了降低网络姿态场景类型预测值和姿态场景类型真实值之间的误差，进行不断训练，以不断调整权重至合适数值，便可得到该训练后的动作分类模型。

其中，动作特征样本是根据从预设舞蹈模型库中选取的舞蹈影片识别得到目标物体的姿态流，实质是一种舞蹈动作姿势流。可以人工对舞蹈动作姿势流的类型进行分类，并标注其对应的姿态场景类型真实值。在一实施例中，姿态场景类型可以包括两个大类：舞蹈场景类型和非舞蹈场景类型，其中，舞蹈场景类型包括：爵士舞蹈类型、芭蕾舞蹈类型、拉丁舞蹈类型等多个类型。

当姿态场景类型真实值和姿态场景类型预测值一致时，认为预测结果为预测正确，否则认为预测结果不正确。其中，姿态场景类型真实值为预先标注的姿态场景类型的概率值，姿态场景类型预测值为预测得到的姿态场景类型的概率值。

所述基于所述目标物体的姿态流与所述候选姿态场景对应的动作特征进行识别，得到姿态流识别结果，实际是基于所述训练后的动作分类模型，根据预设候选舞蹈类型对应的舞蹈动作姿势流对所述目标物体的姿态流进行识别，确定目标多媒体片段是否处于舞蹈场景，如果处于舞蹈场景，那么确定舞蹈的类型。

104、在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。

其中，氛围效果元素是用于与目标场景配合，从而实现丰富播放内容，活跃氛围效果的元素。

其中，氛围效果元素可以包括多种形式，比如，唱歌场景或者舞蹈场景下的音乐伴奏，再比如，讲故事场景下的表情图、音效、文字等与故事内容关键字配合的元素。

在一实施例中，在当播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素之前，还包括如步骤：

其中，氛围节点是指目标场景对应的播放节点，该播放节点用于表示播放预设氛围效果元素的时机。氛围节点可以包括起始氛围节点、结束氛围节点，以及通用场景下的通用氛围节点。

其中，氛围内容是与目标场景特征匹配的内容。

在一实施例中，根据所述目标场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容，具体可以包括如下步骤：

确定所述目标视频片段处于所述目标场景的起始氛围节点；

其中，目标场景的类型包括语音类型和姿态类型两种，其中目标类型指的是目标场景的类型。若目标场景的类型为语音类型，则仅识别所述后续多媒体片段中的语音内容，直至识别到语音内容与目标场景不匹配，即场景发生变化。场景发生变化包括多种形式，比如，从唱歌场景变成跳舞场景，或者歌曲改变(从唱A歌曲变成唱B歌曲)、场景结束等。

其中，起始氛围节点为目标场景开始的位置。

其中，结束氛围节点为目标场景结束的位置，第一时间差是用于确定目标场景是否结束的信息，当所述目标场景特征与所述目标内容特征不匹配时，且经过第一时间段仍未检测到与该目标场景匹配的内容，比如，当主播讲完故事之后，经过3s钟没有再讲这个故事，认为该讲故事场景结束。其中，第一时间差是第一时间段的值。

其中，识别目标场景特征与所述目标内容特征是否匹配的具体过程参见上面的实施例，不再赘述。

在一实施例，所述根据所述目标场景特征，还可以确定所述多媒体内容流中所述通用场景对应的通用氛围节点，具体可以包括如下步骤：

其中，播放时间差指的是按照播放顺序，上一氛围节点对应的播放时间与当前待识别节点对应的播放时间之间的时间差。

其中，在通用场景下，可以预先设置每隔一段时间，随机显示通用氛围效果元素。第二时间差是该时间的值。其中，通用氛围效果元素指的是在任何场景下都适用的氛围效果元素。

当所述目标场景特征与所述目标内容特征不匹配时，目标场景结束。在一实施例中，需要继续识别所述目标多媒体片段的下一多媒体片段的视频内容和语音内容，从而确定所述目标场景的下一场景。继续获取下一场景对应的氛围效果元素。识别的具体过程参见上面的实施例，不再赘述。

综上所述，多媒体内容流包括多个多媒体片段，按照播放顺序，首先识别第一个目标多媒体片段，确定目标多媒体片段的目标场景，然后根据目标场景特征识别后续多媒体片段，并确定其中的氛围节点和氛围内容，直至识别到目标场景特征与所述目标内容特征不匹配时，认为场景发生变化，确定后续多媒体片段所处的下一场景，并重复上述步骤。

其中，服务器可以根据不同场景下，氛围节点和氛围内容与氛围效果元素之间的预设映射关系，确定氛围内容和氛围节点对应的氛围效果元素，该映射关系可以存储在服务器中。以讲故事场景为例说明该映射关系，一个讲故事场景可以对应起始、结束两种种氛围节点，以及“狗叫”“铃声”等多种氛围内容，对于讲故事场景来说，每种氛围节点，以及每种氛围内容都分别对应一种或者多种氛围效果元素。当确定了目标场景之后，就可以根据目标场景对应的场景特征确定氛围节点和氛围内容，然后根据该映射关系确定对应的氛围效果元素。

在一实施例中，服务器可以将多媒体内容流对应的氛围效果元素流发送给播放终端进行播放。其中，氛围效果元素流是以流的形式按照播放顺序传输的多个氛围效果元素。为了明确氛围效果元素的播放时机，可以根据氛围内容和氛围节点，在发送给播放终端的多媒体内容流中插入标记。

在另一实施例中，服务器还可以将多媒体内容流与对应的氛围效果元素组合，得到组后的多媒体内容流，并将组合后的多媒体内容流发送给播放终端。

在另一实施例中，服务器还可以根据氛围内容和氛围节点，在发送给播放终端的多媒体内容流中插入不同的氛围标记，当播放终端播放到氛围标记时，可以根据氛围标记从服务器中获取对应的氛围效果元素。

在一实施例中，所述在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素，可以包括如下步骤：

根据上面的描述，播放终端可以根据所述多媒体内容流中的氛围标记，识别当前播放内容是否为起始氛围节点对应的内容。或者播放终端还可以根据所述多媒体内容流中的标记以及对应的氛围效果元素，识别当前播放内容是否为起始氛围节点对应的内容。

如图5a和图6c所示，在讲故事/段子/笑话/事情/事的场景下，当前播放的内容为“故事/段子/笑话/事情/事”等起始氛围节点对应的内容时，直播页面可以播放“鼓掌欢迎”等开场类的文字和表情图。

如图5c、图5d和图6c所示，在讲故事/笑话/段子/事情/事的场景下，当3秒没有语音信息，或者语音信息所属的场景改变时，认为处于结束氛围节点，播放讲故事/笑话/段子/事情/事的场景对应的结束类的氛围效果元素，氛围效果元素可以包括“真有趣啊～”“太好笑了～”等文字或者鲜花、表情等图片。

如图5g和图6e所示，在跳舞场景中，当主播3s没有舞蹈动作时，认为处于结束氛围节点，可以在直播页面上播放跳舞场景对应的结束类的氛围效果元素，氛围效果元素可以包括“舞蹈精灵”或者精灵等图片。

如图5f和图6d所示，在唱歌场景中，当主播3s没有继续唱歌时，认为处于结束氛围节点，可以在直播页面上播放唱歌场景对应的结束类的氛围效果元素，氛围效果元素可以包括“天籁之音”文字或者爱心图片等。

参考图5h和图6f所示，在通用场景下，可以设置每隔一定时间为通用氛围节点，在通用氛围节点随机播放通用类的氛围效果元素，比如，设置每个10s钟为通用氛围节点，在通用氛围节点播放通用类的氛围效果元素“主播加油！”，可以为文字或加油表情等。

在一实施例中，所述在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素，还可以包括如下步骤：

根据上面的描述，播放终端可以根据所述多媒体内容流中的氛围标记，识别当前播放内容是否为氛围内容。或者播放终端还可以根据所述多媒体内容流中的标记以及对应的氛围效果元素，识别当前播放内容是否为氛围内容。

如图5e和图6d所示，在唱歌的场景下，当识别到当前播放的语音内容包括预设歌词库中的歌词等氛围内容时，认为当前播放的语音内容为氛围内容，直播页面可以显示对应的歌词并播放该歌词对应的音乐伴奏。

如图5b和图6c所示，在讲故事/段子/笑话/事情/事的场景下，当识别到当前播放的语音内容包括“狗叫”等目标场景对应的氛围内容时，直播页面可以显示“汪汪汪”和小狗等文字、音效和表情图。

如图5g和图6e所示，在跳舞的场景下，当识别到当前播放的视频内容包括预设舞蹈动作等氛围内容时，直播页面可以播放该舞蹈动作对应的音乐伴奏。

由上可知，本申请实施例可以从多媒体内容流中，获取当前需要识别的目标多媒体片段；对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征；基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景；在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。本申请实施例通过自动识别待播放的多媒体内容流所述的目标场景，并根据所述目标场景播放相应的氛围效果元素。从而高效地丰富播放内容、活跃播放氛围，从而改善用户体验。

当该方法由播放终端10执行时，在解码得到多媒体内容流后，执行上述步骤，当该方法由发布终端30执行时，在编码之前执行上述步骤。具体流程参见上面的实施例，不再赘述。

本实施例以多媒体播放方法由播放终端10执行，进行多媒体播放为例来进行说明，具体的，由集成在播放终端中的多媒体播放装置来执行。如图2b所示，以及图6b至图6f所示，该多媒体播放方法的具体流程可以如下：

201、播放终端从多媒体内容流中，获取当前需要识别的目标多媒体片段。。

在一实施例中，当用户在线观看服务器中存储的多媒体文件的内容，或者用户观看本地存储中已下载的多媒体文件的内容时，播放终端可以从多媒体文件中获取控制信息，以确定各多媒体片段的播放顺序，进而从多媒体内容流中确定当前需要识别的目标多媒体片段。

在一实施例中，当用户在线观看多媒体直播时，需要实时获取并播放导播客户端发布的多媒体内容流数据，可以根据实时传输协议，从服务器获取用于控制播放顺序的控制信息。该控制信息是服务器根据导播客户端当前时刻发布的视频和音频数据确定的。服务器可以根据实时传输协议，生成用于控制播放顺序的控制信息。该控制信息是服务器根据导播客户端当前时刻发布的多媒体内容确定的。播放终端可以根据该控制信息，获取当前需要识别的目标多媒体片段。发布终端30可以对音频数据流和视频数据流，并进行封装和编码，得到至少一个多媒体片段。为了提高播放的流畅程度，可以在编码时删除部分解码困难的帧，保留关键帧，从而得到多媒体片段的压缩包。

因为多媒体内容流是以压缩包为单位进行异步传输的，因此多媒体内容流在传输中要被分解成许多压缩包，由于网络传输的不稳定性，各个压缩包选择的路由不同，所以到达播放终端的时间次序可能发生改变，甚至产生丢包的现象。为此，必须采用缓存技术来纠正由于多媒体片段数据到达次序发生改变而产生的混乱状况，利用缓存对到达的多媒体片段数据压缩包进行正确排序，从而使多媒体内容流能连续正确地播放。缓存中存储的是多媒体内容流的数据，数据在缓存中存放的时间是暂时的，缓存中的数据也是动态的，不断更新的。流媒体在播放时不断读取缓存中当前需要播放的目标多媒体片段进行播放，播放完后该片段的数据便被立即清除，新的数据将存入到缓存中。因此，在播放流媒体文件时并不需占用太大的缓存空间。

202、播放终端对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征。

播放终端采用语音识别技术、人体关键点识别和捕捉技术，识别目标多媒体片段的语音内容和视频内容，得到文本内容和目标物体的姿态流。

其中，识别的过程参见上面的实施例，不再赘述。

203、播放终端基于预设候选场景对应的场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景。

根据内容特征和场景特征，将多媒体内容流与预设候选场景进行匹配，判断出目标场景(讲段子/故事、唱歌、跳舞或通用场景)。

其中，匹配的过程参见上面的实施例，不再赘述。

参考图6b，当识别到文本内容包括段子/故事类关键词时，确定目标场景为讲段子/故事场景。当识别到文本内容包括曲库内的歌词时，确定目标场景为唱歌场景。当识别到目标物体的姿态流与预设舞蹈动作姿势匹配时，确定目标场景为跳舞场景。当识别到目标多媒体片段包括段子/故事类关键词、曲库内的歌词、预设舞蹈动作中任意两种或者三种的组合时，确定目标场景为通用场景。

204、播放终端根据所述目标场景对应的场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容。

根据图6c，当确定目标场景为讲段子/故事场景后，采用语音识别技术继续识别目标多媒体片段的后续多媒体内容流，讲段子/故事场景对应的场景特征包括“讲段子/故事”等场景名称关键字、“害怕”、“恐怖”、“闪电”、“狗叫”、“猫叫”等内容关键字。当初次匹配到讲段子/故事关键字时，确定为起始氛围节点，当识别到内容关键字时，确定为氛围内容，当停留3s无内容时，确定为结束氛围节点。

根据图6d，当确定目标场景为唱歌场景后，采用语音识别技术继续识别目标多媒体片段的后续多媒体内容流，唱歌场景对应的场景特征包括歌曲模型库中的歌词。当识别到歌曲模型库中的歌词时，确定为氛围内容，当停留3s无内容时，确定为结束氛围节点。

根据图6e，当确定目标场景为跳舞场景后，采用人体关键点识别和捕捉技术继续识别目标多媒体片段的后续多媒体内容流，跳舞场景对应的场景特征包括舞蹈模型库中的舞蹈动作姿势。当识别到舞蹈模型库中的舞蹈动作姿态时，确定为氛围内容，当停留3s无内容时，确定为结束氛围节点。

根据图6f，当确定目标场景为通用场景后，采用语音识别技术、人体关键点识别和捕捉技术继续识别目标多媒体片段的后续多媒体内容流，以预设频率确定通用氛围节点。

205、播放终端在播放所述多媒体内容流时，呈现所述氛围节点和所述氛围内容对应的氛围效果元素。

播放终端可以根据目标场景适配并呈现相应的氛围效果元素(氛围音效、表情图、音乐伴奏、歌词等)。

根据图6c，当播放到起始氛围节点时，呈现开场类音效及表情图组。当播放到氛围内容时，呈现关键词对应的音效和表情图组，当播放到结束氛围节点时，在讲故事场景下呈现故事类结束音效以及表情图组，在讲段子场景下呈现段子类结束音效以及表情图组。

根据图6d，当播放歌曲模型库中的歌词(即唱歌场景下的氛围内容)时，呈现歌词对应的伴奏和歌词，当播放到结束氛围节点时，呈现唱歌类结束音效和表情图组。

根据图6e，当播放舞蹈模型库中的舞蹈动作姿态(即跳舞场景下的Fenwick内容0时，根据舞蹈类型，播放相应的伴奏曲，当播放到结束氛围节点时，呈现结束音效和表情图组。

根据图6f，目标场景为通用场景时，每隔10s随机呈现通用表情图，比如“加油”、“好厉害”“666”等表情图。

为了更好地实施以上方法，相应的，本申请实施例还提供一种多媒体播放装置，该多媒体播放装置可以集成在播放终端中，参考图3a，该视频剪切装置可以包括获取单元301、识别单元302、场景匹配单元303和播放单元304，如下：

(1)获取单元301，用于从多媒体内容流中，获取当前需要识别的目标多媒体片段。

(2)识别单元302，用于对所述目标多媒体片段的内容进行识别，得到所述目标多媒体片段的内容特征。

在一实施例中，所述识别单元302具体可以包括语音识别子单元和视频识别子单元，如下：

语音识别子单元，用于对所述语音内容进行识别，得到所述语音内容对应的文本内容；

视频识别子单元，用于对所述视频内容进行目标物体的姿态识别，得到所述视频内容对应的目标物体的姿态流。

在一实施例中，语音识别子单元具体可以用于：

对所述语音内容进行划分，得到语音片段流；

将所述文本单词流作为所述语音内容对应的文本内容。

在一实施例中，视频识别子单元，具体可以用于：

识别所述视频内容中各视频帧中目标物体的关键点；

(3)场景匹配单元303，用于基于预设候选场景对应的候选场景特征与所述内容特征进行匹配，确定所述目标多媒体片段所处的目标场景。

在一实施例中，所述候选场景包括候选语音场景和候选姿态场景，所述候选场景特征包括候选文本特征和候选动作特征，所述场景匹配单元303具体可以用于：

在一实施例中，场景匹配单元303确定目标场景的原则为：

(4)播放单元304，用于在播放所述多媒体内容流时，播放所述目标场景对应的氛围效果元素。

在一实施例中播放单元304，具体可以用于：

或者，

在一实施例中，参考图3b，所述多媒体播放装置还包括确定单元305，用于在播放所述多媒体内容流之前，根据所述目标场景对应的场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容。

在一实施例中，所述氛围节点包括起始氛围节点和结束氛围节点，确定单元305具体可以用于：

确定所述目标视频片段处于所述目标场景的起始氛围节点；

在一实施例中所述氛围节点还包括通用氛围节点，确定单元305具体还可以用于：

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图4所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency，RF)电路403、电源404和输入单元405等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。

RF电路403可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器401处理；另外，将涉及上行的数据发送给基站。

终端还包括给各个部件供电的电源404(比如电池)，优选的，电源可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该终端还可包括输入单元405，该输入单元405可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该终端还可包括显示单元，该显示单元可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。

具体在本实施例中，终端中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

从多媒体内容流中，获取当前需要识别的目标多媒体片段；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种多媒体播放方法中的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令或计算机程序，可以执行本申请实施例所提供的任一种多媒体播放方法中的步骤，因此，可以实现本申请实施例所提供的任一种多媒体播放方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种多媒体播放方法、装置、存储介质以及终端进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多媒体播放方法，其特征在于，包括：

接收多个多媒体片段的压缩包，并按照预设播放信息对所述多个多媒体片段的压缩包进行重排序，得到多媒体内容流，其中，所述多媒体片段的压缩包是对所述多媒体片段进行编码时过滤了目标帧得到的，所述目标帧为所述多媒体片段中除关键帧以外的不满足预设解码要求的内容帧；所述预设播放信息用于控制所述多个多媒体片段的播放顺序；

从多媒体内容流中确定当前需要识别的目标多媒体片段；

根据所述目标场景对应的目标场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容，所述氛围节点包括起始氛围节点、结束氛围节点、以及通用氛围节点；

其中，所述根据所述目标场景对应的目标场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容，包括：

确定所述目标多媒体片段处于所述目标场景的起始氛围节点；

当所述目标场景特征与所述目标内容特征不匹配时，根据预设第一时间差，确定所述目标场景的结束氛围节点；

当所述播放时间差达到所述预设第二时间差时，则确定所述当前待识别节点为所述通用氛围节点；

在播放所述多媒体内容流时，基于所述氛围节点和所述氛围内容中的至少一种，播放所述目标场景对应的氛围效果元素。

2.如权利要求1所述的多媒体播放方法，其特征在于，所述在播放所述多媒体内容流时，基于所述氛围节点和所述氛围内容中的至少一种，播放所述目标场景对应的氛围效果元素，包括：

3.如权利要求2所述的多媒体播放方法，其特征在于，所述在播放所述多媒体内容流时，基于所述氛围节点和所述氛围内容中的至少一种，播放所述目标场景对应的氛围效果元素，还包括：

4.如权利要求1所述的多媒体播放方法，其特征在于，所述目标多媒体片段包括语音内容和视频内容；所述内容特征包括文本内容和目标物体的姿态流；

5.如权利要求4所述的多媒体播放方法，其特征在于，所述候选场景特征包括候选文本特征和候选动作特征；所述候选场景包括候选语音场景和候选姿态场景；

基于所述候选姿态场景对应的候选动作特征，对所述目标物体的姿态流进行识别，得到姿态流匹配结果；

6.如权利要求5所述的多媒体播放方法，其特征在于，所述根据所述语音匹配结果和所述姿态流匹配结果，确定所述目标多媒体片段所处的目标场景，包括：

若所述语音匹配结果为存在与所述文本内容匹配的语音场景，且所述姿态流匹配结果为不存在与所述姿态流匹配的姿态场景，则从所述候选场景中确定匹配的语音场景为目标场景；

若所述语音匹配结果为不存在与所述文本内容匹配的语音场景，且所述姿态流匹配结果为存在与所述姿态流匹配的姿态场景，则从所述候选场景中确定匹配的姿态场景为目标场景；

否则，确定所述目标多媒体片段所处的目标场景为通用场景。

7.如权利要求4所述的多媒体播放方法，其特征在于，所述对所述语音内容进行识别，得到所述语音内容对应的文本内容，包括：

对所述语音内容进行划分，得到语音片段流；

将所述文本单词流作为所述语音内容对应的文本内容。

8.如权利要求4所述的多媒体播放方法，其特征在于，所述对所述视频内容进行目标物体的姿态识别，得到所述视频内容对应的目标物体的姿态流，包括：

识别所述视频内容中各视频帧中目标物体的关键点；

9.一种多媒体播放装置，其特征在于，包括：

接收单元，用于接收多个多媒体片段的压缩包，并按照预设播放信息对所述多个多媒体片段的压缩包进行重排序，得到多媒体内容流，其中，所述多媒体片段的压缩包是对所述多媒体片段进行编码时过滤了目标帧得到的，所述目标帧为所述多媒体片段中除关键帧以外的不满足预设解码要求的内容帧；所述预设播放信息用于控制所述多个多媒体片段的播放顺序；

获取单元，用于从所述多媒体内容流中，确定当前需要识别的目标多媒体片段；

确定单元，用于根据所述目标场景对应的场景特征，确定所述多媒体内容流中所述目标场景对应的氛围节点和氛围内容；所述氛围节点包括起始氛围节点、结束氛围节点以及通用节点，所述确定单元具体用于，确定所述目标多媒体片段处于所述目标场景的起始氛围节点；根据所述多媒体内容流的播放顺序，从所述多媒体内容流中获取目标多媒体片段的后续多媒体片段进行识别；根据所述目标场景的类型，识别所述后续多媒体片段中目标类型的内容，得到所述后续多媒体片段的目标内容特征；若所述目标场景特征与所述目标内容特征匹配，确定所述目标内容特征对应的内容为所述目标场景对应的氛围内容；当所述目标场景特征与所述目标内容特征不匹配时，根据预设第一时间差，确定所述目标场景的结束氛围节点；

所述确定单元，还用于若所述目标场景为通用场景，则根据预设第二时间差以及所述多媒体内容流的播放顺序，获取所述多媒体内容流中上一氛围节点与当前待识别节点之间的播放时间差；当所述播放时间差达到所述预设第二时间差时，则确定所述当前待识别节点为所述通用氛围节点；

播放单元，用于在播放所述多媒体内容流时，基于所述氛围节点和所述氛围内容中的至少一种，播放所述目标场景对应的氛围效果元素。

10.一种存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8中任一项所述的多媒体播放方法。

11.一种终端，其特征在于，包括：包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。