CN111753105A

CN111753105A - 多媒体内容的处理方法及装置

Info

Publication number: CN111753105A
Application number: CN201910245126.8A
Authority: CN
Inventors: 汪锦武; 吉恒杉; 范雷雷; 王盛春; 郑勇
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2020-10-09

Abstract

本申请涉及一种多媒体内容的处理方法及装置，包括：对所述多媒体内容进行识别，得到所述多媒体内容中各内容片段对应的标签、及各内容片段对应的事件时间范围；确定各内容片段对应的标签是否正确；在所述内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从所述多媒体内容中截取所述事件时间范围对应的内容片段，作为所述标签对应的内容片段。根据本申请实施例提供的多媒体内容的处理方法及装置，能够自动识别多媒体内容中的内容片段对应的标签并截取该内容片段，提高了标签对应的体育动作事件对应的内容片段的裁剪效率。

Description

多媒体内容的处理方法及装置

技术领域

本申请涉及多媒体技术领域，尤其涉及一种多媒体内容的处理方法及装置。

背景技术

体育视频集锦作为体育影视节目的一种，由于能够在较短时间获取充分的信息，其短小精悍的特点深受观众喜爱，例如：进球集锦、射门集锦、扣篮集锦等。

目前各大视频平台都为用户提供体育赛事直播服务，为了满足用户的需求，可以在体育赛事直播过程中，为用户提供该赛事对应的体育视频集锦。相关技术中，体育视频集锦是人工裁剪的视频片段，裁剪效率低，并且耗费人工成本。

发明内容

根据本申请的一方面，提供了一种多媒体内容的处理方法，包括：

对所述多媒体内容进行识别，得到所述多媒体内容中各内容片段对应的标签、及所述各内容片段对应的事件时间范围；

确定各内容片段对应的标签是否正确；

在所述内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从所述多媒体内容中截取所述事件时间范围对应的内容片段，作为所述标签对应的内容片段。

在一种可能的实现方式中，所述确定各内容片段对应的标签是否正确，包括：

获取所述内容片段对应的音频数据；

对所述音频数据进行语音识别，识别所述音频数据中是否包括所述标签对应的关键词；

若所述音频数据中包括所述标签对应的关键词，则确定所述内容片段的标签正确。

在一种可能的实现方式中，在所述标签与分数相关时，所述确定各内容片段对应的标签是否正确，包括：

针对所述内容片段的任一图像帧，识别该图像帧中的记分牌内容；

确定该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容是否发生变化；

在该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容发生变化时，确定所述内容片段的标签正确。

针对所述多媒体内容的任一图像帧，识别该图像帧中的记分牌内容；

在该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容发生变化时，记录该图像帧对应的时间；

若所述事件时间范围包括该图像帧对应的时间，则确定所述内容片段的标签正确。

若确定当前内容片段对应的标签正确，则确认当前内容片段对应的标签与所述当前内容片段的相邻内容片段对应的标签是否相同；

在所述当前内容片段对应的标签与所述当前内容片段的相邻内容片段对应的标签相同时，确定所述相邻内容片段对应的标签正确。

在一种可能的实现方式中，所述方法还包括：

确认当前内容片段对应的标签与所述当前内容片段的相邻内容片段对应的标签是否相同；

若当前内容片段对应的标签与相邻内容片段对应的标签相同，则将所述当前内容片段与所述相邻内容片段合并。

在一种可能的实现方式中，所述方法还包括：

发送所述标签对应的内容片段至播放所述多媒体内容的终端设备。

根据本申请的另一方面，提供了一种多媒体内容的处理装置，包括：

识别模块，用于对所述多媒体内容进行识别，得到所述多媒体内容中各内容片段对应的标签、及各内容片段对应的事件时间范围；

确认模块，用于确定各内容片段对应的标签是否正确；

截取模块，用于在所述内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从所述多媒体内容中截取所述事件时间范围对应的内容片段，作为所述标签对应的内容片段。

处理器；

用于存储处理器可执行计算机指令的存储器；

其中，所述处理器运行所述计算机指令时执行前述任一项所述多媒体内容的处理方法的步骤。

根据本申请的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

这样，服务器可以对多媒体内容进行识别，得到多媒体内容中各内容片段对应的标签、及各内容片段对应的事件时间范围。服务器可以确定各内容片段对应的标签是否正确，并在内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从多媒体内容中截取事件时间范围对应的内容片段，作为标签对应的内容片段，以使得可以根据标签对应的体育动作事件对应的内容片段自动生成视频集锦。根据本申请实施例提供的多媒体内容的处理方法及装置，可以自动识别多媒体内容中的内容片段对应的标签并截取该内容片段，提高了标签对应的体育动作事件对应的内容片段的裁剪效率，并且由于可以对识别的各内容片段的标签的准确性进行验证，进一步的可以保证所截取的内容片段的准确性。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请一实施例的一种多媒体内容的处理方法的流程图；

图2示出根据本申请一示例的一种多媒体内容的处理方法的示意图；

图3示出根据本申请一示例的一种多媒体内容的处理方法的示意图；

图4示出根据本申请一实施例的一种多媒体内容的处理方法的流程图；

图5示出根据本申请一实施例的一种多媒体内容的处理方法的流程图；

图6示出根据本申请一示例的图像帧的示意图；

图7示出根据本申请一示例的图像帧的示意图；

图8示出根据本申请一实施例的一种多媒体内容的处理方法的流程图；

图9示出根据本申请一实施例的一种多媒体内容的处理方法的流程图；

图10示出根据本申请一实施例的一种多媒体内容的处理装置的结构框图；

图11是根据一示例性实施例示出的一种用于多媒体内容的处理的装置1900的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

图1示出根据本申请一实施例的一种多媒体内容的处理方法的流程图。该方法可以应用于服务器，如图1所示，该方法可以包括：

步骤101、对所述多媒体内容进行识别，得到所述多媒体内容中各内容片段对应的标签、及所述各内容片段对应的事件时间范围。

举例来说，多媒体内容可以与体育赛事相关的视频等内容，例如：篮球赛视频、足球赛视频、排球赛视频等。本申请可以应用于直播场景和点播场景下中。

在直播场景下，服务器可以接收多媒体内容对应的视频分片，例如：m3u视频分片。其中视频分片可以包括多媒体内容在预置时间段内对应的多媒体内容数据，例如：一个视频分片可以包括多媒体内容在2秒内的多媒体内容数据。服务器可以通过各个视频分片对应的图像帧(举例来说，可以采用FFMPEG将视频分片拆解成图像帧)，对多媒体内容进行识别，识别出多媒体内容中视频分片所包含的内容片段所对应的标签，以及该内容片段对应的事件时间范围，其中，该标签可以用于表征该内容片段对应的内容，包括体育动作事件(例如：点球事件、进球事件、头球事件、任意球事件、红牌事件、带球过人事件、倒勾球事件、摔倒事件、欢呼事件等等)和无事件等，该事件时间范围包括内容片段的起始时间及终止时间。服务器可以实时的识别直播的多媒体内容所播放的内容片段的标签。

在点播场景中，服务器可以预先按照预置拆分规格将多媒体内容拆分为多个视频分片。示例性的，可以按照预置帧数划分，例如：假设预置帧数为50帧，则可以确定每50帧图像帧组成一个视频分片；或者，可以按照预置时间间隔划分，例如：假设预置时间间隔为5秒，则可以确定每5秒对应的片段为一个视频分片。

示例性的，可以根据大量的体育赛事视频样本(包括体育赛事视频及该体育赛事视频对应的标签及事件时间范围)训练体育动作识别模型，该体育动作识别模型可以用于识别多媒体内容中各内容片段的标签及各内容片段对应的时间范围。举例来说，该体育动作识别模型可以为ECO(Efficient convolutional Network For online videounderstanding，在线视频理解模型)。

服务器可以将至少一个视频分片对应的图像帧作为体育动作识别模型的输入，该体育动作识别模型的输出包括该至少一个视频分片包含的内容片段对应的标签及该内容片段对应的事件时间范围。

例如：当前播放的多媒体内容为足球比赛，服务器识别出当前的视频分片对应的内容片段的标签为射门事件，该内容片段对应的事件时间范围为35分8秒至35分30秒。

示例性的，服务器可以采用等时间抽帧的方式从至少一个视频分片中获取多帧图像帧，也即预设一个抽取时间，服务器根据该抽取时间将获取的视频分片分割成多个片段，并从每个片段中抽取固定数量的图像帧。例如：等时间抽帧的抽取时间设置为10s，则服务器可以从视频分片中每10s对应的片段中抽取固定数量(预先设置的数值)的图像帧，该抽取的多帧图像帧可以作为体育动作识别模型的输入信息，得到该多帧图像帧对应的内容片段所对应的标签及事件时间范围。

需要说明的是，上述等时间抽帧获取视频分片中的多帧图像帧仅作为本申请实施例中获取视频分片中的多帧图像帧的一种实现方式，而不理解为是对获取视频分片中的多帧图像帧的限制，实际上，可以从视频分片中获取到多帧图像帧的方式均可以，本申请实施例对此不作限定。

步骤102、确定各内容片段对应的标签是否正确。

举例来说，服务器识别出内容片段对应的标签后，可以根据该内容片段所对应的音频数据或者视频数据，确定识别的标签的是否正确，以可以进一步的保证识别的内容片段的标签的准确性。

步骤103、在所述内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从所述多媒体内容中截取所述事件时间范围对应的内容片段，作为所述标签对应的内容片段。

服务器在确定内容片段对应的标签正确，确定该标签是否为体育动作事件对应的标签。举例来说，在内容片段对应的标签不为无事件(内容片段内未发生任何精彩或者被观众关注的事件)时，可以确定该内容片段的标签为体育动作事件对应的标签，则可以从多媒体内容中截取事件时间范围对应的内容片段，该内容片段可以作为标签对应的内容片段，该内容片段可以用作标签对应的体育动作事件相关的视频集锦的素材。

例如：当前播放的多媒体内容为足球比赛，服务器识别出的内容片段的标签为射门事件，该标签对应的射门事件所对应的事件时间范围为35分8秒至35分30秒，服务器根据多媒体内容中35分8秒至35分30秒对应的内容片段中的音频数据和/或视频数据确定该内容片段的标签正确时，则可以截取多媒体内容在35分8秒至35分30秒对应的内容片段，该内容片段为该标签(射门事件)对应的内容片段，进一步的，服务器可以推送该内容片段至终端设备，或者可以将该内容片段与其它射门事件对应的内容片段合并在一起，得到射门事件集锦，并可以推送该射门事件集锦至终端设备。

图2示出根据本申请一示例的一种多媒体内容的处理方法的示意图；图3示出根据本申请一示例的一种多媒体内容的处理方法的示意图。

为使本领域技术人员更好的理解本申请实施例，以下通过具体示例对本申请实施例加以说明。

示例性的，如图2所示，在直播场景中，服务器实时接收多媒体内容的视频分片，并根据接收的视频分片对多媒体内容进行识别，识别出接收的视频分片对应的多媒体内容中各内容片段对应的标签，并验证各内容片段对应的标签是否正确，在内容片段对应的标签正确，且标签为体育动作事件对应的标签(图2中各内容片段对应的标签均为体育动作事件对应的标签)时，可以截取该内容片段作为该标签对应的内容片段。

示例性的，如图3所示，在点播场景中，服务器可以将多媒体内容划分为多个视频分片，并根据各个视频分片对多媒体内容进行识别，识别出各个视频分片对应的多媒体内容中各内容片段对应的标签，并验证各内容片段对应的标签是否正确，在内容片段对应的标签正确，且标签为体育动作事件对应的标签(图3中各内容片段对应的标签均为体育动作事件对应的标签)时，可以截取该内容片段作为该标签对应的内容片段。

这样，服务器可以对多媒体内容进行识别，得到多媒体内容中各内容片段对应的标签、及各内容片段对应的事件时间范围。服务器可以确定各内容片段对应的标签是否正确，并在内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从多媒体内容中截取事件时间范围对应的内容片段，作为标签对应的内容片段，以使得可以根据标签对应的体育动作事件对应的内容片段自动生成视频集锦。根据本申请实施例提供的多媒体内容的处理方法，可以自动识别多媒体内容中的内容片段对应的标签并截取该内容片段，提高了标签对应的体育动作事件对应的内容片段的裁剪效率，并且由于可以对识别的各内容片段的标签的准确性进行验证，进一步的可以保证所截取的内容片段的准确性。

图4示出根据本申请一实施例的一种多媒体内容的处理方法的流程图。

在一种可能的实现方式中，参照图4，上述步骤102、确定各内容片段对应的标签是否正确，可以包括：

步骤10201、获取所述内容片段对应的音频数据。

举例来说，在确定内容片段对应的标签后，服务器可以根据内容片段对应的事件时间范围，从多媒体内容中获取该内容片段所对应的音频数据，例如：内容片段为35分8秒至35分30秒，则获取多媒体内容在35分8秒至35分30秒内的音频数据。

步骤10202、对所述音频数据进行语音识别，识别所述音频数据中是否包括所述标签对应的关键词。

举例来说，任一标签可以具有至少一个对应的关键词，该关键词可以为预先设置的能够标识标签对应的体育动作事件发生的词句等，例如：体育赛事过程中，在一些体育动作事件发生时，解说员在经常会说出一些能够标识该体育动作事件发生的解说词，例如：在射门事件发生时，解说员通常会激动的说出：进了、进球了、这球漂亮、绝杀等词，则可以确定该射门事件这一标签对应的关键词包括：进了、进球了、这球漂亮、绝杀等词。

服务器可以对上述获取的音频数据进行语音识别，例如：可以采用ASR(AutomaticSpeech Recognition，自动语音识别技术)识别音频数据中包含的信息。

步骤10203、若所述音频数据中包括所述标签对应的关键词，则确定所述内容片段的标签正确。

举例来说，服务器可以获取内容片段的标签对应的关键词，并在获取的音频数据中识别该标签对应的关键词，在音频数据中识别到该标签对应的关键词时，可以确定该内容片段的标签正确。

例如：当前内容片段的标签为射门事件，服务器获取射门事件对应的关键词：进了、进球了、这球漂亮、绝杀。服务器获取当前内容片段所对应的音频数据，该音频数据中解说员说出解说词：“进了！这球进了！”，则服务器可以识别出该音频数据的信息包括：“进了，这球进了”服务器识别出该音频数据的信息中包括关键词“进了”，则可以确定该内容片段的标签为射门事件是正确的。

这样一来，服务器可以通过语音识别技术识别内容片段的音频数据所包含的信息，进而确定内容片段的标签是否需正确，可以保证识别出的内容片段的标签的准确性，进而保证所截取的内容片段的准确性。

图5示出根据本申请一实施例的一种多媒体内容的处理方法的流程图。

在一种可能的实现方式中，在所述标签与分数相关时，参照图5，上述步骤102、确定各内容片段对应的标签是否正确，可以包括：

步骤10204、针对所述内容片段的任一图像帧，识别该图像帧中的记分牌内容。

服务器在确定内容片段对应的标签后，可以通过图像识别技术识别该内容片段中的任一图像帧，识别出任一图像帧中的记分牌内容，其中，记分牌可以用于表示当前比分。

图6示出根据本申请一示例的图像帧的示意图；图7示出根据本申请一示例的图像帧的示意图。

在多媒体内容为篮球比赛，在播放到第9分12秒时，出现了三分球事件，则服务器识别第9分12秒对应的图像帧1所对应的记分牌内容为100:100(参照图6)，图像帧2所对应的记分牌内容为100:35(参照图7)。

步骤10205、确定该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容是否发生变化。

步骤10206、在该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容发生变化时，确定所述内容片段的标签正确。

举例来说，服务器可以确定当前图像帧中记分牌内容相对于前一帧图像帧中记分牌内容是否发生变化，在当前图像帧中记分牌内容相对于前一帧图像帧中记分牌内容发生变化时，说明当前内容片段中发生了得分事件，则可以确定当前内容片段对应的标签是正确的。

这样一来，服务器可以通过图像识别技术识别内容片段的视频数据中记分牌内容的变化，进而确定内容片段的标签是否正确，可以保证识别的内容片段的标签的准确性，进而保证所截取的内容片段的准确性。

图8示出根据本申请一实施例的一种多媒体内容的处理方法的流程图。

在一种可能的实现方式中，在所述标签与分数相关时，参照图8，上述步骤102、确定各内容片段对应的标签是否正确，可以包括：

步骤10207、针对所述多媒体内容的任一图像帧，识别该图像帧中的记分牌内容；

步骤10208、确定该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容是否发生变化；

步骤10209、在该图像帧中记分牌内容相对于前一帧图像帧中记分牌内容发生变化时，记录该图像帧对应的时间；

步骤10210、若所述事件时间范围包括该图像帧对应的时间，则确定所述内容片段的标签正确。

举例来说，服务器在确定内容片段对应的标签后，可以通过图像识别技术识别该内容片段中的任一图像帧，识别任一图像帧中的记分牌内容，其中，记分牌用于表示当前比分。

服务器可以确定当前图像帧中记分牌内容相对于前一帧图像帧中记分牌内容是否发生变化，在当前图像帧中记分牌内容相对于前一帧图像帧中记分牌内容发生变化时，说明当前内容片段中发生了得分事件，则可以记录当前图像帧对应的时间作为事件发生时间。服务器可以确定内容片段对应的事件时间范围是否包含上述事件发生时间，若包含，则可以确定得分事件是发生在事件时间范围内的，因此可以确定内容片段的标签是正确的。

这样一来，服务器可以通过图像识别技术识别内容片段的视频数据中记分牌内容的变化，进而确定内容片段的标签是否正确，可以保证识别的内容片段的准确性，进而保证所截取的体育动作事件对应的内容片段的准确性。

在一种可能的实现方式中，上述确定各内容片段对应的标签是否正确，包括：

服务器在识别当前内容片段对应的标签，并根据当前内容片段对应的音频数据和/或视频数据确定当前内容片段对应的标签正确后，可以确定当前内容片段的相邻内容片段对应的标签与该当前内容片段对应的标签是否相同。在相邻内容片段对应的标签与该当前内容片段对应的标签相同时，可以确定相邻内容片段与该当前内容片段为一个完整的事件过程，则在当前内容片段的标签正确时，无需根据相邻内容片段对应的音频数据和/或视频数据对相邻内容片段对应的标签进行验证，可以直接确定该相邻内容片段对应的标签正确，可以提高内容片段的截取效率，降低资源消耗。

举例来说，服务器识别出当前内容片段对应的标签为“庆祝”，当前内容片段的相邻内容片段对应的标签也为“庆祝”，也即当前内容片段与相邻内容片段为一个完整的“庆祝”事件，则在确定当前内容片段对应的标签正确时，相邻内容片段对应的标签也可以确定为是正确的。

图9示出根据本申请一实施例的一种多媒体内容的处理方法的流程图。

在一种可能的实现方式中，参照图9，上述方法还可以包括：

步骤104、确认当前内容片段对应的标签与所述当前内容片段的相邻内容片段对应的标签是否相同。

举例来说，多媒体内容在不同的播放进度对应的内容片段可以对应不同的标签，也可以对应相同的标签，例如：多媒体内容在35分10秒至35分30秒对应射门事件，35分31秒至35分40秒对应庆祝事件。或者，多媒体内容在35分10秒至35分40秒为球员射门的过程，多媒体内容进行等时间抽帧的方式识别多媒体内容的内容片段的标签时，假设抽帧时间设置为20秒，则服务器确定35分10秒至35分30秒对应的内容片段的标签为射门事件，35分31秒至35分40秒对应的内容片段的标签为射门事件，也即将一个完整的射门过程分割成了两个内容片段。

其中，两个内容片段之间不存在其他内容片段时，则可以确定该两个内容片段为相邻的内容片段。

服务器可以确定当前内容片段的相邻内容片段，并确定当前内容片段对应的标签与相邻内容片段对应的标签是否相同，例如：当前内容片段的标签为射门事件，则服务器可以确定上述相邻内容片段的标签是否为射门事件，在相邻内容片段的标签为射门事件时，可以确定当前内容片段的标签与相邻内容片段的标签相同。

步骤105、若当前内容片段对应的标签与相邻内容片段对应的标签相同，则将所述当前内容片段与所述相邻内容片段合并。

在当前内容片段对应的标签与内容片段对应的标签相同时，服务器可以确定当前内容片段与相邻内容片段可以合成一个完整的内容片段，或者可以合成为该标签对应的体育动作事件集锦，则服务器可以将当前内容片段与相邻内容片段合并成为一个完整的内容片段。

举例来说，服务器可以截取标签1对应的内容片段1、与内容片段1相邻内容片段2，该内容片段2对应的标签为标签1，则将内容片段1和内容片段2合并为新的内容片段3。

或者，在内容片段1与该内容片段1相邻的内容片段2对应的标签相同时，服务器可以确定当前内容片段1的起始时间，及内容片段2的终止时间，截取以内容片段1的起始时间为起始时间，以内容片段2的终止时间为终止时间的内容片段3。

这样一来，服务器可以保证截取的内容片段的完整性，并且可以实时的生成体育动作事件对应的集锦，提高了体育动作事件对应的集锦的生成效率。

在一种可能的实现方式中，上述方法还可以包括：

举例来说，服务器在得到内容片段后，可以发送该内容片段至终端设备，以使得终端设备可以播放该内容片段。

例如，服务器在得到内容片段后，可以向终端设备发送该内容片段生成提示，该内容片段生成提示中可以包括：内容片段的标签等，以使得终端设备可以在播放界面中显示该内容片段对应的播放请求。终端设备可以响应于用户针对内容片段对应的播放请求的触发操作，向服务器发送播放请求，以请求该内容片段。服务器可以响应于该播放请求，将该内容片段发送至终端设备，进而终端设备可以播放该内容片段。

或者，服务器可以响应于各个用户的设置，或者服务器可以根据对用户的行为数据的分析，确定用户感兴趣的体育动作事件，并在内容片段后，将该内容片段推送至对该内容片段对应的标签所表征的体育动作事件感兴趣的用户的终端设备。

图10示出根据本申请一实施例的一种多媒体内容的处理装置的结构框图，该装置可以应用于服务器。如图10所示，该装置可以包括：

识别模块801，可以用于对所述多媒体内容进行识别，得到各内容片段对应的标签、及所述各内容片段对应的事件时间范围；

确认模块802，可以确定各内容片段对应的标签是否正确；

截取模块803，可以在所述内容片段对应的标签正确、且该标签为体育动作事件对应的标签时，从所述多媒体内容中截取所述事件时间范围对应的内容片段，作为所述标签对应的内容片段。

在一种可能的实现方式中，上述确认模块可以用于：

获取所述内容片段对应的音频数据；

在一种可能的实现方式中，在上述标签与分数相关时，上述确认模块可以用于：

在一种可能的实现方式中，上述确认模块还可以用于：

在一种可能的实现方式中，上述装置还可以包括：

类型确认模块，可以用于确认当前内容片段对应的标签与所述当前内容片段的相邻内容片段对应的标签是否相同；

合并模块，可以用于若当前内容片段对应的标签与相邻内容片段对应的标签相同，则将所述当前内容片段与所述相邻内容片段合并。

在一种可能的实现方式中，上述装置还可以包括：

发送模块，用于发送所述标签对应的内容片段至播放所述多媒体内容的终端设备。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

图11是根据一示例性实施例示出的一种用于多媒体内容的处理的装置1900的框图。例如，装置1900可以被提供为一服务器。参照图11，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种多媒体内容的处理方法，其特征在于，包括：

确定各内容片段对应的标签是否正确；

2.根据权利要求1所述的方法，其特征在于，所述确定各内容片段对应的标签是否正确，包括：

获取所述内容片段对应的音频数据；

3.根据权利要求1或2所述的方法，其特征在于，在所述标签与分数相关时，所述确定各内容片段对应的标签是否正确，包括：

4.根据权利要求1或2所述的方法，其特征在于，在所述标签与分数相关时，所述确定各内容片段对应的标签是否正确，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述确定各内容片段对应的标签是否正确，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

8.一种多媒体内容的处理装置，其特征在于，包括：

确认模块，用于确定各内容片段对应的标签是否正确；

9.一种多媒体内容的处理装置，其特征在于，包括：

处理器；

用于存储处理器可执行计算机指令的存储器；

其中，所述处理器运行所述计算机指令时执行权利要求1至7任一项所述多媒体内容的处理方法的步骤。

10.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。