CN115866279A

CN115866279A - 直播视频处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN115866279A
Application number: CN202211143372.0A
Authority: CN
Inventors: 刘毅; 傅一峰; 吴金贵; 彭瑾龙
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-03-28

Abstract

本发明实施例提供了一种直播视频处理方法、装置、电子设备及可读存储介质。该方法包括：基于待处理直播视频，获取待处理直播视频对应的音频数据；从音频数据中提取包含音乐的音频数据段，以作为目标音频段；从待处理直播视频中提取与目标音频段对应的视频片段，得到备选视频片段；备选视频片段中包含的音乐与目标音频段中包含的音乐相同；从备选视频片段中筛选目标视频片段，并将目标视频片段添加至待处理直播视频对应的直播间中；目标视频片段中所包含的音乐为进行表演时使用的音乐；响应于用户对目标视频片段的触发操作，为用户播放目标视频片段。这样，使得用户可以直接回看到直播视频中较为精彩的部分，一定程度上提高直播视频回看效率。

Description

直播视频处理方法、装置、电子设备及可读存储介质

技术领域

本发明涉及视频技术领域，特别是涉及一种直播视频处理方法、装置、电子设备及可读存储介质。

背景技术

随着各种直播平台的发展，使用直播平台的用户越来越多，对直播平台的要求也越来越高。例如，在很多情况下，用户想要重复播放直播视频中的精彩片段时，需要对直播视频进行回看操作。

在先技术中，针对已经产生的直播视频，用户进行直播视频回看时，只能按照视频进度进行回看，或者，需要用户手动拖拽进度条，控制直播视频的回看进度。因此，导致直播视频回看的效率较低。

发明内容

本发明实施例的目的在于提供一种直播视频处理方法、装置、电子设备及可读存储介质，以提高直播视频回看的效率。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种直播视频处理方法，该方法可以包括：

基于待处理直播视频，获取所述待处理直播视频对应的音频数据；

从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段；

从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同；

从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐；

响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。

在本发明实施的第二方面，还提供了一种直播视频处理装置，该装置包括：

提取音频模块，用于基于待处理直播视频，获取所述待处理直播视频对应的音频数据；

音频片段分析模块，用于从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段；

视频提取模块，用于从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同；

视频片段筛选模块，用于从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐；

视频播放模块，用于响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如第一方面所述的直播视频处理方法。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的直播视频处理方法。

本发明实施例提供的直播视频处理方法，通过基于待处理直播视频，获取所述待处理直播视频对应的音频数据；从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段；从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同；从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐；响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。这样，自动根据待处理直播视频的音频数据，从中提取到包含音乐的视频片段，基于包含音乐的视频片段筛选出目标视频片段。由于目标视频片段中包含进行表演时使用的音乐，因此，可以认为目标视频片段是待处理直播视频中较为精彩的片段。这样，通过向用户提供目标视频片段，使得用户可以直接根据目标视频片段回看到直播视频中较为精彩的部分，进而一定程度上可以提高直播视频回看效率，丰富了直播平台的功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的直播视频处理方法的步骤流程图；

图2为本发明实施例提供的直播视频处理装置的结构图；

图3为本发明实施例提供的直播视频处理装置的应用示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参照图1，示出了本发明实施例提供的直播视频处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、基于待处理直播视频，获取所述待处理直播视频对应的音频数据。

本发明实施例中，上述待处理直播视频指的是有回看需求的视频，可以为直播平台根据直播所生成的直播视频，或者，还可以是主播自行上传的视频，本发明实施例对待处理直播视频的来源不作具体限制。

其中，上述待处理直播视频对应的音频数据指的是视频流中所包含的音频流，具体的，包含声音的视频所对应的视频源文件中通常包含了视频格式的文件和音频格式的文件，因此，可以根据待处理直播视频的格式，基于视频格式协议说明，从中抽取对应的音频格式的文件，即为待处理直播视频对应的音频数据。例如，当待处理直播视频为MP4格式时，可以从该视频的存储文件中获取MP3格式的文件即可得到对应的音频数据。具体的，可以通过软件形式实现对音频数据的获取。

步骤102、从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段。

其中，由于包含音乐的片段往往是直播视频中比较精彩的片段，用户针对该片段的回看需求较高，因此可以对上述获取的音频数据进行检测，识别出包含音乐的片段。

具体的，可以先对上述音频数据进行分段，并提取各段音频数据的数据特征向量，与预设的音乐库进行匹配，当在该音乐库中存在至少一个相匹配的音乐时，可以将对应的该段的音频数据作为目标音频段。或者，也可以预先训练一个音乐识别模型，通过该模型可以得到上述目标音频段。

步骤103、从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同。

其中，通过上述步骤102得到目标音频段之后，可以基于目标音频段在原音频数据中的位置获取目标音频段的起始时刻以及终止时刻，从而可以基于目标音频段的起始时刻以及终止时刻，从待处理直播视频中截取出上述起始时刻以及终止时刻对应的视频片段作为备选视频片段。

进一步地，由于待处理直播视频与初始的音频数据是对应的，因此，基于目标音频段的起止时刻所得到的备选视频片段中包含的音乐与目标音频段中的相同，也就是，备选视频片段与目标音频段是一一对应的。

步骤104、从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐。

步骤105、响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。

其中，由于可能存在备选视频片段中包含音乐，但音乐片段对应的视频内容并不是用户需要的精彩片段的情况(例如，音乐只是主播单纯播放的背景音乐)，因此，需要进一步从上述备选视频片段中筛选出用户需要的精彩片段，即，包含表演的片段。

具体的，可以将筛选出的目标视频片段添加至对应的直播间中，当用户进入该直播间后，即可选择想看的目标视频片段进行触发，以播放对应的目标视频片段。可选的，用户还可以对上述目标视频片段进行分享、收藏等操作。

可选的，用户还可以对上述目标视频片段进行下载，以将下载的目标视频片段的音频设置为铃声。

可选的，还可以将不同直播间生成的所有目标视频片段在直播平台的展示区域进行统一展示，进一步地，还可以接收用户的点赞操作生成点赞榜，并对不同类别的目标视频片段根据点赞数量生成音乐榜、跳舞榜等等，从而使更多用户可以了解到不同直播间的特色，进而选择感兴趣的直播间进行观看。

综上所述，本发明实施例中，通过基于待处理直播视频，获取所述待处理直播视频对应的音频数据；从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段；从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同；从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐；响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。这样，自动根据待处理直播视频的音频数据，从中提取到包含音乐的视频片段，基于包含音乐的视频片段筛选出的目标视频片段。由于目标视频片段中包含进行表演时使用的音乐，因此，可以认为目标视频片段是待处理直播视频中较为精彩的片段。这样，通过向用户提供目标视频片段，使得用户可以直接根据目标视频片段回看到直播视频中较为精彩的部分，进而一定程度上可以提高直播视频回看效率，丰富了直播平台的功能。

可选的，上述从所述备选视频片段中筛选目标视频片段的操作，本发明实施例具体可以包括下述步骤：

步骤201、对于任一所述备选视频片段，对所述备选视频片段中的视频帧进行人物检测，得到人物检测结果。

步骤202、在所述人物检测结果表征所述备选视频片段中存在人物的情况下，对所述备选视频片段中存在人物进行行为识别，得到行为识别结果。

步骤203、在所述行为识别结果表征所述人物进行指定表演行为的情况下，将所述备选视频片段确定为所述目标视频片段。

其中，上述目标视频片段中的画面内容可以是与所包含的音乐相适配的。例如，所包含的音乐可以为视频主体演唱所生成的，或者，也可以是作为视频主体跳舞的伴奏音乐，还可以为视频主体演奏乐器所产生的音乐。其中，上述视频主体指的是视频中包含的人物(例如，主播)。

具体的，可以对各备选视频片段进行逐帧检测，检测其中是否存在视频主体，即是否存在人物。具体的，可以通过目标检测算法(例如，Yolo v3算法等)实现对人物的检测，得到各备选视频片段中是否存在人物。可选的，可以设置一个数量阈值，将存在人物的视频帧作为目标视频帧，当一个备选视频片段中包含的目标视频帧的数量超出上述数量阈值时，可以认为该备选视频片段中存在人物，其中，该数量阈值的具体数值可以根据备选视频片段所包含的帧数自行确定。

其中，在得到包含人物的备选视频片段之后，可以进一步对人物的行为进行识别，具体的，对人物的行为识别可以包括口型检测、肢体检测等，通过口型检测可以得到人物是否在唱歌，通过肢体检测可以得到人物是否在跳舞或者演奏乐器，上述行为识别结果可以包括说话、唱歌、跳舞、演奏乐器等等。具体的，上述口型检测可以通过检测人物的口型是否与当前的音乐歌词相适配来确定是否在唱歌。

其中，上述指定表演行为可以包括唱歌、跳舞、演奏乐器等等，当然，还可以包括其他类型的表演行为，本发明实施例对此不作限制。具体的，当通过行为检测得到备选视频片段中的人物进行上述指定表演行为的情况下，表明该备选视频片段为用户需要的精彩视频片段，因此可以将该备选视频片段作为目标视频片段。

本发明实施例中，通过对于任一所述备选视频片段，对所述备选视频片段中的视频帧进行人物检测，得到人物检测结果；在所述人物检测结果表征所述备选视频片段中存在人物的情况下，对所述备选视频片段中存在人物进行行为识别，得到行为识别结果；在所述行为识别结果表征所述人物进行指定表演行为的情况下，将所述备选视频片段确定为所述目标视频片段。这样，通过将存在人物且人物进行指定表演行为的备选视频片段作为目标视频片段，可以在所有包含音乐的备选视频片段中剔除不包含表演行为的视频片段，避免生成包含背景音乐但视频内容不符合用户需求的视频片段，从而进一步提高生成精彩视频片段的质量，提高用户体验。

步骤301、按照预设格式对所述备选视频片段进行压缩。

其中，上述预设格式指的是视频的分辨率和帧数，通过将备选视频片段按照预设格式进行压缩，可以使所有的备选视频片段保持统一格式，从而方便后续的处理操作。示例的，上述预设格式可以为分辨率为50*50，帧数为400帧，当然，该预设格式也可以根据视频片段的原格式进行自行设置，在不影响视频识别率的情况下选择合适的格式即可。

步骤302、将压缩后的所述备选视频片段作为预设视频识别模型的输入，获取所述预设视频识别模型输出的所述备选视频片段的所属类别。

步骤303、在所述所属类别表征所述备选视频片段包含指定表演行为情况下，将所述备选视频片段确定为所述目标视频片段。其中，所述预设视频识别模型是以按照所述预设格式压缩后的样本视频片段以及所述样本视频片段的样本标签作为训练数据训练得到的，所述样本标签用于表征所述样本视频片段中包含的指定表演行为。

其中，上述预设视频识别模型可以是预先训练得到的，用于对备选视频片段进行分类。

具体的，可以预先建立一个深度学习模型作为初始的视频识别模型，并采集大量的包含音乐的视频数据作为样本视频片段，根据样本视频中所包含的内容将其分为不同的类别并添加样本标签，该样本标签与类别是一一对应的，例如，可以包括唱歌类、跳舞类、乐器类以及其他类别，并将上述样本视频统一压缩至上述预设格式后，与上述样本标签生成样本集，通过该样本集对上述初始的视频识别模型进行训练，得到训练完成的视频识别模型。从而可以将压缩后的备选视频片段作为输入，基于该视频识别模型得到该备选视频片段的所属类别，即，该备选视频片段中所包含的表演内容，当得到所述类别为上述唱歌类、跳舞类、乐器类时，认为该备选视频片段中包含指定的表演行为，可以将该备选视频片段作为目标视频片段。

本发明实施例中，通过按照预设格式对所述备选视频片段进行压缩；将压缩后的所述备选视频片段作为预设视频识别模型的输入，获取所述预设视频识别模型输出的所述备选视频片段的所属类别；在所述所属类别表征所述备选视频片段包含指定表演行为情况下，将所述备选视频片段确定为所述目标视频片段；其中，所述预设视频识别模型是以按照所述预设格式压缩后的样本视频片段以及所述样本视频片段的样本标签作为训练数据训练得到的，所述样本标签用于表征所述样本视频片段中包含的指定表演行为。这样，通过按照预设格式压缩后的样本视频片段作为训练样本，可以避免由于格式的不同所导致的识别误差，从而提高对视频识别模型的训练效率，同时，将备选视频片段压缩至预设格式，可以更加适配训练得到的视频识别模型，进一步提高识别的准确度。

可选的，上述从所述备选视频片段中筛选目标视频片段之后，本发明实施例具体还可以包括下述步骤：

步骤401、根据所述目标视频片段中包含的指定表演行为，为所述目标视频片段添加类型标签；所述类型标签用于表征所述目标视频片段中包含的指定表演行为的类型。

其中，上述类型标签可以用于区分各目标视频片段所包含的内容的类型，例如，可以包括跳舞类、唱歌类以及乐器类等精彩视频类型。具体的，在基于上述步骤202以及步骤302得到备选视频片段的类别之后，基于该类别直接添加相应的标签即可，即，上述类型标签是与目标视频片段中包含的内容对应的。

本发明实施例中，通过根据所述目标视频片段中包含的指定表演行为，为所述目标视频片段添加类型标签；所述类型标签用于表征所述目标视频片段中包含的指定表演行为的类型。这样，通过为各目标视频片段添加相应的类型标签，可以无需播放操作，用户通过视频的标签即可确定视频片段是否为想要观看的目标类型视频，从而提高了用户查看喜欢的视频片段的快捷度，进一步提高了直播视频回看的效率。

可选的，上述从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段的操作，本发明实施例具体可以包括下述步骤：

步骤501、将所述音频数据按照预设时长分割为多个音频数据段，并从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段。

其中，可以在得到上述音频数据之后，再将其按照预设时长进行分割，或者，也可以对直播音频流按照预设时长进行间隔采样，上述预设时长可以根据实际需求自行设置。示例的，预设时长可以是一段表演所需的最大时长。具体的，由于表演一首歌或一段舞的时间通常保持在5分钟之内，因此，可以将上述预设时长设置为5分钟，将上述音频数据分割为多个时长为5分钟的音频数据段。进一步地，在得到多个音频数据段后，可以分段进行识别，从中检测出包含音乐的音频数据段作为备选音频段。

步骤502、对于任一所述备选音频段，在所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐的情况下，将所述备选音频段与所述相邻的备选音频段合并，得到一个所述目标音频段。

步骤503、在所述备选音频段中包含的音乐与所述相邻的备选音频段中包含的音乐不属于同一音乐的情况下，将所述备选音频段确定为一个所述目标音频段。

其中，经过上述步骤501之后，可能存在将同一首音乐的时间段分割在了两个或两个以上的相邻的备选音频段中的情况，因此需要对分割后的备选音频段进行进一步识别。

其中，上述相邻的备选音频段可以是当前备选音频段之前的音频段，也可以是当前备选音频段之后的音频段。具体的，可以按照时间顺序对各备选音频段进行排序，并从第一个备选音频段开始，对其终止位置所包含的音乐与相邻的备选音频段的起始位置所包含的音乐进行检测，当存在某一个备选音频段的终止位置所包含的音乐与下一备选音频段的起始位置所包含的音乐属于同一首音乐的情况下，认为精彩片段持续了两个片段的时间，因此，需要将该备选音频段与下一备选音频段进行合并，作为一个完整的目标音频段。其中，可以通过获取下一备选音频段的终止时间，与当前备选音频段的起始时间作为该完整的目标音频段的起止时间。

可选的，在得到上述完整的目标音频段后，还可以继续对与该完整的目标音频段所相邻的备选音频段进行检测，也就是说，当音乐的持续时间超过了两个以上的片段时，可以将第一个片段的起始时间和最后一个片段的终止时间作为最终的目标音频段的起止时间，直至任一目标音频段中的音乐均不与相邻的目标音频段中包含的音乐属于同一首音乐为止。

本发明实施例中，通过将所述音频数据按照预设时长分割为多个音频数据段，并从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段；对于任一所述备选音频段，在所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐的情况下，将所述备选音频段与所述相邻的备选音频段合并，得到一个所述目标音频段；在所述备选音频段中包含的音乐与所述相邻的备选音频段中包含的音乐不属于同一音乐的情况下，将所述备选音频段确定为一个所述目标音频段。这样，通过将属于同一音乐的备选音频段合并为一个目标音频段，可以避免将包含同一个精彩片段的音频拆分，使最终所生成的目标视频段保持连贯性，从而提高所生成的目标视频片段的质量。

可选的，上述从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段的操作，本发明实施例具体可以包括下述步骤：

步骤601、对于任一所述音频数据段，将所述音频数据段作为预设音频识别模型的输入，并获取所述预设音频识别模型输出的音频识别结果。

步骤602、在所述音频识别结果表征所述音频数据段中包含的音乐的情况下，将所述音频数据段确定为所述备选音频段。其中，所述预设音频识别模型是以包含音乐的样本音频段作为正训练样本，以未包含音乐的样本音频段作为负训练样本训练得到的。

其中，上述预设音频识别模型可以是预先训练得到的，用于从原音频段识别出包含音乐的音频数据段。

具体的，可以预先建立一个初始的深度学习模型，并采集大量的音频数据对该模型进行训练。可选的，可以从直播平台中获取历史直播音频数据，并根据音频数据中是否包含音乐将其分为正样本和负样本，例如，可以将主播讲话、且没有背景音乐的音频数据段作为负样本，将播放了背景音乐的音频数据段作为正样本，或者，也可以从网络中直接下载大量的音乐数据将其作为正样本。

可选的，上述样本也可以按照上述预设时长进行分割，从而可以提高训练后的模型对该预设时长的音频数据的识别准确率。

本发明实施例中，通过对于任一所述音频数据段，将所述音频数据段作为预设音频识别模型的输入，并获取所述预设音频识别模型输出的音频识别结果；在所述音频识别结果表征所述音频数据段中包含的音乐的情况下，将所述音频数据段确定为所述备选音频段；其中，所述预设音频识别模型是以包含音乐的样本音频段作为正训练样本，以未包含音乐的样本音频段作为负训练样本训练得到的。这样，直接通过预先训练的音频识别模型对音频数据进行识别，可以提高确定备选音频段的效率，同时，通过正负样本对音频识别模型预先训练，也可以进一步提高确定备选音频段的准确性。

可选的，本发明实施例还可以包括下述步骤：

步骤701、对于任一所述备选音频段，检测所述备选音频段中音乐的结束部分与所述相邻的备选音频段中音乐的起始部分是否连续。

步骤702、在连续的情况下，确定所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐。

可以理解的，当相邻备选音频段的音乐不属于同一音乐时，音频数据中往往会存在中断，即从一首音乐切换到下一首音乐的过程中会存在一个空白区，导致音频数据不连续，因此，可以通过检测备选音频段与相邻备选音频段中的音乐是否连续来判断两者所包含的音乐是否属于同一音乐。其中，上述结束部分以及起始部分可以是一个时间段，例如，可以将备选音频段的最后5s的数据作为结束部分，将相邻的备选音频段的前5s的数据作为起始部分，从而可以提高检测的准确率。

具体的，在获取到上述备选音频段中的终止部分与相邻的备选音频段的起始部分的音频数据后，可以将其合并得到一段测试数据，并基于该测试数据获取时域图积分，当该测试数据的时域图积分值小于预设的基准值时，认为该段测试数据中存在空白区，表明该备选音频段中的终止部分的音乐与相邻的备选音频段的起始部分的音乐不连续，从而可以确定两者包含的音乐不属于同一音乐。其中，上述基准值可以预先对一段连续的音频数据的时域图进行积分得到。

可选的，也可以将备选音频段与相邻的备选音频段输出，并接收用户的输入，通过输入结果确定两者包含的音乐是否属于同一音乐。

本发明实施例中，通过对于任一所述备选音频段，检测所述备选音频段中音乐的结束部分与所述相邻的备选音频段中音乐的起始部分是否连续；在连续的情况下，确定所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐。这样，通过检测两个相邻的备选音频段中的音乐是否连续，可以准确的判断出两者所包含的音乐是否属于同一音乐，从而可以进一步提高后续生成目标视频片段的精确度。

参照图2，示出了本发明实施例提供的直播视频处理装置的结构图，如图2所示，该装置可以包括：

提取音频模块201，用于基于待处理直播视频，获取所述待处理直播视频对应的音频数据；

音频片段分析模块202，用于从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段；

视频提取模块203，用于从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同；

视频片段筛选模块204，用于从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐；

视频播放模块205，用于响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。

可选的，所述视频片段筛选模块204，包括：

检测子模块，用于对于任一所述备选视频片段，对所述备选视频片段中的视频帧进行人物检测，得到人物检测结果；

行为识别子模块，用于在所述人物检测结果表征所述备选视频片段中存在人物的情况下，对所述备选视频片段中存在人物进行行为识别，得到行为识别结果；

第一确定子模块，用于在所述行为识别结果表征所述人物进行指定表演行为的情况下，将所述备选视频片段确定为所述目标视频片段。

可选的，所述视频片段筛选模块204，包括：

压缩子模块，用于按照预设格式对所述备选视频片段进行压缩；

第一获取子模块，用于将压缩后的所述备选视频片段作为预设视频识别模型的输入，获取所述预设视频识别模型输出的所述备选视频片段的所属类别；

第二确定子模块，用于在所述所属类别表征所述备选视频片段包含指定表演行为情况下，将所述备选视频片段确定为所述目标视频片段；其中，所述预设视频识别模型是以按照所述预设格式压缩后的样本视频片段以及所述样本视频片段的样本标签作为训练数据训练得到的，所述样本标签用于表征所述样本视频片段中包含的指定表演行为。

可选的，所述装置20还包括：

标签添加模块，用于在从所述备选视频片段中筛选目标视频片段之后，根据所述目标视频片段中包含的指定表演行为，为所述目标视频片段添加类型标签；所述类型标签用于表征所述目标视频片段中包含的指定表演行为的类型。

可选的，所述音频片段分析模块202，包括：

分割子模块，用于将所述音频数据按照预设时长分割为多个音频数据段，并从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段；

合并子模块，用于对于任一所述备选音频段，在所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐的情况下，将所述备选音频段与所述相邻的备选音频段合并，得到一个所述目标音频段；

第三确定子模块，用于在所述备选音频段中包含的音乐与所述相邻的备选音频段中包含的音乐不属于同一音乐的情况下，将所述备选音频段确定为一个所述目标音频段。

可选的，所述视频提取模块203，包括：

第二获取子模块，用于对于任一所述音频数据段，将所述音频数据段作为预设音频识别模型的输入，并获取所述预设音频识别模型输出的音频识别结果；

第四确定子模块，用于在所述音频识别结果表征所述音频数据段中包含的音乐的情况下，将所述音频数据段确定为所述备选音频段；其中，所述预设音频识别模型是以包含音乐的样本音频段作为正训练样本，以未包含音乐的样本音频段作为负训练样本训练得到的。

可选的，所述装置20还包括：

连续检测模块，用于对于任一所述备选音频段，检测所述备选音频段中音乐的结束部分与所述相邻的备选音频段中音乐的起始部分是否连续；

第五确定模块，用于在连续的情况下，确定所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐。

图3示出了本发明实施例提供的直播视频处理装置的应用示意图，如图3所示，直播视频处理装置的应用可以包括下述步骤：

将待处理直播视频流输入至提取音频模块中；提取音频模块得到对应的音频数据后，可以将其作为训练样本输入至初始的音乐识别模型中进行训练，当然，也可以从网络中获取音频数据对模型进行训练。

初始的音乐识别模型经过训练得到深度学习后的模型后，可以将该模型上传至音频片段分析模块中，并通过该模型得到目标音频段。视频提取模块通过目标音频段得到对应的备选视频片段后，可以将其作为训练样本输入至初始的视频分类模型中进行训练，当然，也可以从网络中获取视频数据对模型进行训练。初始的视频分类模型经过训练得到深度学习后的模型后，可以将该模型上传至视频片段筛选模块中，并通过该模型得到目标视频片段。

在得到目标视频片段之后，还可以基于目标视频片段的类别为各片段添加标签，并将带标签的目标视频片段输出，以使用户可以选择感兴趣的视频进行观看。

综上所述，本发明实施例中提供的直播视频处理装置，通过基于待处理直播视频，获取所述待处理直播视频对应的音频数据；从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段；从所述待处理直播视频中提取与所述目标音频段对应的视频片段，得到备选视频片段；所述备选视频片段中包含的音乐与所述目标音频段中包含的音乐相同；从所述备选视频片段中筛选目标视频片段，并将所述目标视频片段添加至所述待处理直播视频对应的直播间中；所述目标视频片段中所包含的音乐为进行表演时使用的音乐；响应于用户对所述目标视频片段的触发操作，为所述用户播放所述目标视频片段。这样，自动根据待处理直播视频的音频数据，从中提取到包含音乐的视频片段，基于包含音乐的视频片段筛选出的目标视频片段。由于目标视频片段中包含符进行表演时使用的音乐，因此，可以认为目标视频片段是待处理直播视频中较为精彩的片段。这样，通过向用户提供目标视频片段，使得用户可以直接根据目标视频片段回看到直播视频中较为精彩的部分，进而一定程度上可以提高直播视频回看效率，丰富了直播平台的功能。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

可选的，所述从所述备选视频片段中筛选目标视频片段，包括：

对于任一所述备选视频片段，对所述备选视频片段中的视频帧进行人物检测，得到人物检测结果；

在所述人物检测结果表征所述备选视频片段中存在人物的情况下，对所述备选视频片段中存在人物进行行为识别，得到行为识别结果；

在所述行为识别结果表征所述人物进行指定表演行为的情况下，将所述备选视频片段确定为所述目标视频片段。

按照预设格式对所述备选视频片段进行压缩；

将压缩后的所述备选视频片段作为预设视频识别模型的输入，获取所述预设视频识别模型输出的所述备选视频片段的所属类别；

在所述所属类别表征所述备选视频片段包含指定表演行为情况下，将所述备选视频片段确定为所述目标视频片段；

其中，所述预设视频识别模型是以按照所述预设格式压缩后的样本视频片段以及所述样本视频片段的样本标签作为训练数据训练得到的，所述样本标签用于表征所述样本视频片段中包含的指定表演行为。

可选的，所述从所述备选视频片段中筛选目标视频片段之后，还包括：

根据所述目标视频片段中包含的指定表演行为，为所述目标视频片段添加类型标签；所述类型标签用于表征所述目标视频片段中包含的指定表演行为的类型。

可选的，所述从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段，包括：

将所述音频数据按照预设时长分割为多个音频数据段，并从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段；

对于任一所述备选音频段，在所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐的情况下，将所述备选音频段与所述相邻的备选音频段合并，得到一个所述目标音频段；

在所述备选音频段中包含的音乐与所述相邻的备选音频段中包含的音乐不属于同一音乐的情况下，将所述备选音频段确定为一个所述目标音频段。

可选的，所述从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段，包括：

对于任一所述音频数据段，将所述音频数据段作为预设音频识别模型的输入，并获取所述预设音频识别模型输出的音频识别结果；

在所述音频识别结果表征所述音频数据段中包含的音乐的情况下，将所述音频数据段确定为所述备选音频段；

其中，所述预设音频识别模型是以包含音乐的样本音频段作为正训练样本，以未包含音乐的样本音频段作为负训练样本训练得到的。

可选的，还包括：

对于任一所述备选音频段，检测所述备选音频段中音乐的结束部分与所述相邻的备选音频段音乐的起始部分是否连续；

在连续的情况下，确定所述备选音频段中包含的音乐与相邻的备选音频段中包含的音乐属于同一音乐。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的直播视频处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的直播视频处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种直播视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述备选视频片段中筛选目标视频片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述备选视频片段中筛选目标视频片段，包括：

按照预设格式对所述备选视频片段进行压缩；

4.根据权利要求2或3所述的方法，其特征在于，所述从所述备选视频片段中筛选目标视频片段之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述从所述音频数据中提取包含音乐的音频数据段，以作为目标音频段，包括：

6.根据权利要求5所述的方法，其特征在于，所述从所述多个音频数据段中识别包含音乐的音频数据段，得到备选音频段，包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

对于任一所述备选音频段，检测所述备选音频段中音乐的结束部分与所述相邻的备选音频段中音乐的起始部分是否连续；

8.一种直播视频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。