CN114422814A

CN114422814A - 直播音视频处理方法、装置、服务器及可读存储介质

Info

Publication number: CN114422814A
Application number: CN202210041218.6A
Authority: CN
Inventors: 刘峰; 康世胤; 司季雨; 吴晓东; 吴创林; 卢佐卿; 林晓洁; 李倩鸣; 戴培贤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-29
Anticipated expiration: 2042-01-14
Also published as: CN114422814B

Abstract

本申请实施例提供的直播音视频处理方法、装置、服务器及计算机可读存储介质，涉及音视频处理技术领域。本实施例中，基于主播端选择的互动音乐的音频流获取与该音频流对应的互动节奏视频流，然后将音频流和互动节奏视频流发送给观众端，由观众端进行播放及显示，以便于观众参与到音乐节奏互动游戏中。本申请提供的方案可以根据主播端选择的互动音乐的音频流在线流式生成互动节奏视频流，音乐节奏互动游戏不再局限于提前制作好音乐节奏互动游戏的方式，如此可以使得主播端具有根据直播内容和直播氛围选择不同的互动音乐进行互动游戏的灵活性，提高音乐节奏类互动游戏在直播过程中的带入感，提升观众的用户体验以及直播的观众留存率。

Description

直播音视频处理方法、装置、服务器及可读存储介质

技术领域

本申请涉及音视频处理技术领域，具体而言，涉及一种直播音视频处理方法、装置、服务器及计算机可读存储介质。

背景技术

在互联网直播场景中，主播为了增加观众的留存率往往会和观众进行游戏互动，音乐节奏类互动游戏是目前大众比较喜欢的一类互动游戏。然而现有的音乐节奏类互动游戏一般是提前制作好的，无法满足流式的直播场景，主播无法根据直播内容和直播氛围选择不同的音乐进行互动，这极大的限制了音乐节奏类互动游戏在直播过程中的带入感，影响观众的用户体验。

发明内容

为了至少克服现有技术中的上述不足，本申请提供一种直播音视频处理方法、装置、服务器及计算机可读存储介质。

第一方面，本申请实施例提供一种直播音视频处理方法，应用于服务器，所述服务器通信连接主播端和观众端，所述方法包括：

接收所述主播端选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流，其中，所述互动节奏视频流包括互动界面的视频帧以及与位于所述互动界面中与所述互动音乐的音乐节奏对应的节奏互动点；

将所述音频流和所述互动节奏视频流发送给所述观众端，由所述观众端进行播放及显示。

在一种可能的实现方式中，所述接收所述主播端选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流的步骤，包括：

确定所述互动音乐是否为预设音乐数据库中的目标音乐，其中，所述预设音乐数据库中存储有所述目标音乐的互动节奏视频；

若所述互动音乐为所述预设音乐数据库中的目标音乐，获取所述互动音乐的音频流对应的互动节奏视频流；若所述互动音乐不是所述预设音乐数据库中的目标音乐，则基于所述互动音乐的音频流实时生成所述互动音乐对应的互动节奏视频流。

在一种可能的实现方式中，在所述接收所述主播端选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流的步骤之前，所述方法还包括：

对所述预设音乐数据库中的目标音乐进行音频频谱分析得到各个目标音乐的频谱分析结果；

将所述各个目标音乐的频谱分析结果输入节奏互动点确定模型中，得到所述各个目标音乐的互动节奏视频，其中，所述节奏互动点确定模型基于样本频谱分析结果以及样本互动节奏视频训练得到，所述样本频谱分析结果中标注有音乐的音乐节奏位置，所述样本互动节奏视频流中标注有与所述音乐的音乐节奏位置对应的节奏互动点；

将所述各个目标音乐的互动节奏视频存储到所述预设音乐数据库中。

在一种可能的实现方式中，所述确定所述互动音乐是否为预设音乐数据库中的目标音乐的步骤，包括：

对所述预设音乐数据库中各个目标音乐进行音频指纹特征提取，得到各所述目标音乐的音频指纹特征；

基于所述互动音乐的音频流，对所述互动音乐进行音频指纹特征提取，得到所述音频流对应的音频指纹特征；

将所述音频流对应的音频指纹特征与所述预设音乐数据库中各所述目标音乐的音频指纹特征进行匹配，得到匹配结果；

根据所述匹配结果确定所述互动音乐是否为所述预设音乐数据库中的目标音乐。

在一种可能的实现方式中，所述若所述互动音乐为所述预设音乐数据库中的目标音乐，获取所述互动音乐的音频流对应的互动节奏视频流；若所述互动音乐不是所述预设音乐数据库中的目标音乐，则基于所述互动音乐的音频流实时生成所述互动音乐对应的互动节奏视频流的步骤，包括：

在所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将匹配的目标音乐的互动节奏视频中与作为所述互动音乐的音频流对应的视频流作为所述互动节奏视频流；

在所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库中各所述目标音乐的音频指纹特征都不匹配时，将预设时间长度的音频流输入节奏互动点预测模型中进行预测，得到与所述预设时间长度的音频流对应的互动节奏视频流，其中，所述节奏互动点预测模型通过预设时间长度的音频流样本以及对应的互动节奏视频流样本训练得到，所述预设时间长度的音频流样本标注有音乐的音乐节奏位置，所述互动节奏视频流样本中标注有与所述预设时间长度的音频流的音乐节奏位置对应的节奏互动点。

在一种可能的实现方式中，在所述获取所述互动音乐的音频流所对应的互动节奏视频流的步骤之后，所述方法还包括：

在所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将所述音频流与所述互动节奏视频中的互动节奏视频流进行对齐处理，得到对齐后的音视频流；

所述将所述音频流和所述互动节奏视频流发送给所述观众端，由所述观众端进行播放及显示的步骤，包括：

将对齐后的音视频流发送给所述观众端，由所述观众端进行播放及显示。

在一种可能的实现方式中，所述在所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将所述音频流与所述互动节奏视频流进行对齐处理，得到对齐后的音视频流的步骤，包括：

将所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库的目标音乐的音频指纹特征进行匹配，确定所述互动音乐的音频流与所述预设音乐数据库中与该互动音乐匹配的目标音乐之间的时间相对关系；

基于所述时间相对关系，将所述互动音乐的音频流和所述预设音乐数据库中与该互动音乐匹配的目标音乐的互动节奏视频中的互动节奏视频流进行对齐，得到对齐后的音视频流。

第二方面，本申请实施例还提供直播音视频处理装置，应用于服务器，所述服务器通信连接主播端和观众端，所述装置包括：

获取模块，用于接收所述主播端选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流，其中，所述互动节奏视频流包括互动界面的视频帧以及与位于所述互动界面中与所述互动音乐的音乐节奏对应的节奏互动点；

发送模块，用于将所述音频流和所述互动节奏视频流发送给所述观众端，由所述观众端进行播放及显示。

第三方面，本申请实施例还提供一种服务器，所述服务器包括处理器、通信单元及计算机可读存储介质，所述处理器、所述通信单元及所述计算机可读存储介质之间通过总线系统连接，所述通信单元用于连接客户端以实现所述服务器与所述客户端之间的数据交互，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现第一方面中任意一个可能的实现方式中的直播音视频处理方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其被执行时，使得服务器执行上述第一方面或者第一方面中任意一个可能的实现方式中的直播音视频处理方法。

基于上述任意一个方面，本申请实施例提供的直播音视频处理方法、装置、服务器及计算机可读存储介质，可基于主播端选择的互动音乐的音频流获取与该音频流对应的互动节奏视频流，其中，互动节奏视频流中包括互动界面的视频帧以及位于互动界面中与互动音乐的音乐节奏对应的节奏互动点。然后，将音频流和互动节奏视频流发送给观众端，由观众端进行播放及显示，以便于观众参与到音乐节奏互动游戏中。相对于现有技术，本申请提供的方案可以根据主播端选择的互动音乐的音频流在线流式生成互动节奏视频流，音乐节奏互动游戏不再局限于提前制作好音乐节奏互动游戏的方式，如此可以使得主播端具有根据直播内容和直播氛围选择不同的互动音乐进行互动游戏的灵活性，提高音乐节奏类互动游戏在直播过程中的带入感，进而提升观众的用户体验以及直播的观众留存率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要调用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的直播音视频处理系统的交互场景示意图；

图2为本申请实施例提供的直播音视频处理方法的一种流程示意图；

图3为本申请实施例提供的直播音视频处理方法的部分流程示意图；

图4为图2中步骤S21的子步骤流程示意图；

图5为图4中步骤S211的子步骤流程示意图；

图6为本申请实施例提供的直播音视频处理装置的功能模块示意图之一；

图7为本申请实施例提供的直播音视频处理装置的功能模块示意图之二；

图8为本申请实施例提供的服务器的可能结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其它操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参照图1，图1示出了本申请实施例提供的一种直播音视频处理系统10的交互场景示意图。本实施例中，直播音视频处理系统10可以是用于诸如网络直播场景的直播平台。直播音视频处理系统10可以包括通信连接的服务器100、直播端200及观众端300，服务器100可以为直播端200和观众端300提供音视频处理支持，如由服务器100进行直播过程中互动游戏的音视频处理。

在本申请实施例中，直播端200和观众端300可以是，但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。在具体实施过程中，可能有多个直播端200和观众端300接入该服务器100，图1中仅示出一个直播端200和两个观众端300。其中，直播端200和观众端300中可以安装直播类的服务程序，例如，服务程序可以是计算机或智能手机中使用的与互联网直播相关的应用程序APP或小程序等。

在本申请实施例中，服务器100可以是单个物理服务器，也可以是一个由多个用于执行不同数据处理功能的物理服务器构成的服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器100可以是分布式系统)。在一些可能的实施方式中，如服务器100采用单个物理服务器，可以基于不同业务功能为该物理服务器分配不同的逻辑服务器组件。

可以理解，图1所示的直播音视频处理系统10仅为一种可行的示例，在其它可行的实施例中，该直播音视频处理系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

下面结合图1所示的应用场景对本申请实施例提供的直播音视频处理方法进行示例性说明。请参阅图2，是本申请实施例提供的直播音视频处理方法的流程示意图。本申请实施例提供的直播音视频处理方法可以由前述的服务器100执行，在其它实施例中，本申请实施例的直播音视频处理方法中的部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除，该服务器100执行的直播音视频处理方法的详细步骤介绍如下。

步骤S21，接收主播端200选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流。

在本实施例中，主播可以通过主播端200启动音乐节奏类互动游戏，并进行互动歌曲选择。示例性地，主播可以选择预设音乐数据库中的目标音乐作为互动音乐，也可以自主选择其他音乐作为互动音乐。在主播选择预设音乐数据库中的目标音乐作为互动音乐时，主播可以通过主播端200的界面从预设音乐数据库的音乐列表中选择互动音乐，也可以通过输入互动音乐的名称的方式从预设音乐数据库中选择互动音乐。在主播自主选择其他音乐作为互动音乐时，主播可以通过输入互动音乐的名称的方式在网络中搜索互动音乐，还可以通过主播哼歌的方式从网络中匹配到与之对应的音乐作为互动音乐。当然可以理解地是，互动音乐的选择方式还可以是其他方式，本申请实施例不对其进行限定。

服务器100在接收到主播端200选择的互动音乐后，根据互动音乐播放时的音频流获取与该音频流对应的互动节奏视频流，其中，互动节奏视频流可以包括互动界面的视频帧以及与位于互动界面中与互动音乐的音乐节奏对应的节奏互动点。节奏互动点可以代表和观众的一次交互(比如触控操作)。示例性地，节奏互动点可以包括单个的单击、双击、三击以及滑动操作等，节奏互动点可以包括单击、双击、三击以及滑动操作等的组合。节奏互动点可以位于音频流中音的长短变化的位置，也可以位于音的强弱变化的位置，节奏互动点的具体位置可以根据音乐本身的韵律或播放音乐时的环境氛围进行灵活设置，在此不作具体限定。

步骤S22，将音频流和互动节奏视频流发送给观众端300，由观众端300进行播放及显示。

在本申请实施例中，服务器100将音频流以及音频流对应的互动节奏视频流发送给观众端300，由观众端300对互动节奏视频流进行显示并对音频流进行播放。示例性地，观众端300在播放互动音乐的同时会在显示界面上显示一交互界面，随着互动音乐的播放可以在交互界面的不同位置处显示节奏互动点，以便观众通过在交互界面上的操作加入到音乐节奏互动游戏中。进一步地，观众端300可以根据观众执行节奏互动点的及时率和准确性对观众进行音乐节奏互动游戏进行打分，并基于参与音乐节奏互动游戏的用户得分进行排名。

本申请实施例提供的上述方案，可以根据主播端200选择的互动音乐的音频流在线流式生成互动节奏视频流，音乐节奏互动游戏不再局限于提前制作好音乐节奏互动游戏的方式，如此可以使得主播端200具有根据直播内容和直播氛围选择不同的互动音乐进行互动游戏的灵活性，提高音乐节奏类互动游戏在直播过程中的带入感，进而提升观众的用户体验以及直播的观众留存率。

进一步地，请参照图3，在步骤S21之前，本申请实施例提供的直播音视频处理方法还包括以下的步骤S201-S203。

步骤S201，对预设音乐数据库中的目标音乐进行音频频谱分析得到各个目标音乐的频谱分析结果。

在该步骤中，可以采用音频信号处理算法对预设音乐数据库中的目标音乐进行音频频谱分析，得到每个目标音乐的频谱分析结果。

步骤S202，将各个目标音乐的频谱分析结果输入节奏互动点确定模型中，得到各个目标音乐的互动节奏视频。

在本申请实施例中，节奏互动点确定模型可以基于样本频谱分析结果以及样本互动节奏视频训练得到，样本频谱分析结果中标注有音乐的音乐节奏位置，样本互动节奏视频流中标注有与音乐的音乐节奏位置对应的节奏互动点，其中，音乐节奏位置是需要观众互动的音乐播放位置。通过采用样本频谱分析结果以及样本互动节奏视频训练神经网络模型的方式，使神经网络模型学习音乐的音乐节奏位置与节奏互动点之间的关联关系，最终得到可以基于频谱分析结果预测得到节奏互动点的节奏互动点确定模型，其中节奏互动点在互动界面中的位置可以随机生成，也可以按照设定的规则在互动界面中生成。

步骤S203，将各个目标音乐的互动节奏视频存储到预设音乐数据库中。

进一步地，请参照图4，在本申请实施例中，步骤S21可以通过以下方式实现。

子步骤S211，确定互动音乐是否为预设音乐数据库中的目标音乐。

其中，预设音乐数据库可以存储在服务器100中，预设音乐数据库可以是直播平台自带的音乐数据库，预设音乐数据库中存储有目标音乐的互动节奏视频。示例性地，可以在预设音乐数据库中存储目标音乐、与目标音乐对应的互动节奏视频以及两者之间的映射关系，其中，存储的目标音乐可以包括音乐的音频频谱以及名称等。服务器100在接收到主播端选择的互动音乐后，可以基于互动音乐的名称或互动音乐在主播端200播放的一段音频流确定其是否为预设音乐数据库中的目标音乐。

再进一步地，请参照图5，在本申请实施例中，子步骤S211可以通过以下方式实现。

子步骤S2111，对预设音乐数据库中各个目标音乐进行音频指纹特征提取，得到各目标音乐的音频指纹特征。

在该步骤中，可以先通过快速傅里叶变换(Fast Fourier Transform，FFT)对各个目标音乐进行频谱分析，得到各个目标音乐的频谱分析结果，然后根据各个目标音乐的频谱分析结果提取对应目标音乐的音频指纹特征，示例性地，可以将频谱分析结果划分为预设的多个频谱子带，并由每个频谱子带中频谱振幅最大值对应的位置所组成的向量作为音频指纹特征。

子步骤S2112，基于互动音乐的音频流，对互动音乐进行音频指纹特征提取，得到音频流对应的音频指纹特征。

同理在子步骤S2112中，可以采用与子步骤S2111相同或相类似的方式，提取互动音乐的音频流对应的音频指纹特征，此处不再赘述。

子步骤S2113，将音频流对应的音频指纹特征与预设音乐数据库中各目标音乐的音频指纹特征进行匹配，得到匹配结果。

子步骤S2114，根据匹配结果确定互动音乐是否为预设音乐数据库中的目标音乐。

作为一种示例，本实施例中，可以在音频流对应的音频指纹特征与预设音乐数据库中的任意一目标音乐的音频指纹特征匹配时，确定互动音乐为预设音乐数据库中的目标音乐；在音频流对应的音频指纹特征与预设音乐数据库中的所有目标音乐的音频指纹特征均不匹配时，确定互动音乐不为预设音乐数据库中的目标音乐。

在本申请实施例中，在确定互动音乐为预设音乐数据库中的目标音乐时进入子步骤S212，在确定互动音乐不为预设音乐数据库中的目标音乐时进入子步骤S213。

子步骤S212，获取互动音乐的音频流对应的互动节奏视频流。

例如，可以将与互动音乐匹配的目标音乐的互动节奏视频中与所述互动音乐的音频流对应的视频流作为互动节奏视频流。

子步骤S213，基于互动音乐的音频流实时生成互动音乐对应的互动节奏视频流。

在该步骤中，可以将预设时间长度(比如，100ms)的音频流输入节奏互动点预测模型中进行预测，得到与预设时间长度的音频流对应的互动节奏视频流。

节奏互动点预测模型可以通过预设时间长度的音频流样本以及对应的互动节奏视频流样本训练得到。其中，预设时间长度的音频流样本标注有音乐的音乐节奏位置，互动节奏视频流样本中标注有与预设时间长度的音频流的音乐节奏位置对应的节奏互动点。通过采用预设时间长度的音频流样本以及互动节奏视频流样本训练模型的方式，使模型学习音频流的音乐节奏位置与节奏互动点之间的关联关系，最终得到可以基于预设时间长度的音频流预测得到互动节奏视频流的节奏互动点预测模型。

此外，为了避免直播过程中因丢帧等原因导致的互动音乐与互动节奏视频不匹配的问题，进一步地，在步骤S21之后，本申请实施例提供的直播音视频处理方法还可以包括：

在互动音乐的音频流对应的音频指纹特征与预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将音频流与互动节奏视频中的互动节奏视频流进行对齐处理，得到对齐后的音视频流。

并在步骤S21中，将对齐后的音视频流发送给观众端，由观众端进行播放及显示。

如此设计，可以避免互动音乐与互动节奏视频错位的问题，提升互动音乐与互动节奏视频的匹配度，增加音乐节奏互动游戏的带入感和用户体验。

进一步地，在本申请实施例中，将音频流与互动节奏视频中的互动节奏视频流进行对齐处理，得到对齐后的音视频流的步骤可以通过以下方式实现。

首先，将互动音乐的音频流对应的音频指纹特征与预设音乐数据库的目标音乐的音频指纹特征进行匹配，确定互动音乐的音频流与预设音乐数据库中与该互动音乐匹配的目标音乐之间的时间相对关系。

详细地，可以确定互动音乐的音频流与目标音乐之间的时间相对关系，例如，互动音乐的音频流在对应目标音乐中出现的时间位置，如互动音乐的音频流为对应目标音乐中的第200毫秒到第300毫秒的音频流。

然后，基于时间相对关系，将互动音乐的音频流和预设音乐数据库中与该互动音乐匹配的目标音乐的互动节奏视频中的互动节奏视频流进行对齐，得到对齐后的音视频流。

基于确定的时间相对关系得到对应的互动节奏视频流，如互动音乐的音频流为对应目标音乐中的第200毫秒到第300毫秒的音频流时，将对应目标音乐的互动节奏视频中的第200毫秒到第300毫秒的视频流作为与音频流对应的互动节奏视频流。

进一步地，请参照图6，图6为本申请实施例提供的直播音视频处理装置600的一种功能模块示意图，本申请实施例可以根据服务器执行的方法实施例对直播音视频处理装置600进行功能模块的划分，也即该直播音视频处理装置600所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中，该基于直播音视频处理装置600可以包括获取模块620及发送模块640，下面分别对该直播音视频处理装置600的各个功能模块的功能进行详细阐述。

获取模块620，用于接收主播端200选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流。

在本实施例中，主播可以通过主播端200启动音乐节奏类互动游戏，并进行互动歌曲选择。示例性地，主播可以选择预设音乐数据库中的目标音乐作为互动音乐，也可以自主选择其他音乐作为互动音乐。在主播选择预设音乐数据库中的目标音乐作为互动音乐时，主播可以通过主播端200的界面从预设音乐数据库的音乐列表中选择互动音乐，也可以通过输入互动音乐的名称的方式从预设音乐数据库中选择互动音乐；在主播自主选择其他音乐作为互动音乐时，主播可以通过输入互动音乐的名称的方式在网络中搜索互动音乐，还可以通过主播哼歌的方式从网络中匹配到与之对应的音乐作为互动音乐。当然可以理解地是，互动音乐的选择方式还可以是其他方式，本申请实施例不对其进行限定。

获取模块620在接收到主播端200选择的互动音乐后，根据互动音乐播放时的音频流获取与该音频流对应的互动节奏视频流，其中，互动节奏视频流可以包括互动界面的视频帧以及与位于互动界面中与互动音乐的音乐节奏对应的节奏互动点。节奏互动点代表和观众的一次交互(比如触控操作)，示例性地，节奏互动点可以包括单个的单击、双击、三击以及滑动操作等，节奏互动点可以包括单击、双击、三击以及滑动操作等的组合。节奏互动点可以位于音频流中音的长短变化的位置，也可以位于音的强弱变化的位置，节奏互动点的具体位置可以根据音乐本身的韵律或播放音乐时的环境氛围进行灵活设置，在此不作具体限定。

本实施例中，获取模块620可以用于执行上述的步骤S21，关于获取模块620的详细实现方式可以参照上述针对步骤S21的详细描述。

发送模块640，用于将音频流和互动节奏视频流发送给观众端300，由观众端300进行播放及显示。

在本申请实施例中，发送模块640将音频流以及音频流对应的互动节奏视频流发送给观众端300，由观众端300对互动节奏视频流进行显示并对音频流进行播放。示例性地，观众端300在播放互动音乐的同时会在显示界面上显示一交互界面，随着互动音乐的播放可以在交互界面的不同位置处显示节奏互动点，以便观众通过在交互界面上的操作加入到音乐节奏互动游戏中。进一步地，观众端300可以根据观众执行节奏互动点的及时率和准确性对观众进行音乐节奏互动游戏进行打分，并基于参与音乐节奏互动游戏的用户得分进行排名。

本实施例中发送模块640可以用于执行上述的步骤S22，关于发送模块640的详细实现方式可以参照上述针对步骤S22的详细描述。

请参照图7，本申请实施例提供的直播视频处理装置600还包括预处理模块610。预处理模块610用于将目标音乐的互动节奏视频存储到预设音乐数据库中，预处理模块610具体可以通过以下方式实现。

首先，对预设音乐数据库中的目标音乐进行音频频谱分析得到各个目标音乐的频谱分析结果。

在本申请实施例中，可以采用音频信号处理算法对预设音乐数据库中的目标音乐进行音频频谱分析，得到每个目标音乐的频谱分析结果。

接着，将各个目标音乐的频谱分析结果输入节奏互动点确定模型中，得到各个目标音乐的互动节奏视频。

在本申请实施例中，节奏互动点确定模型基于样本频谱分析结果以及样本互动节奏视频训练得到，样本频谱分析结果中标注有音乐的音乐节奏位置，样本互动节奏视频流中标注有与音乐的音乐节奏位置对应的节奏互动点。通过采用样本频谱分析结果以及样本互动节奏视频训练神经网络模型的方式，使神经网络模型学习音乐的音乐节奏位置与节奏互动点之间的关联关系，最终得到可以基于频谱分析结果预测得到节奏互动点的节奏互动点确定模型。

然后，将各个目标音乐的互动节奏视频存储到预设音乐数据库中。

进一步地，请再次参照图7，本申请实施例提供的直播视频处理装置600还包括对齐模块630。对齐模块630用于在互动音乐的音频流对应的音频指纹特征与预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将音频流与互动节奏视频中的互动节奏视频流进行对齐处理，得到对齐后的音视频流。

在本申请实施例中，对齐模块630具体可以通过以下方式实现。

然后，基于时间相对关系，将互动音乐的音频流和预设音乐数据库中与该互动音乐匹配的目标音乐的互动节奏视频中的视频流进行对齐，得到对齐后的音视频流。

基于确定的时间相对关系得到对应的视频流，如互动音乐的音频流为对应目标音乐中的第200毫秒到第300毫秒的音频流时，将对应目标音乐的互动节奏视频中的第200毫秒到第300毫秒的视频流作为与音频流对应的互动节奏视频流。

需要说明的是，应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以在物理上分开。且这些模块可以全部以软件(比如，开源软件)可以通过处理器调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理器调用软件的形式实现，部分模块通过硬件的形式实现。作为一种示例，获取模块620可以由单独处理器运行实现，可以以程序代码的形式存储于上述装置或系统的存储器中，由上述装置或系统的某一个处理器调用并执行以上获取模块620的功能，其它模块的实现与之类似，在此就不再赘述。此外这些模块可以全部或部分集成在一起，也可以独立实现。这里所描述的处理器可以是一种具有信号的处理能力的集成电路，在实现过程中，上述技术方案中的各步骤或各个模块可以通过处理器中的集成逻辑电路或者执行软件程序的形式完成。

请参照图8，图8示出了本公开实施例提供的用于实现上述的直播音视频处理方法的服务器100的硬件结构示意图。如图8所示，服务器100可包括处理器110、计算机可读存储介质120、总线130及通信单元140。

在具体实现过程中，处理器110执行计算机可读存储介质120存储的计算机执行指令(例如图6或图7中所示的直播音视频处理装置600中的各个模块)，使得处理器110可以执行如上方法实施例的视频编码参数组合确定方法，其中，处理器110、计算机可读存储介质120以及通信单元140可以通过总线130连接。

处理器110的具体实现过程可参见上述服务器100执行的各个方法实施例，其实现原理和技术效果类似，本申请实施例此处不再赘述。

计算机可读存储介质120可以是，但不限于，随机存取存储器(RandomAccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-OnlyMemory，EEPROM)等。其中，存储器111用于存储程序或者数据。

总线130可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

通信单元140用于与主播端200和观众端300通信，以实现服务器100与客主播端200和观众端300之间的数据交互。

此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的直播音视频处理方法。

综上所述，本申请实施例提供的直播音视频处理方法、装置、服务器及计算机可读存储介质，可基于主播端选择的互动音乐的音频流获取与该音频流对应的互动节奏视频流，其中，互动节奏视频流中包括互动界面的视频帧以及位于互动界面中与互动音乐的音乐节奏对应的节奏互动点。然后，将音频流和互动节奏视频流发送给观众端，由观众端进行播放及显示，以便于观众参与到音乐节奏互动游戏中。相对于现有技术，本申请提供的方案可以根据主播端选择的互动音乐的音频流在线流式生成互动节奏视频流，音乐节奏互动游戏不再局限于提前制作好音乐节奏互动游戏的方式，如此可以使得主播端具有根据直播内容和直播氛围选择不同的互动音乐进行互动游戏的灵活性，提高音乐节奏类互动游戏在直播过程中的带入感，进而提升观众的用户体验以及直播的观众留存率。

以上所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围，而仅仅是表示本申请的选定实施例。基于此，本申请的保护范围应以权利要求的保护范围为准。此外，基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例，都应属于本申请保护的范围。

Claims

1.一种直播音视频处理方法，其特征在于，应用于服务器，所述服务器通信连接主播端和观众端，所述方法包括：

2.如权利要求1所述的直播音视频处理方法，其特征在于，所述接收所述主播端选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流的步骤，包括：

3.如权利要求2所述的直播音视频处理方法，其特征在于，在所述接收所述主播端选择的互动音乐，获取所述互动音乐的音频流所对应的互动节奏视频流的步骤之前，所述方法还包括：

4.如权利要求3所述的直播音视频处理方法，其特征在于，所述确定所述互动音乐是否为预设音乐数据库中的目标音乐的步骤，包括：

5.如权利要求4所述的直播音视频处理方法，其特征在于，所述若所述互动音乐为所述预设音乐数据库中的目标音乐，获取所述互动音乐的音频流对应的互动节奏视频流；若所述互动音乐不是所述预设音乐数据库中的目标音乐，则基于所述互动音乐的音频流实时生成所述互动音乐对应的互动节奏视频流的步骤，包括：

在所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将匹配的目标音乐的互动节奏视频中与所述互动音乐的音频流对应的视频流作为所述互动节奏视频流；

6.如权利要求4或5所述的直播音视频处理方法，其特征在于，在所述获取所述互动音乐的音频流所对应的互动节奏视频流的步骤之后，所述方法还包括：

7.如权利要求6所述的直播音视频处理方法，其特征在于，所述在所述互动音乐的音频流对应的音频指纹特征与所述预设音乐数据库中的任意目标音乐的音频指纹特征匹配时，将所述音频流与所述互动节奏视频流进行对齐处理，得到对齐后的音视频流的步骤，包括：

8.一种直播音视频处理装置，其特征在于，应用于服务器，所述服务器通信连接主播端和观众端，所述装置包括：

9.一种服务器，其特征在于，所述服务器包括处理器、通信单元及计算机可读存储介质，所述处理器、所述通信单元及所述计算机可读存储介质之间通过总线系统连接，所述通信单元用于连接直播端和观众端以实现所述服务器与所述直播端和所述观众端的数据交互，所述计算机可读存储介质用于存储程序、指令或代码，所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码，以实现权利要求1-7中任意一项所述的直播音视频处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令被执行时，使得服务器执行权利要求1-7中任意一项所述的直播音视频处理方法。