CN111008287B

CN111008287B - 音视频处理方法、装置、服务器及存储介质

Info

Publication number: CN111008287B
Application number: CN201911320852.8A
Authority: CN
Inventors: 郭子亮
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-08-04
Anticipated expiration: 2039-12-19
Also published as: CN111008287A

Abstract

本申请公开了一种音视频处理方法、装置、服务器及存储介质，涉及数据管理技术领域。其中，该方法包括：获取电子设备正在播放的视频中当前播放内容对应的视频标签；获取所述视频标签对应的音频标签；从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。该方案提高了音频和视频播放内容的契合度。

Description

音视频处理方法、装置、服务器及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种音视频处理方法、装置、服务器及存储介质。

背景技术

在视频中，通常具有配乐。但是，有时候播放的视频内容和配乐的契合度不高，不能很好地表达视频的实际氛围。

发明内容

鉴于上述问题，本申请提出了一种音视频处理方法、装置、服务器及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种音视频处理方法，所述方法包括：获取电子设备正在播放的视频中当前播放内容对应的视频标签；获取所述视频标签对应的音频标签；从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。

第二方面，本申请实施例提供了一种音视频处理装置，所述装置包括：第一标签获取模块，用于获取电子设备正在播放的视频中当前播放内容对应的视频标签；第二标签获取模块，用于获取所述视频标签对应的音频标签；音频选取模块，用于从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。

第三方面，本申请实施例提供了一种服务器，包括：一个或多个处理器；存储器；一个或多个程序。其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述的方法。

本申请实施例提供的音视频处理方法、装置、服务器及存储介质，将视频标签化处理，并且将音频标签化处理。可以获取电子设备中正在播放的视频中当前播放内容所对应的视频标签，并获取视频标签对应的音频标签。从音频标签对应的音频中选取音频，作为与当前播放内容对应的音频数据，从而实现根据播放的视频内容选取音频对视频进行配乐，提高了音频和视频播放内容的契合度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的音视频处理方法的流程图。

图2示出了本申请另一实施例提供的音视频处理方法的流程图。

图3示出了本申请一实施例提供的数据传输示意图。

图4示出了本申请一实施例提供的视频的矩阵向量示意图。

图5示出了本申请一实施例提供的音频标签和视频标签的对应示意图。

图6示出了本申请又一实施例提供的音视频处理方法的流程图。

图7示出了本申请实施例提供的音视频处理装置的功能模块图。

图8示出了本申请实施例提供的服务器的结构框图。

图9是本申请实施例的用于保存或者携带实现根据本申请实施例的音视频处理方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在视频播放时，通常需要对应视频播放音频，作为视频的配乐，提升视频的播放效果以及用户的观看体验。通常的，对视频的配乐可以是由相关工作人员手动选取配置。或者，对视频做粗粒度的匹配，将一个视频匹配一类音乐，如一场足球比赛的视频，有沉闷的时候，也有激情的时候，但是粗粒度的匹配方式通常是给该视频配上一个大致是足球比赛的经典音频等，使用户在观看该视频期间，因该音频一直处于亢奋的情绪中，和视频的内容可能不匹配，用户体验不好。

发明人提出了本申请实施例提供的音视频处理方法，在该方法中，获取正在播放视频的当前播放内容，并且获取该当前播放内容对应的视频标签。再获取该视频标签对应的音频标签，并从音频标签对应的音频中选取音频，用于对应视频进行播放，提升了播放音频和视频之间的契合度。

下面将通过具体实施例对本申请实施例提供的音视频处理方法、装置、服务器及存储介质进行详细说明。请参阅图1，示出了本申请实施例提供的音视频处理方法。该方法可以应用于服务器，具体的，该方法包括：

步骤S110：获取电子设备正在播放的视频中当前播放内容对应的视频标签。

电子设备可以对视频进行播放，服务器可以获取到电子设备当前播放的内容对应的视频标签。

步骤S120：获取所述视频标签对应的音频标签。

视频标签和音频标签可以具有对应关系，服务器在获取到当前播放内容对应的视频标签的情况下，可以获取该视频标签对应的音频标签，该音频标签即为当前播放内容对应的音频标签。

步骤S130：从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。

每个音频标签可以对应有一个或多个音频。在获取到当前播放内容对应的音频标签后，可以获取到该音频标签对应的音频，定义该音频为目标音频。该目标音频用于对应当前播放内容进行播放。

当服务器选取到目标音频后，作为与当前播放内容对应的音频数据发送给电子设备，用于电子设备对应当前播放内容进行播放。

在本申请实施例中，主要以服务器为例进行说明。当然，本申请并不限定由服务器进行执行，也可以由电子设备进行执行。若电子设备执行本申请实施例的音视频处理方法，在选取到目标音频的情况下，可以将该目标音频对应当前播放内容进行播放。

或者，在本申请实施例中，可以由服务器和电子设备配合执行。例如，电子设备获取视频标签以及视频标签对应的音频标签，可以将音频标签发送给服务器用于服务器选取目标音频。服务器再将选取的目标音频发送给电子设备，作为与当前播放内容对应的音频数据进行播放。

在本申请实施例中，将视频以及音频标签化。根据当前播放内容对应的视频标签可以获取到当前播放内容对应的音频标签，根据音频标签与音频的对应关系可以获取当前播放内容对应的音频，将获取到的音频作为当前播放内容对应的音频数据，用于对应当前播放内容进行播放，提升了播放的音频和视频的契合度。

在本申请实施例中，可以具体包括音频标签和视频标签的获取方式。请参见图2，本申请实施例提供的音视频处理方法可以包括：

步骤S210：获取电子设备正在播放的视频中当前播放内容所属的视频段，作为目标视频段。

步骤S220：获取所述目标视频段对应的视频标签为所述当前播放内容对应的视频标签，不同的视频标签表示所述视频段的不同风格特征。

服务器可以通过获取电子设备当前播放内容所属的视频段，并根据视频段与视频标签的对应关系，获取电子设备正在播放的视频中当前播放内容对应的视频标签。

其中，电子设备可以对视频进行播放。在电子设备播放视频时，服务器可以获取到正在播放的视频的播放进度，从而获取到当前播放的内容。

在本申请实施例中，服务器获取电子设备对视频的播放进度的方式可以是，在播放视频的视频应用程序中，可以设置埋点监听，用于监听播放视频的事件属性(如启动视频、视频持续播放时长、视频资源大小、视频资源时长、视频资源内容等)，其中，可以在视频资源位设置埋点监听。当通过视频应用程序进行视频播放时，可以将监听到的数据发送到服务器。例如图3所示，电子设备可以调取SDK接口，将视频应用程序中用户的操作行为及对应的事件属性实时存储到电子设备的本地数据库，将存储在本地数据库的数据同步拉取到服务器数据库，如通过goserver同步拉取，从而，服务器则可以实时获取到电子设备中视频的播放进度，即可以获取到电子设备中的播放进度数据，如视频播放了多长时间，播放到的时间点对应的视频内容。比如30分钟的视频，服务器可以实时获知电子设备中当前是播放到了第10分钟，还是播放到到了第20分钟，当前播放的内容是什么等，根据播放进度数据进行数据处理，获取目标音频。

在本申请实施例中，每个视频可以包括一个或多个视频段。服务器在获取到电子设备当前播放内容以后，可以获取该当前播放内容在视频中所属的视频段。例如，在一个30分钟的视频中，第开始至第十分钟是第一视频段，从第十一分钟到第二十分钟是第二视频段，从第二十一分钟到第三十分钟是第三视频段，则若当前播放内容是开始到第十分钟之间的内容，则可以确定当前播放内容所属的视频段为第一视频段，若当前播放内容第十一分钟到第二十分钟之间的内容，则可以确定当前播放内容所属的视频段为第二视频段，若当前播放内容第二十一分钟到第三十分钟之间的内容，则可以确定当前播放内容所属的视频段为第三视频段。为了便于描述，定义当前播放内容所属的视频段为目标视频段。

视频的每个视频段可以对应有视频标签，不同的视频标签表示对应的视频段的不同风格特征。其中，视频段的风格特征表示视频段的视频内容所表示的氛围，如浪漫宁静、市井民风、动感激情等。

在确定当前播放内容所述的目标视频段后，服务器可以将目标视频段对应的视频标签，作为当前播放内容对应的视频标签。例如，目标视频段对应的视频标签为浪漫宁静，则确定当前播放内容对应的视频标签为浪漫宁静。

在本申请实施例中，可以预先对视频进行分段以及确定各视频段对应的视频标签。

其中，可以在获取当前播放内容所属的视频段之前，将视频分为多个视频段，根据每一视频段的风格特征，确定每一视频段对应的视频标签。可以将视频的分段情况以及每个视频段对应的视频标签进行存储，从而在进行视频播放时，可以根据存储的数据确定当前播放内容所属的视频段以及对应的视频标签。

在一种实施方式中，可以按照预设的分段规则进行分段，如按照设置的视频段的时间长度进行分段，例如，设置每十分钟分为一个视频段，则一个25分钟的视频可以分为3个视频段，其中最后不满十分钟的视频内容分为一个视频段；如将按照设置的一个视频的视频段数量，对视频进行分段，例如，设置一个视频分为3段，则可以将视频平均分为3个视频段。

在该实施方式中，可以通过机器学习，构建深度学习模型，通过深度学习模型，根据每一视频段的风格特征，确定每一视频段对应的视频标签。

具体的，在每一视频段中，可以根据每一视频帧的风格特征，通过第一深度学习模型确定每一视频帧对应的标签向量。其中，第一深度学习模型可以是通过学习训练后构建的神经网络算法模型，可以根据视频帧的图像内容将视频帧分类为表示不同风格特征的标签向量，或者说，将视频帧转换为表示不同风格特征的标签向量。视频帧转换为对应的标签向量，实现使用机器学习实现对视频帧的格式隐义的转化，对于图像内容为不同风格特征的视频帧，可以转换为对应不同的标签向量，每个标签向量对应了相应的图像内容，每个标签向量对应的图像内容为不同风格特征的图像内容。

例如，视频可以通过数字图像处理技术转换为矩阵向量，如通过压缩编码技术将不同的视频帧转换为相应的矩阵向量，如图4所示，由数字0和1的不同排列表示，每个视频帧的矩阵向量表示了视频帧中的图像内容。再通过第一深度学习模型对视频帧的矩阵向量构建为标签向量，该标签向量也可以通过0和1的不同排列表示。如某视频帧转换为矩阵向量为1101010，通过第一深度学习模型，可能将该矩阵向量转换为标签向量1000000。

另外，可以存储有标签向量和视频标签的对应关系。获得视频段中各视频帧对应的标签向量，可以再根据各个标签向量对应的视频标签确定各个视频帧对应的视频标签，例如，视频帧A对应的标签向量为B，标签向量B对应的视频标签为C，则可以视频帧A对应的标签向量为C。根据视频段中各视频帧对应的标签向量，可以获得视频段对应的总的标签向量。再通过第二深度学习模型，从所述视频段对应的视频标签中选取所述视频段对应的视频标签。其中，该第二深度学习模型也可以是学习训练后构建的神经网络算法模型，通过分类聚类关联规则等算法，根据多个视频标签的共同特征，从视频段中视频帧对应的所有视频标签中选取视频段对应的视频标签，选取的视频标签可以是一个或多个，为视频段对应的所有标签中最能反映该视频段风格特征的视频标签，如权重最大或数量最多的视频标签。

可选的，在该实施方式中，也可以是将视频段分为多个子视频段，确定视频段对应的所有视频标签，再从视频段中各子视频段对应的所有视频标签生成对应视频段的视频标签。即在每一视频段中，可以根据每一子视频段的风格特征，通过第一深度学习模型确定每一子视频段对应的标签向量；根据各个标签向量对应的视频标签确定各个子视频段对应的视频标签；通过第二深度学习模型，从所述视频段中子视频段对应的视频标签选取所述视频段对应的视频标签。子视频段可以是一个视频帧，也可以是两个相邻的视频帧，或者其他数量的多个相邻视频帧。

在另一种实施方式中，可以通过第一深度学习模型，确定每一视频段对应的标签向量。其中，通过第一深度学习模型确定视频段对应的标签向量，可以参见前述实施例，即在该实施方式中，第一深度学习模型可以是通过学习训练后构建的算法模型，可以根据视频段的图像内容将视频段分类为相应的标签向量，或者说，将视频段转换为相应的标签向量。每个视频段对应的标签向量可以为对该视频段的内容进行转换而来，表示了相应视频段的图像内容，包括了视频段中的各种风格特征。

例如，视频可以通过数字图像处理技术转换为矩阵向量，如通过压缩编码技术将不同的视频段转换为相应的矩阵向量，由数字0和1的不同排列表示每个视频段的矩阵向量，每个视频帧的矩阵向量表示了视频帧中的图像内容。再通过第一深度学习模型对视频段的矩阵向量构建为标签向量，该标签向量也可以通过0和1的不同排列表示。如某视频帧转换为矩阵向量为1101010，通过第一深度学习模型，可能将该矩阵向量转换为标签向量1000000。

每个标签向量可以对应一个或多个视频标签。获得视频段对应的标签向量后，可以通过第二深度学习模型，从所述视频段的标签向量对应的一个或多个视频标签选取所述视频段对应的视频标签。通过第二深度学习模型选取视频段对应的视频标签可以参见前述实施例，在此不再赘述。在本该实施方式中，标签向量是根据相应的视频段转换而来，每个标签向量表示了相应视频段的图像内容，每个视频段可能包括的风格特征并不一定，可能对应的视频标签的数量并不一定，则标签向量对应的视频标签的数量并不限定，根据实际情况确定。例如，某些标签向量所表示的图像内容可能对应多种视频标签，某些标签向量所表示的图像内容可能对应一种视频标签。

可选的，在本申请实施例中，可以存储有标签向量和视频标签的对应关系。可以根据该对应关系确定视频段的标签向量对应的视频标签。

可选的，在本申请实施例中，可以预先训练有算法模型，该算法模型可以根据标签向量生成对应该标签向量的视频标签。在该实施方式中，可以根据该算法模型生成视频段的标签向量对应的一个或多个视频标签。

本申请还提供了一种实施方式，可以根据视频的风格特征进行视频段的划分。

具体的，在该实施方式中，可以根据每一视频帧的风格特征，通过第一深度学习模型确定每一视频帧对应的标签向量。参见前述实施方式，第一深度学习模型可以是通过学习训练后构建的算法模型，可以根据视频帧的图像内容将视频帧分类为表示不同风格特征的标签向量，或者说，将视频帧转换为表示不同风格特征的标签向量。同一标签向量可以对应相同的一个或多个视频标签。

对于对应相同标签向量的视频帧，对应的视频标签相同。因此，可以将连续的且对应相同标签向量的视频帧划分为同一视频段，确定每个视频段对应的标签向量为视频段中视频帧对应的标签向量。例如，在一个视频中，第1帧至第100帧对应的标签向量相同，都为B，可以将第1帧至第100帧的视频帧划分为同一视频段，且确定该视频段对应的标签向量为B。

在获得视频段对应的标签向量后，可以根据标签向量和视频标签的对应关系，确定每一视频段对应的视频标签。也就是说，视频段对应的标签向量所对应的视频标签，可以确定为该视频段对应的视频标签。其中，标签向量和视频标签的对应关系可以是预先存储，也可以是根据相应的算法模型确定，在此不做限定。

另外，在本申请实施例中，一个视频段可以包括多帧视频，也可以包括一帧视频。当一个视频段包括一帧视频时，确定视频段对应的视频标签可以参照前述实施方式中根据视频帧确定视频标签。

步骤S230：获取所述视频标签对应的音频标签。

在本申请实施例中，视频标签可以对应有音频标签。其中，不同音频标签表示音频的不同风格特征，体现了音频表示的情感氛围。也就是说，音频标签是对音频风格特征的具体表示，视频标签是对视频风格特征的具体表示。

其中，风格特征相似度大于预设相似度的音频和视频，其对应的音频标签和视频标签为相互对应。相互对应的音频标签和视频标签，分别对应风格上契合度较高的音频和视频，在共同播放时可以获得良好的播放体验。例如，“动感”音频标签可以对应“动感激情”视频标签，“喧嚣”音频标签可以对应“市井民风”视频标签，“幽静”音频标签可以对应“浪漫宁静”视频平标签，如图5所示。图5中第1段、第2段至第n段表示不同的视频段。

在确定视频段对应的视频标签后，可以根据视频标签和音频标签的对应关系，获取该视频段对应的视频标签所对应的音频标签，该音频标签可以作为对应该视频段的音频标签。例如图5所示，若视频标签为“浪漫宁静”，可以获取到对应的音频标签为“幽静”。

可选的，若视频段对应多个视频标签，可以获取该多个视频标签分别对应的音频标签，可能获得多个音频标签，作为该视频段对应的音频标签。

步骤S240：从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。

在本申请实施例中，可以预先设置有音频池，音频池中包括不同的音频。另外，还可以预先设置有各音频标签与音频之间的对应关系。其中，可以根据音频库中各音频的风格特征，确定各音频对应的音频标签，不同的音频标签表示音频的不同风格特征。音频标签和音频的对应关系的确定可以参照前述的视频段和视频标签的对应关系。

在一种实施方式中，可以通过第一音频学习模型，确定每一音频对应的标签向量。其中，第一音频学习模型可以是通过学习训练后构建的神经网络算法模型，可以根据音频中的声音数据将音频分类为相应的音频向量，或者说，将音频转换为相应的音频向量。每个音频对应的音频向量可以为对该音频的声音数据进行转换而来，表示了相应音频的声音数据的特征，包括了音频中的各种风格特征。

例如，视频可以通过音频处理技术转换为矩阵向量，如通过压缩编码技术将音频转换为相应的矩阵向量，其中，可以由数字0和1的不同排列表示每个音频的矩阵向量。每个音频的矩阵向量表示了音频中的声音数据。再通过第一音频学习模型将音频的矩阵向量构建为音频向量，该音频向量也可以通过0和1的不同排列表示。

每个音频向量可以对应一个或多个音频标签。获得音频对应的音频向量后，可以通过第二音频学习模型，从所述音频的音频向量对应的一个或多个音频标签选取该音频对应的音频标签。该第二音频学习模型也可以是学习训练后构建的神经网络算法模型，通过分类聚类关联规则等算法，根据多个音频标签的共同特征，从音频的音频向量对应的所有音频标签中选取音频对应的音频标签，选取的音频标签可以是一个或多个，为音频对应的所有音频标签中最能反映该音频风格特征的音频标签，如权重最大或数量最多的音频标签。

在本该实施方式中，音频向量是根据相应的音频转换而来，每个音频向量表示了相应音频的声音数据的特征，每个音频可能包括的风格特征并不一定，可能对应的音频标签的数量并不一定，则音频向量对应的音频标签的数量并不限定，根据实际情况确定。

可选的，在本申请实施例中，可以存储有音频向量和音频标签的对应关系。可以根据该对应关系确定音频的音频向量对应的音频标签。

可选的，在本申请实施例中，可以预先训练有神经网络算法模型，该神经网络算法模型可以根据音频向量生成对应该音频向量的音频标签。在该实施方式中，可以根据该算法模型生成音频的音频向量对应的一个或多个视频标签。

通常的，一首音频，如一首歌或者一首音乐，可能会有多种风格特征，音频池中的音频可以是一首音乐的部分，具有一种风格特征。本申请还提供了一种实施方式，可以根据音频的风格特征进行音频段的划分，将每个音频段作为音频池中存储的一个音频。

在该实施方式中，可以设置子音频段的时间长度，如1秒、2秒等。每个音频段可以由一个或多个连续的子音频段组成。具体的，可以根据每一子音频段的风格特征，通过第一音频学习模型确定每一子音频段对应的音频向量。参见前述实施方式，第一深度学习模型可以是通过学习训练后构建的神经网络算法模型，可以根据子音频段的声音数据将子音频段分类为表示不同风格特征的音频向量，或者说，将子音频段转换为表示不同风格特征的音频向量。同一音频向量可以对应相同的一个或多个音频标签。

对于对应相同音频向量的子音频段，对应的音频标签相同。因此，可以将连续的且对应相同音频向量的子音频段划分为同一音频段，确定每个音频段对应的音频向量为音频段中子音频段对应的音频向量。例如，在一个音频中，第1秒至第100秒的子音频段对应的音频向量相同，都为b，可以将第1秒至第100秒的子音频段划分为同一音频段，且确定该音频段对应的音频向量为B。

在获得音频段对应的音频向量后，可以根据音频向量和音频标签的对应关系，确定每一音频段对应的音频标签。也就是说，音频段对应的音频向量所对应的音频标签，可以确定为该音频段对应的音频标签。将音频段和音频标签的对应关系存储为音频池中音频和音频标签的对应关系。

其中，音频向量和音频标签的对应关系可以是预先存储，也可以是根据相应的算法模型确定，在此不做限定。

在本申请实施例中，在确定每个音频对应的音频标签后，可以确定相同的音频标签所对应的音频。例如，音频1对应音频标签a，音频2对应音频标签b，音频3对应音频标签a，音频4对应音频标签b，则可以确定音频标签a对应音频1和音频3，音频标签b对应音频2和音频4。

确定每个音频标签可以对应的一个或多个音频，可以从视频标签对应的音频标签中，选取目标音频。将目标音频发送到电子设备，用于指示电子设备将接收到的目标音频对应当前播放的视频内容进行播放。其中，若获取到对应视频标签的一个音频标签，则从该一个音频标签对应的音频中选取目标音频；若获取到对应视频标签的多个音频标签，则可以从该多个音频标签对应的音频中选取目标音频。

若视频标签对应的音频标签对应一个音频，则将该音频发送给电子设备。若视频标签对应的音频标签对应多个音频，可以从多个音频中选取音频发送给电子设备。

在一种实施方式中，可以从音频标签对应的多个音频中随机选取音频发送给电子设备

在另一种实施方式中，还可以获取电子设备对应的用户画像，从音频标签对应的音频中选取对应该用户画像的音频作为发送给电子设备的目标音频。

其中，根据电子设备的操作数据以及用户填写的个人信息，进行分析，抽象出电子设备对应的用户画像，该用户画像可以对电子设备对应的用户的形象特征等进行表示。如用户画像可以通过各种画像标签表示用户形象特征，如性别、年龄、星座、职业、爱好等。

在确定视频标签对应的音频标签的情况下，确定该音频标签对应的一个或多个音频。再根据各个音频与用户画像的匹配关系，选择多个音频中与电子设备的用户画像匹配度最高的音频。例如，根据各个音频的听众数据，确定对每个音频具有偏好的听众特征，再确定音频标签对应的各个音频中，哪一个音频对应的听众特征与电子设备的用户画像匹配度最高。

可选的，在本申请实施例中，若一个视频段包括多帧视频，在确定当前播放内容对应的目标音频后，在该视频内容所属视频段中的其他视频帧进行播放时，可以不再确定目标音频，使用该目标音频对应播放。在开始播放或者即将播放其他视频段时，重新确定新播放的视频段对应的视频标签。其中，即将播放可以是再过预设时间进行播放，该预设时间可以是大于或等于从服务器获取当前播放内容到目标音频发送到电子设备之间的时间差。

可选的，在该实施例中，电子设备中视频播放的内容可能发生大幅度跳转，如进度条的拖动使正在播放的内容跳转到其他视频段，可以在跳转后重新获取确定目标音频。

可选的，在本申请实施例中，若正在播放的视频本身配有音频，为避免音频播放的混乱，电子设备可以将视频本身对应的音频静音，对服务器发送的目标音频进行播放。其中，可以是，电子设备在接收到服务器返回的目标音频时，可以确定接收到静音视频本身配置的音频，与正在播放的视频同步播放服务器发送的目标音频。

在本申请实施例中，可以根据视频段与视频标签的对应关系，获取到当前播放内容所属视频段对应的视频标签，再根据视频标签与音频标签的对应关系，以及音频标签与音频的关系，获取到当前播放内容所属视频段对应的目标音频，将该目标音频发送到电子设备，作为当前播放内容对应的音频数据，用于电子设备中正在播放的视频同步播放，从而使与视频同步播放的配乐与视频的契合度更高。

本申请还提供了一实施例，可以对实时播放的视频内容对应的视频标签，可以用于直播内容的配音。具体的，请参见图6，该实施例提供的方法包括：

步骤S310：根据电子设备正在播放的视频中当前播放内容的风格特征，通过第三深度学习模型确定所述当前播放内容对应的视频标签。

服务器可以实时获取到电子设备的当前播放内容，并且，可以通过第三深度学习模型确定该当前播放内容对应的视频标签。其中，当前播放内容可以是获取时所播放的视频帧。第三深度学习模型可以是学习训练后构建的神经网络算法模型，可以根据视频中的图像内容，将视频分类为表示不同风格特征的视频标签。因此，可以通过第三深度学习模型，获取当前播放内容对应的视频标签。

步骤S320：获取所述视频标签对应的音频标签。

步骤S330：从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。

根据当前播放内容的视频标签，可以获取到当前播放内容对应的音频标签，从而，从该音频标签对应的音频中选取目标音频发送给电子设备进行与视频的同步播放。步骤S320以及步骤S330的具体描述可以参见前述实施例，在此不再赘述。

另外，在本申请实施例中，在视频标签对应的音频中，还可以包括大量用户观看该视频时对应该视频对应的音频等方法。在进行音频选择时，从音频标签对应的音频以及大量用户设置的音频中选择音频，进一步提高匹配的准确度，提高用户的体验。其中，该大量用户设置的音频可以是大于预设数量的用户设置的音频，或者是所有设置音频的用户中大于预设比例的用户设置的音频。

在本申请实施例中，服务器在获取到电子设备的当前播放内容到服务器返回目标音频的过程中，可能存在一定的时间差。由于视频在一段时间内风格特征基本保持一致，在视频顺序播放的情况下，虽然该时间差内视频播放内容变化，目标音频与接收到目标音频时正在播放的视频内容契合度较高，与视频进行同步部分能获得良好的播放效果。

另外，在本申请实施例中，可以服务器可以实时获取电子设备中的当前播放内容，确定目标音频发送到电子设备进行同步播放。另外，视频在一段时间内风格特征通常基本保持一致，也可以按照预设的时间间隔，从电子设备获取正在播放的视频内容，并根据该视频内容获取到目标音频，对电子设备播放的音频进行更新。

在该实施例中，服务器可以通过第三深度学习模型，即时地确定电子设备播放的视频对应的目标音频，可以对直播等视频播放场景获得和视频内容契合度较高的音频。

本申请实施例还提供了一种音视频处理装置400。请参见图7，该装置400可以包括：第一标签获取模块410，用于获取电子设备正在播放的视频中当前播放内容对应的视频标签；第二标签获取模块420，用于获取所述视频标签对应的音频标签；音频选取模块430，用于从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备。

可选的，在本申请实施例中，视频包括可以多个视频段，每个视频段对应有视频标签。第一标签获取模块410可以包括第一单元，用于获取电子设备正在播放的视频中当前播放内容所属的视频段，作为目标视频段；第二单元，用于获取所述目标视频段对应的视频标签为所述当前播放内容对应的视频标签，不同的视频标签表示所述视频段的不同风格特征。

可选的，第一单元可以用于将所述视频分为多个视频段；根据每一视频段的风格特征，确定每一视频段对应的视频标签。

可选的，第二单元可以用于通过第一深度学习模型确定每一视频段对应的标签向量，其中，每个标签向量对应一个或多个视频标签；通过第二深度学习模型，从所述视频段对应的标签向量所对应的视频标签中，选取所述视频段对应的视频标签。

可选的，第一单元可以用于根据每一视频帧的风格特征，通过第一深度学习模型确定每一视频帧对应的标签向量；将连续的且对应相同标签向量的视频帧划分为同一视频段，确定每个视频段对应的标签向量为视频段中视频帧对应的标签向量；第二单元可以用于根据标签向量和视频标签的对应关系，确定每一视频段对应的视频标签。

可选的，第一标签获取模块410可以用于根据电子设备正在播放的视频中当前播放内容的风格特征，通过第三深度学习模型确定所述当前播放内容对应的视频标签。

可选的，该装置还可以包括音频标签确定模块，用于根据音频库中各音频的风格特征，确定各音频对应的音频标签，不同的音频标签表示音频的不同风格特征。

可选的，音频选取模块可以用于获取所述电子设备对应的用户画像；从所述音频标签对应的音频中选取对应所述用户画像的音频。

本申请实施例提供的音视频处理方法、装置、服务器及存储介质，可以根据视频播放进度，给不同的视频内容实时推送不同的音频，能够让视频和音频合为一体，让用户得到更好的视觉和听觉的双重享受。另外，在推送音频的时候，除了考虑音频本身的特征，还使用了用户画像，结合用户的行为特征以及兴趣偏好等特征，更好地匹配用户对音频的真实偏好，提高用户体验。

并且，可以根据视频帧确定目标音频，推荐的粒度可以细到帧，推荐的实时响应时间可以缩短到秒。根据用户播放的进度，每到不同的视频内容，就会实时智能地切换不同的背景音频，让用户的视觉和听觉体验相融合。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述的各个方法实施例之间可以相互参照；上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。各个模块可以配置在不同的电子设备中，也可以配置在相同的电子设备中，本申请实施例并不限定。

请参考图8，其示出了本申请实施例提供的一种服务器600的结构框图。本申请实施例中的音视频处理方法及装置，可以由一服务器执行；也可以由多个服务器配合执行，如多个服务器组成的系统集群。

该服务器可以包括一个或多个处理器610(图中仅示出一个)，存储器620以及一个或多个程序。其中，所述一个或多个程序被存储在所述存储器620中，并被配置为由所述一个或多个处理器610执行。所述一个或多个程序配置用于执行前述实施例所描述的方法。若前述实施例所描述的方法由多个服务器配合执行，每个服务器中可以配置所要执行的部分程序。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个服务器600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行服务器600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音视频处理方法，其特征在于，应用于服务器，所述方法包括：

在电子设备对视频进行播放的情况下，获取电子设备正在播放的视频中当前播放内容所属的视频段，作为目标视频段，其中，所述视频包括多个视频段，每个视频段对应有预先确定的视频标签，不同的视频标签表示所述视频段的不同风格特征；

获取所述目标视频段对应的视频标签为所述当前播放内容对应的视频标签；

获取所述视频标签对应的音频标签；

从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备，以用于电子设备对应当前播放内容进行播放。

2.根据权利要求1所述的方法，其特征在于，所述获取电子设备正在播放的视频中当前播放内容所属的视频段之前，还包括：

将所述视频分为多个视频段；

根据每一视频段的风格特征，确定每一视频段对应的视频标签。

3.根据权利要求2所述的方法，其特征在于，根据每一视频段的风格特征，确定每一视频段对应的视频标签，包括：

通过第一深度学习模型确定每一视频段对应的标签向量，其中，每个标签向量对应一个或多个视频标签；

通过第二深度学习模型，从所述视频段对应的标签向量所对应的视频标签中，选取所述视频段对应的视频标签。

4.根据权利要求2所述的方法，其特征在于，所述将所述视频分为为多个视频段；根据每一视频段的风格特征，确定每一视频段对应的视频标签，包括：

根据每一视频帧的风格特征，通过第一深度学习模型确定每一视频帧对应的标签向量；

将连续的且对应相同标签向量的视频帧划分为同一视频段，确定每个视频段对应的标签向量为视频段中视频帧对应的标签向量；

根据标签向量和视频标签的对应关系，确定每一视频段对应的视频标签。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据音频库中各音频的风格特征，确定各音频对应的音频标签，不同的音频标签表示音频的不同风格特征。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述从所述音频标签对应的音频中选取音频，包括：

获取所述电子设备对应的用户画像；

从所述音频标签对应的音频中选取对应所述用户画像的音频。

7.一种音视频处理装置，其特征在于，运行于服务器，所述装置包括：

第一标签获取模块，用于在电子设备对视频进行播放的情况下，获取电子设备正在播放的视频中当前播放内容所属的视频段，作为目标视频段，其中，所述视频包括多个视频段，每个视频段对应有预先确定的视频标签，不同的视频标签表示所述视频段的不同风格特征；获取所述目标视频段对应的视频标签为所述当前播放内容对应的视频标签；

第二标签获取模块，用于获取所述视频标签对应的音频标签；

音频选取模块，用于从所述音频标签对应的音频中选取目标音频，作为与所述当前播放内容对应的音频数据发送给所述电子设备，以用于电子设备对应当前播放内容进行播放。

8.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。