CN111526405B

CN111526405B - 媒体素材处理方法、装置、设备、服务器及存储介质

Info

Publication number: CN111526405B
Application number: CN202010370079.2A
Authority: CN
Inventors: 郭燧冰; 廖凯恩; 朱康峰; 张倩; 刘柏; 范长杰; 李仁杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2022-02-22
Anticipated expiration: 2040-04-30
Also published as: CN114025216B; CN111526405A; CN114025216A

Abstract

本申请提供一种媒体素材处理方法、装置、设备、服务器及存储介质，涉及数据处理技术领域。该方法包括：在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对待标注媒体素材的标注信息，其中，待标注媒体素材包含视频轨道和音频轨道；根据标注信息，对待标注媒体素材进行标注。本申请提供的方法，可在对待标注媒体素材的视频轨道和音频轨道的时间轴进行对齐后，对视频轨道和音频轨道进行标注，可保证对视频轨道的标注信息与视频内容的匹配性，以有效提高标注结果的准确性。通过对音频轨道以及视频轨道进行混合标注，相比现有技术，单独对视频标注或单独对音频标注，标注结果可靠性更高，基于标注结果实现虚拟人物渲染，渲染效果更好。

Description

媒体素材处理方法、装置、设备、服务器及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种媒体素材处理方法、装置、设备、服务器及存储介质。

背景技术

人工智能技术通常需要大量经过人工标注的媒体素材对模型进行训练。

现有技术中，通常是仅对视频进行标注，不关注音频，或者通过音频标注对视频进行辅助分析，或者仅仅对音频进行标注，并没有包含视频的信息。

但是，单纯的对视频进行标注或者对音频标注，当对视频的标注或者对音频的标注存在较大偏差时，将导致音视频同步效果较差，音视频匹配精确度较低。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种媒体素材处理方法、装置、设备、服务器及存储介质，以便于解决现有技术中存在的音视频不同步，匹配效果较差的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种媒体素材处理方法，所述方法包括：

在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对所述待标注媒体素材的标注信息，其中，所述待标注媒体素材包含视频轨道和音频轨道；

根据所述标注信息，对所述待标注媒体素材进行标注。

可选地，在对所述待标注媒体素材进行标注之前，所述方法包括：

将所述视频轨道和所述音频轨道的时间轴进行对齐，以获得所述待标注媒体素材。

可选地，所述将所述视频轨道和所述音频轨道的时间轴进行对齐，包括：

获取通过所述预设标注界面输入的所述视频轨道和所述音频轨道的时间轴移动操作；

响应所述时间轴移动操作，对所述视频轨道和所述视频轨道的时间轴进行对齐。

对所述音频轨道和预设音频轨道的时间轴进行对齐，所述预设音频轨道为与所述视频轨道的时间轴对齐的音频轨道。

可选地，对所述音频轨道和预设音频轨道的时间轴进行对齐，包括：

检测所述音频轨道和所述预设音频轨道中是否均具有语音数据；

若所述音频轨道和所述预设音频轨道中均有语音数据，则分别对所述音频轨道和所述预设音频轨道进行语音转写处理；

根据所述语音转写处理的结果，分别确定所述音频轨道和所述预设音频轨道中第一条语音的开始时间；

根据所述音频轨道和所述预设音频轨道中第一条语音的开始时间，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

可选地，所述对所述音频轨道和预设音频轨道的时间轴进行对齐，包括：

若所述音频轨道和所述预设音频轨道中不具有语音数据，则根据所述音频轨道和所述预设音频轨道对应波形的振幅，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

可选地，所述根据所述音频轨道和所述预设音频轨道对应波形的振幅，对所述音频轨道和所述预设音频轨道的时间轴进行对齐，包括：

根据所述音频轨道和所述预设音频轨道对应波形的振幅，计算时间偏移量；

根据所述时间偏移量，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

可选地，所述获取通过预设标注界面输入的所述待标注媒体素材的标注信息之前，所述方法还包括：

接收通过所述预设标注界面上输入的区域划分操作；

根据所述区域划分操作确定所述预设标注界面上至少一个标注区域的起止位置，所述起止位置根据所述标注信息确定，每个所述标注区域对应不同的标注信息。

可选地，所述获取通过预设标注界面输入的所述待标注媒体素材的标注信息，包括：

获取通过所述预设标注界面上所述至少一个标注区域输入的所述标注信息。

获取通过所述预设标注界面上所述至少一个标注区域选择的标签信息。

可选地，所述标注信息包括如下至少一种信息：所述待标注媒体素材对应的语音转写文字、人物动作、人物语气、人物表情。

第二方面，本申请实施例还提供了一种媒体素材处理方法，包括：

获取来自多个标注客户端的待标注媒体素材的多个标注信息，每个标注信息对应一个标注客户端；

对所述多个标注信息分别进行检测；

根据所述多个标注信息的检测结果，从所述多个标注信息中确定目标标注信息。

可选地，所述对所述多个标注信息分别进行检测，包括：

对每个标注信息对应的校准时间轴进行检测，得到所述每个标注信息对应的校准时间轴的检测得分；

对所述每个标注信息的语句时间段进行检测，得到所述每个标注信息的语句时间段的检测得分；

根据所述时间轴的检测得分和所述语句时间段的检测得分，得到所述每个标注信息的检测结果，所述检测结果包括所述每个标注信息的检测结果得分。

可选地，所述对每个标注信息对应的校准时间轴进行检测，得到所述每个标注信息对应的校准时间轴的检测得分，包括：

根据所述多个标注信息对应的校准时间轴，确定校准时间轴的偏移信息；

根据所述偏移信息，对所述每个标注信息对应的校准时间轴进行检测，得到所述每个标注信息对应的校准时间轴的检测得分。

可选地，所述对所述每个标注信息的语句时间段进行检测，得到所述每个标注信息的语句时间段的检测得分，包括：

采用预设投票方式，向所述多个标注客户端发送所述多个标注信息的投票请求；

获取来自所述多个标注客户端的投票结果；

根据所述投票结果，得到所述每个标注信息的语句时间段的检测得分。

可选地，所述根据所述多个标注信息的检测结果，从所述多个标注信息中确定目标标注信息，包括：

根据所述每个标注信息的检测结果得分、以及预设分数阈值，从所述多个标注信息中确定目标标注信息。

第三方面，本申请实施例还提供了一种媒体素材处理装置，所述装置包括：获取模块、标注模块；

所述获取模块，用于在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对所述待标注媒体素材的标注信息，其中，所述待标注媒体素材包含视频轨道和音频轨道；

所述标注模块，用于根据所述标注信息，对所述待标注媒体素材进行标注。

可选地，所述装置还包括：对齐模块；

所述对齐模块，用于将所述视频轨道和所述音频轨道的时间轴进行对齐，以获得所述待标注媒体素材。

可选地，所述对齐模块，具体用于获取通过所述预设标注界面输入的所述视频轨道和所述音频轨道的时间轴移动操作；响应所述时间轴移动操作，对所述视频轨道和所述视频轨道的时间轴进行对齐。

可选地，所述对齐模块，还用于对所述音频轨道和预设音频轨道的时间轴进行对齐，所述预设音频轨道为与所述视频轨道的时间轴对齐的音频轨道。

可选地，所述对齐模块，具体用于检测所述音频轨道和所述预设音频轨道中是否均具有语音数据；若所述音频轨道和所述预设音频轨道中均有语音数据，则分别对所述音频轨道和所述预设音频轨道进行语音转写处理；根据所述语音转写处理的结果，分别确定所述音频轨道和所述预设音频轨道中第一条语音的开始时间；根据所述音频轨道和所述预设音频轨道中第一条语音的开始时间，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

可选地，所述对齐模块，还用于若所述音频轨道和所述预设音频轨道中不具有语音数据，则根据所述音频轨道和所述预设音频轨道对应波形的振幅，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

可选地，所述对齐模块，还具体用于根据所述音频轨道和所述预设音频轨道对应波形的振幅，计算时间偏移量；根据所述时间偏移量，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

可选地，所述装置还包括：划分模块、确定模块；

所述划分模块，用于接收通过所述预设标注界面上输入的区域划分操作；

所述确定模块，用于根据所述区域划分操作确定所述预设标注界面上至少一个标注区域的起止位置，所述起止位置根据所述标注信息确定，每个所述标注区域对应不同的标注信息。

可选地，所述获取模块，具体用于获取通过所述预设标注界面上所述至少一个标注区域输入的所述标注信息。

可选地，所述获取模块，具体用于获取通过所述预设标注界面上所述至少一个标注区域选择的标签信息。

第四方面，本申请实施例还提供了一种媒体素材处理装置，包括：获取模块、检测模块、确定模块；

所述获取模块，用于获取来自多个标注客户端的待标注媒体素材的多个标注信息，每个标注信息对应一个标注客户端；

所述检测模块，用于对所述多个标注信息分别进行检测；

所述确定模块，用于根据所述多个标注信息的检测结果，从所述多个标注信息中确定目标标注信息

可选地，所述检测模块，具体用于对每个标注信息对应的校准时间轴进行检测，得到所述每个标注信息对应的校准时间轴的检测得分；对所述每个标注信息的语句时间段进行检测，得到所述每个标注信息的语句时间段的检测得分；根据所述时间轴的检测得分和所述语句时间段的检测得分，得到所述每个标注信息的检测结果，所述检测结果包括所述每个标注信息的检测结果得分。

可选地，所述检测模块，具体用于根据所述多个标注信息对应的校准时间轴，确定校准时间轴的偏移信息；根据所述偏移信息，对所述每个标注信息对应的校准时间轴进行检测，得到所述每个标注信息对应的校准时间轴的检测得分。

可选地，所述检测模块，具体用于采用预设投票方式，向所述多个标注客户端发送所述多个标注信息的投票请求；获取来自所述多个标注客户端的投票结果；根据所述投票结果，得到所述每个标注信息的语句时间段的检测得分。

可选地，所述确定模块，具体用于根据所述每个标注信息的检测结果得分、以及预设分数阈值，从所述多个标注信息中确定目标标注信息。

第五方面，本申请实施例还提供了一种客户端设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当客户端设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如上述第一方面所述的媒体素材处理方法的步骤。

第六方面，本申请实施例还提供了一种服务器，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当服务器运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如上述第二方面所述的媒体素材处理方法的步骤。

第七方面，本申请实施例还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面或第二方面所述的媒体素材处理方法的步骤。

本申请的有益效果是：

本申请提供一种媒体素材处理方法、装置、设备、服务器及存储介质，其中，该方法包括：在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对待标注媒体素材的标注信息，其中，待标注媒体素材包含视频轨道和音频轨道；根据标注信息，对待标注媒体素材进行标注。本申请提供的方法，可在对待标注媒体素材的视频轨道和音频轨道的时间轴进行对齐后，对视频轨道和音频轨道进行标注，可保证对视频轨道的标注信息与视频内容的匹配性，以有效提高标注结果的准确性。通过对音频轨道以及视频轨道进行混合标注，相比于现有中，单独对视频标注或者单独对音频标注，标注结果可靠性更高，基于标注结果实现虚拟人物渲染，渲染效果更好。

另外，通过采用预设的验证方法，对所有客户端对应的用户的标注信息进行筛选处理，以将不合格的标注信息从数据库中剔除，可以使得数据库中最终存储的标注信息均为可信结果，有效提高最终获取的标注信息的精确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种媒体素材处理方法的流程示意图；

图2为本申请实施例提供的另一种媒体素材处理方法的流程示意图；

图3为本申请实施例提供的又一种媒体素材处理方法的流程示意图；

图4为本申请实施例提供的另一种媒体素材处理方法的流程示意图；

图5为本申请实施例提供的一种标注界面示意图；

图6为本申请实施例提供的又一种媒体素材处理方法的流程示意图；

图7为本申请实施例提供的一种媒体素材处理方法的流程示意图；

图8为本申请实施例提供的另一种媒体素材处理方法的流程示意图；

图9为本申请实施例提供的另一种媒体素材处理装置的示意图；

图10为本申请实施例提供的另一种媒体素材处理装置的示意图；

图11为本申请实施例提供的一种客户端设备的结构示意图；

图12为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前，利用人工智能方法处理视频及音频，需要对视频及其音频进行标注。由于视频来源多样，其自带音频质量参差不齐，甚至有可能音画不同步，在处理需要音视频同时分析的问题时，现有方案难以处理。

现有的技术方案一般是仅针对视频或仅针对音频进行标注，音视频混合标注主要应用于对视频质量和音频质量都有要求，并且对其匹配度要求较高的场景，例如：游戏、虚拟教学、虚拟服务等场景。目前对音视频混合标注的需求较少，但随着图像处理和音频处理技术的逐渐成熟，音视频混合标注的应用场景将会越来越多。

需要说明的是，本申请所提供的媒体素材处理方法，可以实现音视频内容的准确标注，从而可以获取人物在说不同话时对应的表情动作，以在实际应用场景中根据标注结果进行虚拟人物的渲染等。另外，还可以根据标注结果，实现视频分类模型训练，并根据训练的模型，对任意的视频进行分类。

如下将通过多个具体的实施例对本申请所提供的媒体素材处理方法进行详细说明。

图1为本申请实施例提供的一种媒体素材处理方法的流程示意图；本方法的执行主体可以是安装有预设标注应用的客户端设备，通过运行该预设标注应用在客户端设备上渲染得到预设标注界面。可选地，如图1所示，该方法可包括：

S101、在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对待标注媒体素材的标注信息，其中，待标注媒体素材包含视频轨道和音频轨道。

可选地，在待标注媒体素材播放过程中，用户可根据预设的标注需求，对待标注媒体素材中任意时间段内的内容进行标注。

在一些实施例中，用户可通过具有预设标注界面的客户端，即标注客户端设备，在预设标注界面中输入标注需求对应的待标注媒体素材的标注信息。需要说明的是，标注需求可以理解为标注指令，客户端可以根据服务器发送的标注指令，显示对应的标注需求，用户可根据标注需求，在对应的客户端的预设标注界面中输入标注信息。而避免用户进行盲目标注，降低标注效率。另外，服务器可同时发送对同一待标注媒体素材的标注指令给多个客户端，可以使得不同的用户通过不同的客户端，根据同样的标注需求，对待标注媒体素材进行标注，由于不同的客户端对应产生的标注信息会存在差异，通过综合所有客户端的标注信息，从中删选可信度较高的标注信息，从而可得到精确度较高的标注信息，有效提高了标注结果的准确性。

S102、根据标注信息，对待标注媒体素材进行标注。

可选地，本实施例中，对待标注媒体素材进行标注可以包括：对待标注媒体素材的视频轨道和音频轨道进行混合标注。可以理解为：在对音频轨道进行标注时，可以对与音频轨道对应的视频轨道进行标注，提高音视频同步的精确性。

可选地，标注信息可以指待标注媒体素材的内容信息，上述通过预设标注界面输入的标注信息可以包括如下至少一种信息：预设时间范围的视频轨道对应的语音转写文字、预设时间范围内视频轨道中的人物动作、人物语气、人物表情等。

其中，预设时间范围对应的语音转写文字可以为通过语音转写接口获取的，预设时间范围的视频轨道对应的音频内容转写得到的文本信息，也即，预设时间范围的视频轨道中，人物所说的话对应的文字内容。例如：预设时间范围内，视频轨道中人物说的话为“你好”，那么，预设时间范围对应的语音转写文字即为“你好”。而预设时间范围内的人物动作、语气、表情，可以为人物在说“你好”时，对应所做出的动作、表情、语气，从而可以获取较为完整的标注信息。

可选地，可以根据上述确定的预设时间范围的标注信息，对待标注媒体素材中该预设时间范围对应的视频轨道和音频轨道进行标注。其中，对音频轨道的进行标注可以是通过在预设标注界面中添加文本框，将标注信息添加至文本框中，而对视频轨道的标注可以是在视频轨道中通过预设标注框，进行目标对象的标注，上述标注方法可以有效提高标注结果的可读性和观赏性。或者，也可以将标注结果发送至服务器，服务器将获取的标注结果存储至服务器本地，或者是服务器后台数据库中，以用于根据标注结果进行机器学习模型的训练等。

在一些实施例中，对于包含人物的视频轨道，可以根据视频轨道中人物的语音、表情、情感等的标注结果，提取人物的特征信息，从而根据人物的特征信息，进行虚拟人物的渲染，指导虚拟人物的生成，生成虚拟人物的语音动作表情等，从而提高生成的虚拟人物的真实性和可观赏性。

综上，本实施例提供的媒体素材处理方法，包括：在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对待标注媒体素材的标注信息，其中，待标注媒体素材包含视频轨道和音频轨道；根据标注信息，对待标注媒体素材进行标注。本申请提供的方法，可通过对待标注媒体素材的视频轨道和音频轨道进行混合标注，相比于现有中，单独对视频标注或者单独对音频标注，标注结果可靠性更高。

可选地，上述步骤S102之前，本申请的方法还可包括：将视频轨道和音频轨道的时间轴进行对齐，以获得待标注媒体素材。

首先，在对待标注媒体素材进行标注之前，可以先将待标注媒体素材的视频轨道和音频轨道进行对齐，以保证待标注媒体素材的音画同步，从而基于对齐后的待标注媒体素材进行标注，可以使得获取的标注信息准确度较高。

可选地，可先根据待标注媒体素材，提取待标注媒体素材对应的音频轨道和视频轨道，该音频轨道也即待标注媒体素材自带的音频轨道。其可能存在与视频轨道不同步的情况，也即音视频不同步。那么，可以先将视频轨道与音频轨道进行对齐，在实际处理时，即是通过将视频轨道与音频轨道的时间轴进行对齐，以使得视频和音频具有时间同步性。

图2为本申请实施例提供的另一种媒体素材处理方法的流程示意图；可选地，如图2所示，上述步骤中，将视频轨道和音频轨道的时间轴进行对齐，可包括：

S201、获取通过预设标注界面输入的视频轨道和音频轨道的时间轴移动操作。

S202、响应时间轴移动操作，对视频轨道和音频轨道的时间轴进行对齐。

可选地，本申请提供的媒体素材处理方法中，在通过预设标注界面输入对视频轨道和音频轨道的时间轴移动操作之前，可以先对视频轨道及音频轨道进行预对齐。也即客户端根据当前播放的待标注媒体素材，获取视频轨道和音频轨道的播放时间偏移量(此处称为第一时间偏移量)，从而根据时间偏移量，对视频轨道和音频轨道的时间轴进行调整，同时记录该预对齐时所确定的时间偏移量。

而在一些实施例中，预对齐后的视频轨道和音频轨道也可能不完全对齐，故，用户可以通过预设标注界面输入视频轨道和音频轨道的时间轴移动操作，以对视频轨道和音频轨道的预对齐结果进行进一步地调整。

可选地，对时间轴的操作可以通过对视频轨道对应的时间轴以及音频轨道的时间轴进行拖拽、移动等操作。例如：在视频播放过程中，可以通过拖拽移动视频对应的时间轴上的时间光标，实现视频播放时间的调整。也可以通过拖拽移动音频波形，实现对音频轨道的时间轴调整。

可选地，客户端响应用户通过标注界面输入的时间轴移动操作，响应该操作，实现视频轨道与音频轨道的对齐。需要说明的是，用户进行音视频对齐处理时，同样也会确定视频轨道与音频轨道的播放时间偏移量(此处称为第二时间偏移量)，并记录该时间偏移量。

其中，上述确定的第一时间偏移量和第二时间偏移量将在下述实施例中，对用户的标注结果进行验证筛选时，作为参数进行使用，具体可在相应的结果验证部分做详细说明。

可选地，上述步骤中，将视频轨道和音频轨道的时间轴进行对齐，可包括：对音频轨道和预设音频轨道的时间轴进行对齐，预设音频轨道为与视频轨道的时间轴对齐的音频轨道。

在一些实施例中，在对视频轨道和音频轨道进行对齐时，还可以对应提供视频轨道对应的预设音频轨道，该预设音频轨道可以为视频轨道对应的高质量音频轨道，也即，可以认为其时间轴与视频轨道的时间轴是对齐的，那么，在对视频轨道和音频轨道进行对齐时，可以通过将音频轨道和预设音频轨道的时间轴对齐来实现，一定程度上，通过两个音频比对，调整时间轴，实现对齐，调整精度相对较高。

同样的，在用户通过预设标注界面输入时间轴移动操作实现音频轨道和预设音频轨道对齐之前，也可以先对音频轨道和预设音频轨道进行预对齐，下述实施例提供了不同的预对齐处理方法。

图3为本申请实施例提供的又一种媒体素材处理方法的流程示意图，可选地，如图3所示，可选地，上述步骤中，对音频轨道和预设音频轨道的时间轴进行对齐，可包括：

S301、检测音频轨道和预设音频轨道中是否均具有语音数据。

需要说明的是，此处所说的语音数据也即人物对话，通常，视频会分为两种，有人物对话视频和无人物对话视频。对于不同类型的视频，对应采用的预对齐方法是不同的。

S302、若音频轨道和预设音频轨道中均有语音数据，则分别对音频轨道和预设音频轨道进行语音转写处理。

S303、根据语音转写处理的结果，分别确定音频轨道和预设音频轨道中第一条语音的开始时间。

S304、根据音频轨道和预设音频轨道中第一条语音的开始时间，对音频轨道和预设音频轨道的时间轴进行对齐。

可选地，当待标注媒体素材中有人物对话时，可以通过语音转写接口分别获取音频轨道和预设音频轨道的第一条语音的时间点，例如音频轨道的第一条语音的时间点为第1秒，预设音频轨道的第一条语音的时间点为第1.5秒，此时可以计算出两个音频的时间偏移量为0.5秒，则客户端可以根据确定的时间偏移量，将预设音频轨道的时间轴自动向前移动0.5秒，以实现音频轨道和预设音频轨道时间轴的对齐。

可选地，当待标注媒体素材中不存在人物对话时，无法通过获取语音数据实现音频轨道和预设音频轨道的对齐，故，本实施例中还提供另一种预对齐方法，即根据音频轨道和预设音频轨道对应波形的振幅，对音频轨道和预设音频轨道的时间轴进行对齐。

图4为本申请实施例提供的另一种媒体素材处理方法的流程示意图，可选地，如图4所示，上述步骤中，根据音频轨道和预设音频轨道对应波形的振幅，对音频轨道和预设音频轨道的时间轴进行对齐，可包括：

S401、根据音频轨道和预设音频轨道对应波形的振幅，计算时间偏移量。

S402、根据时间偏移量，对音频轨道和预设音频轨道的时间轴进行对齐。

在一些实施例中，当待标注媒体素材中不存在人物对话时，可以根据音频轨道和预设音频轨道，生成音频轨道波形和预设音频轨道波形。并根据音频轨道波形和预设音频轨道波形分析，确定音频轨道和预设音频轨道的时间偏移量。

可选地，首先对音频轨道波形和预设音频轨道波形的振幅做归一化，然后找到在某个阈值以上的所有最高点对应的时间及振幅，以其中一个音频波形为标准波形，例如，以音频轨道波形为标准波形，那么，预设音频轨道波形将作为对照波形。假设音频轨道波形的第一个最高点在第1秒，预设音频轨道波形的第一个最高点在第1.5秒，先将预设音频轨道波形的时间轴偏移0.5秒，即减去0.5秒，并基于偏移后的音频轨道波形和预设音频轨道波形，计算所有最高点时间差，取平均值，若平均值小于特定阈值，则确定该偏移量为音频轨道和预设音频轨道对应的预对齐偏移量。为了提高计算效率，一般设定偏移量不超过一段特定时间，如果超过特定时间仍未确定偏移量，则放弃该预对齐，直接进入用户对齐阶段。

下面通过一个具体的例子，对该方法进行解释说明。首先需要说的是，音频轨道波形图是以时间为横轴，振幅为纵轴的图，根据音频生成。不同音频轨道对应得到的波形图的最高振幅会有区别，例如一个声音大一个声音小，声音大的波形图的最大值会更大，为了计算方便，需要取音频轨道波形和预设音频轨道波形的最大值，然后根据各波形图的最大值，将该波形图中的所有值除以这个最大值，使整个波形的值位于0到1之间，也即对音频波形进行了归一化处理。

上述方法的思路是对音频轨道波形和预设音频轨道波形的极大值进行匹配，找到所有的波形极高点。为了防止匹配更多的点，以极高点更多的音频轨道波形作为标准波形，对另一个音频轨道波形进行逐个匹配。

由于可能会有一个音频轨道有噪音，另一个音频轨道很清晰的情况，会导致有噪音的音频轨道波形的极高点个数较多(噪音造成的)。因为噪音一般声音较小，会选取归一化后的音频轨道波形中，振幅大于0.5的点作为选取的极高点。

以下为一个计算的计算例子：

音频轨道波形的极高点对应的时间为第[1，3，4，6，8]秒，预设音频轨道波形的极高点对应的时间为第[2.8，4.2，7.9]秒。则以音频轨道波形为标准波形。

音频轨道波形的第一个极高点与预设音频轨道波形的第一个极高点相差1.8秒，那么预设音频轨道波形的时间轴向左偏移1.8秒(减去1.8)，得到新的时间轴[1，2.4，5.3]，规定最高偏移量的阈值是0.5秒，即如果两个最高值的时间差的绝对值大于0.5秒，这两个点就匹配失败。

音频轨道波形的时间点为：[1，3，4，6，8]，预设音频轨道波形的时间点为：[1，2.4，6.1]。这里第一个值都是1，第二个点是(3-2.4＝0.6>0.5)匹配失败，然后第三个点是(4-2.4＝1.6>0.5)匹配失败，但是1.6比0.6大，如果继续匹配，必然失败，那么认为这个匹配失败了，然后继续匹配，(3-6.1＝-3.1>0.5)匹配失败，(4-6.1＝-2.1>0.5)匹配失败，(6-6.1＝-0.1<0.5)匹配成功，记录0.1，那么所有匹配成功记录的时间差的均值为(0.1/2＝0.5)，再除以匹配成功的比例(2个成功1个失败)(0.5/(2/3)＝0.75)，含义为三个时间点，平均每个时间点的偏移量均值。设定偏移量均值的阈值为0.5，0.75>0.5，这个匹配认为是失败的。

然后再用预设音频轨道波形的第一个极高点时间(2.8)去匹配音频轨道波形的第二个极高点时间(3)，再次得到新的时间轴[3，4.4，8.1]，这次匹配成功的点对应音频轨道波形为[3，4，8]，差值的均值为(((3-3)+(4.4-4)+(8.1-8))/3/(3/3)＝0.17)。以此类推，找到差值的均值小于0.5，并且最小的值，作为音频轨道和预设音频轨道的预对齐时间偏移量。

可选地，无论是待标注媒体素材仅有音频轨道，还是待标注媒体素材除了音频轨道，还提供有预设音频轨道，均在预对齐处理之后，采用用户通过预设标注界面，输入时间轴移动操作，实现对预对齐之后仍存在偏差的音视频时间轴进行进一步调整。

图5为本申请实施例提供的一种标注界面示意图。如图5所示，标注界面可包括：待标注视频、时间轴、音频轨道波形、预设音频轨道波形、至少一个标注区(标注区A、标注区B，当然不限于此，可以根据标注需求，包含更多个标注区)、标注信息输入框。其中，时间轴可以为视频轨道、音频轨道波形、预设音频轨道波形同时共用的时间轴，将待视频轨道、音频轨道波形、预设音频轨道波形的时间轴共用，可以便于视频轨道及音频轨道的对齐操作。而至少一个标注区(标注区A和标注区B)可以为具有相同作用的标注区，用户可以在标注区中根据预设时间范围，划分时间区间，例如图中所示的时间区间1、时间区间2和时间区间3，为三个不同的时间范围，可以分别用来对同一时间范围内的视频轨道和音频轨道中的不同信息进行标注，例如：标注区A对10-12分钟内的音频轨道的人物说话语气进行标注，标注区B对10-12分钟内的音频轨道的语音转写文字进行标注等。相比于在同一个标注区内对预设时间范围音视频轨道的多个信息进行标注，这样可以避免标注结果显示效果产生重叠，从而可以提高标注结果的观赏性。当然，标注区可以不限于图中所示的标注区A、标注区B，还可以根据实际需求适应性增加设置。而根据获取的标注信息对视频轨道和音频轨道中预设时间范围(例如图中的时间区间3)进行标注时，可以将标注信息输入至时间区间3对应的标注信息输入框中。

可选地，当开始播放视频轨道时，同时控制视频轨道对应的音频轨道开始播放，音频轨道波形和预设音频轨道波形会随播放进度向右移动。在播放过程中，用户可以判断音频轨道与视频轨道画面间的匹配程度，并决定是否需要将预对齐结果进行调整。当需要调整时，用户使用鼠标在标注界面上向左右方向拖拽音频轨道波形(音频轨道波形和预设音频轨道波形)，移动音频轨道波形的时间轴，即可将音频轨道的播放进度向前或向后调整，同时手动调整的时间偏移量也被软件记录下来。

其中，手动调整时间偏移量的具体计算公式如下，其中offset为时间偏移量(秒)，dx为用户鼠标拖拽操作的位移量，w为音频轨道波形在标注界面上的渲染尺寸，duration为音频的总时长：

用户完成偏移量的手动调整后可以开始对待标注媒体素材进行标注。

图6为本申请实施例提供的又一种媒体素材处理方法的流程示意图，可选地，如图6所示，上述步骤S101中，获取通过预设标注界面输入的待标注媒体素材的标注信息之前，本申请的方法还可包括：

S501、接收通过预设标注界面上输入的区域划分操作。

S502、根据区域划分操作确定预设标注界面上至少一个标注区域的起止位置，起止位置根据标注信息确定，每个标注区域对应不同的标注信息。

可选地，结合图5所示的标注界面进行理解。用户可根据预设的标注指令(标注指令可包括预设时间范围，也即告诉用户需要对待标注媒体素材中的哪个时间段的音视频进行标注)，在标注界面中的标注区中划分时间区间，例如图5中，划分得到时间区间1或时间区间2等，时间区间1和时间区间2对应同一预设时间范围，分别用于对该同一预设时间范围的待标注媒体素材的不同标注信息进行标注。客户端响应用户输入的区域划分操作，并在标注界面的标注区中，展示对应的划分结果。其中，标注区域(时间区间)的起止位置由用户输入的区域划分操作对应的操作数据确定。例如：用户输入的区域划分操作对应的操作数据为10分-20分，也即，需要对待标注媒体素材中第10分钟至第20分钟内的视频轨道和音频轨道进行标注，那么，标注区中划分的时间区间的起止位置即为时间轴对应的10分-20分，也即为预设时间范围对应的起止时间点。

可选地，上述步骤S101中，获取通过预设标注界面输入的待标注媒体素材的标注信息，可包括：获取通过预设标注界面上至少一个标注区域输入的标注信息。

如图5所示，可以通过至少一个标注区中，各时间区间对应的标注信息输入框，输入该待标注媒体素材中，预设时间范围的视频轨道和音频轨道所对应的标注信息。其中，标注信息如上述所列举的，可包括音频轨道对应的语音文字、表情、语气、动作等，对于不同的标注信息，可以通过不同的标注区中，时间区间对应的标注信息输入框进行输入。如图5所示，例如：语音文字可以在标注区A的时间区间1对应的标注信息输入框中输入，语气可以在标注区B的时间区间2对应的标注信息输入框中输入等。同时，也可在视频轨道中，将对应的人物框出，以实现音视频的混合标注，提高标注结果的精确性。

另外，标注信息输入框中还包括确认和取消控件，用户可以通过选择相应的控件，完成音视频的标注。

可选地，上述步骤S101中，获取通过预设标注界面输入的待标注媒体素材的标注信息，还可包括：获取通过所述预设标注界面上所述至少一个标注区域选择的标签信息。

在一些实施例中，每个标注区对应的标注信息输入框中还可包括标注信息对应的标签选择控件，可通过下拉选择标签信息中的至少一个标签信息获取待标注媒体素材的标注信息。其中，标签信息可包括：语气、动作、表情等多种标注信息。通过选择的标签信息获取标注信息，用户可以不用通过手动输入的方式进行标注，用户的体验度相对较好。

图7为本申请实施例提供的一种媒体素材处理方法的流程示意图，可选地，如图7所示，本申请的方法还可包括：

S601、获取来自多个标注客户端的待标注媒体素材的多个标注信息，每个标注信息对应一个标注客户端。

可选地，在标注完成后，可将用户对应的标注信息，具体可包括：标注区域的起止时间(预设时间范围的起止时间)，用户对时间轴的偏移量，用户对该预设时间范围的标注信息，如对语音的转写，对视频轨道或者音频轨道中人物说话语气和表情的标签选择等等发送至服务器，服务器可以将获取的多个标注客户端发送的标注信息存储至服务器本地，或者是服务器后台数据库中。

在一些实施例中，服务器可以获取多个标注标注客户端的待标注媒体素材的多个标注信息，其中，一个标注标注客户端可对应一个标注信息，一个标注信息中可以包括对待标注媒体素材的多个标注信息的集合。

S602、对多个标注信息分别进行检测。

S603、根据多个标注信息的检测结果，从多个标注信息中确定目标标注信息。

可选地，服务器可根据获取的多个标注客户端的多个标注信息，采用预设的检测方法，对标注信息进行筛选，从中剔除掉不合格的标注结果，获取精确度较高的标注信息，以提高标注信息的可利用性。

如下通过具体实施例，对本申请所采用的验证方法进行详细说明。

图8为本申请实施例提供的另一种媒体素材处理方法的流程示意图，可选地，如图8所示，上述步骤S602中，对多个标注信息分别进行检测，可包括：

S701、对每个标注信息对应的校准时间轴进行检测，得到每个标注信息对应的校准时间轴的检测得分。

S702、对每个标注信息的语句时间段进行检测，得到每个标注信息的语句时间段的检测得分。

S703、根据时间轴的检测得分和语句时间段的检测得分，得到每个标注信息的检测结果，检测结果包括每个标注信息的检测结果得分。

可选地，对标注信息的检测可分为两部分。一部分是对音视频时间轴的校准，另一部分是针对标注需求的处理。标注需求一般有两部分，一部分是对视频轨道的标注，另一部分是对音频轨道的标注。例如给出一段视频，需要标注出其中正在说话的人物的人脸部分及对应声音的语气和情感，此时需要在视频的画面中框出人脸，同时在时间轴上面标记某语音的初始时间点和结束时间点，语音对应的文字信息，最后标记出该语音的语气和情感。为了标注信息的准确性，同时降低人工审核的成本，需要对用户的标注信息进行检验。此处选择两个在多人标注时较有统计意义的项(时间轴校准、语句时间段)进行预验证，对于其他的一些项，可能个人判断会有较大的差别，此处不进行验证。

可选地，上述的标注方法执行主体可以为标注客户端，而本实施例中，对标注信息进行检测时，方法的执行主体可以为服务器。用户通过标注客户端的预设标注界面完成信息标注后，可以将标注信息发送至服务器，服务器可以根据获取的多个标注客户端对同一待标注视频的标注信息、以及预对齐的时间偏移量(第一时间偏移量)，对标注信息对应的校准时间轴时间轴进行检测，得到标注信息对应的校准时间轴的检测得分，其中，校准时间轴即为上述对齐后的视频轨道和音频轨道的时间轴。同时还可根据不同标注客户端的标注信息以及预设时间范围的标注投票序列，对标注信息的语句时间段进行检测，得到标注信息的语句时间段的检测得分。从而可以根据第校准时间轴的检测得分和语句时间段的检测得分，计算用户标注信息的检测结果，其中，检测结果可以以结果得分的形式表示。

可选地，上述步骤S701中，对每个标注信息对应的校准时间轴进行检测，得到每个标注信息对应的校准时间轴的检测得分，可包括：根据多个标注信息对应的校准时间轴，确定校准时间轴的偏移信息；根据偏移信息，对每个标注信息对应的校准时间轴进行检测，得到每个标注信息对应的校准时间轴的检测得分。

在一些实施例中，对校准时间轴进行检测：此时可认为对预对齐时，对时间轴的校准应该服从正态分布，正态分布的中心应为预处理的偏移量(上述存储的第一时间偏移量)。同时所有用户的标注信息也应呈正态分布。假设所有标注客户端之间是相互独立的，所有用户对预设时间范围的待标注媒体素材的标注信息中，时间偏移量应该是相同的，如果预对齐也是正确的，那么预对齐的时间偏移量和用户标注的时间偏移量应该是相同的。但是由于每个用户对应的标注客户端的标注界面的精确度不同，同时不同用户在标注操作上可能存在差异，每个用户的实际标注和期望的结果会有一定的偏差，一般认为这种偏差是随机的，根据中心极限定理，符合正态分布。

可选地，根据所有用户标注的时间偏移量服从正态分布，计算出分布的均值和方差，若存在预对齐的时间偏移量(第一时间偏移量)，则将计算出的均值与第一时间偏移量进行比对，若相差大于预设阈值，则根据上述均值，以及正态分布密度函数，计算每个标注用户标注的时间偏移量的置信度；若相差较小，则以第一时间偏移量作为均值，计算每个标注用户标注的时间偏移量的置信度，将这个置信度设为标注信息对应的校准时间轴的检测得分，也称为标注信息的第一分数。其中，这个置信度就是把任意用户标注的偏移量带入正态分布的概率密度函数中，得到的一个概率值，概率值越接近均值，对应的置信度越大。

可选地，上述步骤S702中，对每个标注信息的语句时间段进行检测，得到每个标注信息的语句时间段的检测得分，可包括：采用预设投票方式，向多个标注客户端发送多个标注信息的投票请求；获取来自多个标注客户端的投票结果；根据投票结果，得到每个标注信息的语句时间段的检测得分。

在另一些实施例中，对语句时间段进行检测(对预设时间范围内标注信息的检测)，可以采用分时采样投票的方式。例如一个视频有10秒的时长，每1秒采样(实际上采样频率会更高，一般在毫秒量级)，如果有用户认为此刻的采样是需要被标注的，则对这1秒的结果加一票。例如，第一个标注客户端对应的用户投票数列是：[0，1，1，1，0，0，0，1，1，0]，第二个标注客户端对应的用户投票数列是：[0，0，1，0，0，1，0，0，0，0]，假设有五个标注客户端，最终五个标注客户端对应的用户投票数列相加的结果是这样一个数列：[0，1，4，2，0，1，0，4，1，0]，假如设定阈值为最终结果为最大值的30％，即4*0.3＝1.2，向上取整，为2，在数列中取出大于等于2的值，设为1，其余为0，得到数列：[0，0，1，1，0，0，0，1，0，0]，设定该数列为合格的标注结果(正确答案)，从例子中可以看到，由于视频长度较长，语句个数较少，会出现0和1的分布不均匀，实际上，0的数量会远大于1，因此计算用户标注结果分数的公式为：

其中，ans_i指的是上述得到的正确答案的数列，user_i指的是任意标注客户端对应的用户投票序列，sample是投票序列的长度，也就是整个采样的长度，score指的是标注结果的第二分数。

公式的含义可以理解为：在同一个时间点，用户的投票等于正确答案数列中，投票等于0的个数，乘上用1减去0在整个正确答案数列的比例，加上在同一个时间点，用户的投票等于正确答案数列中，投票等于1的个数，乘上用1减去1在整个正确答案数列的比例。

故，上述第一个标注客户端对应的分数为(5/7*(1-7/10))+(3/3*(1-3/10))＝0.91，第二个标注客户端对应的分数为(6/7*(1-7/10))+(1/3*(1-3/10))＝0.49。该分数为标注信息的语句时间段的检测得分，也称为标注信息的第二分数。

可选地，上述步骤S703中，根据时间轴的检测得分和语句时间段的检测得分，得到每个标注信息的检测结果，检测结果包括每个标注信息的检测结果得分，包括：根据每个标注信息的检测结果得分、以及预设分数阈值，从多个标注信息中确定目标标注信息。

可选地，可以根据标注信息的第一分数和第二分数，求两个分数的平均值，即可得到任意标注客户端对应的标注信息的检测结果得分，可以根据实际情况设置预设分数阈值对多个标注客户端对应的标注信息进行过滤。例如：当标注客户端对应的标注信息的检测结果得分满足预设分数阈值时，认为为合格的标注信息，而不满足分数阈值的，即为不合格的标注信息，将其剔除。

可选地，通过对不合格的标注信息进行剔除，可以使得存储至服务器中的标注信息均为可信信息，根据该多个可信标注信息，可以进一步地应用于进行视频分类模型训练，或者是虚拟人物渲染等。

综上所述，本申请实施例提供的媒体素材处理方法，包括：在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对待标注媒体素材的标注信息，其中，待标注媒体素材包含视频轨道和音频轨道；根据标注信息，对待标注媒体素材进行标注。本申请提供的方法，可在对待标注媒体素材的视频轨道和音频轨道的时间轴进行对齐后，对视频轨道和音频轨道进行标注，可保证对视频轨道的标注信息与视频内容的匹配性，以有效提高标注结果的准确性。通过对音频轨道以及视频轨道进行混合标注，相比于现有中，单独对视频标注或者单独对音频标注，标注结果可靠性更高，基于标注结果实现虚拟人物渲染，渲染效果更好。

下面对用于执行本申请的媒体素材处理方法的装置、客户端设备、服务器、存储介质进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图9为本申请实施例提供的另一种媒体素材处理装置的示意图，可选地，如图9所示，本申请的媒体素材处理装置可包括：获取模块801、标注模块802；

获取模块801，用于在待标注媒体素材播放的过程中，获取通过预设标注界面输入的针对待标注媒体素材的标注信息，其中，待标注媒体素材包含视频轨道和音频轨道；

标注模块802，用于根据标注信息，对待标注媒体素材进行标注。

可选地，该装置还可包括：对齐模块；

对齐模块，用于将视频轨道和音频轨道的时间轴进行对齐，以获得待标注媒体素材。

可选地，对齐模块，具体用于获取通过预设标注界面输入的视频轨道和音频轨道的时间轴移动操作；响应时间轴移动操作，对视频轨道和视频轨道的时间轴进行对齐。

可选地，对齐模块，还用于对音频轨道和预设音频轨道的时间轴进行对齐，预设音频轨道为与视频轨道的时间轴对齐的音频轨道。

可选地，对齐模块，具体用于检测音频轨道和预设音频轨道中是否均具有语音数据；若音频轨道和预设音频轨道中均有语音数据，则分别对音频轨道和预设音频轨道进行语音转写处理；根据语音转写处理的结果，分别确定音频轨道和预设音频轨道中第一条语音的开始时间；根据音频轨道和预设音频轨道中第一条语音的开始时间，对音频轨道和预设音频轨道的时间轴进行对齐。

可选地，对齐模块，还用于若音频轨道和预设音频轨道中不具有语音数据，则根据音频轨道和预设音频轨道对应波形的振幅，对音频轨道和预设音频轨道的时间轴进行对齐。

可选地，对齐模块，还具体用于根据音频轨道和预设音频轨道对应波形的振幅，计算时间偏移量；根据时间偏移量，对音频轨道和预设音频轨道的时间轴进行对齐。

可选地，该装置还可包括：划分模块、确定模块；

划分模块，用于接收通过预设标注界面上输入的区域划分操作；

确定模块，用于根据区域划分操作确定预设标注界面上至少一个标注区域的起止位置，起止位置根据标注信息确定，每个标注区域对应不同的标注信息。

可选地，获取模块801，具体用于获取通过预设标注界面上至少一个标注区域输入的标注信息。

可选地，获取模块801，具体用于获取通过预设标注界面上至少一个标注区域选择的标签信息。

可选地，标注信息包括如下至少一种信息：待标注媒体素材对应的语音转写文字、人物动作、人物语气、人物表情。

图10为本申请实施例提供的另一种媒体素材处理装置的示意图，可选地，如图10所示，该媒体素材处理装置，可包括：获取模块901、检测模块902、确定模块903；

获取模块901，用于获取来自多个标注客户端的待标注媒体素材的多个标注信息，每个标注信息对应一个标注客户端；

检测模块902，用于对多个标注信息分别进行检测；

确定模块903，用于根据多个标注信息的检测结果，从多个标注信息中确定目标标注信息。

可选地，检测模块902，具体用于对每个标注信息对应的校准时间轴进行检测，得到每个标注信息对应的校准时间轴的检测得分；对每个标注信息的语句时间段进行检测，得到每个标注信息的语句时间段的检测得分；根据时间轴的检测得分和语句时间段的检测得分，得到每个标注信息的检测结果，检测结果包括每个标注信息的检测结果得分。

可选地，检测模块902，具体用于根据多个标注信息对应的校准时间轴，确定校准时间轴的偏移信息；根据偏移信息，对每个标注信息对应的校准时间轴进行检测，得到每个标注信息对应的校准时间轴的检测得分。

可选地，检测模块902，具体用于采用预设投票方式，向多个标注客户端发送多个标注信息的投票请求；获取来自多个标注客户端的投票结果；根据投票结果，得到每个标注信息的语句时间段的检测得分。

可选地，确定模块903，具体用于根据每个标注信息的检测结果得分、以及预设分数阈值，从多个标注信息中确定目标标注信息。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图11为本申请实施例提供的一种客户端设备的结构示意图，该设备可以是具备标注界面的客户端设备。

该设备可包括：处理器1001、存储器1002。

存储器1002用于存储程序，处理器1001调用存储器1002存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

图12为本申请实施例提供的一种服务器的结构示意图，该服务器可以与图11中的客户端设备进行通信的服务器。

该服务器可包括：处理器1101、存储器1102。

存储器1102用于存储程序，处理器1101调用存储器1102存储的程序，以执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本发明还提供一种程序产品，例如计算机可读存储介质，包括程序，该程序在被处理器执行时用于执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种媒体素材处理方法，其特征在于，所述方法包括：

根据所述标注信息，对所述待标注媒体素材进行标注；

其中，在对所述待标注媒体素材进行标注之前，所述方法包括：

将所述视频轨道和所述音频轨道的时间轴进行对齐，以获得所述待标注媒体素材；

其中，所述将所述视频轨道和所述音频轨道的时间轴进行对齐，包括：

对所述音频轨道和预设音频轨道的时间轴进行对齐，所述预设音频轨道为与所述视频轨道的时间轴对齐的音频轨道；

其中，对所述音频轨道和预设音频轨道的时间轴进行对齐，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述视频轨道和所述音频轨道的时间轴进行对齐，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述音频轨道和预设音频轨道的时间轴进行对齐，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述音频轨道和所述预设音频轨道对应波形的振幅，对所述音频轨道和所述预设音频轨道的时间轴进行对齐，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取通过预设标注界面输入的所述待标注媒体素材的标注信息之前，所述方法还包括：

接收通过所述预设标注界面上输入的区域划分操作；

6.根据权利要求5所述的方法，其特征在于，所述获取通过预设标注界面输入的所述待标注媒体素材的标注信息，包括：

7.根据权利要求5所述的方法，其特征在于，所述获取通过预设标注界面输入的所述待标注媒体素材的标注信息，包括：

8.根据权利要求1-7中任一所述的方法，其特征在于，所述标注信息包括如下至少一种信息：所述待标注媒体素材对应的语音转写文字、人物动作、人物语气、人物表情。

9.一种媒体素材处理装置，其特征在于，所述装置包括：获取模块、标注模块；

所述标注模块，用于根据所述标注信息，对所述待标注媒体素材进行标注；

对齐模块，用于将所述视频轨道和所述音频轨道的时间轴进行对齐，以获得所述待标注媒体素材；

所述对齐模块，具体用于对所述音频轨道和预设音频轨道的时间轴进行对齐，所述预设音频轨道为与所述视频轨道的时间轴对齐的音频轨道；

所述对齐模块，还具体用于检测所述音频轨道和所述预设音频轨道中是否均具有语音数据；若所述音频轨道和所述预设音频轨道中均有语音数据，则分别对所述音频轨道和所述预设音频轨道进行语音转写处理；根据所述语音转写处理的结果，分别确定所述音频轨道和所述预设音频轨道中第一条语音的开始时间；根据所述音频轨道和所述预设音频轨道中第一条语音的开始时间，对所述音频轨道和所述预设音频轨道的时间轴进行对齐。

10.一种客户端设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当客户端设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如权利要求1至8任一所述的媒体素材处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一所述的媒体素材处理方法的步骤。