CN113377326B

CN113377326B - 一种音频数据处理方法、装置、终端及存储介质

Info

Publication number: CN113377326B
Application number: CN202110639239.3A
Authority: CN
Inventors: 黄永杰
Original assignee: Guangzhou Boguan Information Technology Co Ltd
Current assignee: Guangzhou Boguan Information Technology Co Ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-02-03
Anticipated expiration: 2041-06-08
Also published as: CN113377326A

Abstract

本申请公开了一种音频数据处理方法、装置、终端及存储介质。该音频数据处理方法包括：获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；确定所述目标音频数据中包含声音的至少一条目标音轨；获取所述目标音频数据中各目标音轨的音轨标记；确定各目标音轨对应的录制对象，获取录制对象的对象信息；在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。本方案可以让用户在播放标记后音频数据的过程中，实时知道当前发声的对象，减少人工标记的工作量。

Description

一种音频数据处理方法、装置、终端及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种音频数据处理方法、装置、终端及存储介质。

背景技术

在音频类软件的播放过程中，由于没有画面，用户无法识别到当前发声的对象。比如，在一些音频播放工具类软件的播放过程中，如果错过了人物介绍环节，则用户无法感知到当前发声的人是谁。用户的解决方案是倒回去重新听人物介绍的部分，或保持困惑继续听下去，慢慢了解，不可以使用户实时知道当前发声的人以及快速建立起对音频内容的全局感受。再比如，在一些音乐类软件中，传统的解决方案是通过制作歌词来体现当前发声对象的信息，但歌词的录入、校对是非常麻烦的。

因此，如何让用户对音频内容有更加直观的了解，成为本领域技术人员亟待解决的技术问题。

发明内容

本申请实施例提供一种音频数据处理方法、装置、终端及存储介质，可以让用户在播放音频的过程中，实时知道当前发声的对象，减少人工标记的工作量。

本申请实施例提供一种音频数据处理方法，包括：获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；确定所述目标音频数据中包含声音的至少一条目标音轨；获取所述目标音频数据中各目标音轨的音轨标记；确定各目标音轨对应的录制对象，获取录制对象的对象信息；在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。

在一个可选的实施例中，在所述获取所述目标音频数据中各目标音轨的音轨标记之前，还包括：

基于各目标音轨中出现声音的部分对各目标音轨进行标记。

在一个可选的实施例中，所述基于各目标音轨中出现声音的部分对各目标音轨进行标记，包括：

对所述目标音频数据进行音轨分析，得到所述目标音频数据的所有音轨；

识别所述音轨中包含声音的至少一条目标音轨；

接收对目标音轨的标记设置指令，所述标记设置指令中包含每条目标音轨的音轨标记；

基于所述标记设置指令，在所述目标音频数据中为目标音轨设置对应的音轨标记。

在一个可选的实施例中，所述目标音轨中包括至少一个出现声音的部分，所述基于各目标音轨中出现声音的部分对各目标音轨进行标记，包括：

对所述目标音轨中出现声音的各部分分别设置对应的音轨标记。

在录制所述目标音频数据时，对所述目标音轨中出现声音的部分设置对应的音轨标记。

在一个可选的实施例中，所述获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象，包括：

通过音频录制装置采集从至少一个录制对象输出的声音，其中，不同的音频录制装置接入不同的通道；

将每一个音频录制装置所采集的声音作为音频数据分量，基于所述音频数据分量合成所述目标音频数据。

在一个可选的实施例中，所述基于各目标音轨对应的对象信息，在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据，包括：

确定各目标音轨中的声音时间段；

基于各目标音轨对应的对象信息，在所述目标音频数据中设置各目标音轨的音轨标记、声音时间段以及对象信息的对应关系，得到标记后音频数据，所述对应关系用于播放所述目标音频数据时，在目标音轨的声音时间段显示目标音轨对应的对象信息。

本申请实施例还提供一种音频标记显示方法，包括：获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系；识别所述标记后音频数据中所包含的目标音轨的音轨标记；基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示。

在一个可选的实施例中，所述基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示，包括：

确定所述目标音轨中当前播放声音的第一目标音轨；

基于所述第一目标音轨的音轨标记以及所述对应关系，获取所述第一目标音轨的录制对象的目标对象信息；

显示所述目标对象信息，直到所述第一目标音轨停止播放声音。

基于所述目标音轨的音轨标记，以及所述对应关系，获取所述目标音轨的录制对象的对象信息；

基于所述标记后音频数据获取各个目标音轨中的声音时间段，基于所述声音时间段确定所述标记后音频数据中各录制对象的声音播放时间段；

在播放页面中显示标记后音频数据的播放进度条，确定各录制对象的声音播放时间段在所述播放进度条的位置；

在所述播放页面中，在各所述位置上显示对应的录制对象的对象信息。

在一个可选的实施例中，所述对应关系包括：各目标音轨的音轨标记、声音时间段以及对象信息的对应关系；

所述基于所述标记后音频数据获取各个目标音轨中的声音时间段，包括：

从所述标记后音频数据的所述对应关系中，获取各目标音轨的声音时间段。

在播放页面中显示所述标记后音频数据的播放进度条，确定所述播放进度条的各个调整时刻对应的目标音轨的音轨标记；

在调整所述播放进度条时，显示所述播放进度条的当前调整时刻所对应音轨标记对应的对象信息。

将所有录制对象的对象信息确定为目标对象信息，在播放页面中显示所述目标对象信息；

识别当前播放声音的第二目标音轨，在所述播放页面中突出显示所述第二目标音轨对应的目标对象信息。

在一个可选的实施例中，在所述基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示后，包括：

响应于所述目标音轨的音轨标记对应的对象信息上的触控操作，确定所述触控操作所操作的目标对象信息对应的录制对象；

获取所述录制对象的对象描述信息，显示所述对象描述信息。

本申请实施例还提供一种音频数据处理装置，该音频数据处理装置包括：

第一获取单元，用于获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；

第一确定单元，用于确定所述目标音频数据中包含声音的至少一条目标音轨；

第二获取单元，用于获取所述目标音频数据中各目标音轨的音轨标记；

第二确定单元，用于确定各目标音轨对应的录制对象，获取录制对象的对象信息；

标记单元，用于在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。

本申请实施例还提供一种音频标记显示装置，包括：

获取单元，用于获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系；

识别单元，用于识别所述标记后音频数据中所包含的目标音轨的音轨标记；

显示单元，用于基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示。

本申请实施例还提供了一种终端，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如上述音频数据处理方法或音频标记显示方法的步骤。

本申请实施例还提供了一种存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述音频数据处理方法或音频标记显示方法的步骤。

本申请实施例提供了一种音频数据处理方法、装置、终端及存储介质，通过本实施例的方法，可以获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；确定所述目标音频数据中包含声音的至少一条目标音轨；获取所述目标音频数据中各目标音轨的音轨标记；确定各目标音轨对应的录制对象，获取录制对象的对象信息；在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。由此，本申请可以让用户在播放标记后音频数据的过程中，实时知道当前发声的对象，减少人工标记的工作量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频数据处理方法的场景示意图；

图2是本申请实施例提供的一种音频标记显示方法的流程图；

图3是本申请实施例提供的一种显示目标对象信息的示意图；

图4是本申请实施例提供的另一种显示目标对象信息的示意图；

图5是本申请实施例提供的另一种显示目标对象信息的示意图；

图6是本申请实施例提供的另一种音频数据从处理到播放的流程示意图；

图7是本申请实施例提供的一种音频数据处理装置的结构示意图；

图8是本申请实施例提供的一种音频标记显示装置的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频数据处理方法、装置、终端及存储介质。具体地，本实施例提供适用于音频数据处理装置的音频数据处理方法，该音频数据处理装置可以集成在计算机设备中。

该计算机设备可以为终端等设备，例如可以为手机、平板电脑、笔记本电脑、台式电脑等。该计算机设备还可以为服务器等设备，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

本申请实施例中，一种音频数据处理方法，包括：获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；确定所述目标音频数据中包含声音的至少一条目标音轨；获取所述目标音频数据中各目标音轨的音轨标记；确定各目标音轨对应的录制对象，获取录制对象的对象信息；在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例将从音频数据处理装置的角度进行描述，该音频数据处理装置具体可以集成在计算机设备中。

本申请实施例提供了一种音频数据处理方法，如图1所示，该音频数据处理方法的流程可以如下：

101、获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象。

本申请实施例中，终端可以是一种具有录制功能的终端设备，在终端开启录制功能后，采集至少一个录制对象的声音，作为本申请的目标音频数据，其中，录制对象的声音可以是人声，也可以是录制对象播放的音乐等。

其中，可以通过音频录制装置进行声音录制，例如麦克风，通过麦克风采集至少一个录制对象的声音，由于不同的麦克风接入的通道不同，可以将每一个麦克风采集的声音作为音频数据分量，至少一个音频数据分量合成本申请的目标音频数据。其中，音频录制装置也可以是MIDI(乐器数字接口)等。

可选的，也可以不使用音频录制装置进行采集，直接获取已经录制好的音频文件，且音频文件中的声音来自于至少一个录制对象，作为本申请的目标音频数据。

102、确定所述目标音频数据中包含声音的至少一条目标音轨。

本申请实施例中，目标音频数据中具有包含声音的至少一条目标音轨，在目标音频数据中确定包含声音的目标音轨。例如，通过麦克风分轨录制声音，输出带有不同目标音轨的目标音频数据，每个录制对象对应不同的目标音轨。

103、获取所述目标音频数据中各目标音轨的音轨标记。

本申请实施例中，在确定目标音频数据中包含声音的至少一条目标音轨后，终端获取各目标音轨的音轨标记。

可选的，目标音轨的音轨标记在录制对象进行录制时已经自动带上，可以直接获取目标音频数据中各目标音轨的音轨标记。

可选的，终端在获取目标音频数据后，基于目标音轨中出现声音的部分对各目标音轨进行标记，以获取各目标音轨的音轨标记。通过对目标音频数据进行音轨分析，得到目标音频数据中的所有音轨。终端识别音轨中包含声音的至少一条目标音轨后，需要对各个目标音频进行标记，终端接收对目标音轨的标记设置指令，该标记设置指令中包含每条目标音轨的音轨标记，基于该标记设置指令，终端在获取的目标音频数据中为每个目标音轨设置对应的音轨标记。

其中，一条目标音轨中包括至少一个出现声音的部分，对该目标音轨中出现声音的各部分分别设置对应的音轨标记。例如，一条音轨可能有包括声音的一个或多个部分和相对静音的一个或多个部分(可通过设置分贝阈值和/或时长阈值来区分)，其中对包括声音的一个或多个部分进行标记，也就是说，一个目标音轨可以包括一个或多个音轨标记。例如，在一个录制对象对应的目标音轨中，有包括声音的三个部分，其中两个部分是录制对象的人声，对应一音轨标记，另一部分为录制对象播放的音乐，对应另一音轨标记。

其中，音轨标记的可以设置为例如T1，T2，T3等，也可以用户自定义设置，本申请对音轨标记的设置形式不作限制，每一个目标音轨设置不同的音轨标记。如果一个目标音轨包括多个音轨标记，设置的音轨标记也不同。

104、确定各目标音轨对应的录制对象，获取录制对象的对象信息。

本申请实施例中，在对各个目标音轨完成音轨标记之后，需要确定每个目标音轨对应的录制对象，并获取录制对象的对象信息。例如，如果通过麦克风进行录制时，每一个麦克风分别对应一个录制对象，不同的麦克风接入不同的通道，即每一个麦克风分别对应一个音轨，可以通过不同的麦克风确定各个目标音轨对应的录制对象。其中，录制对象的对象信息可以是录制对象的头像、昵称等等。

105、在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。

本申请实施例中，终端在设置各个目标音轨的音轨标记和获取录制对象的对象信息后，基于各个目标音轨对应的对象信息，在目标音频数据中设置各个目标音轨的音轨标记和对象信息的对应关系。可以在终端存储目标音频数据的区域，设置一模块用于存储音轨标记与对象信息的对应关系，输出该目标音频数据和对应关系模块，得到标记后音频数据。在播放目标音频数据时，从对应关系模块中获取对应关系，该对应关系用于播放目标音频数据时，显示出现声音的目标音轨所对应的对象信息。

其中，以各个目标音轨只设置有一个音轨标记为例，设获取的目标音频数据中包括3条目标音轨，则3条目标音轨上分别对应设置的音轨标记为T1、T2、T3。获取各目标音轨对应的录制对象的对象信息，设目标音轨T1对应的录制对象为A，录制对象A的对象信息为A1，目标音轨T2对应的录制对象为B，录制对象B的对象信息为B1，目标音轨T3对应的录制对象为C，录制对象C的对象信息为C1；则设置音轨标记与对象信息的对应关系为：音轨标记T1对应于对象信息A1，音轨标记T2对应于对象信息B1，音轨标记T3对应于对象信息C1。将上述设置好的对应关系存储在终端内，在播放目标音频数据时，显示出现声音的目标音轨所对应的录制对象的对象信息；例如，在播放到目标音轨T1的声音部分时，显示T1对应的对象信息A1。可以理解的是，由于上述是以目标音轨只设置有一个音轨标记为例，则可以认为对目标音轨1设置音轨标记T，也即目标音轨1为目标音轨T。

可选的，如果目标音轨上设置有多个音轨标记，例如，获取两条目标音轨，目标音轨1中出现人声的部分设置音轨标记H11，出现播放音乐的部分设置音轨标记H12；目标音轨2中出现人声的部分设置音轨标记D11，出现播放音乐的部分设置音轨标记D12。获取各目标音轨对应的录制对象的对象信息，设目标音轨1中人声对应的录制对象为a，录制对象a的对象信息为a11，音乐声对应的对象信息为a12；目标音轨2中人声对应的录制对象为b，录制对象b的对象信息为b11，音乐声的对象信息为b12；则设置音轨标记与对象信息的对应关系为：音轨标记H11对应于对象信息a11，音轨标记H12对应于对象信息a12，音轨标记D11对应于对象信息b11，音轨标记D12对应于对象信息b12。将上述设置好的对应关系存储在终端内，在播放目标音频数据时，显示出现声音部分对应的音轨标记所对应的对象信息；例如，在播放到目标音轨1中的音乐声时，显示音乐部分的音轨标记H12所对应的对象信息a12。

可选的，在确定目标音频数据的目标音轨后，确定各目标音轨中的声音时间段。基于各目标音轨对应的对象信息，在目标音频数据中设置各目标音轨的音轨标记、声音时间段以及对象信息的对应关系，得到标记后音频数据。该对应关系用于播放目标音频数据时，在目标音轨的声音时间段显示目标音轨对应的对象信息。其中，由于在整个目标音轨中，不一定全都出现声音，可能在有时间段是没有声音的，因而声音时间段是指在目标音轨中出现声音的时间段。

其中，可以理解的是，在本申请实施例中，每一个目标音轨对应的总长度是相同的，在同一个播放时刻，出现声音的目标音轨可以是一个，也可以是一个以上。例如，在播放音频数据时，如果只识别出一个目标音轨出现声音，显示对应的对象信息；如果识别出一个以上的目标音轨出现声音，显示一个以上的对应的对象信息，其中，识别出一个以上的目标音轨出现声音的情况可以是：在录制音频数据时，录制对象进行合唱；或者一个以上的录制对象同时说话或播放音乐。

在获取到标记后音频数据后，本申请实施例还提供一种音频标记显示方法。具体地，本实施例提供一种适用于音频标记显示装置的音频标记显示方法，该音频标记显示装置可以集成在计算机设备中。该计算机设备可以为终端等设备，例如可以为手机、平板电脑、笔记本电脑、台式电脑等。

本申请实施例中，一种音频标记显示方法，包括：获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系；识别所述标记后音频数据中所包含的目标音轨的音轨标记；基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示。

本申请实施例将从音频标记显示装置的角度进行描述，该音频标记显示装置具体可以集成在计算机设备中。

本申请实施例提供了一种音频标记显示方法，如图2所示，该音频标记显示方法的流程可以如下：

201、获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系。

本申请实施例的终端具备播放音频的功能，在播放音频的过程中生成一播放页面，例如一种播放器。首先获取标记后音频数据，通过上述的音频数据处理方法得到的标记后音频数据，可被上传至终端(例如播放器)后台。其中，标记后音频数据中的声音来自于至少一个录制对象，标记后音频数据包含与至少一个录制对象对应的目标音轨，在标记后音频数据中，设置有目标音轨的音轨标记和录制对象的对象信息的对应关系。

202、识别所述标记后音频数据中所包含的目标音轨的音轨标记。

本申请实施例中，终端接收用户的播放开启指令，响应于用户在播放页面上的对播放控件的触控操作，终端开始播放标记后音频数据，在终端播放标记后音频数据的过程中，首先识别标记后音频数据中所包含的目标音轨的音轨标记。

203、基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示。

本申请实施例中，在终端识别目标音轨的音轨标记后，在终端的播放页面中，选择与目标音轨的音轨标记对应的对象信息进行显示。其中，可以从音轨标记所对应的对象信息中选择目标对象信息进行显示，目标对象信息中包括当前播放声音的目标音轨对应的对象信息。可以理解的是，在播放标记后音频数据的过程中，可以在播放页面中显示所有目标音轨对应的对象信息，也可以只显示当前播放声音的目标音轨对应的对象信息。

其中，终端在播放标记后音频数据的过程中，确定目标音轨中当前播放声音对应的第一目标音轨；基于第一目标音轨的音轨标记以及音轨标记和对象信息的对应关系，获取第一目标音轨对应的录制对象的目标对象信息；在播放页面上，显示该目标对象信息，直到第一目标音轨停止播放声音，其中，本申请对显示该目标对象信息的位置不作限制。其中，在播放标记后音频数据的过程中，终端会产生一播放进度，播放进度可以通过播放进度条的形式在播放页面中显示，也可以直接在后台中存储该播放进度，不用在播放页面中显示出来。可以理解的是，播放进度一般是以播放进度条的形式在播放页面中显示，但是也可能以其他的形式在播放页面中显示，本申请对此不作限制。

请参阅图3，图3为本申请实施例提供的一种显示目标对象信息的示意图。如图3所示，以终端在播放标记后音频数据的过程中，会在终端的播放页面301显示播放进度条302为例。终端响应于用户对播放控件305中的播放开始控件的触控操作，开始播放选择的音频数据，其中，播放进度条302的阴影区域为已经播放过的音频数据表示在播放进度条302中的部分，在当前播放人声对应的播放进度条位置303处，显示对应的录制对象A的对象信息304。其中，录制对象的对象信息也可以不显示在当前播放人声对应的进度条位置处，可以显示在播放页面301上的任意位置，本申请对此不作限制。在图3中，在播放页面301的底部中间设置有播放控件305，播放控件305包括播放开始控件和切换控件，通过用户对播放开始控件的触控操作，可以播放或暂停选择的音频数据，通过用户对切换控件的触控操作，可以前后切换当前要播放的音频数据；其中，触控操作可以包括点击、滑动等等，且图3中的播放控件305的位置和形式仅为示例，也可以在播放页面中的其他位置或以其他的形式显示，本申请对此不作限制。

其中，在终端播放标记后音频数据的过程中，基于目标音轨的音轨标记，以及音轨标记和对象信息的对应关系，获取目标音轨的录制对象的对象信息。终端基于标记后音频数据获取各个目标音轨中的声音时间段，基于声音时间段确定标记后音频数据中的各录制对象的声音播放时间段，即在终端侧实时识别，以确定目标音轨中的声音时间段。然后，在播放页面中显示标记后音频数据的播放进度条，确定各录制对象的人声播放时间段在播放进度条的位置，并在播放页面中，在各对应位置上显示对应的录制对象的对象信息。如图4所示，图4为本申请实施例提供的另一种显示目标对象信息的示意图。请参阅图4，在播放标记后音频的过程中，显示播放页面301，并在播放进度条302上的显示区域显示所有录制对象的对象信息；其中，设本次播放的标记后音频有两个录制对象B和C，分别确定录制对象B的人声播放时间段在播放进度条的位置401和录制对象C的人声播放时间段在播放进度条的位置402，在播放进度条的位置401处一直显示录制对象B的对象信息403，在播放进度条的位置402处一直显示录制对象C的对象信息404。在播放标记后音频数据的过程中，用户可以知道所有录制对象的对象信息，可以根据自身需求拖动进度条选择感兴趣的录制对象，并开始直接播放该录制对象对应的人声时间段。其中，图4中的录制对象个数仅为示例，至少有一个录制对象即可，本申请对录制对象的具体个数不作限制。

其中，无论是在播放还是暂停时，用户在对进度条进行调整时，显示播放进度条的当前调整时刻所对应音轨标记对应的对象信息，可以预览到播放进度条的某个时刻上的音轨标记所对应的对象信息。

可选的，如图4所示的在播放页面301中显示所有录制对象的对象信息可以包括两种情况：一种是在用户选择想要播放的音频后，响应于用户对播放控件305的触控操作，终端开始播放音频后，在播放页面中的播放进度条的各对应位置上显示对应的录制对象的对象信息；另一种是在响应于用户选择音频的操作后，终端还没有开始播放该音频，由于该音频已经在后台加载，终端开始识别，以确定目标音轨中的声音时间段，然后，在播放页面中的播放进度条的各对应位置上显示对应的录制对象的对象信息。

可选的，在标记后的音频数据中，包括两种对应关系，第一种对应关系是只有音轨标记和对象信息的对应关系，第二种对应关系包括各目标音轨的音轨标记、声音时间段以及对象信息的对应关系。如果终端获取的标记后音频数据中，所包含的对应关系是第二种，则终端从标记后音频数据中的对应关系，获取各个目标音轨中的声音时间段。并基于声音时间段确定标记后音频数据中的各录制对象的声音播放时间段，然后，在播放页面中显示标记后音频数据的播放进度条，确定各录制对象的声音播放时间段在播放进度条的位置，并在播放页面中，在各对应位置上显示对应的录制对象的对象信息。

可选的，可以将所有录制对象的对象信息确定为目标对象信息，在播放页面中显示目标对象信息，即显示所有录制对象的对象信息。识别当前播放声音的第二目标音轨，在播放页面中突出显示第二目标音轨对应的目标对象信息，其中，本申请对突出显示的方法的不作限制，可以是放大头像，加黑昵称字体等等。其中，如果在播放音频时，播放页面会显示播放进度条，可以在播放进度条的显示区域中，显示播放进度条对应的各个播放声音时间段所对应的各个对象信息，也可以在播放页面的任意位置显示播放进度条对应的各个播放声音时间段所对应的各个对象信息，然后，识别当前播放声音的目标音轨，在播放页面中突出显示该目标音轨对应的目标对象信息。如果在播放音频时，播放页面不显示播放进度条，则也可以在播放页面的任意位置显示播放进度对应的各个播放声音时间段所对应的各个对象信息，然后，突出显示当前播放声音的目标音轨对应的目标对象信息。

如图5所示，图5为本申请实施例中提供的另一种显示目标对象信息的示意图，请参阅图5，以在播放页面301中显示播放进度条302为例，在各个目标音轨的音轨标记的对应位置显示对应的对象信息，将当前播放人声对应的对象信息进行放大显示；其中，本次播放的标记后音频数据包括录制对象D、E和F，在播放页面中已显示了录制对象D、E和F对应的对象信息504、505和506，由此时的播放进度条302可知，当前播放进度条处于进度条区域502内，终端识别当前播放人声的第二目标音轨，显示第二目标音轨对应的对象信息，即识别出当前播放人声对应的音轨所对应的是录制对象E，将录制对象E的对象信息放大显示。

本申请实施例中，由于播放页面有尺寸限制，在播放页面上显示的对象信息可以是录制对象的简单信息(如昵称、头像等)。当用户想要进一步了解该录制对象时，响应于用户在目标对象信息上的触控操作，例如点击、滑动等操作，确定触控操作所操作的目标对象信息对应的录制对象，获取该录制对象的对象描述信息，显示所述对象描述信息，其中，对象描述信息即为该录制对象的详细介绍信息，例如录制对象的作品、年龄、工作经历等等。其中，获取的该录制对象的对象描述信息可以在播放页面上显示，也可以创建一新的页面，用于显示该录制对象的对象描述信息。

请参阅图6，图6为本申请实施例提供的一种音频数据从处理到播放的流程图。如图6所示，终端在获取到目标音频数据后，对目标音频数据中的音轨进行音轨识别，识别出两个包含人声的目标音轨，对这两个目标音轨进行音轨标记，设置音轨标记为T1和T2，即目标音轨1对应的音轨标记为T1，目标音轨2对应的音轨标记为T2，输出带有音轨标记的音频数据文件。确定目标音轨1和目标音轨2的录制对象，获取录制对象的对象信息，基于目标音轨1和2对应的对象信息，在目标音频数据中设置目标音轨1和2的音轨标记T1和T2和对象信息的对应关系，得到标记后音频数据并输出。上述的过程即为音频数据的录制与剪辑阶段，经过录制阶段与剪辑阶段的音频数据即为标记后的音频数据，标记后的音频数据可以上传至具有播放音频功能的终端进行播放。将标记后音频数据上传至播放装置后台，在播放标记后音频数据的过程中，识别出现人声时对应的目标音轨，在播放页面显示出现人声的目标音轨对应的对象信息。设目标音轨1的录制对象为G，图6中，此时播放页面上显示的是录制对象G的对象信息，表示当前播放进度对应的是录制对象G的人声。因此，本申请实施例可以通过上述对音频数据的标记处理，在播放标记后音频数据的过程中，让用户可以实时知道当前发声的对象及当前发声的对象的信息，让音频实现“可视化”；并且通过音轨识别，不用进行人工校对，提高了显示精度和减少了人工标记的工作量。

为了更好地实施以上方法，相应的，本申请实施例还提供一种音频数据处理装置，该音频数据处理装置具体可以集成在终端中，例如以客户端的形式集成在终端中。

参考图7，该音频数据处理装置包括第一获取单元701、第一确定单元702、第二获取单元703、第二确定单元704和标记单元705：

第一获取单元701，用于获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；

第一确定单元702，用于确定所述目标音频数据中包含声音的至少一条目标音轨；

第二获取单元703，用于获取所述目标音频数据中各目标音轨的音轨标记；

第二确定单元704，用于确定各目标音轨对应的录制对象，获取录制对象的对象信息；

标记单元705，用于在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。

在一个可选的实施例中，所述第二获取单元703，还包括：

基于各目标音轨中出现声音的部分对各目标音轨进行标记。

在一个可选的实施例中，所述第二获取单元703，还包括：

识别所述音轨中包含声音的至少一条目标音轨；

在一个可选的实施例中，所述目标音轨中包括至少一个出现声音的部分，所述第二获取单元703，还包括：

在一个可选的实施例中，所述第二获取单元703，还包括：

在一个可选的实施例中，所述第一获取单元701，还包括：

在一个可选的实施例中，所述标记单元705，还包括：

确定各目标音轨中的声音时间段；

为了更好地实施以上方法，相应的，本申请实施例还提供一种音频标记显示装置，该音频标记显示装置具体可以集成在终端中。

参考图8，该音频数据处理装置包括获取单元801、识别单元802、显示单元803：

获取单元801，用于获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系；

识别单元802，用于识别所述标记后音频数据中所包含的目标音轨的音轨标记；

显示单元803，用于基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示。

在一个可选的实施例中，所述显示单元803，还包括：

确定所述目标音轨中当前播放声音的第一目标音轨；

在一个可选的实施例中，所述显示单元803，还包括：

所述显示单元803，还包括：

在一个可选的实施例中，所述显示单元803，还包括：

相应的，本申请实施例还提供一种终端，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(PersonalDigital Assistant，PDA)等终端设备。如图9所示，图9为本申请实施例提供的终端的结构示意图。该终端900包括有一个或者一个以上处理核心的处理器901、有一个或一个以上计算机可读存储介质的存储器902及存储在存储器902上并可在处理器上运行的计算机程序。其中，处理器901与存储器902电性连接。本领域技术人员可以理解，图9中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器901是终端900的控制中心，利用各种接口和线路连接整个终端900的各个部分，通过运行或加载存储在存储器902内的软件程序和/或模块，以及调用存储在存储器902内的数据，执行终端900的各种功能和处理数据，从而对终端900进行整体监控。

在本申请实施例中，终端900中的处理器901会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器902中，并由处理器901来运行存储在存储器902中的应用程序，从而实现各种功能：

获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；确定所述目标音频数据中包含声音的至少一条目标音轨；获取所述目标音频数据中各目标音轨的音轨标记；确定各目标音轨对应的录制对象，获取录制对象的对象信息；在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。或，

获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系；识别所述标记后音频数据中所包含的目标音轨的音轨标记；基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图9所示，终端900还包括：触控显示屏903、射频电路904、音频电路905、输入单元906以及电源907。其中，处理器901分别与触控显示屏903、射频电路904、音频电路905、输入单元906以及电源907电性连接。本领域技术人员可以理解，图9中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏903可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏903可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器901，并能接收处理器901发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器901以确定触摸事件的类型，随后处理器901根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏903而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏903也可以作为输入单元906的一部分实现输入功能。本申请实施例中，触控显示屏903可用于显示播放页面。

射频电路904可用于收发射频信号，以通过无线通信与网络设备或其他终端建立无线通讯，与网络设备或其他终端之间收发信号。

音频电路905可以用于通过扬声器、传声器提供用户与终端之间的音频接口。音频电路905可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路905接收后转换为音频数据，再将音频数据输出处理器901处理后，经射频电路904以发送给比如另一终端，或者将音频数据输出至存储器902以便进一步处理。音频电路905还可能包括耳塞插孔，以提供外设耳机与终端的通信。

输入单元906可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源907用于给终端900的各个部件供电。可选的，电源907可以通过电源管理系统与处理器901逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源907还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图9中未示出，终端900还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的终端，可以：获取目标音频数据，所述目标音频数据中的声音来自于至少一个录制对象；确定所述目标音频数据中包含声音的至少一条目标音轨；获取所述目标音频数据中各目标音轨的音轨标记；确定各目标音轨对应的录制对象，获取录制对象的对象信息；在目标音频数据中设置各目标音轨的音轨标记与各目标音轨对应的录制对象的对象信息之间的对应关系，得到标记后音频数据。或，

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种音频数据处理方法中或音频标记显示方法的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种音频数据处理方法中或音频标记显示方法的步骤，因此，可以实现本申请实施例所提供的任一种音频数据处理方法或音频标记显示方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频数据处理方法、装置、终端及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频标记显示方法，其特征在于，包括：

获取标记后音频数据，其中，所述标记后音频数据中的声音来自于至少一个录制对象，所述标记后音频数据包含与至少一个录制对象对应的目标音轨，所述标记后音频数据中设置有所述目标音轨的音轨标记与所述录制对象的对象信息之间的对应关系；

识别所述标记后音频数据中所包含的所有目标音轨的音轨标记；

在终端播放所述标记后音频数据的过程中，基于所有目标音轨的音轨标记，从所述对应关系中选择与所有目标音轨的音轨标记对应的所有录制对象的对象信息；

2.根据权利要求1所述的音频标记显示方法，其特征在于，所述基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示，包括：

确定所述目标音轨中当前播放声音的第一目标音轨；

3.根据权利要求2所述的音频标记显示方法，其特征在于，所述基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示，包括：

在播放页面中显示所述标记后音频数据的播放进度条，确定各录制对象的声音播放时间段在所述播放进度条的位置；

4.根据权利要求3所述的音频标记显示方法，其特征在于，所述对应关系包括：各目标音轨的音轨标记、声音时间段以及对象信息的对应关系；

5.根据权利要求1所述的音频标记显示方法，其特征在于，所述基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示，包括：

6.根据权利要求1所述的音频标记显示方法，其特征在于，在所述基于所述目标音轨的音轨标记，从所述对应关系中选择与所述目标音轨的音轨标记对应的对象信息进行显示后，包括：

7.一种音频标记显示装置，其特征在于，包括：

识别单元，用于识别所述标记后音频数据中所包含的所有目标音轨的音轨标记；

显示单元，用于在终端播放所述标记后音频数据的过程中，基于所述目标音轨的音轨标记，从所述对应关系中选择与所有目标音轨的音轨标记对应的所有录制对象的对象信息进行显示；

所述显示单元还用于将所有录制对象的对象信息确定为目标对象信息，在播放页面中显示所述目标对象信息；识别当前播放声音的第二目标音轨，在所述播放页面中突出显示所述第二目标音轨对应的目标对象信息。

8.一种终端，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述音频标记显示方法。

9.一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述音频标记显示方法。