CN112287129A

CN112287129A - 音频数据的处理方法、装置及电子设备

Info

Publication number: CN112287129A
Application number: CN201910619886.0A
Authority: CN
Inventors: 贾锦杰; 廖多依
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-01-29
Also published as: WO2021004362A1

Abstract

本发明公开了一种音频数据的处理方法、装置及电子设备，该处理方法包括：获取在主音频数据的播放过程中产生的音频反馈数据；以及，将所述音频反馈数据与所述主音频数据合并，生成合并后的音频数据供播放。根据本发明的处理方法，不同的用户在不同的空间通过各自的终端设备播放带有主音频数据的媒体文件时，可以获得与他人在同一空间共同欣赏媒体文件的现场效果。

Description

音频数据的处理方法、装置及电子设备

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种音频数据的处理方法、一种音频数据的处理装置、一种电子设备及一种计算机可读存储介质。

背景技术

随着音、视频等媒体文件的播放技术的飞速发展，时下提供媒体文件播放服务的应用通常都向用户提供评论功能，令用户可以在播放媒体文件的过程中发表评论。在现有技术中，这些评论都是线性展开排列的，任意媒体文件的接收方对于媒体文件的接收与评论内容的接收，在感官上是相互分离的，无法获得多人接收并评论媒体文件的现场感。

发明内容

本发明实施例的一个目的是提供一种用于音频数据的处理方法的新技术方案。

根据本发明的第一方面，提供了一种音频数据的处理方法，其包括：

获取在主音频数据的播放过程中产生的音频反馈数据；

将所述音频反馈数据与所述主音频数据合并，生成合并后的音频数据供播放。

可选地，所述将所述音频反馈数据与所述主音频数据合并，包括：

获取在所述主音频数据的设定播放时段内产生的所述音频反馈数据的数量；

根据所述数量确定对应的合并效果，其中，所述合并效果至少反映参与合并的各数据的音量配比；

根据所述合并效果，将在所述设定播放时段内产生的所述音频反馈数据与所述主音频数据合并。

根据每一所述音频反馈数据在产生时所对应的主音频数据的播放时段，检测所述主音频数据的、邻近每一所述音频反馈数据的空闲间隙；

将每一所述音频反馈数据与相邻近的所述空闲间隙对齐，进行所述合并。

设置包括所述主音频数据及所述音频反馈数据在内的每一条数据各自占用互不相同的音轨；

通过音轨合成将所述音频反馈数据与所述主音频数据合并。

可选地，所述获取在主音频数据的播放过程中产生的音频反馈数据，包括：

获取在主音频数据的播放过程中产生的符合目标分类的音频反馈数据；

所述生成合并后的音频数据供播放，包括：

生成合并后的音频数据供符合所述目标分类的终端设备播放。

可选地，所述方法还包括：

获取播放所述主音频数据的终端设备所对应的设定用户特征的特征值；

根据所述特征值，确定所述终端设备所对应的目标分类。

可选地，所述设定用户特征包括对应于所述终端设备的用户在所述主音频数据的播放过程中产生的音频反馈数据的设定特征。

可选地，所述主音频数据为视频文件的音频数据，所述方法还包括：

在所述视频文件的视频播放窗口中，以弹幕形式展示代表所述音频反馈数据的音频波形。

获取在主音频数据的播放过程中发表的语音评论，并至少将所述语音评论作为所述音频反馈数据。

获取在主音频数据的播放过程中发表的文字评论；

将所述文字评论转化为对应的音频数据，并至少将转化后的音频数据作为所述音频反馈数据。

获取在主音频数据的播放过程中发表的表情特征；

将所述表情特征转化为对应的音频数据，并至少将转化后的音频数据作为所述音频反馈数据。

可选地，所述主音频数据为直播媒体文件的音频数据。

可选地，所述方法还包括：

响应于开启现场音效功能的指令，执行所述将所述音频反馈数据与所述主音频数据合并的操作。

根据本发明的第二方面，还提供了一种音频数据的处理方法，由终端设备实施，所述方法包括：

获取选择播放的主音频数据；

获取对应于所述主音频数据的现场音频数据，其中，所述现场音频数据至少包括其他用户针对所述主音频数据的音频反馈数据；

执行在播放所述主音频数据的同时播放所述现场音频数据的处理操作。

可选地，所述现场音频数据还包括所述终端设备对应的用户针对所述主音频数据反馈的音频反馈数据。

根据本发明的第三方面，还提供了一种音频数据的处理方法，由终端设备实施，所述方法包括：

响应于播放目标媒体文件的操作，播放所述目标媒体文件，其中，所述目标媒体文件包括主音频数据；

执行在播放所述目标媒体文件的过程中，随同所述主音频数据播放所述现场音频数据的处理操作。

可选地，所述获取对应于所述主音频数据的现场音频数据，包括：

从服务器获取其他用户针对所述主音频数据的音频反馈数据，作为所述现场音频数据。

可选地，所述方法还包括：

获取所述终端设备对应的用户针对所述主音频数据的音频反馈数据；

将所述用户的音频反馈数据上传至服务器。

根据本发明的第四方面，还提供了一种音频数据的处理装置，包括：

数据获取模块，用于获取在主音频数据的播放过程中产生的音频反馈数据；以及，

音频处理模块，用于将所述音频反馈数据与所述主音频数据合并，生成合并后的音频数据供播放。

根据本发明的第五方面，还提供了一种电子设备，包括根据本发明的第四方面所述的处理装置；或者，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行根据本发明的第一方面、第二方面或者第三方面所述的处理方法。

可选地，所述电子设备是不具有显示装置的终端设备。

可选地，所述电子设备是终端设备，所述电子设备是终端设备，所述终端设备还包括输入装置，所述输入装置用于供对应用户针对主音频数据输入反馈内容，并将所述反馈内容发送至所述处理装置或者处理器，以供所述处理装置或者处理器根据所述反馈内容生成所述对应用户针对主音频数据的音频反馈数据。

可选地，所述电子设备是终端设备，所述终端设备还包括音频输出装置，所述音频输出装置用于根据所述处理装置或者所述处理器的控制，在播放主音频数据的同时播放对应的音频反馈数据。

根据本发明的第六方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据本发明的第一方面、第二方面或者第三方面所述的处理方法。

本发明实施例的一个有益效果在于：本实施例的音频数据的处理方法将主音频数据与在主音频数据的播放过程中产生的音频反馈数据合并，以使得任意终端设备能够在播放主音频数据的同时，还能够播放来自其他用户的音频反馈数据，这样，任意用户在分别通过各自的终端设备独自收听主音频数据时，也能够获得与其他用户一起收听主音频数据、并发表评论的现场听觉效果，获得现场体验。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1a是示意本发明实施例的作用效果的应用场景示意图；

图1b是可用于实现本发明实施例的音频数据的处理方法的一种可供选择的数据处理系统的硬件配置结构图。

图2是根据本发明实施例的处理方法的流程示意图。

图3是在目标媒体文件的播放窗口中引导用户输入音频反馈数据的例子的示意图。

图4是在混音时将音频反馈数据插入主音频数据的相邻近的空闲间隙中的示意图；

图5是引导用户输入开启现场音效功能的指令的例子的示意图。

图6a是根据本发明一个例子的处理方法的交互示意图。

图6b是根据本发明另一个例子的处理方法的交互示意图。

图7是根据本发明另一实施例的处理方法的流程示意图。

图8是根据本发明第三实施例的处理方法的流程示意图。

图9是根据本发明实施例的音频数据的处理装置的示意性原理框图。

图10a是根据本发明一个实施例的电子设备的示意性原理框图。

图10b是是根据本发明另一个实施例的电子设备的示意性原理框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

目前，媒体文件已经成为信息传递的主要媒介，随着互联网技术的发展，人们不仅可以选择在播放媒体文件的场所与他人共同欣赏媒体文件的内容，还可以通过自己的终端设备1200在各种场所独自欣赏媒体文件的内容。以上媒体文件可以是包含音频数据和图像数据的视频文件，支持播放视频文件的终端设备1200要求具备显示装置和音频输出装置，以上媒体文件也可以是仅包含音频数据的纯音频文件，支持播放纯音频文件的终端设备1200要求具备音频输出装置，但可以不具备显示装置，例如，智能音箱等。在此，对于多人共同欣赏的现场模式，每个人都可以感受到现场中其他人对于媒体文件的各种声音反馈，这些声音反馈包括语言评论的反馈，以及例如是高兴、叹气、伤心、鸦雀无声等表情特征的反馈等，进而使得人们能够在现场获得丰富、立体的感官体验。而对于个人通过自己的终端设备1200单独欣赏的线上模式，目前只能简单地通过网络发表文字评论，并无法获得现场的感官体验，但该种模式却具有现场模式无法比拟的便捷性。

为了解决线上模式对于现场感官体验的缺失，本发明实施例可以在用户通过个人的终端设备欣赏媒体文件的内容时，至少合并他人对于同一媒体文件的音频反馈数据，随同媒体文件的主音频数据一起播放，进而获得相当于现场模式的感官体验。一种应用场景例如如图1a所示，用户A、用户B、用户C、用户D在相同的时间或者不同的时间，分别通过各自的终端设备1200在不同的空间欣赏同一媒体文件的内容，其中，用户A、用户B、用户C在同一设定播放时段均发表了语言评论，由于空间上的分离，每位用户实际上并无法感知其他用户对于媒体文件的声音反馈，但通过本发明实施例的处理，可以在通过每位用户的终端设备1200播放媒体文件的过程中，合并其他用户对于同一媒体文件的音频反馈数据随同媒体文件的主音频数据一起播放，这就使得每位用户都能够感受到其他用户对于媒体文件的声音反馈，相当于如图1a中下方所示的用户A、用户B、用户C和用户D在同一场所通过同一终端设备共同欣赏媒体文件的现场效果一般。

<硬件配置>

图1为可以应用根据本发明实施例的音频数据的处理方法的一种数据处理系统的组成结构示意图。

如图1所示，本实施例的数据处理系统1000包括服务器1100、终端设备1200以及网络1300。

服务器1100例如可以是刀片服务器、机架式服务器等，服务器1100也可以是部署在云端的服务器集群，在此不做限定。

如图1所示，服务器1100可以包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150和输入装置1160。处理器1110例如可以是中央处理器CPU等。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括USB接口、串行接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏。输入装置1160例如可以包括触摸屏、键盘等。

本实施例中，服务器1100可用于参与实现根据本发明任意实施例的数据处理方法。

应用于本发明实施例中，服务器1100的存储器1120用于存储指令，所述指令用于控制所述处理器1110进行操作以支持实现根据本发明任意实施例的处理方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本领域技术人员应当理解，尽管在图1中示出了服务器1100的多个装置，但是，本发明实施例的服务器1100可以仅涉及其中的部分装置，例如，只涉及处理器1110和存储器1120。

如图1所示，终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、音频输出装置1270、音频输入装置1280，等等。其中，处理器1210可以是中央处理器CPU、微处理器MCU等。存储器1220例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括USB接口、耳机接口等。通信装置1240例如能够进行有线或无线通信。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。终端设备1200可以通过音频输出装置1270输出音频信息，该音频输出装置1270例如包括扬声器。终端设备1200可以通过音频拾取装置1280拾取用户输入的语音信息，该音频拾取装置1280例如包括麦克风。

终端设备1200可以是智能手机、便携式电脑、台式计算机、平板电脑、可穿戴设备、智能音箱、机顶盒、智能电视、录音笔，摄录机等，其中，终端设备1200可以具有音频输出装置1270以进行媒体文件的播放，也可以连接音频输出装置1270以进行媒体文件的播放。

本实施例中，终端设备1200可用于参与实现根据本发明任意实施例的数据处理方法。

应用于本发明的实施例中，终端设备1200的存储器1220用于存储指令，所述指令用于控制所述处理器1210进行操作以支持实现根据本发明任意实施例的处理方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本领域技术人员应当理解，尽管在图1中示出了终端设备1200的多个装置，但是，本发明实施例的终端设备1200可以仅涉及其中的部分装置，例如，只涉及处理器1210、存储器1220等。

通信网络1300可以是无线网络也可以是有线网络，可以是局域网也可以是广域网。终端设备1200可以通过通信网络1300与服务器1100进行通信。

图1所示的数据处理系统1000仅是解释性的，并且决不是为了要限制本发明、其应用或用途。例如，尽管图1仅示出一个服务器1100和一个终端设备1200，但不意味着限制各自的数量，该数据处理系统1000中可以包含多个服务器1100和/或多个终端设备1200。

根据本发明任意实施例的音频数据的处理方法可以根据需要由服务器1100实施，也可以由终端设备1200实施，还可以由服务器1100和终端设备1200共同实施，在此不做限定。

<方法实施例1>

图2是根据本发明实施例的音频数据的处理方法的流程示意图。

根据图2所示，本实施例的处理方法可以包括如下步骤S2100～S2300。

步骤S2100，获取在主音频数据的播放过程中产生的音频反馈数据。

本实施例中，主音频数据是所播放的目标媒体文件的音频数据。目标媒体文件可以是纯音频文件，也可以是视频文件。目标媒体文件可以是直播文件，也可以是录播文件，在此不做限定。

本实施例中，该步骤S2100中可以是获取在主音频数据的播放过程中产生的所有音频反馈数据进行以下步骤S2200的合并，也可以是根据设定条件，获取在主音频数据的播放过程中产生的部分音频反馈数据进行以下步骤S2200的合并，在此不做限定。

本实施例中，可以将任意用户在主音频数据的播放过程中，也即目标媒体文件的播放过程中，发表的任意一次反馈内容对应一条音频反馈数据，例如，该任意一次反馈内容可以是一次语音评论，该次语音评论即将形成一条音频反馈数据；又例如，该任意一次反馈内容也可以是一次文字评论，将该文字评论可以被转换为对应的音频数据，而转换得到的音频数据即可形成一条音频反馈数据；再例如，该任意一次反馈内容还可以是输入的表情特征，该表情特征可以是输入的表情符号、声音表情等，将该表情特征转换为对应的音频数据，也可形成一条音频反馈数据。

在一个例子中，该步骤S2100中获取在主音频数据的播放过程中产生的音频反馈数据，可以包括：获取在主音频数据的播放过程中反馈的语音评论，并至少将语音评论作为在主音频数据的播放过程中产生的音频反馈数据。

该例子中，用户可以通过各自的终端设备输入语音评论，以图3为例，可以在播放目标媒体文件的播放窗口内提供引导用户输入语音评论的入口，以供用户通过该入口，例如长按该入口，发表语音评论，终端设备可以通过麦克风等音频输入装置采集该语音评论，形成音频反馈数据。

该例子中，用户也可以通过操作终端设备设置的物理按键，发表语音评论，在此不做限定。

在一个例子中，该步骤S2100中获取在主音频数据的播放过程中产生的音频反馈数据，也可以包括：获取在主音频数据的播放过程中反馈的文字评论；将该文字评论转化为对应的音频数据，并至少将转化后的音频数据作为在主音频数据的播放过程中产生的音频反馈数据。

该例子中，在将文字评论转换为对应的音频数据时，可以根据预先采集的对应用户的声音获得该用户的声音特征，进而根据该声音特征进行文字评论的转换，以使得转换得到的音频数据体现该用户的声音特征。该例子中，也可以根据默认的声音特征进行文字评论的转换，该默认的声音特征可以是系统设置的声音特征，也可以是用户选择的声音特征，在此不做限定。

该例子中，在将文字评论转换为对应的音频数据时，还可以识别文字评论表达的情感特征，以使得转换得到的音频数据体现该文字评论所想表达的情感特征。

在该例子中，用户可以通过终端设备提供的物理键盘、虚拟键盘或者触摸屏等输入文字评论的内容，也可以通过简单地选择终端设备提供的预先设置的文字内容，来发表文字评论。

在一个例子中，步骤S2100中获取在主音频数据的播放过程中产生的音频反馈数据，还可以包括：获取在主音频数据的播放过程中反馈的表情特征；将该表情特征转化为对应的音频数据，并至少将转化后的音频数据作为在主音频数据的播放过程中产生的音频反馈数据。

在该例子中，表情特征可以预先存储在终端设备中，用户可以通过选择能够表达自己情感的表情特征，来对播放中的主音频数据进行情感反馈。表情特征可以包括符号表情和声音表情等。声音表情又可以包括语音表情和/或音效表情等。

符号表情是表达情感或者主题的符号、静态图片或者动态图片等，用于供用户选择在语音交流过程中表达自身的情绪或感受。对于符号表情的转换，可以根据符号表情所表达的情绪或感受，转换得到对应的音频数据。

声音表情是表达特定的情感或者主题的声音内容，用于供用户选择在语音交流过程中表达自身的情绪或感受。对于声音表情的转换，可以直接提取声音表情中的声音内容作为转换后的音频数据。

语音表情的声音内容是与该语音表情所表达情感或者主题对应的语音，是有语言内容的声音表情。该语音表情的声音内容可以是由特定的人员例如名人、明星、声优等根据预设的主题或者内容录制的，也可以是由用户根据自身的情感表达需求录制的。

用户通常期望通过语音表情播放时的语言内容来表达自身的情感或情绪。

音效表情的声音内容是与音效表情的情感特征对应的音效，是没有语言内容的声音表情。用户通常期望通过音效表情播放时所产生的音效来表达自身的情感或情绪。音效表情的声音内容可以针对各种预设的主题或者情感表达需求录制的音效内容。

本实施例中，对于目标媒体文件的根据任意时间间隔划分的任意播放时段，该步骤S2100中可以是获取对应该播放时段的累积产生的所有音频反馈数据，也可以是获取在设定时间内产生的对应该播放时段的音频反馈数据。

例如，以5分钟为间隔划分目标媒体文件，播放0～5分钟为第一个播放时段，播放5～10分钟为第二个播放时段，以此类推。以第一个播放时段为例，步骤S2100可以是获取对应该第一个播放时段的累积产生的所有音频反馈数据，也可以是获取在当天产生的对应该第二个播放时段的音频反馈数据等，在此不做限定。

又例如，目标媒体文件为直播媒体文件，在任意播放时段产生的音频反馈数据即为在任意播放时段所对应的播放时间内产生的音频反馈数据，因此，对于直播媒体文件，合并后的音频数据将能够反映直播进行时的现场效果。

在一个例子中，该步骤S2100可以由服务器参与实施，例如是图1中的服务器1100。在该例子中，步骤S2100中获取在主音频数据的播放过程中产生的音频反馈数据，可以包括：从各终端设备获取所对应的用户在主音频数据的播放过程中产生的音频反馈数据。

在一个例子中，该步骤S2200可以由终端设备参与实施，例如是图1中的终端设备1200。该例子中，步骤S2200中获取在主音频数据的播放过程中产生的音频反馈数据，可以包括：从服务器获取其他用户在主音频数据的播放过程中产生的音频反馈数据。

步骤S2200，将获取到的音频反馈数据与主音频数据合并，生成合并后的音频文件供播放。

本实施例中的合并可以是利用任意一种现有的混音手段，对音频反馈数据与主音频数据进行混音，以形成混有音频反馈数据的音频文件。

本实施例中的合并也可以指在音频反馈数据与主音频数据之间建立时间上的对应关系，以形成体现该种映射关系的音频文件，进而至少能够通过不同的声道分别播放主音频数据和音频反馈数据，以对于用户而言，达到“混音”的效果。在此，对于音频反馈数据部分，可以对所有音频反馈数据进行混音而占用一个声道，也可以是将所有音频反馈数据处理成占用多个声道的多个音频文件，在此不做限定，只要是对于用户而言，能够感受到音频反馈数据随同主音频数据一起播放的“混音”效果即可。

本实施例中，对于任意正在接收目标媒体文件的用户而言，根据本步骤的合并处理可以随着目标媒体文件的播放及音频反馈数据的不断产生而持续进行，以根据持续产生的合并后的音频文件进行目标媒体文件的继续播放，直至播放结束。

在一个例子中，本步骤S2200可以由服务器实施，也可以由终端设备实施，在此不做限定。

在一个例子中，本步骤S2200中将获取到的音频反馈数据与主音频数据合并，可以包括：根据每一音频反馈数据在产生时所对应的主音频数据的播放时段，进行音频反馈数据与主音频数据的合并。

该例子中，主音频数据的播放时段是基于目标媒体文件的相对播放时间划分，其中，相对播放时间的相对参照点为目标媒体文件的起始播放点。例如，播放0～5分钟为第一个播放时段，播放5～10分钟为第二个播放时段，以此类推。

该例子中，可以根据需要设定播放时段的长度，该长度可以固定不变，也可以适应性调整。

例如，设定的播放时段的长度为5分钟，一音频反馈数据在产生时所对应的主音频数据的播放时段为目标媒体文件播放5～10分钟的播放时段。又例如，设定的播放时段的长度为2分钟，一音频反馈数据在产生时所对应的主音频数据的播放时段为目标媒体文件播放1～2分钟的播放时段。

该例子中，每一终端设备在获得相对应的用户产生的音频反馈数据时，可以记录该音频反馈数据的产生时间及所对应的播放时段。

该例子中，在进行音频数据的合并时，至少对于部分音频反馈数据，可以设置其中的每一音频反馈数据的起始位置与所对应的主音频数据的播放时段的起始位置对齐。

该例子中，在进行音频数据的合并时，至少对于部分音频反馈数据，可以允许其中的每一音频反馈数据的起始位置相对所对应的主音频数据的播放时段发生滞后偏移。根据该例子的合并处理，用户可以在通过个人的终端设备播放合并后的音频数据时，感受到所有用户的音频反馈随着主音频数据的播放而发生变化的情况，包括反馈数量的变化和/或反馈内容的变化等，提供更真实的现场体验。

在一个例子中，本步骤S2200中将获取到的音频反馈数据与主音频数据合并，可以包括以下步骤S2211～S2213：

步骤S2211，获取在主音频数据的设定播放时段内产生的音频反馈数据的数量。

该设定播放时段可以根据实时性要求预先设定。例如，设定以每分钟为单位进行数量统计，则划分得到的设定时段包括：播放0～5分钟的第一播放时段，播放5～10分钟的播放时段，……，以此类推。

步骤S2212，根据该数量确定对应的合并效果，其中，该合并效果至少反映参与合并的各数据的音量配比。

该步骤S2212中，可以预存表示数量与合并效果之间的对应关系的映射数据，以在映射数据中查找对应步骤S2211获取到的数量的合并效果。

例如，该合并效果包括客厅场景效果、剧院场景效果、广场场景效果等。各种场景所对应的数量情况为：客厅场景小于剧院场景，剧院场景小于广场场景。各种场景效果所反映的音量配比情况为：对于音频反馈数据与主音频数据的音量比值，客厅场景小于剧院场景，剧院场景小于广场场景。

对于客厅场景效果，其对应的数量例如为小于或者等于20人，在客厅场景下，场景内的每一用户均能听清楚其他用户的音频反馈，因此，客厅场景效果反映的音量配比可以设置为：合并后，可在收听主音频数据的内容的基础上，听见参与合并的各音频反馈数据的内容。

对于剧院场景效果，其对应的数量例如为大于20人，且小于或者等于200人，在该剧院场景下，场景内的各种音频反馈只能模糊可听，因此，剧院场景效果反映的音量配比可以设置为：合并后，可在收听主音频数据的内容的基础上，模糊听见参与合并的各音频反馈数据的内容。

对于广场场景效果，其对应的数量例如为大于200人，在该广场场景下，场景内的音频反馈不可听，只能听见各种嘈杂声，因此，剧院场景效果反映的音量配比可以设置为：合并后，只能收听到主音频数据的内容，而无法听见参与合并的各音频反馈数据的内容，即在广场场景下，只能感受到有多人进行音频反馈的杂音。

另外，如果在主音频数据的播放过程中，没有产生对应某一播放时段的音频反馈数据，则合并后的音频数据在对应该播放时段或者滞后该播放时段的部分，将只具有主音频数据的内容，终端设备在播放该部分的内容时，用户只能听到主音频数据的音频内容，而没有任何的音频反馈数据的内容，因此，可以感受到所有用户在欣赏该部分内容时鸦雀无声的现场氛围。

步骤S2213，根据步骤S2212确定的该合并效果，将在该设定播放时段内产生的音频反馈数据与主音频数据合并。

该例子中，可以根据确定的合并效果，在主音频数据的对应播放时段进行根据步骤S2213的合并，也可以在主音频数据的对应播放时段的下一播放时段进行根据步骤S2213的合并，在此不做限定。

以获取在主音频数据的第0～5分钟的播放时段内产生的音频反馈数据的数量为例，在步骤S2211获取到的数量为15，在步骤S2212根据该数量确定的合并效果为客厅场景效果，则在步骤S2213，将根据客厅场景效果，将在0～5分钟的播放时段内产生的音频反馈数据与主音频数据合并，由于合并处理会导致音频反馈数据的播放时间相对同一音频反馈数据的产生时间有所延迟，因此，这可以是将在0～5分钟的播放时段内产生的音频反馈数据与主音频数据的对应第5～10分钟的播放时段的部分合并，或者与主音频数据的对应第2～7分钟的播放时段的部分合并等，具体的延迟时间与处理速度和设定的读取音频反馈数据的采样时间间隔有关，在此不做限定。

根据以上步骤S2211～S2213，该例子的合并处理可以使得合并后的音频数据体现音频反馈数据的数量对听觉效果的影响，进而实现对相应数量的观众对主音频数据进行音频反馈的现场效果的模拟，提升用户的现场感受。

在一个例子中，本步骤S2200中将音频反馈数据与主音频数据合并，可以包括以下步骤S2221～S2222。

步骤S2221，根据每一音频反馈数据在产生时所对应的主音频数据的播放时段，检测主音频数据的邻近每一音频反馈数据的空闲间隙。

该空闲间隙为主音频数据中没有音频内容的时间间隙。

以图4为例，图4中的主音频数据的数据流中，网格部分标识具有音频内容，空白部分表示该主音频数据中存在的空闲间隙。

通过该步骤S2221，可以将主音频数据的每一空闲间隙分别作为一个合并槽位，以在每一个合并槽位进行合并操作。

步骤S2222，将每一音频反馈数据与相邻近的空闲间隙对齐，进行音频反馈数据与主音频数据的合并。

根据该步骤S2222中的对齐可以是将每一音频反馈数据的起始位置与相邻近的空闲间隙的任意位置对齐进行合并，例如，将每一音频反馈数据的起始位置与相邻近的空闲间隙的起始位置相对齐进行合并，在此不做限定。

根据以上步骤S2221～S2222，通过将每一音频反馈数据与主音频数据的相邻近的空闲间隙对齐来进行各数据的合并，可以尽可能地减少音频反馈数据对主音频数据的影响。

在一个例子中，本步骤S2200中将音频反馈数据与主音频数据合并，可以包括如下步骤S2231～S2232。

步骤S2231，设置包括主音频数据及音频反馈数据在内的每一数据占用互不相同的音轨。

例如，在主音频数据的设定播放时段内产生了10条音频反馈数据，则在将此10条音频反馈数据与主音频数据进行合并时，相当于进行11条音频数据的合并，在此，可以设置11个音轨，以使每一数据占用互不相同的音轨进行合并。

步骤S2232，通过音轨合成将音频反馈数据与主音频数据合并。

根据以上步骤S2231～S2232，根据本例子的音频处理可以利用音轨合成技术进行音频数据的合并，这有利于降低音频合并的难度，同时获得良好的合并效果。

关于以上非限制性列举的各种合并处理的例子，可以根据需要单独使用或者进行任意的相互结合使用。

本实施例中，步骤S2200中生成合并后的音频数据供播放，可以是：对于当前播放目标媒体文件的终端设备，在每次经合并进行音频文件的更新后，接续当前的播放时刻播放更新后的音频文件。

该步骤S2200中生成合并后的音频数据供播放可以由终端设备参与实施，也可以由服务器参与实施。

在由服务器参与实施的例子中，该步骤中生成合并后的音频数据供播放，可以包括：将合并后的音频数据下发至终端设备进行播放。

在由终端设备参与实施的例子中，该步骤中生成合并后的音频数据供播放，可以包括：生成合并后的音频数据，以驱动音频输出装置播放。

根据以上步骤S2100～S2200，本实施例的音频数据的处理方法是将用户选择播放的目标媒体文件的主音频数据与在主音频数据的播放过程中产生的音频反馈数据合并，以获得合并后的音频数据供播放，这样，任意用户在通过各自的终端设备播放目标媒体文件时，便可以获得与其他人一起欣赏目标媒体文件的现场听感效果，进而获得现场体验。

在一个实施例中，可以允许用户选择是否开启现场音效，因此，本实施例中，该处理方法还可以包括检测是否开启现场音效的步骤，以响应于开启现场音效功能的指令，执行以上步骤S2200中将获取到的音频反馈数据与主音频数据合并的操作。

本实施例中附加的以上步骤可以由终端设备参与实施，即终端设备响应于用户输入的开启现场音效功能的指令，将获取到的音频反馈数据与主音频数据合并。该指令可以由用户通过终端设备的物理按键触发，也可以由播放目标媒体文件的应用提供的虚拟按键(控件)触发，例如，通过如图5所示的开启现场音效的虚拟按键触发该指令。

本实施例中附加的以上步骤也可以由服务器参与实施，即服务器响应于终端设备发送的开启现场音效功能的指令，向终端设备提供合并后的音频数据供播放，或者向终端设备提供音频反馈数据进行与主音频数据的合并，以形成合并后的音频数据进行播放。终端设备发送的该指令可以基于用户触发的指令生成。

本实施例允许用户选择是否需要播放合并后的音频数据，如果不期望播放音频反馈数据，也可以选择只播放目标媒体文件的主音频数据，实现多样化选择。

在一个实施例中，对于任意接收目标媒体文件的用户，参与合并的音频反馈数据可以是相同的，其中，在步骤S2100中可以是获取在主音频数据的播放过程中产生的所有音频反馈数据进行合并，也可以是根据设定的筛选条件获取筛选出的部分音频反馈数据进行合并，在此不做限定。

在另外的实施例中，对于不同类型的用户，参与合并的音频反馈数据可以是不同的，即，可以根据用户喜好，针对不同类型的用户筛选不同的音频反馈数据进行合并，以获得千人千面的现场效果。

在该另外的实施例中，以上步骤S2100中获取在主音频数据的播放过程中产生的音频反馈声音数据，可以包括：获取在主音频数据的播放过程中产生的符合目标分类的音频反馈数据。

本实施例中，可以预先设置各目标分类，这可以是根据用户年龄、性别、学历、喜好等中的至少一项进行的分类，例如，按照用户年龄设置五个目标分类。

例如，对于用户年龄为20岁以下(包括20岁)的目标分类，可以在该步骤S2100获取由20岁以下的用户产生的音频反馈数据，形成符合该目标分类的音频反馈数据。

在该另外的实施例中，以上步骤S2200中生成合并后的音频数据供播放，包括：生成合并后的音频数据供符合该目标分类的终端设备播放。

在目标分类是根据用户属性进行的分类的情况下，符合该目标分类的终端设备是指对应于该终端设备的用户，即使用该终端设备的用户，符合该目标分类。

在一个例子中，该另外的实施例可以由服务器参与实施，该例子中，步骤S2110可以包括：服务器对于设置的每一目标分类，获取在目标媒体文件的播放过程中产生的符合对应目标分类的音频反馈数据。

进一步地，服务器可以将获取到的符合目标分类的音频反馈数据下发至与该目标分类相匹配的终端设备进行与主音频数据的合并。

进一步地，服务器也可以在获取到符合目标分类的音频反馈数据后，将这些音频反馈数据与主音频数据合并，并将合并后的音频数据下发至与该目标分类相匹配的终端设备进行播放。

在一个例子中，该另外的实施例也可以由终端设备参与实施，该例子中，步骤S2110可以包括：终端设备从服务器获取符合对应用户所属的目标分类的音频反馈数据，以进行与主音频数据的合并。

该例子中，对应用户所属的目标分类，也即为与该终端设备相匹配的目标分类，可以由用户根据所提供的目标分类进行选择确定，也可以根据对应用户的用户特征确定。

根据本实施例的处理方法，可以为不同类型的用户提供不同的现场效果，进而提升所提供的现场效果与用户之间的贴合度，提升用户体验。

在一个实施例中，本发明处理方法还可以包括：获取播放主音频数据的终端设备所对应的设定用户特征的特征值；以及，根据该特征值，确定该终端设备所属的目标分类。

该实施例中，终端设备所对应的设定用户特征指对应于该终端设备的用户的设定用户特征，即使用该终端设备的用户的设定用户特征。

在一个例子中，该设定用户特征包括年龄、学历、性别、兴趣爱好、喜好的语言类型中的任意一项或者多项。这些设定用户特征的特征值可以根据用户的注册信息确定，也可以根据用户使用本应用(提供目标媒体文件的应用)产生的历史使用数据确定，还可以根据用户通过使用其他应用产生的历史使用数据确定，在此不做限定。

在一个例子中，该设定用户特征可以包括该用户在主音频数据的播放过程中产生的音频反馈数据的设定特征。该设定特征例如包括声音特征和情感特征中的任意一项或者两项。在该例子中，可以根据该设定特征将对应用户分配至语言类型相似的目标分类中，也可以根据该设定特征将对应用户分配至语言类型相反的目标分类中，在此不做限定。

声音特征是指音频反馈数据中体现的与声音属性相关的特征，该声音特征可以包括音量特征、节奏特征、音调特征等。

情感特征是指音频反馈数据中体现的用户的情绪或感受相关的特征，该情感特征可以包括情感类型、情感程度、表情主题等。情感类型可以是根据人类的情感及情绪分类预先设置的类型，例如情感类型可以包括生气、快乐、哀伤、欢喜等，情感程度可以包括对应的情感类型的情感程度，例如生气这一情感类型可以包括狂怒、发火、微怒等不同程度的生气情绪。

在提取音频反馈数据的声音特征时，可以对音频反馈数据进行语音分析，提取对应的音量特征以及节奏特征等。例如，可以使用常用的语音信号分析手段，确定音频反馈数据的音量大小、节奏快慢等，对应得到音频反馈数据的音量特征以及节奏特征等。

在提取音频反馈数据的情感特征时，可以将音频反馈数据的内容转换为对应的文本，并根据预先构建的情感词库从文本中提取情感关键词，通过情感结构化模型，对情感关键词进行结构化分析，得到情感关键词的情感类型以及情感程度，作为音频反馈数据的情感特征。

例如，可以将音频反馈数据通过语音识别引擎或者语音转文本的工具、插件等，得到对应的文本。

情感词库中包括多个分别体现不同的人类情感或者人类情绪的情感词汇。例如，可以通过人工或者机器挖掘这些情感词汇，预先构建情感词库。

根据该情感词库，可以将音频反馈数据进行分词得到的词汇与情感词库中包括的情感词汇通过余弦相似度等方法进行相似度分析，提取相似度高于预设的相似度阈值的情感词汇作为情感关键词。

情感结构化模型可以通过对采集的与情感相关的情感词汇进行分类并结构化组织得到的词汇模型。情感结构化模型中包括的每个情感词汇都具有对应的情感类型以及情感程度。

在一个例子中，可以对预先通过人工或者机器挖掘得到的情感词汇，根据人类情感或者人类情绪进行不同层次的分类，例如，根据每种情感类型进分为大类，每个大类里包括属于相同情感类型的情感词汇，在每个大类里再按情感程度的不同，进一步细分为不同的小类，每个小类下可根据情感程度的高低对情感词汇进行排序，形成不同分类层次的结构，以此组织情感词汇对应的得到情感结构化模型。

通过情感结构化模型，对情感关键词进行结构化分析，可以在情感结构化模型查找到与情感关键词对应的情感词汇，根据该情感词汇的情感类型以及情感程度，确定情感关键词的情感类型以及情感程度，对应得到音频反馈数据的情感特征。

在音频反馈数据为表情特征的情况下，可以直接根据表情特征确定所需的设定特征的特征值，例如表情特征表示的生气表情，则可以直接基于该表情特征确定对应的情感特征的特征值。

本实施例的该步骤可以由服务器根据终端设备提供的对应用户的设定用户特征的特征值实施，也可以由终端设备实施，在由终端设备实施的例子中，每一终端设备确定与各自相对应的用户所述的目标分类。

根据该实施例的处理方法，根据用户特征的特征值确定用户或终端设备所属的目标分类，可以提高确定目标分类的准确性，而且无需用户通过额外的操作设置所期望的目标分类，进而实现智能分类。

在一个实施例中，主音频数据为视频文件的音频数据，对此，本实施例的处理方法还可以包括：在该视频文件的视频播放窗口中，以弹幕形式展示代表音频反馈数据的音频波形。

代表音频反馈数据的音频波形是音频反馈数据的图形化表达方式。例如，如图5所示的播放窗口中显示的音频波形。

在一个例子中，可以先获取音频反馈数据的声音特征以及情感特征，然后根据音频反馈数据的声音特征以及情感特征生成音频波形。

在一个例子中，可以根据音频反馈数据的声音特征，设置音频波形的显示形状。

该例子中，显示形状可以包括音频波形的幅度大小、波形周期间隔、波形持续长度等。例如，音频反馈数据的声音特征包括节奏特征以及音量特征，可以根据节奏特征体现的节奏快慢设置音频波形的波形周期间隔，如节奏越快，波形周期间隔越短等，根据音量特征体现的音量大小设置音频波形的波形幅度，如音量越大，波形幅度越大等。

在一个例子中，可以根据音频反馈数据的情感特征，设置音频波形的显示颜色等。

该例子中，可以根据不同的情感类型设置不同类型的显示颜色，如情感类型是“生气”，设置显示颜色是红色，情感类型是“高兴”，设置显示颜色是绿色，对于同一情感类型的不同情感程度设置同类型的显示颜色深浅不同，例如，对于情感类型是“高兴”，情感程度是“大喜”，设置显示颜色是深绿色，情感程度是“有点开心”，设置显示颜色是浅绿色，等等。

根据本实施例的处理方法，在视频播放窗口中以弹幕形式展示音频波形，可以在获取现场听感效果的同时，还能通过音频反馈数据的图形化表达，直观地感受其他用户的声音特征以及情感特征。

<例子1>

图6a是根据本发明一个例子的音频数据的处理方法的示例性流程图。该例子，服务器向每一终端设备提供的音频反馈数据可以是相同的，因此，图中仅示意出一个终端设备。在该例子中，处理方法可以包括如下步骤：

步骤S1210,终端设备1200采集对应用户在目标媒体文件的播放过程中，即主音频数据的播放过程中，产生的音频反馈数据上传至服务器1100。

在另外的例子中，图中所示的终端设备1200也可能没有音频反馈数据产生，而是由其他终端设备1200采集对应用户在目标媒体文件的播放过程中产生的音频反馈数据上传至服务器1100。

步骤S1110，服务器1100获取包括图中所示终端设备在内的各终端设备上传的该音频反馈数据。

步骤S1120，服务器1100将获取到的音频反馈数据下发至正在播放目标媒体文件的每一终端设备1200进行音频数据的合并。

步骤S1220，终端设备1200获取服务器1100提供的音频反馈数据。

步骤S1230，终端设备1200将获取到的音频反馈数据与目标媒体文件的主音频数据合并，产生合并后的目标媒体文件。

终端设备1200例如通过混音手段合并主音频数据和获取到的各音频反馈数据。

步骤S1240，终端设备1200在播放目标媒体文件时，播放合并后的音频数据替代播放单独的主音频数据，即，终端设备1200对应的用户在收听主音频数据的同时，还至少能够收听到其他用户在播放主音频数据的过程中产生的音频反馈数据。

<例子2>

图6b是根据本发明另一个例子的音频数据的处理方法的示例性流程图。该例子，服务器向每一终端设备提供的音频反馈数据可以是不相同的，图中示出了两个符合不同目标分类的终端设备，分别为终端设备1200-1和终端设备1200-2。在该例子中，处理方法可以包括如下步骤：

步骤S1210-1,终端设备1200-1采集对应用户在目标媒体文件的播放过程中产生的音频反馈数据上传至服务器1100。

步骤S1210-2，终端设备1200-2采集对应用户在目标媒体文件的播放过程中产生的音频反馈数据上传至服务器1100。

在另外的例子中，图中所示的终端设备1200-1和/或终端设备1200-2也可能没有音频反馈数据产生，而是由其他终端设备1200采集对应用户在目标媒体文件的播放过程中产生的音频反馈数据上传至服务器1100。

步骤S1110，服务器1100获取包括终端设备1200-1和终端设备1200-2在内的各终端设备上传的音频反馈数据。

步骤S1120-1，服务器1100将在目标媒体文件的播放过程中产生的符合终端设备1200-1所属的目标分类的用户声音数据下发至终端设备1200-1进行音频数据的合并。

步骤S1120-2，服务器1100将在目标媒体文件的播放过程中产生的符合终端设备1200-2所属的目标分类的用户声音数据下发至终端设备1200-2进行音频数据的合并。

步骤S1220-1，终端设备1200-1获取服务器1100提供的音频反馈数据。

步骤S1230-1，终端设备1200-1将获取到的音频反馈数据与目标媒体文件的主音频数据合并，产生合并后的音频数据A。

步骤S1240-1，终端设备1200-1在播放目标媒体文件的过程中，播放合并后的音频数据A，其中，播放合并后的音频数据A的听感效果为：终端设备1200-1对应的用户在收听主音频数据的同时，还能够收听到与终端设备1200-1的目标分类相符合的音频反馈数据。

步骤S1220-2，终端设备1200-2获取服务器1100提供的音频反馈数据。

步骤S1230-2，终端设备1200-2将获取到的音频反馈数据与目标媒体文件的主音频数据合并，产生合并后的音频数据B。

步骤S1240-2，终端设备1200-2在播放目标媒体文件的过程中，播放合并后的音频数据B，其中，播放合并后的音频数据B的听感效果为：终端设备1200-2对应的用户在收听主音频数据的同时，还能够收听到与终端设备1200-2的目标分类相符合的音频反馈数据。

在该例子中，由于终端设备1200-1与终端设备1200-2分属于不同的目标分类，因此，合并后的音频数据A与合并后的音频数据B将不同，实现千人千面的现场效果。

<方法实施例2>

图7是根据本实施例的音频数据的处理方法的流程示意图，该处理方法由终端设备实施，例如由图1中的终端设备1200实施，其中，本实施例中的终端设备可以是具有显示装置的设备，也可以是不具有显示装置的设备；可以是自身具有音频输出装置，也可以通过无线或者有线的方式外接音频输出装置。

如图7所示，本实施例的方法可以包括如下步骤S7100～S7300：

步骤S7100，终端设备1200获取选择播放的主音频数据。

该选择播放的主音频数据为使用终端设备1200的用户所选择的目标媒体文件的音频数据，该目标媒体文件可以是纯音频文件，也可以是视频文件。

步骤S7200，终端设备1200获取对应于主音频数据的现场音频数据，其中，该现场音频数据至少包括其他用户针对主音频数据的音频反馈数据。

该现场音频数据还可以包括该终端设备1200对应的用户针对主音频数据产生的音频反馈数据，即对于任意终端设备1200而言，不仅其他用户的音频反馈数据参与音频数据的合并，使用该终端设备1200的用户产生的音频反馈数据也可以参与音频数据的合并。

该步骤S7200中，获取的现场音频数据可以是符合该终端设备1200的目标分类的现场音频数据，也可以是对于任意终端设备1200而言均相同的现场音频数据，在此不做限定。

在一个例子中，终端设备1200可以从服务器获取所有的音频反馈数据，包括其他用户产生的音频反馈数据，也可以包括该终端设备1200所对应用户产生的音频反馈数据。

在另一个例子中，终端设备1200可以仅从服务器获取其他用户产生的音频反馈数据，以及，从本地获取所对应用户产生的音频反馈数据。

在一个例子中，由终端设备1200在获取到现场音频数据后，进行现场音频数据与主音频数据的合并，得到合并后的音频数据。

在另一个例子中，也可以是由服务器进行合并，并提供给终端设备，在该例子中，以上步骤S7100和步骤S7200即指，获取合并后的音频数据，其中，合并后的音频数据包括主音频数据和现场音频数据。

步骤S7300，终端设备1200执行在播放主音频数据的同时，播放对应的现场音频数据的处理操作。

在由终端设备1200进行现场音频数据与主音频数据的合并的例子中，该处理操作包括该合并处理，以及根据合并后的音频数据驱动音频输出装置在播放主音频数据的同时，播放对应的现场音频数据，其中，合并处理可采用以上方法实施例1中提供的任意一种或者多种方式，在此不再赘述。

在终端设备1200直接接收服务器1100提供的合并后的音频数据的例子中，该处理操作包括：根据合并后的音频数据驱动音频输出装置在播放主音频数据的同时，播放对应的现场音频数据。

该步骤S7200中，终端设备1200可以根据合并后的音频数据，例如，根据混音后的音频数据，或者根据主音频数据与现场音频数据之间的对应关系，驱动音频输出装置能够在播放主音频数据的同时，播放对应的现场音频数据，实现与其他人共同欣赏目标媒体文件的现场效果。

本实施例中，该终端设备可以是智能手机、便携式电脑、台式计算机、平板电脑、可穿戴设备、智能音箱、机顶盒、智能电视、录音笔，摄录机等，在此不做限定。

根据本实施例的处理方法，终端设备可以在播放用户选择的目标媒体文件的过程中，随同目标媒体文件的主音频数据，播放获取到的现场音频数据，以使用户能够获得主音频数据与现场音频数据混合在一起的现场听感。因此，根据本实施例的处理方法，任意用户在通过各自的终端设备播放目标媒体文件时，便可以获得与其他人一起欣赏目标媒体文件的现场听感效果，进而获得现场体验。

<方法实施例3>

图8是根据本实施例的音频数据的处理方法的流程示意图，该处理方法由终端设备实施，例如由图1中的终端设备1200实施，其中，本实施例中的终端设备可以是具有显示装置的设备，也可以是不具有显示装置的设备；可以是自身具有音频输出装置，也可以通过无线或者有线的方式外接音频输出装置。

如图8所示，本实施例的处理方法可以包括如下步骤S8100～S8200：

步骤S8100，终端设备1200响应于播放目标媒体文件的操作，播放该目标媒体文件，其中，该目标媒体文件包括主音频数据。

步骤S8200，获取对应于主音频数据的现场音频数据，其中，该现场音频数据至少包括其他用户针对所述主音频数据的音频反馈数据。

该步骤S8200中，该现场音频数据还可以包括该终端设备对应的用户，即本机用户，针对主音频数据的音频反馈数据。本机用户的音频反馈数据可以与其他用户的音频反馈数据一起从服务器获取，也可以从本地获取，在此不做限定。

在一个例子中，步骤S8200中获取对应于主音频数据的现场音频数据可以包括：从服务器获取其他用户针对主音频数据的音频反馈数据，形成现场音频数据。

在一个例子中，步骤S8200中获取对应于主音频数据的现场音频数据还可以包括：从服务器或者本地获取该终端设备对应的用户针对该主音频数据的音频反馈数据，形成现场音频数据。

步骤S8300，终端设备1200执行在播放该目标媒体文件的过程中，随同目标媒体文件的主音频数据播放现场音频数据的处理操作。在一个例子中，该处理操作可以包括：终端设备1200合并处理，即将现场音频数据与主音频数据合并，以及根据合并后的音频数据驱动音频输出装置在播放主音频数据的同时播放现场音频数据，其中，合并处理可采用以上方法实施例1中提供的任意一种或者多种方式，在此不再赘述。

在另一个例子中，该处理操作可以包括：终端设备1200获取服务器1100提供的合并后的音频数据，其中，该合并后的音频数据是将主音频数据与现场音频数据合并得到的音频数据，以及，根据合并后的音频数据驱动音频输出装置在播放主音频数据的同时播放现场音频数据。

在步骤S8300中，终端设备1200将根据合并的形式，例如混音形式或者多声道形式，驱动音频输出装置在播放主音频数据的同时播放现场音频数据，以在播放目标媒体文件时，随同主音频数据播放对应现场音频数据，实现与其他人共同欣赏目标媒体文件的现场效果。

在一个实施例中，该处理方法还可以包括：获取该终端设备对应的用户针对主音频数据反馈的音频反馈数据；将该用户的音频反馈数据上传至服务器。

根据本实施例，在将该用户的音频反馈数据上传至服务器后，服务器便可将该用户的音频反馈数据发送至其他用户的终端设备，以使得同在播放该目标媒体文件的其他用户能够接收到该用户的音频反馈数据。

<装置实施例>

根据图9所示，本实施例的处理装置9000包括数据获取模块9100和音频处理模块9200。

该数据获取模块9100用于获取在主音频数据的播放过程中产生的音频反馈数据。

该音频处理模块9200用于将音频反馈数据与主音频数据合并，生成合并后的音频数据供播放。

在一个实施例中，以上音频处理模块9200在将音频反馈数据与主音频数据合并时，可以用于：获取在主音频数据的设定播放时段内产生的该音频反馈数据的数量；根据该数量确定对应的合并效果，其中，该合并效果至少反映参与合并的各数据的音量配比；以及，根据该合并效果，将在设定播放时段内产生的该音频反馈数据与主音频数据合并。

在一个实施例中，以上音频处理模块9200在将音频反馈数据与主音频数据合并时，可以用于：根据每一音频反馈数据在产生时所对应的主音频数据的播放时段，检测主音频数据的邻近每一音频反馈数据的空闲间隙；以及，将每一音频反馈数据与相邻近的空闲间隙对齐，进行合并。

在一个实施例中，以上音频处理模块9200在将音频反馈数据与主音频数据合并时，可以用于：设置包括主音频数据及音频反馈数据在内的每一数据分别占用互不相同的音轨；以及，通过音轨合成将音频反馈数据与主音频数据合并。

在一个实施例中，处理装置9000还可以包括检测模块，该检测模块用于检测是否开启现场音效功能，以响应于开启现场音效功能的指令，通知音频处理模块9200执行将音频反馈数据与主音频数据合并的操作。

在一个实施例中，以上数据获取模块9100在获取在主音频数据的播放过程中产生的音频反馈数据时，可以包括：获取在主音频数据的播放过程中反馈的语音评论，并至少将该语音评论作为音频反馈数据。

在一个实施例中，以上数据获取模块9100在获取在主音频数据的播放过程中产生的音频反馈数据时，可以包括：获取在主音频数据的播放过程中反馈的文字评论；以及，将文字评论转化为对应的音频数据，并至少将转化后的音频数据作为音频反馈数据。

在一个实施例中，以上数据获取模块9100在获取在主音频数据的播放过程中产生的音频反馈数据时，可以包括：获取在主音频数据的播放过程中反馈的表情特征；以及，将所述表情特征转化为对应的音频数据，并至少将转化后的音频数据作为音频反馈数据。

在一个实施例中，以上数据获取模块9100在获取在主音频数据的播放过程中产生的音频反馈数据时，可以用于：获取在主音频数据的播放过程中产生的符合目标分类的音频反馈数据，以使音频处理模块9200生成合并后的音频数据供符合该目标分类的终端设备播放。

在一个实施例中，该处理装置9000还可以包括分类模块，该分类模块用于：获取播放主音频数据的终端设备所对应的设定用户特征的特征值；以及，根据该特征值，确定该终端设备所对应的目标分类。

在一个实施例中，该设定用户特征可以包括：对应于该终端设备的用户在主音频数据的播放过程中产生的音频反馈数据的设定特征。

在一个实施例中，该主音频数据为视频文件的音频数据，该处理装置9000还可以包括展示处理模块，该展示处理模块用于：在展示窗口中，以弹幕形式展示代表音频反馈数据的音频波形。

<设备实施例>

本实施例提供一种电子设备，如图10a所示，该电子设备100包括根据本发明任意实施例的处理装置9000。

在另一个实施例中，如图10b所示，该电子设备100可以包括存储器110和处理器120，该存储器110用于存储可执行的指令；该处理器120用于根据该可执行的指令的控制，执行如本发明任意方法实施例的处理方法。

在本实施例中，电子设备1000可以是服务器，例如是图1中的服务器1100，也可以是任意的终端设备，例如是图1中的终端设备1200，还可以包括服务器和终端设备，例如包括图1中的服务器1100和终端设备1200，在此不做限定。

在一个实施例中，该电子设备100是终端设备，该终端设备可以是具有显示装置的设备，也可以是不具有显示装置的设备，例如终端设备是机顶盒、智能音箱等。

在一个实施例中，该电子设备100是终端设备，该终端设备还可以包括输入装置，该输入装置用于供对应用户针对主音频数据发表反馈内容，并将反馈内容发送至以上处理装置9000或者处理器120，以供处理装置9000或者处理器120根据该反馈内容生成对应用户针对主音频数据的音频反馈数据。

该输入装置可以包括音频输入装置、物理键盘、虚拟键盘和触摸屏中的至少一项。

进一步地，该终端设备的处理装置或者处理器还可以用于控制通信装置将对应用户的音频反馈数据发送至服务器，以使得服务器能够将对应用户的音频反馈数据发送给其他用户的终端设备，这样，其他用户在播放同一目标媒体文件的过程中，便能够接收到该用户的音频反馈数据。

在一个实施例中，该电子设备100是终端设备，该终端设备还可以包括音频输出装置，该音频输出装置用于根据处理装置或者处理器的控制，在播放主音频数据的同时播放对应的音频反馈数据。当然，在另外的实施例中，该终端设备也可以通过有线或者无线的方式连接音频输出装置来播放合并后的音频数据。

<介质实施例>

在本实施例中，还提供一种计算机可读存储介质，该计算机可读存储介质存储有可被计算机读取并运行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本发明以上任意实施例所述的音频数据的处理方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种音频数据的处理方法，包括：

获取在主音频数据的播放过程中产生的音频反馈数据；

2.根据权利要求1所述的处理方法，其中，所述将所述音频反馈数据与所述主音频数据合并，包括：

3.根据权利要求1所述的处理方法，其中，所述将所述音频反馈数据与所述主音频数据合并，包括：

4.根据权利要求1所述的处理方法，其中，所述将所述音频反馈数据与所述主音频数据合并，包括：

通过音轨合成，将所述音频反馈数据与所述主音频数据合并。

5.根据权利要求1所述的处理方法，其中，所述获取在主音频数据的播放过程中产生的音频反馈数据，包括：

所述生成合并后的音频数据供播放，包括：

6.根据权利要求5所述的处理方法，其中，所述方法还包括：

根据所述特征值，确定所述终端设备所对应的目标分类。

7.根据权利要求6所述的处理方法，其中，所述设定用户特征包括对应于所述终端设备的用户在所述主音频数据的播放过程中产生的音频反馈数据的设定特征。

8.根据权利要求1所述的处理方法，其中，所述主音频数据为视频文件的音频数据，所述方法还包括：

9.根据权利要求1所述的处理方法，其中，所述获取在主音频数据的播放过程中产生的音频反馈数据，包括：

获取在主音频数据的播放过程中反馈的语音评论，并至少将所述语音评论作为所述音频反馈数据。

10.根据权利要求1所述的处理方法，其中，所述获取在主音频数据的播放过程中产生的音频反馈数据，包括：

获取在主音频数据的播放过程中反馈的文字评论；

11.根据权利要求1所述的处理方法，其中，所述获取在主音频数据的播放过程中产生的音频反馈数据，包括：

获取在主音频数据的播放过程中反馈的表情特征；

12.根据权利要求1所述的处理方法，其中，所述主音频数据为直播媒体文件的音频数据。

13.根据权利要求1至12中任一项所述的处理方法，其中，所述方法还包括：

14.一种音频数据的处理方法，由终端设备实施，所述方法包括：

获取选择播放的主音频数据；

15.根据权利要求14所述的处理方法，其中，所述现场音频数据还包括所述终端设备对应的用户针对所述主音频数据的音频反馈数据。

16.一种音频数据的处理方法，由终端设备实施，所述方法包括：

获取对应于所述主音频数据的现场音频数据，其中，所述现场音频数据至少包括其他用户针对所述主音频数据的音频反馈数据；执行在播放所述目标媒体文件的过程中，随同所述主音频数据播放所述现场音频数据的处理操作。

17.根据权利要求16所述的处理方法，其中，所述获取对应于所述主音频数据的现场音频数据，包括：

18.根据权利要求16所述的处理方法，其中，所述方法还包括：

将所述用户的音频反馈数据上传至服务器。

19.一种音频数据的处理装置，包括：

20.一种电子设备，包括权利要求19所述的处理装置；或者，包括：

存储器，用于存储可执行的指令；

处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行根据权利要求1-18中任意一项所述的处理方法。

21.根据权利要求20所述的电子设备，其特征在于，所述电子设备是不具有显示装置的终端设备。

22.根据权利要求20所述的电子设备，其中，所述电子设备是终端设备，所述终端设备还包括输入装置，所述输入装置用于供对应用户针对主音频数据输入反馈内容，并将所述反馈内容发送至所述处理装置或者处理器，以供所述处理装置或者处理器根据所述反馈内容生成所述对应用户针对主音频数据的音频反馈数据。

23.根据权利要求20所述的电子设备，其中，所述电子设备是终端设备，所述终端设备还包括音频输出装置，所述音频输出装置用于根据所述处理装置或所述处理器的控制，在播放主音频数据的同时播放对应的音频反馈数据。

24.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据权利要求1-18中任一项所述的处理方法。