CN112165648B

CN112165648B - 一种音频播放的方法、相关装置、设备及存储介质

Info

Publication number: CN112165648B
Application number: CN202011118555.8A
Authority: CN
Inventors: 杜正中
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2022-02-01
Anticipated expiration: 2040-10-19
Also published as: CN112165648A

Abstract

本申请公开了一种音频播放的方法、相关装置、设备及存储介质，用于多媒体技术领域。本申请方法包括：当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令；响应于音频增强指令，获取目标对象所对应的目标音频信号；根据目标音频信号以及主混音音频信号，生成第二音频数据；将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。本申请提供的方法可以实现个性化的混音效果，提升音频数据播放的灵活性。

Description

一种音频播放的方法、相关装置、设备及存储介质

技术领域

本申请涉及多媒体技术领域，尤其涉及一种音频播放的方法、相关装置、设备及存储介质。

背景技术

随着互联网技术的发展，越来越多的视频文件在终端设备上进行播放，而用户对视频文件的视听效果的要求越来越高。其中，播放的视频文件由画面数据和音频数据两个部分组成，画面数据通常具有多个清晰度可供用户选择。

目前，为了提升视频播放的效果，在播放视频的过程中，可以为用户提供多种音效，常见的音效就有数字音效、环境音效、普通音效、专业音效以及杜比音效等，这些音效能够给用户带来更好的视听体验。

然而，用户虽然可以选择不同的音效，但是对于音频数据的内容是预先制作好的，因此，用户无法选择音频数据的内容，也就无法实现交互体验，导致在视频中播放音频数据的方式较为单一。

发明内容

本申请实施例提供了一种音频播放的方法、相关装置、设备及存储介质，用于实现个性化的混音效果，提升音频数据播放的灵活性。

有鉴于此，本申请一方面提供一种音频播放的方法，包括：

当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令，其中，多媒体文件包括N个对象的音频数据，目标对象属于N个对象中的一个对象，N为大于或等于1的整数；

响应于音频增强指令，获取目标对象所对应的目标音频信号；

根据目标音频信号以及主混音音频信号，生成第二音频数据，其中，主混音音频信号为用于生成第一音频数据的音频信号；

将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。

本申请另一方面提供一种音频播放装置，包括：

获取模块，用于当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令，其中，多媒体文件包括N个对象的音频数据，目标对象属于N个对象中的一个对象，N为大于或等于1的整数；

获取模块，还用于响应于音频增强指令，获取目标对象所对应的目标音频信号；

生成模块，用于根据目标音频信号以及主混音音频信号，生成第二音频数据，其中，主混音音频信号为用于生成第一音频数据的音频信号；

播放模块，用于将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，多媒体文件为视频文件；

音频播放装置还包括提供模块以及显示模块；

提供模块，用于提供视频播放界面；

显示模块，用于通过视频播放界面显示多媒体文件所对应的全景画面数据，其中，全景画面数据包括N个对象的画面；

播放模块，还用于通过音频播放设备播放多媒体文件所对应的第一音频数据。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，

获取模块，具体用于通过视频播放界面显示预设图标；

检测触控物体在触摸屏上针对于预设图标的拖动操作；

当检测到预设图标被放置到目标对象所对应的区域时，生成针对于目标对象的音频增强指令。

获取模块，还用于当检测到预设图标被放置到目标对象所对应的区域时，获取目标对象所对应的目标画面数据，其中，目标画面数据与目标机位具有对应关系，目标机位为拍摄目标对象时所对应的机位；

显示模块，还用于当通过视频播放界面显示全景画面数据时，通过视频播放界面显示目标画面数据。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，多媒体文件为音频文件；

音频播放装置还包括确定模块；

获取模块，还用于获取针对于目标对象的音频增强指令；

获取模块，还用于通过语音输入装置获取待匹配语音；

确定模块，用于根据待匹配语音确定待匹配文本；

生成模块，还用于若待匹配文本与目标对象所对应的预设文本匹配成功，则生成针对于目标对象的音频增强指令。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，音频播放装置还包括接收模块以及处理模块；

接收模块，用于获取模块当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，接收服务器发送的主码流文件；

处理模块，用于对主码流文件进行解码处理，得到主混音音频信号；

处理模块，还用于对主混音音频信号进行渲染处理，得到第一音频数据。

获取模块，具体用于响应于音频增强指令，获取目标对象所对应的辅码流文件；

对目标对象所对应的辅码流文件进行解码处理，得到目标音频信号；

生成模块，具体用于对目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据。

提供模块，还用于播放模块将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据之后，提供音频调节界面；

处理模块，还用于若通过音频调节界面获取针对于主混音音频信号的第一调节指令，则根据第一调节指令，对主混音音频信号进行增强或减弱处理，其中，第一调节指令携带针对于主混音音频信号的音量参数；

处理模块，还用于若通过音频调节界面获取针对于目标音频信号的第二调节指令，则根据第二调节指令，对目标音频信号进行增强或减弱处理，其中，第二调节指令携带针对于目标音频信号的音量参数。

在一种可能的设计中，在本申请实施例的另一方面的另一种实现方式中，音频播放装置还包括调整模块；

接收模块，还用于获取模块当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，接收服务器发送的音频码流文件；

处理模块，还用于对音频码流文件进行解码处理，得到(N+1)个音频信息，其中，(N+1)个音频信息包括主音频信息以及N个辅音频信息，N个辅音频信息中的辅音频信息与N个对象中的对象具有对应关系；

获取模块，还用于从(N+1)个音频信息中获取主音频信息，其中，主音频信息包括主对象元数据以及主原始音频信号；

调整模块，用于根据主音频信息，采用主对象元数据对主原始音频信号进行调整，得到主混音音频信号；

获取模块，具体用于响应于音频增强指令，从(N+1)个音频信息中获取目标对象所对应的辅音频信息，其中，辅音频信息包括目标对象元数据以及目标原始音频信号；

根据目标对象所对应的辅音频信息，采用目标对象元数据对目标原始音频信号进行调整，得到目标音频信号；

调整模块，还用于若通过音频调节界面获取针对于目标对象元数据的音量调节指令，则根据音量调节指令，对目标对象元数据进行调整；

调整模块，还用于若通过音频调节界面获取针对于目标对象元数据的位置调节指令，则根据位置调节指令，对目标对象元数据进行调整；

调整模块，还用于若通过音频调节界面获取针对于目标对象元数据的距离调节指令，则根据距离调节指令，对目标对象元数据进行调整。

接收模块，还用于获取模块当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，接收服务器发送的音频声道码流文件；

处理模块，还用于对音频声道码流文件进行解码处理，得到(N+1)个声道音频文件，其中，(N+1)个声道音频文件包括主声道音频文件以及N个辅声道音频文件，主声道音频文件与主音频声道具有对应关系，N个辅声道音频文件与N个辅音频声道具有对应关系，N个辅声道音频文件中的辅声道音频文件与N个对象中的对象具有对应关系；

生成模块，还用于当主音频声道的增益为第一预设值，且N个辅音频声道的增益为第二预设值时，根据主声道音频文件生成主混音音频信号，其中，第一预设值大于第二预设值；

获取模块，具体用于响应于音频增强指令，从N个辅声道音频文件中获取目标对象所对应的目标辅声道音频文件，其中，目标辅声道音频文件对应于目标辅音频声道；

当目标辅音频声道的增益为第三预设值时，根据目标辅声道音频文件生成目标音频信号，其中，第三预设值大于第二预设值；

调整模块，还用于若通过音频调节界面获取针对于主音频声道的第一增益调节指令，则根据第一增益调节指令，对主音频声道的增益进行调整，其中，第一增益调节指令携带针对于主音频声道的增益参数；

调整模块，还用于若通过音频调节界面获取针对于目标辅音频声道的第二增益调节指令，则根据第二增益调节指令，对目标辅音频声道的增益进行调整，其中，第二增益调节指令携带针对于目标辅音频声道的增益参数。

本申请的另一方面提供了一种终端设备，终端设备包括存储器以及处理器，其中，存储器用于存储程序；处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面所提供的方法。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所提供的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种音频播放的方法，终端设备在播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令，该多媒体文件包括至少一个对象的音频数据，目标对象属于所至少一个对象中的一个对象，然后终端设备可响应于音频增强指令，获取目标对象所对应的目标音频信号，并根据目标音频信号以及主混音音频信号，最后，由终端设备生成第二音频数据，该主混音音频信号为用于生成第一音频数据的音频信号，因此终端设备将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。通过上述方式，用户可以从至少一个对象中选择一个目标对象，将该目标对象的音频进行增强处理，即突出目标对象的声音，由此得到目标音频信号，然后对目标音频信号和主混音音频信号进行混音并输出，从而实现个性化的混音效果，提升音频数据播放的灵活性。

附图说明

图1为本申请实施例中音频播放系统的一个架构示意图；

图2为本申请实施例中音频播放方法的一个流程示意图；

图3为本申请实施例中音频播放的方法一个实施例示意图；

图4为本申请实施例中显示全景画面数据的一个实施例示意图；

图5为本申请实施例中目标对象对应区域的一个实施例示意图；

图6为本申请实施例中触发音频增强指令的一个实施例示意图；

图7为本申请实施例中对象与机位对应关系的一个实施例示意图；

图8为本申请实施例中显示目标画面数据的一个实施例示意图；

图9为本申请实施例中基于码流文件实现音频播放的一个实施例示意图；

图10为本申请实施例中基于主码流文件生成第一音频数据的一个实施例示意图；

图11为本申请实施例中基于辅码流文件生成第二音频数据的一个实施例示意图；

图12为本申请实施例中基于码流文件播放音频数据的一个实施例示意图；

图13为本申请实施例中调整音量参数的一个实施例示意图；

图14为本申请实施例中基于音频信息实现音频播放的一个实施例示意图；

图15为本申请实施例中基于主音频信息生成第一音频数据的一个实施例示意图；

图16为本申请实施例中基于辅音频信息生成第二音频数据的一个实施例示意图；

图17为本申请实施例中调整对象元数据的一个实施例示意图；

图18为本申请实施例中基于声道实现音频播放的一个实施例示意图；

图19为本申请实施例中基于主声道音频文件生成第一音频数据的一个实施例示意图；

图20为本申请实施例中基于音频声道生成第二音频数据的一个实施例示意图；

图21为本申请实施例中调整音频声道增益的一个实施例示意图；

图22为本申请实施例中音频播放装置的一个实施例示意图；

图23为本申请实施例中终端设备的一个架构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着互联网技术的发展，越来越多的视频文件在终端设备上进行播放，而用户对视频文件的视听效果的要求越来越高。为了提升视频播放的效果，在播放视频的过程中，可以为用户提供多种音效，这些音效能够给用户带来更好的视听体验。用户虽然可以选择不同的音效，但是有些情况下，用户还希望能够在和声中听到某个目标对象(例如，演唱者甲或者说话人乙等)的声音，因此，需要在突出该目标对象的声音。

为了能够达到突出播放某个目标对象声音的效果，本申请提出了一种音频播放的方法，该方法应用于图1所示的音频播放系统，如图所示，音频播放系统包括服务器(具体可以是流媒体服务器)和终端设备，且客户端(例如，视频播放客户端以及音频播放客户端等)部署于终端设备上。服务器侧可存储主码流文件以及辅码流文件，服务器侧也可以存储音频码流文件，服务器侧还可以存储音频声道码流文件，由服务器将文件推送至终端设备，由终端设备对这些文件进行解码并播放。

应理解，本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和终端设备的数量也不做限制。

基于此，请参阅图2，图2为本申请实施例中音频播放方法的一个流程示意图，如图所示，具体地，在步骤S1中，服务器向终端设备发送码流文件。在步骤S2中，终端设备通过对码流文件进行解码处理以及渲染处理后，即可得到第一音频数据。在步骤S3中，终端设备播放第一音频数据时，用户可以根据需求选择目标对象，即用户对第一音频数据的关注点切换到某个目标对象(演奏者、演唱者或者说话人等)的个人机位，从而生成针对于目标对象的音频增强指令。在步骤S4中，终端设备获取目标对象对应的目标音频信号。在步骤S5中，终端设备对目标音频信号进行增强处理，使得目标对象的音频作为主体突出，此时，主混音音频信号作为背景可以减弱，然后对目标音频信号和主混音音频信号进行混音并输出，以得到第二音频数据，在步骤S6中，终端设备将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。

应理解，在实际应用中，当用户的视频关注点切换到某个演奏者、演唱者或说话人等个人机位时，还可以通过按钮或滑块来实时调节混音的音量参数，从而进一步地实现个性化的混音效果，提升音频数据播放的灵活性。

示例性地，以应用于演唱会视频直播的场景作为一个示例进行介绍，例如，在某组合的演唱会视频直播中，某组合包括成员A、成员B以及成员C，在用户没有进行个性化操作时，终端设备可直接播放该演唱会对应的音频数据，该音频数据包括成员A、成员B以及成员C一起进行演唱的混合音频数据。当用户更希望关注成员B时，将预设图标拖动到成员B所在的区域，由此，终端设备获取针对于成员B的音频增强指令，并获取成员B所对应的音频信号，本实施例中用于生成演唱会对应的音频数据的音频信号为主混音音频信号，将主混音音频信号与成员B所对应的音频信号进行混音处理，生成混音后的音频数据，于是终端设备将演唱会对应的音频数据切换为混音后的音频数据，并播放混音后的音频数据，从而满足用户个性化需求。

结合上述介绍，下面将对本申请中音频播放的方法进行介绍，请参阅图3，图3为本申请实施例中音频播放的方法一个实施例示意图，如图所示，本申请实施例中音频播放的方法一个实施例包括：

101、当终端设备播放多媒体文件所对应的第一音频数据时，终端设备获取针对于目标对象的音频增强指令，其中，多媒体文件包括N个对象的音频数据，目标对象属于N个对象中的一个对象，N为大于或等于1的整数；

本实施例中，当终端设备播放多媒体文件所对应的第一音频数据时，用户可根据需求选择目标对象，即用户对第一音频数据的关注点切换到某个目标对象所对应的个人机位，由此，终端设备获取针对于目标对象的音频增强指令。需要说明的是，多媒体文件中包括至少一个对象的音频数据，被用户选择的目标对象属于至少一个对象中的任意一个对象，如果多媒体文件中仅包括一个对象的音频数据，那么对象即为目标对象。本实施例中对象为演奏者、演唱者或者说话人等。

需要说明的是，本申请提供的方法是可以由终端设备执行，也可以由终端设备和服务器共同执行，在本申请实施例中，以该方法由终端设备执行为例进行说明。

具体地，多媒体文件可以为视频文件，也可以为音乐文件，且多媒体文件可以是终端设备从服务器中实时获取的，也可以终端设备从预先从服务器中下载好的，具体此处不做限定。其次，第一音频数据即为主机位对应的音频数据，主机位为拍摄全部对象时所对应的机位。第一音频数据的音量参数为预先设置好的。

示例性地，假设存在3个演奏者(即此时N等于3)，分别为演奏者A、演奏者B以及演奏者C，当第一音频数据为演奏者A、演奏者B以及演奏者C进行演奏时，主机位收录各个方位的音频数据，而在播放多媒体文件时，除了包括主机位对应的音频数据之外，还包括演奏者A对应的音频数据A，演奏者B对应的音频数据B，演奏者C对应的音频数据C，音频数据A为靠近演奏者A，且主要对演奏者A进行拍摄的机位所收录的音频数据，而音频数据B以及音频数据C的获取方式类似，此处不做赘述。从主机位收录的音频数据中，演奏者A、演奏者B以及演奏者C的音量差别不大，而音频数据A中演奏者A的音量通常会大于演奏者B以及演奏者C的音量，同理可知，音频数据B中演奏者B的音量通常会大于演奏者A以及演奏者C的音量，音频数据C中演奏者C的音量通常会大于演奏者A以及演奏者B的音量。

102、终端设备响应于音频增强指令，获取目标对象所对应的目标音频信号；

本实施例中，终端设备响应于音频增强指令，该音频增强指令用于指示目标对象，而每个对象均有对应的音频信号，由此确定目标对象所对应的目标音频信号。

示例性地，以音频信号A、音频信号B以及音频信号C作为一个示例进行介绍。假设对象A对应的对象标识为“1”，且对象A对应音频信号A，音频信号A经过声道渲染后生成音频数据A。对象B对应的对象标识为“2”，且对象B对应音频信号B，音频信号B是经过声道渲染后生成音频数据B。对象C对应的对象标识为“3”，且对象C对应音频信号C，音频信号C经过声道渲染后生成音频数据C。当用户选择的目标对象为对象A时，即触发携带对象标识为“1”的音频增强指令，终端设备响应于该音频增强指令后，根据所携带的对象标识“1”确定对象A为目标对象，然后提取音频信号A，并将音频信号A确定为目标音频信号A。

103、根据目标音频信号以及主混音音频信号，生成第二音频数据，其中，主混音音频信号为用于生成第一音频数据的音频信号；

本实施例中，第一音频数据是主混音音频信号经过声道渲染后得到的，而第二音频数据是目标音频信号与主混音音频信号经过声道渲染后得到的。基于此，终端设备或者服务器可获取到混音后的第二音频数据，若由服务器获取到混音后的第二音频数据，则还需将该第二音频数据传输至终端设备。

104、终端设备将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。

本实施例中，在终端设备获取到混音后的第二音频数据之后，将多媒体文件所对应的第一音频数据，切换为生成的第二音频数据，然后继续播放第二音频数据。

本申请实施例中，提供了一种音频播放的方法，通过上述方式，用户可以从至少一个对象中选择一个目标对象，将该目标对象的音频进行增强处理，即突出目标对象的声音，由此得到目标音频信号，然后对目标音频信号和主混音音频信号进行混音并输出，从而实现个性化的混音效果，提升音频数据播放的灵活性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，多媒体文件为视频文件；

还可以包括如下步骤：

终端设备提供视频播放界面；

终端设备通过视频播放界面显示多媒体文件所对应的全景画面数据，其中，全景画面数据包括N个对象的画面；

终端设备通过音频播放设备播放多媒体文件所对应的第一音频数据。

本实施例中，介绍了一种基于视频文件进行音频播放的方法。多媒体文件可以为视频文件，基于此，终端设备可提供视频播放界面，并通过视频播放界面显示多媒体文件所对应的全景画面数据，该全景画面数据包括N个对象的画面。并且终端设备通过音频播放设备播放多媒体文件所对应的第一音频数据。其中，音频播放设备可以为内置扬声器，或者耳机，或者外置音响等，若终端设备为平板电脑或者笔记本电脑，那么音频播放设备还可以为与平板电脑或者笔记本电脑连接的智能手机等。

为了便于理解，以包括三个对象(即此时N等于3)作为一个示例进行说明，请参阅图4，图4为本申请实施例中显示全景画面数据的一个实施例示意图，如图所示，A1用于指示第一个对象(即吉他演奏者)，A2用于指示第二个对象(即大提琴演奏者)，A3用于指示第三个对象(即钢琴演奏者)。由于多媒体文件为视频文件，因此，终端设备可以在视频播放界面上显示全景画面数据,全景画面数据中包括三个对象对应的画面。第一音频数据中包括吉他演奏乐、大提琴演奏乐以及钢琴演奏乐。

本申请实施例中，提供了一种基于视频文件进行音频播放的方法，通过上述方式，当多媒体文件为视频文件时，在播放的第一音频数据中，可以显示所有对象的画面，并且播放所有对象对应的声音，用户从视觉以及听觉上都接收到第一音频数据，从而提升音频播放的多样性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备获取针对于目标对象的音频增强指令，具体包括如下步骤：

终端设备通过视频播放界面显示预设图标；

终端设备检测触控物体在触摸屏上针对于预设图标的拖动操作；

当终端设备检测到预设图标被放置到目标对象所对应的区域时，生成针对于目标对象的音频增强指令。

本实施例中，介绍了一种基于视频文件触发音频增强指令的方法。如果多媒体文件为视频文件，则终端设备还可以通过视频播放界面显示预设图标。如果用户希望将关注点确定为目标对象，则对预设图标进行拖动操作，于是终端设备检测到触控物体在触摸屏上针对于预设图标的拖动操作，其中，触控物体包含但不仅限于用户的手指以及触摸笔等。进一步地，当用户将预设图标拖动至目标对象所对应的区域时，即触发针对于目标对象的音频增强指令。

具体地，目标对象所对应的区域可以仅包括目标对象外轮廓之内的区域，也可以为包括目标对象外轮廓之外的部分区域，此处不做限定，每个对象所对应的区域不相同且不重叠。以包括3个对象作为一个示例进行说明，与前述实施例类似，假设对象A对应的对象标识为“1”，对象B对应的对象标识为“2”，对象C对应的对象标识为“3”，如果终端设备检测到预设图标被放置到对象C所对应的区域时，则生成携带对象标识为“3”的音频增强指令，即确定目标对象为对象C。

为了便于理解，请参阅图5，图5为本申请实施例中目标对象对应区域的一个实施例示意图，如图所示，B1用于指示目标对象，B2以及B3均用于指示目标对象所对应的区域。示例性地，如图5中(A)图所示，目标对象所对应的区域为一个长方形区域，该长方形区域包括目标对象所在区域以及周边的部分区域。示例性地，如图5中(B)图所示，目标对象所对应的区域为一个不规则区域，该不规则区域是基于目标对象所在区域生成的。应理解，图5的示例仅用于理解本方案，目标对象的区域可以基于实际情况灵活确定。

进一步地，以图5中(A)图中示出目标对象所对应的区域，且触控物体为用户手指作为一个示例进行介绍，请参阅图6，图6为本申请实施例中触发音频增强指令的一个实施例示意图，如图所示，C1用于指示视频播放界面，C2用于指示预设图标，C3用于指示目标对象所对应的区域，C4为拖动操作对应的拖动轨迹。图6中(A)图示出视频播放界面中显示有预设图标，用户通过手指在触摸屏上划动，将预设图标C2拖动至目标对象所对应的区域，基于此，得到如图6中(B)图所示的界面。终端设备检测到预设图标被放置到目标对象所对应的区域，由此，即得到针对于目标对象的音频增强指令。应理解，图6的示例仅用于理解本方案，在实际应用中，预设图标还可以为其他图标，例如“鼓掌”图标等，具体预设图标在此不做限定。

本申请实施例中，提供了一种基于视频文件触发音频增强指令的方法，通过上述方式，用户将预设图标拖动至目标对象所对应的区域，终端设备可以通过在目标对象所对应的区域所检测的预设图标，确定目标对象，并且由此针对于目标对象的音频增强指令，该音频增强指令可以指示目标对象，从而提升操作的灵活性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，当终端设备检测到预设图标被放置到目标对象所对应的区域时，还可以包括如下步骤：

终端设备获取目标对象所对应的目标画面数据，其中，目标画面数据与目标机位具有对应关系，目标机位为拍摄目标对象时所对应的机位；

当终端设备通过视频播放界面显示全景画面数据时，通过视频播放界面显示目标画面数据。

本实施例中，介绍了一种显示目标画面数据的方法。通过前述实施例的描述，当终端设备检测到预设图标被放置到目标对象所对应的区域时，还可以进一步地获取目标对象所对应的目标画面数据(即“直拍画面”)，该目标画面数据与目标机位具有对应关系，目标机位为拍摄目标对象时所对应的机位，基于此，终端设备还可以通过视频播放界面显示目标画面数据。

为了便于理解，请参阅图7，图7为本申请实施例中对象与机位对应关系的一个实施例示意图，如图所示，D1用于指示主机位，D2用于指示第一个对象，D3用于指示第二个对象，D4用于指示第三个对象，D5、D6和D7分别用于指示不同对象所对应的机位。如图7中(A)图所示，此时在主机位中同时拍摄到第一个对象、第二个对象以及第三个对象，如图7中(B)图所示，此时在D5所指示的机位仅拍摄第一个对象，如图7中(C)图所示，此时在D6所指示的机位仅拍摄第二个对象，如图7中(D)图所示，此时在D7所指示的机位仅拍摄第三个对象。应理解，图7的示例仅用于对象与所对应的机位，具体对象与具体对象所对应的机位需要根据实际情况灵活确定。

进一步地，以图7中第二个对象为目标对象作为一个示例进行说明，请参阅图8，图8为本申请实施例中显示目标画面数据的一个实施例示意图，如图所示，E1用于指示视频播放界面，E2用于指示示全景画面数据，E3用于指示目标画面数据。由于第二个对象为目标对象，因此，第二个对象对应的机位为目标机位，而目标机位所拍摄的数据即为目标画面数据。终端设备在视频播放界面上同时播放通过主机位所拍摄的全景画面数据，以及通过目标机位所拍摄的目标画面数据。应理解，图8的示例仅用于理解对象与所对应的机位，具体目标画面数据需要根据用户所选的目标对象的实际情况灵活确定。

本申请实施例中，提供了一种显示目标画面数据的方法，通过上述方式，终端设备通过视频播放界面显示全景画面数据的同时，还可以通过视频播放界面显示目标画面数据，使得用户在观看全部对象的音频数据时，还可以满足个性化需求，仅播放目标对象的目标画面数据。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，多媒体文件为音频文件；

还可以包括如下步骤：

终端设备通过语音输入装置获取待匹配语音；

终端设备根据待匹配语音确定待匹配文本；

若待匹配文本与目标对象所对应的预设文本匹配成功，则终端设备生成针对于目标对象的音频增强指令。

本实施例中，介绍了一种基于音频文件的音频播放的方法。用户可以通过语音输入装置输入待匹配语音，其中，语音输入装置可以为终端设备内置的麦克风，或者终端设备外置的麦克风等，具体此处不做限定。终端设备对待匹配语音进行语音识别，从而确定待匹配文本，而每个对象均有对应的预设文本，因此，终端设备再将待匹配文本与预设文本进行匹配，匹配成功后即可生成针对于目标对象的音频增强指令。整个过程不需要用户进行手动操作，即可生成音频增强指令。

示例性地，假设待匹配文本为“王源”，而预设文本中没有“王源”，那么待匹配文本与预设文本匹配失败，终端设备不会生成音频增强指令。假设待匹配文本为“王俊凯，而预设文本中也有“王俊凯”，则表示待匹配文本与预设文本匹配成功，由此触发针对于目标对象的音频增强指令。

具体地，本实施例中对待匹配语音进行语音识别是基于人工智能(ArtificialIntelligence，AI)中的语音技术(Speech Technology))技术实现的。下面对AI以及NLP进行介绍。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音技术的关键技术有自动语音识别技术(Automatic SpeechRecognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请实施例中，提供了一种基于音频文件的音频播放的方法，通过上述方式，可以基于待匹配语音确定生成音频增强指令，从而实现音频播放的切换，不需要用户进行操作，由此简化了用户操作，提升本方案的便利性。

通过前述实施例可知，可以基于码流文件生成，或者基于音频信息，或者基于声道中任一种方式生成音频数据。下面先对基于码流文件生成音频数据进行介绍。为了便于理解，请参阅图9，图9为本申请实施例中基于码流文件实现音频播放的一个实施例示意图，如图所示，服务器需要对原始的音频数据进行编码，原始的音频数据包括主机位所拍摄的主混音音频，以及各个不同机位拍摄到的音频(包括机位1音频，机位2音频至机位N音频)。将主混音音频以及不同机位拍摄到的音频输入至音频编码器，通过音频编码器进行编码。基于此，服务器可以向终端设备发送编码后的码流文件，码流文件主要分为主码流文件以及辅码流文件，主码流文件为主混音音频编码后得到的，辅码流文件与音频具有一一对应的编码关系。终端设备通过音频解码器分别对主码流文件以及目标对象对应的辅码流文件进行解码，得到主混音音频信号和目标音频信号，然后对主混音音频信号和目标音频信号进行声道渲染处理，得到第二音频数据，由此通过音频播放设备(例如，扬声器)播放第二音频数据。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，当终端设备播放多媒体文件所对应的第一音频数据时，终端设备获取针对于目标对象的音频增强指令之前，还可以包括如下步骤：

终端设备接收服务器发送的主码流文件；

终端设备对主码流文件进行解码处理，得到主混音音频信号；

终端设备对主混音音频信号进行渲染处理，得到第一音频数据。

本实施例中，介绍了一种基于主码流文件生成第一音频数据的方法。在终端设备播放多媒体文件所对应的第一音频数据之前，会先接收服务器发送的主码流文件，然后对主码流文件进行解码处理，得到主混音音频信号，再对主混音音频信号进行渲染处理，得到第一音频数据。

为了便于理解，请参阅图10，图10为本申请实施例中基于主码流文件生成第一音频数据的一个实施例示意图，如图所示，服务器具体可以为流媒体服务器，服务器在获取到主混音音频后，对该主混音音频进行编码，生成主码流文件，然后服务器向终端设备发送主码流文件。终端设备通过音频解码器对主码流文件进行解码处理，得到主混音音频信号。主混音音频信号的音量参数可以是预设的，也可以是由用户调节得到的，此处不做限定。

本申请实施例中，提供了一种基于主码流文件生成第一音频数据的方法，通过上述方式，基于码流文件生成第一音频数据可以不用更换现有编码器以及解码器，且现有服务框架也不用更改，只需要修改播放器中的应用，从而提升本方案的可行性并且降低调整消耗。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备获取目标对象所对应的目标音频信号，具体包括如下步骤：

终端设备响应于音频增强指令，获取目标对象所对应的辅码流文件；

终端设备对目标对象所对应的辅码流文件进行解码处理，得到目标音频信号；

终端设备根据目标音频信号以及主混音音频信号，生成第二音频数据，具体包括如下步骤：

终端设备对目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据。

本实施例中，提供了一种基于辅码流文件获取第二音频数据的方法。终端设备响应于音频增强指令，获取目标对象所对应的辅码流文件。应理解，在终端设备处于在线状态时，终端设备响应于音频增强指令后，从服务器中仅接收目标对象所对应的辅码流文件。在终端设备处于离线状态时，终端设备响应于音频增强指令后，从本地中获取目标对象所对应的辅码流文件。随后，终端设备对目标对象所对应的辅码流文件进行解码处理，得到目标音频信号，然后对所获取的目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据。

为了便于理解，请参阅图11，图11为本申请实施例中基于辅码流文件生成第二音频数据的一个实施例示意图，如图所示，服务器具体可以为流媒体服务器，服务器在获取到N个机位对应的音频后，可通过音频编码器分别对每个机位下的音频进行编码，由此生成N个辅码流文件(如，码流文件1，码流文件2，码流文件N等)，辅码流文件的数量需根据对象数量确定。服务器可以直接向终端设备发送N个辅码流文件，或者只向终端设备发送求目标对象所对应的辅码流文件，此处不做限定。终端设备获取到目标对象所对应的辅码流文件后，通过音频解码器对该辅码流文件进行解码处理，得到目标音频信号。目标音频信号的音量参数可以是预设的，也可以是由用户调节得到的，此处不做限定。终端设备对目标音频信号以及主混音音频信号进行渲染处理后，得到第二音频数据。

为了进一步理解，请参阅图12，图12为本申请实施例中基于码流文件播放音频数据的一个实施例示意图，如图所示，服务器向终端设备发送主码流文件以及目标对象所对应的辅码流文件，F1用于指示全景画面数据，F2用于指示目标画面数据，F3用于指示视频播放界面。通过前述实施例可知，用户根据需求切换直拍机位时，终端设备通过前述实施例所描述的方式对主码流文件进行解码处理，得到主混音音频信号，并且对目标对象所对应的辅码流文件进行解码处理，得到目标音频信号，然后对目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据，于是终端设备在视频播放界面显示全景画面数据以及目标画面数据，并且播放第二音频数据。

本申请实施例中，提供了一种基于辅码流文件获取第二音频数据的方法，通过上述方式，基于辅码流文件生成第二音频数据不用更换现有编码器以及解码器，且现有服务框架也不用更改，只需要修改播放器中的应用，从而节省硬件成本。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据之后，还可以包括如下步骤：

终端设备提供音频调节界面；

若终端设备通过音频调节界面获取针对于主混音音频信号的第一调节指令，则终端设备根据第一调节指令，对主混音音频信号进行增强或减弱处理，其中，第一调节指令携带针对于主混音音频信号的音量参数；

若终端设备通过音频调节界面获取针对于目标音频信号的第二调节指令，则根据第二调节指令，对目标音频信号进行增强或减弱处理，其中，第二调节指令携带针对于目标音频信号的音量参数。

本实施例中，介绍了一种对音频信号进行调节的方法。终端设备播放第二音频数据之后，还可以提供音频调节界面，用户可以在音频调节界面上对主混音音频信号以及目标音频信号的音量参数进行调节。

具体地，用户可以通过音频调节界面触发针对于主混音音频信号的第一调节指令，且第一调节指令携带针对于主混音音频信号的音量参数，基于第一调节指令所携带的音量参数，对主混音音频信号进行调整。假设调整前主混音音频信号的音量参数为90％，而第一调节指令指示的音量参数为60％，则终端设备对主混音音频信号进行减弱处理。又或者，调整前主混音音频信号的音量参数为80％，而第一调节指令所携带的音量参数为90％，则终端设备对主混音音频信号进行增强处理。用户还可以通过音频调节界面获取针对于目标音频信号的第二调节指令，且第二调节指令携带针对于目标音频信号的音量参数，由此终端设备根据第二调节指令，对目标音频信号进行增强或减弱处理。

为了便于理解，请参阅图13，图13为本申请实施例中调整音量参数的一个实施例示意图，如图所示，图13中(A)图示出的为未调节音频信号音量参数的音频调节界面，图13中(B)图示出的为对进行音频信号音量参数调节后的音频调节界面。由图13中(A)图可见，目标音频信号的音量参数为70％，主混音音频信号的音量参数为35％，用户将目标音频信号的音量调节对应滑块向下移动，将主混音音频信号的音量调节对应滑块向上移动，即如图13中(B)图所示，目标音频信号的音量参数被调整为60％，而主混音音频信号的音量参数被调整为65％，基于此，终端设备对主混音音频信号进行增强处理，并且目标音频信号的音量参数“60％”对目标音频信号进行减弱处理，具体将音量从70％调整至60％。

本申请实施例中，提供了一种对音频信号进行调节的方法，通过上述方式，用户可以根据需求对主混音音频信号以及目标音频信号进行增强或减弱处理，从而进一步地满足用户多元化的需求，提升音频数据播放的灵活性。

下面对基于音频信息生成的音频数据进行介绍。终端设备接收已混音的内容，这些混音内容是由混音工程师在工作室环境中，将原始音频对象降混到小于原始音频对象数目的声道数中，声道数包括但不限于为2.0声道、5.1声道以及7.1声道等。其中，2.0声道为两声道立体声格式，具体分为左声道以及右声道，5.1声道为6声道环绕声，具体分为左声道、右声道、中声道、低音声道、左环绕声道以及右环绕声道，而7.1声道为8声道环绕声，具体分为左声道、右声道、中声道、低音声道、左环绕声道、右环绕声道、左后环绕声道以及右后环绕声道。基于此，由于这些声道都是多个音频对象的叠加，而基于对象编码器而言，能够使用较少的码率编码多达上百个音频对象，利用相应对象的对象元数据来指导回放端的混音，混音过程在终端设备进行，这样就提供了调整对象元数据的方式，还可以修改对象的增益以及方位等信息，创造个性化的混音。

为了便于理解，请参阅图14，图14为本申请实施例中基于音频信息实现音频播放的一个实施例示意图，如图所示，服务器需要对原始的音频数据进行编码，原始的音频数据包括主机位所拍摄的主混音音频以及各个不同机位拍摄到的音频(包括机位1音频，机位2音频至机位N音频)。基于对象编码器对原始的音频数据进行编码后生成音频码流文件，于是，服务器向终端设备发送音频码流文件，音频码流文件中包含不同机位的音频信息，且每个音频信息中包括对象元数据以及原始音频信号。终端设备采用对象解码器对音频码流文件进行解码处理，得到主音频信息以及N个辅音频信息。还可以基于音频信息的个性化混音，即调整音频信号的对象元数据。最后，终端设备基于目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据，由此通过音频播放设备(例如，扬声器)播放第二音频数据。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，当终端设备播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，还可以包括如下步骤：

终端设备接收服务器发送的音频码流文件；

终端设备对音频码流文件进行解码处理，得到(N+1)个音频信息，其中，(N+1)个音频信息包括主音频信息以及N个辅音频信息，N个辅音频信息中的辅音频信息与N个对象中的对象具有对应关系；

终端设备从(N+1)个音频信息中获取主音频信息，其中，主音频信息包括主对象元数据以及主原始音频信号；

终端设备根据主音频信息，采用主对象元数据对主原始音频信号进行调整，得到主混音音频信号；

本实施例中，介绍了一种基于主音频信息生成第一音频数据的方法。终端设备获取针对于目标对象的音频增强指令之前，先接收服务器发送的音频码流文件，再对音频码流文件进行解码处理，得到主音频信息以及N个辅音频信息，基于主音频信息得到主对象元数据以及主原始音频信号。采用主对象元数据对主原始音频信号进行调整，得到主混音音频信号，最后对主混音音频信号进行渲染处理，生成第一音频数据。

具体地，对象元数据包括对象的位置(例如，在舞台的前、后、左或右)、音量以及距离等信息。使用对象编码器编码时，混合的工作在终端设备侧进行。混音工程师对不同对象(例如，主唱、大提琴或吉他等)的设置是以对象元数据的方式进行存储。终端设备根据主对象元数据对主原始音频信号进行调整，得到主混音音频信号，其中，主对象元数据包括音量。

为了便于理解，请参阅图15，图15为本申请实施例中基于主音频信息生成第一音频数据的一个实施例示意图，如图所示，服务器基于主混音音频和N个机位采集到的音频生成音频码流文件，然后向终端设备发送音频码流文件。终端设备通过基于对象的解码器对音频码流文件进行解码处理，得到主音频信息，由于主音频信息包括主对象元数据以及主原始音频信号，因此，可采用主对象元数据对主原始音频信号进行调整，例如，采用主对象元数据中包含的音量信息，对主原始音频信号的音量进行增强调整，由此得到主混音音频信号，再对主混音音频信号进行渲染处理，得到第一音频数据。

本申请实施例中，提供了一种基于主音频信息生成第一音频数据的方法，通过上述方式，由于对象之间有相似成分，因此，基于对象编码可以提升编码效率。此外，基于主对象元数据可以调整主原始音频信号的音量、位置以及距离等，从而提升操作的灵活性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的另一个可选实施例中，终端设备响应于音频增强指令，获取目标对象所对应的目标音频信号，具体包括如下步骤：

终端设备响应于音频增强指令，从(N+1)个音频信息中获取目标对象所对应的辅音频信息，其中，辅音频信息包括目标对象元数据以及目标原始音频信号；

终端设备根据目标对象所对应的辅音频信息，采用目标对象元数据对目标原始音频信号进行调整，得到目标音频信号；

本实施例中，介绍了一种基于辅音频信息生成第二音频数据的方法。终端设备根据音频增强指令，从(N+1)个音频信息中获取目标对象所对应的辅音频信息，其中，辅音频信息中包括目标对象所对应的目标对象元数据以及目标对象所对应的目标原始音频信号，目标对象元数据包括目标对象的位置、音量以及距离等信息，目标原始音频信号表示目标对象的声音数据。进一步地，终端设备采用目标对象元数据对目标原始音频信号进行调整，得到目标音频信号，最后对目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据。

为了便于理解，请参阅图16，图16为本申请实施例中基于辅音频信息生成第二音频数据的一个实施例示意图，如图所示，服务器生成音频码流文件，然后向终端设备发送该音频码流文件，终端设备通过基于对象的解码器对音频码流文件进行解码处理，得到主音频信息以及N个辅音频信息。终端设备根据音频增强指令确定目标对象，并获取目标对象对应的辅音频信息，辅音频信息包括目标对象对应的目标对象元数据以及目标原始音频信号，因此，可采用目标对象元数据对目标原始音频信号进行调整，由此得到调整后的目标音频信号，再对目标音频信号以及主混音音频信号进行渲染处理，从而得到第二音频数据。

本申请实施例中，提供了一种基于辅音频信息生成第二音频数据的方法，通过上述方式，通过基于对象的编码器，将多个音频信息编码得到一个音频码流文件，由于对象之间有相似成分，基于对象编码就可以提升编码效率。此外，目标对象元数据可以调整目标原始音频信号的音量、位置以及距离等，由此提升本方案的灵活性。

终端设备提供音频调节界面；

若终端设备通过音频调节界面获取针对于目标对象元数据的音量调节指令，则根据音量调节指令，对目标对象元数据进行调整；

若终端设备通过音频调节界面获取针对于目标对象元数据的位置调节指令，则根据位置调节指令，对目标对象元数据进行调整；

若终端设备通过音频调节界面获取针对于目标对象元数据的距离调节指令，则根据距离调节指令，对目标对象元数据进行调整。

本实施例中，介绍了一种对目标对象元数据进行调整的方法。终端设备播放第二音频数据之后，还可以提供音频调节界面，用户可以在音频调节界面对目标对象元数据的音量，位置以及距离进行调节。

示例性地，用户可以通过音频调节界面触发针对于目标对象元数据的音量调节指令，基于此，终端设备对目标对象元数据进行调整。例如，调整前目标对象元数据中的音量为90％，而音量调节指令指示音量为70％，那么根据该音量调节指令，可将目标对象元数据中的音量从90％调整至70％。

示例性地，用户可以通过音频调节界面触发针对于目标对象元数据的位置调节指令，基于此，终端设备对目标对象元数据进行调整。位置可包括舞台的左侧，中间以及右侧，例如，调整前目标对象元数据中位置为中间，而位置调节指令位置指示左侧，那么根据该位置调节指令，将目标对象元数据中的位置从中间调整至左侧。

示例性地，用户可以通过音频调节界面触发针对于目标对象元数据的距离调节指令，基于此，终端设备对目标对象元数据进行调整。距离表现为用户到舞台距离。例如，调整前目标对象元数据中距离为50，模拟用户距离舞台50米所听到的声音，而距离调节指令指示距离为80，那么根据该距离调节指令，将目标对象元数据中的距离调远，模拟用户距离舞台80米所听到的声音。

为了便于理解，请参阅图17，图17为本申请实施例中调整对象元数据的一个实施例示意图，如图所示，图17中(A)图示出的为对目标对象元数据调整前的音频调节界面，图17中(B)图示出的为对进行目标对象元数据调整后的音频调节界面。如图17中(A)图所示，目标对象元数据中的音量为60％，距离为70，位置靠中间，用户根据需求将目标对象元数据的音量对应滑块向下移动，将目标对象元数据的距离对应滑块向下移动，并将目标对象元数据的位置对应滑块向左移动。由此，如图17中(B)图所示，目标对象元数据的音量被调整为35％，距离被调整为60，位置被调整至靠左，终端设备可以分别获取到目标对象元数据的音量调节指令，位置调节指令以及距离调节指令，并且根据前述调节指令，对目标对象元数据进行调整。

本申请实施例中，提供了一种对目标对象元数据进行调整的方法，通过上述方式，用户可以根据需求对目标对象元数据进行调整，从而满足用户多元化的需求，进一步提升音频数据播放的灵活性。

下面再对基于声道生成音频数据进行介绍。在一部电影视频文件中，通常包含立体声混音音轨、多声道混音音轨、无对话背景声音轨(用于重新其他语种配音)以及音频解说音轨(用于视觉障碍用户)等，而在一个音乐作品中，可能包含录音室混音音轨，伴奏音轨等。用户可选择播放某个音轨或者将某几个音轨进行混音，按照个性化需求使用音频。

为了便于理解，请参阅图18，图18为本申请实施例中基于声道实现音频播放的一个实施例示意图，如图所示，服务器采用多声道编码器对原始的音频数据进行编码，得到音频声道码流文件，原始的音频数据包括主机位所拍摄的主混音音频以及各个不同机位拍摄到的音频(包括机位1音频，机位2音频至机位N音频)。终端设备采用多声道解码器对音频声道码流文件进行解码处理，得到多个声道音频文件，且包含主声道音频文件以及不同机位对应的辅声道音频文件。如果采用默认混音方式，即主音频声道的增益为1，不同机位对应的辅声道的增益为0，应理解，默认混音方式中默认增益值可以根据实际情况灵活确定。如果用户希望关注目标对象，终端设备可将目标对象对应的辅声道按照预设的增益混入主混音音频信号，得到调整增益后的多声道音频信号，然后多声道音频信号再根据回放设备的声道数进行声道下混，进行渲染处理，得到第二音频数据，由此通过音频播放设备(例如，扬声器)播放第二音频数据。

终端设备接收服务器发送的音频声道码流文件；

终端设备对音频声道码流文件进行解码处理，得到(N+1)个声道音频文件，其中，(N+1)个声道音频文件包括主声道音频文件以及N个辅声道音频文件，主声道音频文件与主音频声道具有对应关系，N个辅声道音频文件与N个辅音频声道具有对应关系，N个辅声道音频文件中的辅声道音频文件与N个对象中的对象具有对应关系；

当主音频声道的增益为第一预设值，且N个辅音频声道的增益为第二预设值时，终端设备根据主声道音频文件生成主混音音频信号，其中，第一预设值大于第二预设值；

本实施例中，介绍了一种基于主声道音频文件生成第一音频数据的方法。终端设备获取针对于目标对象的音频增强指令之前，接收服务器发送的音频声道码流文件，然后对音频码流文件进行解码处理，得到主声道音频文件以及N个辅声道音频文件，主声道音频文件与主音频声道具有对应关系，辅声道音频文件与辅音频声道具有对应关系。当主音频声道的增益为第一预设值，辅音频声道的增益为第二预设值时，终端设备根据主声道音频文件生成主混音音频信号，对主混音音频信号进行渲染处理，得到第一音频数据。

具体地，第一预设值可以为1，在实际应用中，第一预设值还可以为0.8以及0.9等无限接近与1的数值。第二预设值为0，在实际应用中，第一预设值还可以为0.01等数值。

为了便于理解，请参阅图19，图19为本申请实施例中基于主声道音频文件生成第一音频数据的一个实施例示意图，如图所示，服务器生成音频声道码流文件，然后向终端设备发送音频声道码流文件。终端设备通过多声道解码器对音频码流文件进行解码处理，得到主声道音频文件以及N个辅声道音频文件，此时，根据主声道音频文件生成主混音音频信号，再对主混音音频信号进行渲染处理，得到第一音频数据。

本申请实施例中，提供了一种基于主声道音频文件生成第一音频数据的方法，通过上述方式，无需更换编码器，采用原本的音频编码器可以支持多声道编码，从而节省了音频处理成本。

终端设备响应于音频增强指令，从N个辅声道音频文件中获取目标对象所对应的目标辅声道音频文件，其中，目标辅声道音频文件对应于目标辅音频声道；

当目标辅音频声道的增益为第三预设值时，终端设备根据目标辅声道音频文件生成目标音频信号，其中，第三预设值大于第二预设值；

本实施例中，介绍了一种基于音频声道生成第二音频数据的方法。终端设备获取音频增强指令之后，可以从(N+1)个声道音频文件中获取目标对象所对应的目标辅声道音频文件，且目标辅声道音频文件对应于目标辅音频声道。终端设备可将目标辅音频声道的增益从第二预设值调整为第三预设值，第三预设值大于第二预设值，即目标辅音频声道的增益增加，此时，终端设备根据目标辅声道音频文件生成目标音频信号，并且对目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据。例如，第二预设值为0，而第三预设值为0.7，那么目标辅音频声道的增益即可以从0增加至0.7。可以理解的是，还可以将第一预设值调小，例如，将主音频声道的增益减小为0。

为了便于理解，请参阅图20，图20为本申请实施例中基于音频声道生成第二音频数据的一个实施例示意图，如图所示，服务器生成音频声道码流文件，并向终端设备发送音频声道码流文件，终端设备通过多声道解码器对音频声道码流文件进行解码处理，得到主声道音频文件以及N个辅声道音频文件，然后根据音频增强指令确定目标对象，并且获取目标对象对应的目标辅声道音频文件，将目标辅音频声道的增益调整为第三预设值，由此根据调整声道增益后的目标辅声道音频文件生成目标音频信号，再对目标音频信号以及主混音音频信号进行渲染处理，从而得到第二音频数据。

本申请实施例中，提供了一种基于音频声道生成第二音频数据的方法，通过上述方式，仅需要音频声道码流文件即可以支持个性化混音的应用，编码效率也优于基于多个文件的方式，进一步地提升本方案的效率。

终端设备提供音频调节界面；

若终端设备通过音频调节界面获取针对于主音频声道的第一增益调节指令，则根据第一增益调节指令，对主音频声道的增益进行调整，其中，第一增益调节指令携带针对于主音频声道的增益参数；

若终端设备通过音频调节界面获取针对于目标辅音频声道的第二增益调节指令，则根据第二增益调节指令，对目标辅音频声道的增益进行调整，其中，第二增益调节指令携带针对于目标辅音频声道的增益参数。

本实施例中，介绍了一种对音频声道增益进行调节的方法。终端设备播放第二音频数据之后，还可以提供音频调节界面，用户根据需求在音频调节界面对各音频声道的增益进行调节。

具体地，用户可以通过音频调节界面触发针对于主音频声道的第一增益调节指令，且第一增益调节指令携带针对于主音频声道的增益参数，基于第一增益调节指令中的增益参数，对主音频声道的增益进行调整。假设调整前主音频声道的增益为0.9，而第一增益调节指令指示增益为0.7，于是基于第一增益调节指令，将主音频声道的增益从0.9调整至0.7。用户还可以通过音频调节界面触发针对于目标辅音频声道的第二增益调节指令，且第二增益调节指令携带针对于目标辅音频声道的增益参数，因此根据第二增益调节指令中的增益参数，对目标辅音频声道的增益进行调整。假设未调整前目标辅音频声道的增益的为第二预设值0，而第二增益调节指令指示增益为0.8，于是基于第二增益调节指令，可以将目标辅音频声道的增益从0调整至0.8。

为了便于理解，请参阅图21，图21为本申请实施例中调整音频声道增益的一个实施例示意图，如图所示，图21中(A)图示出的为未调整音频声道增益的音频调节界面，图21中(B)图示出的为对进行音频声道增益调整后的音频调节界面。由图21中(A)图可可见，主音频声道的增益为0.95，目标辅音频声道的增益为0，用户将主音频声道增益对应的滑块向下移动，将目标辅音频声道的增益对应滑块向上移动，此时，如图21中(B)图所示，主音频声道的增益被调整为0.6，目标辅音频声道的增益被调整为0.9，由此，终端设备对主音频声道以及目标辅音频声道益进行调整。

本申请实施例中，提供了一种对音频声道增益进行调节的方法，通过上述方式，用户可以根据需求对不同音频声道的增益进行调整，从而满足用户多元化的需求，进一步提升音频数据播放的灵活性。

下面对本申请中的音频播放装置进行详细描述，请参阅图22，图22为本申请实施例中音频播放装置一个实施例示意图，音频播放装置20包括：

获取模块201，用于当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令，其中，多媒体文件包括N个对象的音频数据，目标对象属于N个对象中的一个对象，N为大于或等于1的整数；

获取模块201，还用于响应于音频增强指令，获取目标对象所对应的目标音频信号；

生成模块202，用于根据目标音频信号以及主混音音频信号，生成第二音频数据，其中，主混音音频信号为用于生成第一音频数据的音频信号；

播放模块203，用于将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据。

本申请实施例中，提供了一种音频播放装置，采用上述装置，用户可以从至少一个对象中选择一个目标对象，将该目标对象的音频进行增强处理，即突出目标对象的声音，由此得到目标音频信号，然后对目标音频信号和主混音音频信号进行混音并输出，从而实现个性化的混音效果，提升音频数据播放的灵活性。

可选地，在上述图22所对应的实施例的基础上，本申请实施例提供的音频播放装置20的另一实施例中，多媒体文件为视频文件；

音频播放装置20还包括提供模块204以及显示模块205；

提供模块204，用于提供视频播放界面；

显示模块205，用于通过视频播放界面显示多媒体文件所对应的全景画面数据，其中，全景画面数据包括N个对象的画面；

播放模块203，还用于通过音频播放设备播放多媒体文件所对应的第一音频数据。

本申请实施例中，提供了一种音频播放装置，采用上述装置，当多媒体文件为视频文件时，在播放的第一音频数据中，可以显示所有对象的画面，并且播放所有对象对应的声音，用户从视觉以及听觉上都接收到第一音频数据，从而提升音频播放的多样性。

可选地，在上述图22所对应的实施例的基础上，本申请实施例提供的音频播放装置20的另一实施例中，

获取模块201，具体用于通过视频播放界面显示预设图标；

检测触控物体在触摸屏上针对于预设图标的拖动操作；

本申请实施例中，提供了一种音频播放装置，采用上述装置，用户将预设图标拖动至目标对象所对应的区域，终端设备可以通过在目标对象所对应的区域所检测的预设图标，确定目标对象，并且由此针对于目标对象的音频增强指令，该音频增强指令可以指示目标对象，从而提升操作的灵活性。

获取模块201，还用于当检测到预设图标被放置到目标对象所对应的区域时，获取目标对象所对应的目标画面数据，其中，目标画面数据与目标机位具有对应关系，目标机位为拍摄目标对象时所对应的机位；

显示模块205，还用于当通过视频播放界面显示全景画面数据时，通过视频播放界面显示目标画面数据。

本申请实施例中，提供了一种音频播放装置，采用上述装置，终端设备通过视频播放界面显示全景画面数据的同时，还可以通过视频播放界面显示目标画面数据，使得用户在观看全部对象的音频数据时，还可以满足个性化需求，仅播放目标对象的目标画面数据。

可选地，在上述图22所对应的实施例的基础上，本申请实施例提供的音频播放装置20的另一实施例中，多媒体文件为音频文件；

音频播放装置20还包括确定模块206；

获取模块201，还用于通过语音输入装置获取待匹配语音；

确定模块206，用于根据待匹配语音确定待匹配文本；

生成模块202，还用于若待匹配文本与目标对象所对应的预设文本匹配成功，则生成针对于目标对象的音频增强指令。

本申请实施例中，提供了一种音频播放装置，采用上述装置，可以基于待匹配语音确定生成音频增强指令，从而实现音频播放的切换，不需要用户进行操作，由此简化了用户操作，提升本方案的便利性。

可选地，在上述图22所对应的实施例的基础上，本申请实施例提供的音频播放装置20的另一实施例中，音频播放装置20还包括接收模块207以及处理模块208；

接收模块207，用于获取模块201当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，接收服务器发送的主码流文件；

处理模块208，用于对主码流文件进行解码处理，得到主混音音频信号；

处理模块208，还用于对主混音音频信号进行渲染处理，得到第一音频数据。

本申请实施例中，提供了一种音频播放装置，采用上述装置，基于码流文件生成第一音频数据可以不用更换现有编码器以及解码器，且现有服务框架也不用更改，只需要修改播放器中的应用，从而提升本方案的可行性并且降低调整消耗。

获取模块201，具体用于响应于音频增强指令，获取目标对象所对应的辅码流文件；

生成模块202，具体用于对目标音频信号以及主混音音频信号进行渲染处理，得到第二音频数据。

本申请实施例中，提供了一种音频播放装置，采用上述装置，基于辅码流文件生成第二音频数据不用更换现有编码器以及解码器，且现有服务框架也不用更改，只需要修改播放器中的应用，从而节省硬件成本。

提供模块204，还用于播放模块203将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据之后，提供音频调节界面；

处理模块208，还用于若通过音频调节界面获取针对于主混音音频信号的第一调节指令，则根据第一调节指令，对主混音音频信号进行增强或减弱处理，其中，第一调节指令携带针对于主混音音频信号的音量参数；

处理模块208，还用于若通过音频调节界面获取针对于目标音频信号的第二调节指令，则根据第二调节指令，对目标音频信号进行增强或减弱处理，其中，第二调节指令携带针对于目标音频信号的音量参数。

本申请实施例中，提供了一种音频播放装置，采用上述装置，用户可以根据需求对主混音音频信号以及目标音频信号进行增强或减弱处理，从而进一步地满足用户多元化的需求，提升音频数据播放的灵活性。

可选地，在上述图22所对应的实施例的基础上，本申请实施例提供的音频播放装置20的另一实施例中，音频播放装置20还包括调整模块209；

接收模块207，还用于获取模块201当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，接收服务器发送的音频码流文件；

处理模块208，还用于对音频码流文件进行解码处理，得到(N+1)个音频信息，其中，(N+1)个音频信息包括主音频信息以及N个辅音频信息，N个辅音频信息中的辅音频信息与N个对象中的对象具有对应关系；

获取模块201，还用于从(N+1)个音频信息中获取主音频信息，其中，主音频信息包括主对象元数据以及主原始音频信号；

调整模块209，用于根据主音频信息，采用主对象元数据对主原始音频信号进行调整，得到主混音音频信号；

本申请实施例中，提供了一种音频播放装置，采用上述装置，由于对象之间有相似成分，因此，基于对象编码可以提升编码效率。此外，基于主对象元数据可以调整主原始音频信号的音量、位置以及距离等，从而提升操作的灵活性。

获取模块201，具体用于响应于音频增强指令，从(N+1)个音频信息中获取目标对象所对应的辅音频信息，其中，辅音频信息包括目标对象元数据以及目标原始音频信号；

本申请实施例中，提供了一种音频播放装置，采用上述装置，通过基于对象的编码器，将多个音频信息编码得到一个音频码流文件，由于对象之间有相似成分，基于对象编码就可以提升编码效率。此外，目标对象元数据可以调整目标原始音频信号的音量、位置以及距离等，由此提升本方案的灵活性。

调整模块209，还用于若通过音频调节界面获取针对于目标对象元数据的音量调节指令，则根据音量调节指令，对目标对象元数据进行调整；

调整模块209，还用于若通过音频调节界面获取针对于目标对象元数据的位置调节指令，则根据位置调节指令，对目标对象元数据进行调整；

调整模块209，还用于若通过音频调节界面获取针对于目标对象元数据的距离调节指令，则根据距离调节指令，对目标对象元数据进行调整。

本申请实施例中，提供了一种音频播放装置，采用上述装置，用户可以根据需求对目标对象元数据进行调整，从而满足用户多元化的需求，进一步提升音频数据播放的灵活性。

接收模块207，还用于获取模块当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，接收服务器发送的音频声道码流文件；

处理模块208，还用于对音频声道码流文件进行解码处理，得到(N+1)个声道音频文件，其中，(N+1)个声道音频文件包括主声道音频文件以及N个辅声道音频文件，主声道音频文件与主音频声道具有对应关系，N个辅声道音频文件与N个辅音频声道具有对应关系，N个辅声道音频文件中的辅声道音频文件与N个对象中的对象具有对应关系；

生成模块202，还用于当主音频声道的增益为第一预设值，且N个辅音频声道的增益为第二预设值时，根据主声道音频文件生成主混音音频信号，其中，第一预设值大于第二预设值；

本申请实施例中，提供了一种音频播放装置，采用上述装置，无需更换编码器，采用原本的音频编码器可以支持多声道编码，从而节省了音频处理成本。

获取模块201，具体用于响应于音频增强指令，从N个辅声道音频文件中获取目标对象所对应的目标辅声道音频文件，其中，目标辅声道音频文件对应于目标辅音频声道；

本申请实施例中，提供了一种音频播放装置，采用上述装置，仅需要音频声道码流文件即可以支持个性化混音的应用，编码效率也优于基于多个文件的方式，进一步地提升本方案的效率。

提供模块204，还用于播放模块将多媒体文件所对应的第一音频数据切换为第二音频数据，并播放第二音频数据之后，提供音频调节界面；

调整模块209，还用于若通过音频调节界面获取针对于主音频声道的第一增益调节指令，则根据第一增益调节指令，对主音频声道的增益进行调整，其中，第一增益调节指令携带针对于主音频声道的增益参数；

调整模块209，还用于若通过音频调节界面获取针对于目标辅音频声道的第二增益调节指令，则根据第二增益调节指令，对目标辅音频声道的增益进行调整，其中，第二增益调节指令携带针对于目标辅音频声道的增益参数。

本申请实施例中，提供了一种音频播放装置，采用上述装置，用户可以根据需求对不同音频声道的增益进行调整，从而满足用户多元化的需求，进一步提升音频数据播放的灵活性。

本申请实施例还提供了另一种音频播放装置，如图23所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。在本申请实施例中，以终端设备为智能手机为例进行说明：

图23示出的是与本申请实施例提供的终端设备相关的部分结构的框图。在本实施例中，以该终端设备为智能手机为例进行说明。参考图23，该智能手机包括：射频(RadioFrequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图23中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图23对智能手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图23中，触控面板331与显示面板341是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与智能手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一智能手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图23示出了WiFi模块370，但是可以理解的是，其并不属于智能手机的必须构成。

处理器380是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；优选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

智能手机还包括给各个部件供电的电源390(比如电池)，优选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器380可以执行前述图3至图21任一项对应实施例中的功能，此处不再赘述。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频播放的方法，其特征在于，包括：

接收服务器发送的主码流文件；对所述主码流文件进行解码处理，得到主混音音频信号；对所述主混音音频信号进行渲染处理，得到第一音频数据；

当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令，其中，所述第一音频数据为主机位对应的音频数据；所述多媒体文件包括N个对象的音频数据，所述目标对象属于所述N个对象中的一个对象，所述N为大于或等于1的整数；所述多媒体文件在具有视频播放客户端的终端设备播放；

响应于所述音频增强指令，获取所述目标对象所对应的目标音频信号，包括：响应于所述音频增强指令，获取所述目标对象所对应的辅码流文件；对所述目标对象所对应的辅码流文件进行解码处理，得到所述目标音频信号；

根据所述目标音频信号以及主混音音频信号，生成第二音频数据，包括：对所述目标音频信号以及主混音音频信号进行渲染处理，得到所述第二音频数据，其中，所述主混音音频信号为用于生成所述第一音频数据的音频信号；

将所述多媒体文件所对应的所述第一音频数据切换为所述第二音频数据，并播放所述第二音频数据；

所述获取针对于目标对象的音频增强指令，包括：通过视频播放界面显示预设图标；检测触控物体在触摸屏上针对于所述预设图标的拖动操作；当检测到所述预设图标被放置到所述目标对象所对应的区域时，生成针对于所述目标对象的所述音频增强指令。

2.根据权利要求1所述的方法，其特征在于，所述多媒体文件为视频文件；

所述方法还包括：

提供视频播放界面；

通过所述视频播放界面显示所述多媒体文件所对应的全景画面数据，其中，所述全景画面数据包括所述N个对象的画面；

通过音频播放设备播放所述多媒体文件所对应的所述第一音频数据。

3.根据权利要求1所述的方法，其特征在于，所述将所述多媒体文件所对应的所述第一音频数据切换为所述第二音频数据，并播放所述第二音频数据之后，所述方法还包括：

提供音频调节界面；

若通过所述音频调节界面获取针对于所述主混音音频信号的第一调节指令，则根据所述第一调节指令，对所述主混音音频信号进行增强或减弱处理，其中，所述第一调节指令携带针对于所述主混音音频信号的音量参数；

若通过所述音频调节界面获取针对于所述目标音频信号的第二调节指令，则根据所述第二调节指令，对所述目标音频信号进行增强或减弱处理，其中，所述第二调节指令携带针对于所述目标音频信号的音量参数。

4.根据权利要求1至2中任一项所述的方法，其特征在于，所述当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，所述方法还包括：

接收服务器发送的音频码流文件；

对所述音频码流文件进行解码处理，得到(N+1)个音频信息，其中，所述(N+1)个音频信息包括主音频信息以及N个辅音频信息，所述N个辅音频信息中的辅音频信息与所述N个对象中的对象具有对应关系；

从所述(N+1)个音频信息中获取所述主音频信息，其中，所述主音频信息包括主对象元数据以及主原始音频信号；

根据所述主音频信息，采用所述主对象元数据对所述主原始音频信号进行调整，得到所述所述主混音音频信号；

对所述主混音音频信号进行渲染处理，得到所述第一音频数据。

5.根据权利要求4所述的方法，其特征在于，所述响应于所述音频增强指令，获取所述目标对象所对应的目标音频信号，还包括：

响应于所述音频增强指令，从所述(N+1)个音频信息中获取所述目标对象所对应的辅音频信息，其中，所述辅音频信息包括目标对象元数据以及目标原始音频信号；

根据所述目标对象所对应的辅音频信息，采用所述目标对象元数据对所述目标原始音频信号进行调整，得到所述目标音频信号。

6.根据权利要求5所述的方法，其特征在于，所述将所述多媒体文件所对应的所述第一音频数据切换为所述第二音频数据，并播放所述第二音频数据之后，所述方法还包括：

提供音频调节界面；

若通过所述音频调节界面获取针对于所述目标对象元数据的音量调节指令，则根据所述音量调节指令，对所述目标对象元数据进行调整；

若通过所述音频调节界面获取针对于所述目标对象元数据的位置调节指令，则根据所述位置调节指令，对所述目标对象元数据进行调整；

若通过所述音频调节界面获取针对于所述目标对象元数据的距离调节指令，则根据所述距离调节指令，对所述目标对象元数据进行调整。

7.根据权利要求1至2中任一项所述的方法，其特征在于，所述当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令之前，所述方法还包括：

接收服务器发送的音频声道码流文件；

对所述音频声道码流文件进行解码处理，得到(N+1)个声道音频文件，其中，所述(N+1)个声道音频文件包括主声道音频文件以及N个辅声道音频文件，所述主声道音频文件与主音频声道具有对应关系，所述N个辅声道音频文件与N个辅音频声道具有对应关系，所述N个辅声道音频文件中的辅声道音频文件与所述N个对象中的对象具有对应关系；

当所述主音频声道的增益为第一预设值，且所述N个辅音频声道的增益为第二预设值时，根据所述主声道音频文件生成所述主混音音频信号，其中，所述第一预设值大于所述第二预设值；

8.根据权利要求7所述的方法，其特征在于，所述响应于所述音频增强指令，获取所述目标对象所对应的目标音频信号，还包括：

响应于所述音频增强指令，从所述N个辅声道音频文件中获取所述目标对象所对应的目标辅声道音频文件，其中，所述目标辅声道音频文件对应于目标辅音频声道；

当所述目标辅音频声道的增益为第三预设值时，根据所述目标辅声道音频文件生成所述目标音频信号，其中，所述第三预设值大于所述第二预设值。

9.根据权利要求8所述的方法，其特征在于，所述将所述多媒体文件所对应的所述第一音频数据切换为所述第二音频数据，并播放所述第二音频数据之后，所述方法还包括：

提供音频调节界面；

若通过所述音频调节界面获取针对于所述主音频声道的第一增益调节指令，则根据所述第一增益调节指令，对所述主音频声道的增益进行调整，其中，所述第一增益调节指令携带针对于所述主音频声道的增益参数；

若通过所述音频调节界面获取针对于所述目标辅音频声道的第二增益调节指令，则根据所述第二增益调节指令，对所述目标辅音频声道的增益进行调整，其中，所述第二增益调节指令携带针对于所述目标辅音频声道的增益参数。

10.一种音频播放装置，其特征在于，包括：

获取模块，用于当播放多媒体文件所对应的第一音频数据时，获取针对于目标对象的音频增强指令，其中，所述第一音频数据为主机位对应的音频数据，所述多媒体文件包括N个对象的音频数据，所述目标对象属于所述N个对象中的一个对象，所述N为大于或等于1的整数，所述多媒体文件在具有视频播放客户端的终端设备播放；

所述获取模块，还用于响应于所述音频增强指令，获取所述目标对象所对应的目标音频信号；

生成模块，用于根据所述目标音频信号以及主混音音频信号，生成第二音频数据，其中，所述主混音音频信号为用于生成所述第一音频数据的音频信号；

播放模块，用于将所述多媒体文件所对应的所述第一音频数据切换为所述第二音频数据，并播放所述第二音频数据；

所述获取模块，具体用于通过视频播放界面显示预设图标，检测触控物体在触摸屏上针对于所述预设图标的拖动操作，当检测到所述预设图标被放置到所述目标对象所对应的区域时，生成针对于所述目标对象的所述音频增强指令；

处理模块，还用于对主混音音频信号进行渲染处理，得到第一音频数据；

所述获取模块，用于响应于所述音频增强指令，获取所述目标对象所对应的辅码流文件；对所述目标对象所对应的辅码流文件进行解码处理，得到所述目标音频信号；

所述生成模块，具体用于对所述目标音频信号以及主混音音频信号进行渲染处理，得到所述第二音频数据。

11.一种终端设备，其特征在于，包括：存储器以及处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据所述程序代码中的指令执行权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法。