CN115206283A

CN115206283A - 音频处理方法、装置及计算机设备

Info

Publication number: CN115206283A
Application number: CN202210878623.3A
Authority: CN
Inventors: 张超鹏; 张田博; 翁志强; 李博文; 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-18

Abstract

本申请公开了音频处理方法、装置及计算机设备，应用于计算机技术领域。该方法包括：基于第一主音频信号对应的预设信号响度对M个第一主音频信号的信号响度进行动态范围控制处理，得到M个第二主音频信号；基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号的信号响度进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；合成主合成信号和辅合成信号得到合成音频信号。通过本申请所提出的方法，能够使合成音频中主音频的音量小于辅音频的音量。

Description

音频处理方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及音频处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

通过线上歌房合唱的应用，人们可以无需到线下聚集，通过终端即可实现多人合唱。为了更好的音频效果，通常情况下，开启歌房的用户需要指定的有限个目标用户做主唱占据主声道中间声场，其他用户做辅唱作为背景干声(或和声)。然而由于每个终端的音量各不相同，因此，可能会出现辅唱的音量比主唱的音量大的情况，影响合唱的音频效果。

发明内容

本申请实施例提供了音频处理方法、装置、计算机设备及计算机可读存储介质，能够使在合成音频中主音频的音量小于辅音频的音量。

一方面，本申请实施例提供一种音频处理方法，该方法包括：

基于第一主音频信号对应的预设信号响度对M个第一主音频信号进行动态范围控制处理，得到M个第二主音频信号；

基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；

基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号。

一方面，本申请实施例提供一种音频处理装置，该装置包括获取单元和处理单元：

该处理单元，用于基于第一主音频信号对应的预设信号响度对M个第一主音频信号进行动态范围控制处理，得到M个第二主音频信号；

该处理单元，还用于基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；

该处理单元，还用于基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；

该合成单元，还用于合成主合成信号和辅合成信号得到合成音频信号。

一方面，本申请实施例提供一种计算机设备，该计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的音频处理方法。

一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，使得计算机设备执行上述的音频处理方法。

一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的音频处理方法。

在本申请所提出的方法中，首先基于第一主音频信号对应的预设信号响度对M个第一主音频信号进行动态范围控制处理，得到M个第二主音频信号；基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；然后基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；最后合成主合成信号和辅合成信号得到合成音频信号。

由于每个用户所使用的终端的麦克风接收音量各不相同，因此，主音频的音量可能会小于辅音频的音量。基于本申请所描述的方法，对第一主音频信号和第一辅音频信号进行了动态范围控制处理，且处理的过程中，设定第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度，从而可以使最后得到的合成音频中主音频的音量大于辅音频的音量。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频处理的方法的流程示意图；

图2是本申请实施例提供的一种声像定位的示意图；

图3是本申请实施例提供的一种声像定位角度的示意图；

图4是本申请实施例提供的反射处理的示意图；

图5是本申请实施例提供的混响处理的示意图；

图6是本申请实施例提供的第一辅音频信号处理的示意图；

图7是本申请实施例提供的音频处理的示意图；

图8是本申请实施例提供的一种音频处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的，而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。

本申请所提出的音频处理方法可以由计算机设备或者计算机设备的芯片执行，该计算机设备可以是终端设备或服务器，除此以外，本申请所提出的音频处理方法的执行主体还可以是其它设备或者芯片等，本申请实施例对该音频处理方法的执行主体不作限定。其中，终端设备可以例如是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此；服务器可以例如是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务器(content delivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，本申请所提出的方法属于音频处理技术。音频处理技术主要用于控制和调整音乐使其在不同场景中产生不同的声音效果，增加音乐的震撼力感染力等。本申请主要涉及到音频合成技术，计算机设备可以采集到的多个音频信号，然后将该多个音频合成在一起，得到合成音频。例如，线上歌房合唱的应用，人们可以无需到线下聚集，仅需获取到通过用户终端采集到的多个音频，然后合成为一个音频，即可实现线上歌房合唱。为了更好的音频效果，通常情况下，开启歌房的用户需要指定的有限个目标用户做主唱占据主声道中间声场，其他用户做辅唱作为背景干声(或和声)。然而由于每个终端的音量各不相同，因此，可能会出现辅唱的音量比主唱的音量大的情况，影响合唱的音频效果。

为了避免出现辅唱的音量比主唱的音量大的情况，本申请实施例提出了一种音频处理方法，如图1所示，该音频处理方法主要包括步骤S101～步骤S104。图1所示的方法执行主体可以为计算机设备。或者，图1所示的方法执行主体可以为计算机设备的芯片，本申请实施例对于音频处理方法的执行主体不作限定，后续以执行主体为计算机设备为例进行介绍。

S101、基于第一主音频信号对应的预设信号响度对M个第一主音频信号的信号响度进行动态范围控制处理，得到M个第二主音频信号。

本申请实施例中，第一主音频信号均为计算机设备获取到的音频信号。其中，第一主音频信号可以是由用户指定的，例如，用户从多个音频信号中指定M个音频信号为第一主音频信号。或者，第一主音频信号可以是由计算机设备随机指定的，例如，计算机设备随机选择M个音频信号为第一主音频信号。

在一种可能的实现方式中，计算机设备获取M个第一主音频信号的方式可以为：计算机设备从本地读取M个第一主音频信号，或者，计算机设备通过麦克风采集到第一主音频信号，或者，计算机接收到来自终端设备发送的M个第一主音频信号，本申请实施例对计算机设备如何获取第一主音频信号不作限定。

其中，动态范围控制(dynamic range control，DRC)是一种信号幅度调解方式，可以提供压缩或放大的能力，使声音听起来更柔和或者更大声。动态范围控制，是将输入音频信号的动态范围映射到指定的动态范围。通常映射后的动态范围小于映射前的动态范围，因此称之为动态范围压缩。音频信号可以进行整体的动态范围控制；也可以划分为若干子带分别进行动态范围控制。采用动态范围控制处理第一主音频信号使处理后得到的第二音频信号的声音更柔和，同时也能够调整音频信号的幅度，使第二主音频信号的音量更大。

在一种可能的实现方式中，计算机设备对M个第一主音频信号进行动态范围控制处理得到M个第二主音频信号，可以通过下列公式(1)表示：

其中，x_Ai表示第i路的第一主音频信号，

表示第i路的第二主音频信号(i的取值范围为1至M)，

表示第i路的第一主音频信号对应的DRC增益系数。其中DRC增益系数

可以通过公式(2)表示：

其中，

表示预设的第i路的第一主音频信号(即x_Ai)对应的预设信号响度。可选地，可以预先设定的第a路(a的的取值范围为1至M之间的任意一个整数)的第一主音频信号对应的预设信号响度大于它路的第一主音频信号对应的预设信号响度，例如第i路的第一主音频信号对应的预设信号响度设定为-14dB，其它路的第一主音频信号对应的预设信号响度为-15dB。基于该方式，第i路的第一主音频信号对应的音量将大于其它的第一主音频信号，从而使得第i路的对应的主音频信号的声音更加突出。除此以外第一主音频信号对应的预设信号响度也可以统一为-14dB，或者其它值，本申请实施例对此不作限定。R表示压缩器比例，本申请实施例中R的取值可以为1.5。

表示第i路的第一主音频信号(即x_Ai)的响度。其中，

可以通过公式(3)表示：

其中，x_Ai表示第i路的第一主音频信号，n表示样点符号。

为了使音频的声音能够更加自然，因此在进行DRC处理过程中，音频不会直接一开始就被压缩的，而会有一个过渡时间。这个过渡时间为触发时间(Attacktime)，本申请实施例中，该时间的取值可以为0.001s，除此以外也可以为别的值，本申请实施例对此不作限定。

S102、基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号的信号响度进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度。

其中，步骤S101和步骤S102可以同时执行，也可以先执行步骤S101或者执行步骤S102，本申请实施例对于步骤S101和步骤S102执行的先后顺序不作限定。

本申请实施例中，计算机设备获取N个第一辅音频信号的方式与步骤S102中计算机获取M个第一主音频信号的相同，本申请实施例在此不作赘述。其中，计算机设备可以周期性地或者非周期性地获取第一主音频信号和第一辅音频信号。

需要说明的是，M和N仅表示计算机设备当前接收到的第一主音频信号和第一辅音频信号的数量，例如计算机设备可以在当前周期内获取10个第一主音频信号和100个第一辅音频信号的数量，计算机设备也可以在下个周期内获取9个第一主音频信号和101个第一辅音频信号的数量，本申请实施例对计算机设备获取到的第一主音频信号和第一辅音频信号的数量不作限定。

具体的，当基于M个第一主音频信号和N个第一辅音频信号得到合成音频信号之后，该方法还包括：获取L个第一主音频信号和K个第一辅音频信号，L为正整数，且L不等于M，K为正整数，且K不等于N；基于L个第一主音频信号和K个第一辅音频信号，得到L个第一主音频信号和K个第一辅音频信号对应的合成音频信号。其中，基于L个第一主音频信号和K个第一辅音频信号得到合成音频信号与基于M个第一主音频信号和N个第一辅音频信号得到合成音频信号的区别点仅在于获取到的第一主音频信号和第一辅音频信号的数量不同，但对第一主音频信号和第一辅音频信号进行处理得到合成音频信号的具体实现方式相同，本申请实施例后续以获取到的第一主音频信号的数量为M和第一辅音频信号的数量N进行描述。

以线上歌房作为示例，其中，最开始有20个人开启了歌房，5个人作为主唱，15个人作为辅唱，在该情况下计算机设备可以获取到5个第一主音频信号和15个第一辅音频信号，并对该5个第一主音频信号和15个第一辅音频信号进行处理得到合成音频信号。在进行一段时间后，有2个主唱退出了房间，3个辅唱加入了房间，此时计算机设备可以获取到3个第一主音频信号和18个第一辅音频信号，并对该3个第一主音频信号和18个第一辅音频信号进行处理得到合成音频信号。

其中，对N个第一辅音频信号进行动态范围控制处理得到N个第二辅音频信号的具体实现方式，与上述步骤S101中计算机设备对M个第一主音频信号进行动态范围控制处理得到M个第二主音频信号的具体实现方式相同。但由于第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度，因此基于该方法，能够使得最后得到的合成音频中主音频的音量大于辅音频的音量，提高合成音频的声音效果。

在一种可能的实现方式中，计算机设备对N个第一辅音频信号进行动态范围控制处理得到N个第二辅音频信号，可以通过下列公式(4)表示：

其中，x_Bi表示第i路的第一辅音频信号，

表示第i路的第二辅音频信号(i的取值范围为1至N)，

表示第i路的第一辅音频信号对应的DRC增益系数。其中DRC增益系数

可以通过公式(5)表示：

其中，

表示预设的第i路的第一辅音频信号(即x_Bi)对应的预设信号响度，需要说明的是，本申请实施例中

要求小于

示例性的，当

设定为-14dB时，

要小于-14dB，例如，

可以设定为-15dB。R表示压缩器比例，本申请实施例中R的取值可以为1.5。

表示第i路的第一辅音频信号(即x_Bi)的响度。其中，

可以通过公式(6)表示：

其中，x_Bi表示第i路的第一辅音频信号，n表示样点符号。

S204、基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号。

在一种可能的实现方式中，基于M个第二主音频信号生成主合成信号可以通过公式(7)表示：

其中，

表示第i路的第二主音频信号(i的取值范围为1至M)，x_A表示主合成信号。

在一种可能的实现方式中，计算机设备在基于M个第二主音频信号生成主合成信号之前，可以基于该M个第二主音频信号的延迟进行延迟处理，从而使得M个第二主音频信号能够音频同步。

可选地，在计算机设备基于M个第二主音频信号生成主合成信号之前，该方法还包括：若第二主音频信号的延迟大于第一阈值，则计算机设备降低第二主音频信号的响度。基于该实现方式，能够避免由于较大的延迟影响合成音频的效果。

在一种可能的实现方式中，计算机设备基于N个第二辅音频信号生成辅合成信号的具体实现方式可以包括以下四个步骤：

步骤一、基于N个第二辅音频信号对应的方位角度对N个第二辅音频信号进行声像定位处理，生成左路声像信号和右路声像信号。

该步骤一的具体实现方式为，计算机设备基于N个第二辅音频信号对应的方位角度对N个第二辅音频信号进行声像定位处理，得到N个辅音频左路声像信号和N个辅音频右路声像信号；计算机设备合成该N个辅音频左路声像信号和N个辅音频右路声像信号，得到左路声像信号和右路声像信号。

其中，对第二辅音频信号采用声像定位的处理方法能够使最后得到的辅合成信号的音频的声音效果更立体。示例性的，如图2所示，通常情况下采集到的真实声源X是在人的正前方位，因此人的左耳接收到的左路音频信号X_L和右路音频信号X_R是相同的。若对真实声源X进行了声像定位处理，使得生成的虚拟声像Y不在人的正前方，而是相对有一个倾斜角，此时，人在接收虚拟声像对应的音频信号时，左耳接收到的音频信号Y_L和右耳接收到的音频信号Y_R是不同的。

可选地，声像定位的处理方法可以通过公式(8)表示：

其中，

表示第i路的第二辅音频信号(i的取值范围为1至N)，

表示方位角度为θ_i时左耳的头部相关传递函数(Head Related Transfer Function，HRTF)，

表示方位角度为θ_i时右耳的HRTF。θ_i表示第i路的第二辅音频信号对应的方位角度，Y_Li表示第i路第二辅音频信号对应的辅音频左路声像信号，Y_Ri表示第i路第二辅音频信号对应的辅音频右路声像信号。

HRTF是一种描述声波从音源到收听者双耳传输过程的音效定位算法，它反应了人体结构，诸如头部、耳廓、躯干结构乃至性别对声波的综合滤波结果，包含了关于音源的定位信息，对立体声音效的复现和音源虚拟位置信息的仿真具有非常重要的意义。在实际应用场景中，扬声器可以将经由HRTF处理过的信号转换为声波信号，来展现不同的空间听觉效果。

方位角度可以表示第二辅音频信号对应的虚拟声像在人的相对角度位置。示例性的，如图3所示，以人的左耳为0度，右耳为180度为准，若第二辅音频信号对应的角度为0度，则说明该第二辅音频信号的虚拟声像在人的左耳方向，若第二辅音频信号对应的角度为30度，则说明该第二辅音频信号的虚拟声像在人的左耳方向偏中心30度。本申请实施例中，每一路第二辅音频信号分别对应一个方位角度，例如，图3中包括7个角度，分别为0度、30度、60度、90度、120度、150度和180度，假设有7路第二辅音频信号，可以使第一路辅音频信号对应的方位角度为0度，第二路辅音频信号对应的方位角度为30度，第三路辅音频信号对应的方位角度为60度，第四路辅音频信号对应的方位角度为90度，第五路辅音频信号对应的方位角度为120度，第六路辅音频信号对应的方位角度为150度，第七路辅音频信号对应的方位角度为180度。需要说明的是图3仅为本申请实施例的一个示例，本申请对于如何设定方位角度不作限定。

还需要补充说明的是，虚拟空间通常会包括方位角和仰角，本申请实施例此处的描述的，方位角度指的是水平面上的方位角。同理，该方位角度还可以是仰角，或者该方位角度也可以包括仰角和方位角，本申请实施例对此不作限定。

可选地，计算机设备合成该N个辅音频左路声像信号和N个辅音频右路声像信号，得到左路声像信号和右路声像信号，可以通过公式(9)表示：

其中，Y_Li表示第i路第二辅音频信号对应的辅音频左路声像信号，Y_Ri表示第i路第二辅音频信号对应的辅音频右路声像信号。Y_L表示左路声像信号，Y_R表示右路声像信号。

基于该步骤所描述的方法，有利于使合成的音频模拟出接收到来自不同角度的音频的效果。例如，若本申请应用在线上歌房中，采用该方法，有利于逼近真实用户在不同角度合唱场景的氛围感，会让用户听感上身历其境，获得更加震撼的沉浸式声场包围体验。

步骤二、基于增益系数和延迟时间对左路声像信号和右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号。

通常情况下，在一个空间中，人们听到的声音信号通常会包括直达声和反射声，其中，直达声指声音信号通过直线传播接收到的信号，反射声指由于障碍物(例如墙壁)发生一次或多次反射后接收到的信号。因此，本申请此处采用的反射处理方式指对声音信号进行延迟和增益处理，从而提高音频信号的立体效果。

具体的，如图4所示，计算机设备基于左路声像信号和右路声像信号对应的增益系数和延迟时间，对左路声像信号和右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号，可以通过公式(10)表示：

其中，K表示对左路声像信号和右路声像信号分别进行的反射处理组数，即对左路声像信号和右路声像信号分别进行了K组反射处理。Y_L表示左路声像信号，Y_R表示右路声像信号。d_Lj表示第j组(j的取值范围为1至K之间)反射处理中左路声像信号对应的延迟时间，d_Rj表示第j组反射处理中右路声像信号对应的延迟时间，延迟时间通常可以取值为21ms～79ms时间，本申请实施例对延迟时间的取值不作限定。g_Lj表示第j组反射处理中左路声像信号对应的增益系数，g_Rj表示第j组反射处理中右路声像信号对应的增益系数，该增益系数主要用于表示声波因反射作用而造成的能量损失。

表示左路立体声信号，

表示右路立体声信号，n表示样点符号。

基于该步骤所描述的方法，能够提高最后合成的音频信号的立体效果。例如，若本申请应用在线上歌房中，采用该方法，有利于逼近真实用户在室内内歌唱的的氛围感。

步骤三、将左路立体声信号和右路立体声信号通过梳状滤波器和/或全通滤波器，生成左路混响声信号和右路混响声信号。

通常情况下，声波在室内传播时，会被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失。通常人们会感觉到声源停止发声后还有若干个声波混合持续一段时间(室内声源停止发声后仍然存在的声延续现象)。这种现象叫做混响，这段时间叫做混响时间。

为了模拟更好的混响效果，本申请采用了将左路立体声信号和右路立体声信号通过梳状滤波器和/全通滤波器的方法来实现混响处理。示例性的，如图5所示，计算机设备将左路立体声信号和右路立体声信号分别通过并联的4个梳状滤波器和2个全通滤波器，从而得到左路混响声信号和右路混响声信号。其中，通过并联的梳状滤波器可以模拟延时较大的回声，串联的滤波器可以模拟延时较小的回声。图5仅为本申请所提供的一个示例，本申请实施例对于梳状滤波器和全通滤波器的数量以及连接方式不作限定。

基于该步骤所描述的方法，能够提高最后合成的音频信号的混响效果。例如，若本申请应用在线上歌房中，采用该方法，有利于逼近真实用户在室内歌唱的的氛围感。

步骤四、基于左路混响声信号和右路混响声信号生成辅合成信号。

其中，计算机设备可以将左路混响声信号和右路混响信号合成最后得到辅合成信号。

基于上述所描述的方法，下面通过图6，对N个第一辅音频信号进行辅合成信号的具体过程进行介绍：

步骤一、对N个第一辅音频信号进行动态范围控制处理得到N个第二辅音频信号。其中，在进行动态范围控制的处理过程中，第一辅音频信号对应的信号最大响度小于第一主音频信号对应的信号最大响度，能够使得最后得到的合成音频中主音频的音量大于辅音频的音量，从而提高合成音频的声音效果。

步骤二、基于N个第二辅音频信号对应的方位角度对N个第二辅音频信号进行声像定位处理，生成左路声像信号和右路声像信号。其中，采用声像定位的处理方法能够使最后得到的辅合成信号的音频的声音效果更立体，有利于使合成的音频模拟出接收到来自不同角度的音频的效果。

步骤三、基于增益系数和延迟时间对左路声像信号和右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号。基于该实现方式，能够提高最后合成的音频信号的立体效果。

步骤四、基于左路混响声信号和右路混响声信号生成辅合成信号。基于该步骤所描述的方法，能够提高最后合成的音频信号的混响效果。

步骤五、基于左路混响声信号和右路混响声信号生成辅合成信号。

在一种可能的实现方式中，计算机设备在基于M个第二辅音频信号生成辅合成信号之前，可以基于该M个第二辅音频信号的延迟进行延迟处理，从而使得M个第二辅音频信号能够音频同步。

可选地，在基于M个第二辅音频信号生成辅合成信号之前，该方法还包括：若第二辅音频信号的延迟大于第二阈值，则计算机设备降低第二辅音频信号的响度，并设置第二辅音频信号的相位角为预设角度。其中，该预设角度为人的正前方位或者正后方位，即如图3所示，该预设角度为90度。基于该实现方式，能够避免由于较大的延迟影响合成音频的效果。

可选地，在基于M个第二辅音频信号生成辅合成信号之前，该方法还包括：计算机设备基于第二辅音频信号的延迟调整第二辅音频信号的响度和方位角度。其中，延迟越大，响度越小，方位角度越居中；延迟越小，响度越大，方位角度偏移越大。方位角度越居中，指的是该方位角度越偏向人的正前方或者正后方，如图3所示，即该方位角度越偏向90度。方位角度偏移越大，指的是该方位角度越偏向人的左耳方向或者右耳方向，如图3所示，即该方位角度越偏向0度或180度。基于该实现方式，能够避免由于较大的延迟影响合成音频的效果。

S205、合成主合成信号和辅合成信号得到合成音频信号。

在一种可能的实现方式中，合成主合成信号和辅合成信号得到合成音频信号可以通过公式(11)表示。

其中，Z_L(n)表示合成音频信号中的左路信号，Z_R(n)表示合成音频信号中的右路信号，x_A(n)表示主合成信号，

表示辅合成信号中的左路信号，

表示辅合成信号中的右路信号。基于本申请所描述的方法，本申请采取了对主音频信号和辅音频信号进行了动态范围控制处理，且处理的过程中，设定第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度，从而使最后得到的合成音频中主音频的音量大于辅音频的音量，提高了合成音频的音频效果。

可选地，该方法还包括：获取伴奏音频信号；计算机设备合成伴奏音频信号和合成音频信号，得到输出音频信号。

其中，获取伴奏音频信号的方式可以为：从本地读取伴奏音频信号，或者，计算机设备通过麦克风采集到第一主音频信号和N个第一辅音频信号，或者，计算机接收到来自终端设备发送的伴奏音频信号，本申请实施例对计算机如何获取伴奏音频信号不作限定。

合成伴奏音频信号和合成音频信号，得到输出音频信号可以通过公式(12)表示：

其中，

表示输出音频信号的左路信号，

表示输出音频信号的右路信号，Z_L(n)表示合成音频信号的左路信号，Z_R(n)表示合成音频信号的右路信号，α表示加权系数，

表示伴奏音频信号的左路信号，

表示伴奏音频信号的右路信号。

基于该实现方式，通过增加伴奏有利于提高输出音频信号的音频效果。

进一步可选地，在合成伴奏音频信号和合成音频信号得到输出音频信号之前，方法还包括：调整伴奏音频信号的响度，使伴奏音频信号的响度比合成音频信号的响度大预设值。基于该实现方式，将伴奏音频信号的响度设置为比合成音频信号的响度大预设值，有利于避免由于伴奏音频信号的响度过小或过大而影响音频效果。

基于上述所描述的方法，下面通过图7，对本申请的整个方案进行介绍：

一、对M个第一主音频信号和N个第一辅音频信号分别进行动态范围控制处理，得到M个第二主音频信号和N个第二辅音频信号。

具体的，计算机设备基于第一主音频信号对应的预设信号响度对M个第一主音频信号的信号响度进行动态范围控制处理，得到M个第二主音频信号，计算机设备基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号的信号响度进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度。由于第一主音频信号对应的信号最大响度大于第一辅音频信号对应的信号最大响度，能够使得最后得到的合成音频中主音频的音量大于辅音频的音量，提高合成音频的声音效果。

二、基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号。

其中，计算机设备基于N个第二辅音频信号生成辅合成信号，具体包括：

1、对N个第一辅音频信号进行动态范围控制处理得到N个第二辅音频信号。其中，在进行动态范围控制的处理过程中，第一辅音频信号对应的信号最大响度小于第一主音频信号对应的信号最大响度，能够使得最后得到的合成音频中主音频的音量大于辅音频的音量，从而提高合成音频的声音效果。

2、基于N个第二辅音频信号对应的方位角度对N个第二辅音频信号进行声像定位处理，生成左路声像信号和右路声像信号。其中，采用声像定位的处理方法能够使最后得到的辅合成信号的音频的声音效果更立体，有利于使合成的音频模拟出接收到来自不同角度的音频的效果。

3、基于增益系数和延迟时间对左路声像信号和右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号。基于该步骤所描述的方法，能够提高最后合成的音频信号的立体效果。

4、基于左路混响声信号和右路混响声信号生成辅合成信号。基于该步骤所描述的方法，能够提高最后合成的音频信号的混响效果。

5、基于左路混响声信号和右路混响声信号生成辅合成信号。

三、合成主合成信号和辅合成信号得到合成音频信号。

四、合成伴奏音频信号和合成音频信号，得到输出音频信号。通过增加伴奏有利于提高输出音频信号的音频效果。

其中，调整伴奏音频信号的响度，使伴奏音频信号的响度比合成音频信号的响度大预设值。基于该实现方式，将伴奏音频信号的响度设置为比合成音频信号的响度大预设值，有利于避免伴奏音频信号的响度过小或过大而影响音频效果。

基于上述的音频处理方法，本申请实施例提供了一种音频处理装置。请参见图8，是本申请实施例提供的一种音频处理装置的结构示意图，该音频处理装置800可以运行如下单元：

处理单元801，用于基于第一主音频信号对应的预设信号响度对M个第一主音频信号进行动态范围控制处理，得到M个第二主音频信号；

处理单元801，还用于基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；

处理单元801，还用于基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；

合成单元802，还用于合成主合成信号和辅合成信号得到合成音频信号。

在一种可能的实现方式中，处理单元801在用于基于N个第二辅音频信号生成辅合成信号时，具体包括：基于N个第二辅音频信号对应的方位角度对N个第二辅音频信号进行声像定位处理，生成N个左路声像信号和N个右路声像信号；基于N个左路声像信号和N个右路声像信号生成辅合成信号。

在一种可能的实现方式中，处理单元801在用于基于N个左路声像信号和N个右路声像信号生成辅合成信号时，具体包括：基于N个左路声像信号和N个右路声像信号对应的增益系数和延迟时间，对N个左路声像信号和N个右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号；基于左路立体声信号和右路立体声信号生成辅合成信号。

在一种可能的实现方式中，处理单元801在用于基于左路立体声信号和右路立体声信号生成辅合成信号时，具体包括：将左路立体声信号和右路立体声信号通过梳状滤波器和/或全通滤波器，生成左路混响声信号和右路混响声信号；基于左路混响声信号和右路混响声信号生成辅合成信号。

在一种可能的实现方式中，合成单元802，还用于获取伴奏音频信号；合成伴奏音频信号和合成音频信号，得到输出音频信号。

在一种可能的实现方式中，处理单元801在合成伴奏音频信号和合成音频信号得到输出音频信号之前，该处理单元，还用于：调整伴奏音频信号的响度，使伴奏音频信号的响度比合成音频信号的响度大预设值。

在一种可能的实现方式中，处理单元801在基于M个第二主音频信号生成主合成信号之前，该处理单元802，还用于若主音频信号的延迟大于第一阈值，则降低主音频信号的响度。

在一种可能的实现方式中，处理单元801在基于N个第二辅音频信号生成辅合成信号之前，该处理单元801，还用于若辅音频信号的延迟大于第二阈值，则降低辅音频信号的响度，并设置辅音频信号的相位角为预设角度。

根据本申请的另一个实施例，图8所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的音频处理装置，以及来实现本申请实施例的音频处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

在本申请实施例中，首先基于主音频信号对应的信号响度对M个第一主音频信号进行动态范围控制处理，得到M个第二主音频信号；基于辅音频信号对应的预设信号响度对N个第一辅音频信号进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；然后基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；最后合成主合成信号和辅合成信号得到合成音频信号。由于每个用户所使用的终端的麦克风接收音量各不相同，因此，主音频的音量可能会小于辅音频的音量。基于本申请所描述的方法，由于对第一主音频信号和第一辅音频信号进行了动态范围控制处理，且处理的过程中，设定第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度，从而使最后得到的合成音频中主音频的音量大于辅音频的音量。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图9，该计算机设备900至少包括处理器901、通信接口902以及计算机存储介质903。其中，处理器901、通信接口902以及计算机存储介质903可通过总线或其他方式连接。计算机存储介质903可以存储在计算机设备900的存储器904中，所述计算机存储介质903用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质903存储的程序指令。处理器901(或称CPU(Central Processing Unit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中，本申请实施例所述的处理器901可以用于实现音频处理的方法，具体包括：获取M个第一主音频信号和N个第一辅音频信号，M和N均为正整数；基于第一主音频信号对应的预设信号响度对M个第一主音频信号进行动态范围控制处理，得到M个第二主音频信号；基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；合成主合成信号和辅合成信号得到合成音频信号，等等。

本申请实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图1所示的音频处理方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤：

基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；

合成主合成信号和辅合成信号得到合成音频信号。

在一种可能的实现方式中，在用于基于N个第二辅音频信号生成辅合成信号时，该一条或多条指令可由处理器加载并具体执行：基于N个第二辅音频信号对应的方位角度对N个第二辅音频信号进行声像定位处理，生成N个左路声像信号和N个右路声像信号；基于N个左路声像信号和N个右路声像信号生成辅合成信号。

在一种可能的实现方式中，在用于基于N个左路声像信号和N个右路声像信号生成辅合成信号时，该一条或多条指令可由处理器加载并具体执行：基于N个左路声像信号和N个右路声像信号对应的增益系数和延迟时间，对N个左路声像信号和N个右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号；基于左路立体声信号和右路立体声信号生成辅合成信号。

在一种可能的实现方式中，在用于基于左路立体声信号和右路立体声信号生成辅合成信号时，该一条或多条指令可由处理器加载并具体执行：将左路立体声信号和右路立体声信号通过梳状滤波器和/或全通滤波器，生成左路混响声信号和右路混响声信号；基于左路混响声信号和右路混响声信号生成辅合成信号。

在一种可能的实现方式中，该一条或多条指令还可由处理器加载并执行如下步骤：获取伴奏音频信号；合成伴奏音频信号和合成音频信号，得到输出音频信号。

在一种可能的实现方式中，在合成伴奏音频信号和合成音频信号得到输出音频信号之前，该一条或多条指令还可由处理器加载并执行如下步骤：调整伴奏音频信号的响度，使伴奏音频信号的响度比合成音频信号的响度大预设值。

在一种可能的实现方式中，在基于M个第二主音频信号生成主合成信号之前之前，该一条或多条指令还可由处理器加载并执行如下步骤：若主音频信号的延迟大于第一阈值，则降低主音频信号的响度。

在一种可能的实现方式中，在基于N个第二辅音频信号生成辅合成信号之前，该一条或多条指令还可由处理器加载并执行如下步骤：还用于若辅音频信号的延迟大于第二阈值，则降低辅音频信号的响度，并设置辅音频信号的相位角为预设角度。

在本申请实施例中，首先基于第一主音频信号对应的信号响度对M个第一主音频信号的信号响度进行动态范围控制处理，得到M个第二主音频信号；基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号的信号响度进行动态范围控制处理，得到N个第二辅音频信号，第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度；然后基于M个第二主音频信号生成主合成信号，基于N个第二辅音频信号生成辅合成信号；最后合成主合成信号和辅合成信号得到合成音频信号。由于每个用户所使用的终端的麦克风接收音量各不相同，因此，主音频的音量可能会小于辅音频的音量。基于本申请所描述的方法，由于对第一主音频信号和第一辅音频信号进行了动态范围控制处理，且处理的过程中，设定第一主音频信号对应的预设信号响度大于第一辅音频信号对应的预设信号响度，从而使最后得到的合成音频中主音频的音量大于辅音频的音量。

可以理解的是，本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

基于第一主音频信号对应的预设信号响度对M个第一主音频信号的信号响度进行动态范围控制处理，得到M个第二主音频信号，所述M为正整数；

基于第一辅音频信号对应的预设信号响度对N个第一辅音频信号的信号响度进行动态范围控制处理，得到N个第二辅音频信号，所述第一主音频信号对应的预设信号响度大于所述第一辅音频信号对应的预设信号响度，所述N为正整数；

基于所述M个第二主音频信号生成主合成信号，基于所述N个第二辅音频信号生成辅合成信号；

合成所述主合成信号和辅合成信号，得到合成音频信号。

2.根据权利要求1所述的方法，其特征在于，所述基于第一主音频信号对应的预设信号响度对M个第一主音频信号的信号响度进行动态范围控制处理，得到M个第二主音频信号，包括：

基于所述第一主音频信号对应的预设响度和所述第一主音频信号的信号响度确定增益系数；

利用所述增益系数对所述M个第一主音频信号进行处理，得到所述M个第二主音频信号。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述N个第二辅音频信号生成辅合成信号，包括：

基于所述N个第二辅音频信号对应的方位角度对所述N个第二辅音频信号进行声像定位处理，生成N个左路声像信号和N个右路声像信号；

基于所述N个左路声像信号和所述N个右路声像信号生成辅合成信号。

4.根据权利要求3所述的方法，其特征在于，所述基于所述N个左路声像信号和所述N个右路声像信号生成辅合成信号，包括：

基于增益系数和延迟时间对所述N个左路声像信号和所述N个右路声像信号进行反射处理，生成左路立体声信号和右路立体声信号；

基于所述左路立体声信号和所述右路立体声信号生成辅合成信号。

5.根据权利要求4所述的方法，其特征在于，所述基于所述左路立体声信号和所述右路立体声信号生成辅合成信号，包括：

将所述左路立体声信号和所述右路立体声信号通过梳状滤波器和/或全通滤波器，生成左路混响声信号和右路混响声信号；

基于所述左路混响声信号和右路混响声信号生成辅合成信号。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述方法还包括：

获取伴奏音频信号；

合成所述伴奏音频信号和所述合成音频信号，得到输出音频信号；

调整所述伴奏音频信号的响度，使所述伴奏音频信号的响度比所述合成音频信号的响度大预设值。

7.根据权利要求1所述的方法，其特征在于，

所述基于所述M个第二主音频信号生成主合成信号之前，所述方法还包括：若所述第二主音频信号的延迟大于第一阈值，则降低所述主音频信号的响度；

所述基于所述N个第二辅音频信号生成辅合成信号之前，所述方法还包括：若所述第二辅音频信号的延迟大于第二阈值，则降低所述第二辅音频信号的响度，并设置所述第二辅音频信号的相位角为预设角度。

8.根据权利要求1所述的方法，其特征在于，当基于所述M个第一主音频信号和所述N个第一辅音频信号得到合成音频信号之后，所述方法还包括：

获取L个第一主音频信号和K个第一辅音频信号，所述L为正整数，且所述L不等于所述M，所述K为正整数，且所述K不等于所述N；

基于所述L个第一主音频信号和所述K个第一辅音频信号，得到所述L个第一主音频信号和所述K个第一辅音频信号对应的合成音频信号。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-8任一项所述的音频处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一条或多条计算机程序，所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-8任一项所述的音频处理方法。