CN106558314B

CN106558314B - 一种混音处理方法和装置及设备

Info

Publication number: CN106558314B
Application number: CN201510631912.3A
Authority: CN
Inventors: 赵伟峰
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2021-05-07
Anticipated expiration: 2035-09-29
Also published as: EP3358567A1; KR102084338B1; JP6587742B2; CN106558314A; WO2017054494A1; US10283134B2; EP3358567A4; KR20180048786A; EP3358567B1; JP2018533294A; US20180268833A1

Abstract

本发明实施例提供一种混音处理方法和装置及设备，以解决几种现有混音技术不能支持各路信号按比例进行混音等问题。在本发明一些可行的实施方式中，方法包括：提取第一路信号中的一帧信号sm(n)，以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n)，n表示采样点个数；对所述信号sm(n)和vm(n)分别进行加权处理，并将加权处理后的两帧信号相加，得到混合信号ym(n)；根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)。

Description

一种混音处理方法和装置及设备

技术领域

本发明涉及混音技术领域，具体涉及一种混音处理方法和装置及设备。

背景技术

K歌系统中的混音算法是最基础，但是也最难做好的一个方面。现在网络及开源码中常见的混音算法包括以下几种：

一种是相加求平均，该算法的缺陷就是音量很小，优点是无溢出，但如果直接乘以一个系数放大，则肯定会溢出。

另一种是直接相加法，该算法音量保持的好，缺点是溢出的时候需要掐断，造成掐断出频率失真，音质丢失。

还一种是国外一篇博客提供的算法，含有公式Y＝A+B-(A*B/(-(2pow(n-1)-1)))，其中，A和B是需要混音的两路信号，n是采样点个数，pow表示幂运算。此算法无溢出，但是对中频有削弱。另外此算法不符合我们需要将A和B乘以一个放大倍数的情况。当加一个放大倍数后，该算法会溢出。

实践发现，上述算法均有各自的缺陷，且均不能支持各路信号按比例进行混音的场景。

发明内容

本发明实施例提供一种混音处理方法和装置及设备，以解决几种现有混音技术不能支持各路信号按比例进行混音等问题。

本发明第一方面提供一种混音处理方法，包括：

提取第一路信号中的一帧信号sm(n)，以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n)，n表示采样点个数；

对所述信号sm(n)和vm(n)分别进行加权处理，并将加权处理后的两帧信号相加，得到混合信号ym(n)；

根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)。

本发明第二方面提供一种混音处理装置，包括：

提取模块，用于提取第一路信号中的一帧信号sm(n)，以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n)，n表示采样点个数；

混合模块，用于对所述信号sm(n)和vm(n)分别进行加权处理，并将加权处理后的两帧信号相加，得到混合信号ym(n)；

衰减处理模块，用于根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)。

本发明第三方面提供一种计算机设备，包括：处理器、存储器、总线和通信接口；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述计算机设备运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述计算机设备执行如下步骤：

由上可见，在本发明的一些可行的实施方式中，采用按帧提取待混音的各路信号，分别加权后相加，再用可变衰减因子进行衰减处理，从而实现混音的技术方案，取得了以下技术效果：

一方面，可以支持各路信号按比例进行混音的场景；例如，适用于把人声或者伴奏音量中的至少一种放大两倍甚至更多的情况。

另一方面，采用衰减因子对加权相加后的混合信号进行衰减处理，可以避免得到的输出信号产生溢出问题；

另外，本发明实施例方案的音质保持的非常完好，毛刺噪音等很少。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的混音处理方法的流程图；

图2是测试结果的示意图；

图3是本发明实施例提供的一种混音处理装置的结构示意图；

图4是本发明实施例提供的另一种混音处理装置的结构示意图；

图5是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例技术方案，应用于K歌系统，所说的K歌系统包括但不限于KTV中使用的K歌系统，家庭用的K歌系统，以及，安装了K歌软件的计算机设备，所述计算机设备可以是通用计算机、客户定制机、手机终端或平板机等便携设备中的一种。K歌系统一般还包括有音响系统和麦克风。

下面通过具体实施例，分别进行详细的说明。

本发明第一实施例提供一种混音处理方法，该方法按帧提取待混音的各路信号，分别加权后相加，再用可变衰减因子进行衰减处理，以衰减处理后的混合信号作为输出信号。

请参考图1，本发明实施例提供的混音处理方法的具体过程包括：

110、提取第一路信号中的一帧信号sm(n)，以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n)，n表示采样点个数。

本文中以对两路信号进行混音处理为例进行说明，但需要说明的是，本发明技术方案并不限制混音的各路信号的数量，多路信号的混音总是可以简化为为两路信号的混音。

当K歌系统运行时，具体的，K歌系统中的计算机设备安装的K歌软件运行时，计算机设备的处理器获取到需要进行混音的两路信号，本文中用s(n)表示第一路信号，用v(n)表示第二路信号，其中，n表示采样点个数，举例来说，单位时间例如1秒内可以包括1024个采样点。

本发明实施例中，将两路信号s(n)和v(n)按比例进行混音，假设混合的比例是p和q，即，将信号s(n)放大p倍，将信号v(n)放大q倍，其中q和p可以是大于0的任意数，一般的，可以将p和q分别取为不大于10的数。

本发明实施例中，对两路信号s(n)和v(n)按帧进行处理，对s(n)和v(n)当前的帧信号进行混音后，再继续对下一帧信号进行混音。其中，帧长度N可以任意设置，例如，可以设一帧信号的长度N为1024个采样点。需要说明的是，s(n)中的一帧信号和v(n)中的一帧信号的长度应相同。

例如，在某一时刻对第m帧信号进行混音，则提取第一路信号s(n)中的第m帧信号sm(n)，以及需要与所述第一路信号s(n)混音的第二路信号v(n)中的与所述sm(n)对应的第m帧信号vm(n)。其中，m为正整数。

120、对所述信号sm(n)和vm(n)分别进行加权处理，并将加权处理后的两帧信号相加，得到混合信号ym(n)。

本步骤中，采用p和q作为加权系数分别对两帧信号sm(n)和vm(n)进行加权并将加权处理后的两帧信号相加，公式如下：

ym(n)＝p*sm(n)+q*vm(n)，其中，n＝0,1,2……N-1，N为所述帧信号sm(n)和vm(n)的帧长；

其中，ym(n)是加权处理并相加后得到的混合信号，容易理解，ym(n)的长度与sm(n)和vm(n)的长度相同，均为N，例如1024。

130、根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)。

当混合信号ym(n)的最大值ymax较大时，该混合信号会有溢出的风险，因此不宜直接将ym(n)作为输出信号。为了解决溢出的问题，本发明实施例中，根据所述混合信号ym(n)序列的最大值ymax计算一个可变衰减因子deta，并利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理，使得信号ym(n)处于临界值以内而不会溢出，同时，还可以使数据变化的较为平缓。需要说明的是，该可变衰减因子是可变的，是基于当前的一帧ym(n)序列的最大值ymax计算得到，因而，在对不同帧信号进行混音时，deta是不同的。

本发明一种实施方式中，计算衰减因子并进行衰减处理的过程如下：

首先，定义一个全局参考值f，该全局参考值f可以保留其历史数据。本文中，在初始时刻，也就是在对s(n)的第一帧信号和v(n)的第一帧信号进行混音处理时，可以将f赋值为1.0。而在后续处理其它帧的信号时，f始终在变化之中，具体在下文说明。本文中还定义一个临时参考值fnew。

当对ym(n)进行衰减处理时，首先获取ym(n)的最大值ymax，ymax＝max(abs(ym))，其中，abs表示取绝对值，max表示取最大值；另外，其中n的取值为0,1,2直到N-1。n取某个值时，ym具有最大值。

然后，将ymax与一个预设值Ma进行比较，根据比较的结果决定一个临时参考值fnew的值。其中，在所述最大值ymax不大于预设值Ma时，令临时参考值fnew＝1.0，在所述最大值ymax大于预设值Ma时，令临时参考值fnew＝Ma/ymax，此时fnew是一个比1.0稍小的数，这时，对ymax乘以系数fnew，正好等于Ma，而不会大于Ma。

一般的，声音信号用16个bite(比特)表示，其最大值为2¹⁶-1，也就是32767，因此，优选的，可以令Ma＝32767。在其它应用场景中，假设声音信号用p个bite表示，则可以令Ma＝2^p-1。P可以是8，16，24，或32等。

再然后，计算可变衰减因子，公式为：deta＝(f–fnew)/N；其中，deta表示可变衰减因子；N为ym(n)的帧长，本文以1024为例。

接下来，利用deta对ym(n)进行衰减处理，生成输出信号Zm(n)，采用的公式为：Zm(n)＝(f–n*deta)*ym(n)，其中，n＝0,1,2……N-1，N为所述帧信号sm(n)和vm(n)的帧长，也即是Zm(n)的帧长。由公式Zm(n)＝(f–n*deta)*ym(n)可以看出，信号ym(n)可以被限制在临界值以内而不会溢出，同时，还可以使数据变化的较为平缓。

举例来说，初始时f＝1.0，如果ymax不大于预设值Ma，表示声音信号不会溢出，此时fnew＝1.0，则：deta＝0，于是Zm(n)＝ym(n)，可见，由于声音信号不会溢出，直接以ym(n)为输出信号而未进行衰减处理。

最后，对所述全局参考值f进行更新，使所述全局参考值f等于临时参考值fnew，以用于下一帧信号的处理。举例来说，在对第一帧信号进行处理时，f等于其初始值1.0，假设此时fnew等于0.95；则对第一帧信号进行处理完毕后，令f＝fnew＝0.95；于是，在对第二帧信号进行处理时，f当前的值为0.95。

本发明实施例中，采用上述方法依次对每一帧信号进行混音处理，直到所有帧信号被处理完毕，至此完成按比例混音。

请参考图2，是测试结果的示意图。其中，(a)是采用现有混音技术进行混音的测试结果示意图，(b)是本发明实施例方法进行混音的测试结果示意图，可以看出图2(a)在不少地方有很明显的毛刺冲击(即，图中竖线)，其反应在人耳上是比较难以听出来的背景噪音。而图2(b)就很干净，毛刺噪音基本为无。可见，经过算法测试结果显示，采用本发明实施例技术方案的混音方法，最终音质保持的非常完好，毛刺噪音等很少。

由上可见，在本发明的一些可行的实施方式中，公开了一种混音处理方法，该方法采用按帧提取待混音的各路信号，分别加权后相加，再用可变衰减因子进行衰减处理，从而实现混音的技术方案，取得了以下技术效果：

另外，本发明实施例技术方案的混音方法音质保持的非常完好，毛刺噪音等很少。

为便于更好的理解本发明实施例提供的技术方案，下面通过一个具体场景下的实施方式为例进行介绍，具体过程如下：

假设需要混音的是s(n)和v(n)，混合的比例是p和q，p和q都大于0，小于M，M可以是大于0的任何数，尤先地取M＝10；

处理步骤包括：

首先设置一个可以保留历史数据的值f，开始时候初始化为1.0，(以后帧不再初始化，而保留历史值)。

S1、从s(n)和v(n)中分别取出第一帧信号sm(n)和vm(n),其中帧长任意设置，优先地可以设为帧长为N＝1024个采样点。

S2、生成ym(n)＝p*sm(n)+q*vm(n)，长度为N。

S3、求取ym(n)序列的最大值ymax＝max(ym)；

S4、如果ymax≤32767，fnew＝1.0；

S5、如果ymax>32767,fnew＝32767/ymax；

S6、计算deta＝(f–fnew)/N；

S7、得到Zm(n)＝(f–n*deta)*ym(n)，其中，n的取值从0～N-1。

S8、设f＝fnew；

S9、将zm作为处理完成的一帧数据输出。

S10、将f的值作为下一帧的初始化，作为下一帧使用。

依次处理第2、第3、第4……，直到所有帧都处理完毕。

至此完成按比例混音。

为了更好的实施本发明实施例的上述方案，下面还提供用于配合实施上述方案的相关装置。

请参考图3，本发明第二实施例提供一种混音处理装置，可包括：

提取模块310，用于提取第一路信号中的一帧信号sm(n)，以及需要与所述第一路信号混音的第二路信号中的与所述sm(n)对应的一帧信号vm(n)，n表示采样点个数；

混合模块320，用于对所述信号sm(n)和vm(n)分别进行加权处理，并将加权处理后的两帧信号相加，得到混合信号ym(n)；

衰减处理模块330，用于根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)。

请参考图4，在本发明的一些实施例中，所述衰减处理模块330包括：

获取单元3301，用于获取ym(n)序列的最大值ymax，ymax＝max(abs(ym))，其中，abs表示取绝对值，max表示取最大值，并获取当前的全局参考值f；

赋值单元3302，用于在所述最大值ymax不大于预设值Ma时，令临时参考值fnew＝1.0，在所述最大值ymax大于预设值Ma时，令临时参考值fnew＝Ma/ymax；

计算单元3303，用于计算预设的可变衰减因子deta，deta＝(f–fnew)/N。

进一步的，所述衰减处理模块330还可以包括：

衰减处理单元3304，用于利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理，得到信号Zm(n)，Zm(n)＝(f–n*deta)*ym(n)，其中，n＝0,1,2……N-1，N为所述帧信号sm(n)和vm(n)的帧长；以衰减处理后得到的信号Zm(n)为输出信号。

更进一步的，所述衰减处理模块330还包括：

更新单元3305，用于对所述全局参考值f进行更新，使所述全局参考值f等于临时参考值fnew，以用于下一帧信号的处理。

可选的，所述全局参考值f的初始值为1.0；所述预设值Ma等于32767。

可以理解，本发明实施例的混音处理装置的各个功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

由上可见，在本发明的一些可行的实施方式中，公开了一种混音处理装置，该方法采用按帧提取待混音的各路信号，分别加权后相加，再用可变衰减因子进行衰减处理，从而实现混音的技术方案，取得了以下技术效果：

请参考图5，本发明第三实施例还提供一种计算机设备500，可包括：

处理器501、存储器502、总线503和通信接口504；

所述存储器502用于存储计算机执行指令，所述处理器501与所述存储器502通过所述总线503连接，当所述计算机设备500运行时，所述处理器501执行所述存储器502存储的所述计算机执行指令，以使所述计算机设备500执行如下步骤：

在本发明的一些实施例中，处理器501根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子包括：获取ym(n)序列的最大值ymax，ymax＝max(abs(ym))，其中，abs表示取绝对值，max表示取最大值，并获取当前的全局参考值f；在所述最大值ymax不大于预设值Ma时，令临时参考值fnew＝1.0，在所述最大值ymax大于预设值Ma时，令临时参考值fnew＝Ma/ymax；计算可变衰减因子deta，deta＝(f–fnew)/N。

在本发明的一些实施例中，处理器501利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)包括：利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理，得到信号Zm(n)，Zm(n)＝(f–n*deta)*ym(n)，其中，n＝0,1,2……N-1，N为所述帧信号sm(n)和vm(n)的帧长；以衰减处理后得到的信号Zm(n)为输出信号。

在本发明的一些实施例中，处理器540还可以执行如下步骤：对所述全局参考值f进行更新，使所述全局参考值f等于临时参考值fnew，以用于下一帧信号的处理。

在本发明的一些实施例中，所述全局参考值f的初始值为1.0；所述预设值Ma等于32767。

本发明第四实施例还提供一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的混音处理方法的部分或全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例所提供的混音处理方法和装置及设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种混音处理方法，其特征在于，包括：

根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)；

所述根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子包括：

获取ym(n)序列的最大值ymax，ymax＝max(abs(ym))，其中，abs表示取绝对值，max表示取最大值，并获取当前的全局参考值f；

在所述最大值ymax不大于预设值Ma时，令临时参考值fnew＝1.0，在所述最大值ymax大于所述预设值Ma时，令临时参考值fnew＝Ma/ymax；

计算可变衰减因子deta，deta＝(f–fnew)/N。

2.根据权利要求1所述的方法，其特征在于，所述利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)包括：

利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理，得到信号Zm(n)，Zm(n)＝(f–n*deta)*ym(n)，其中，n＝0,1,2……N-1，N为所述帧信号sm(n)和vm(n)的帧长；以衰减处理后得到的信号Zm(n)为输出信号。

3.根据权利要求2所述的方法，其特征在于，还包括：

对所述全局参考值f进行更新，使所述全局参考值f等于临时参考值fnew，以用于下一帧信号的处理。

4.根据权利要求1至3任一所述的方法，其特征在于，

所述全局参考值f的初始值为1.0；

所述预设值Ma等于32767。

5.一种混音处理装置，其特征在于，包括：

衰减处理模块，用于根据所述混合信号ym(n)序列的最大值ymax计算可变衰减因子，利用所述可变衰减因子对所述混合信号ym(n)进行衰减处理，生成输出信号Zm(n)；

所述衰减处理模块包括：

获取单元，用于获取ym(n)序列的最大值ymax，ymax＝max(abs(ym))，其中，abs表示取绝对值，max表示取最大值，并获取当前的全局参考值f；

赋值单元，用于在所述最大值ymax不大于预设值Ma时，令临时参考值fnew＝1.0，在所述最大值ymax大于所述预设值Ma时，令临时参考值fnew＝Ma/ymax；

计算单元，用于计算预设的可变衰减因子deta，deta＝(f–fnew)/N。

6.根据权利要求5所述的装置，其特征在于，所述衰减处理模块还包括：

衰减处理单元，用于利用所述可变衰减因子deta对所述混合信号ym(n)进行衰减处理，得到信号Zm(n)，Zm(n)＝(f–n*deta)*ym(n)，其中，n＝0,1,2……N-1，N为所述帧信号sm(n)和vm(n)的帧长；以衰减处理后得到的信号Zm(n)为输出信号。

7.根据权利要求6所述的装置，其特征在于，所述衰减处理模块还包括：

更新单元，用于对所述全局参考值f进行更新，使所述全局参考值f等于临时参考值fnew，以用于下一帧信号的处理。

8.根据权利要求5至7任一所述的装置，其特征在于，

所述全局参考值f的初始值为1.0；

所述预设值Ma等于32767。

9.一种计算机设备，其特征在于，包括：处理器、存储器、总线和通信接口；

具体用于获取ym(n)序列的最大值ymax，ymax＝max(abs(ym))，其中，abs表示取绝对值，max表示取最大值，并获取当前的全局参考值f；

计算可变衰减因子deta，deta＝(f–fnew)/N。