CN106375905A

CN106375905A - 一种多路音频的合成和调节的方法

Info

Publication number: CN106375905A
Application number: CN201611079322.5A
Authority: CN
Inventors: 张世洋
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-02-01
Anticipated expiration: 2036-11-30
Also published as: CN106375905B

Abstract

本发明涉及一种多路音频的合成和调节的方法，包括如下步骤：采样多路音频数据作为原始音频，每路音频数据中包含若干采样点；设定音量调节的对数方程；将每路音频数据中的采样点逐个的分别代入对数方程，最后得到多路调节音量后的音频数据；设置衰减因子f的初始值，设置音频精度最大值max和最小值min；对多路调节音量后的音频数据，从第一个采样点开始进行加法叠加得到采样点叠加输出out；计算出out*f的值，并相应调整衰减因子f的值以及out的值；按前述方式依次对第一个采样点之后的各个采样点进行处理，最终完成对所有采样点的混音。本发明，可实现多路音频平滑合成，可实现音量平滑调节，对音效调节速度快，得到平滑和谐的声音。

Description

一种多路音频的合成和调节的方法

技术领域

本发明涉及音频合成及音量调节技术领域，具体说是一种多路音频的合成和调节的方法。

背景技术

计算机中的音频数据是数字音频数据，其是对自然界连续的模拟声音信号进行采样得到的数字信号。所以数字音频数据是有精度范围的，音频的一个采样用几个bit来表示，叫采样精度，又叫位深(bit-depth)。常用的位深是16bit，也就是16bit表达一个采样，这样，最高信噪比可以表示为20log(2^16)＝96db，而用24bit位深的话，最高信噪比可以到达20log(2^24)＝144db。专业的数字音频处理软件内部其实都是用float型来表示一个采样，也就是32bit，那么最高信噪比可以达到193db，这个信噪比已经非常高了。在数字音频处理过程中，如果出现了精度范围溢出(简称精度溢出)，就会听到不和谐的声音。

现有音频处理技术中，通常使用各种数学方法阻止数字音频数据的精度溢出，来得到平滑和谐的声音。但是，还存在以下缺点：

音量调节过程中，声音响度突变比较大，听起来不和谐；

多路音频混合过程中，音频叠加时容易出现精度溢出，声音被破坏。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种多路音频的合成和调节的方法，可实现多路音频平滑合成，可实现音量平滑调节，对音效调节速度快，得到平滑和谐的声音。

为达到以上目的，本发明采取的技术方案是：

一种多路音频的合成和调节的方法，其特征在于，包括如下步骤：

步骤1，采样多路音频数据作为原始音频，每路音频数据中包含若干采样点；

步骤2，设定音量调节的对数方程如下；

y＝x*lg(k+p)

式中，各参数含义如下：

k是常量，

p是交互界面用户可调节的数字范围，

x是原始音频中的一个音频采样点，

y是音量调节后的一个音频采样点，

步骤3，将每路音频数据中的采样点逐个的分别代入对数方程，最后得到多路调节音量后的音频数据；

步骤4，设置衰减因子f的初始值为1.0，

按音频采样深度的位数设置音频精度最大值max和最小值min；

步骤5，对步骤3得到的多路调节音量后的音频数据，从第一个采样点开始进行加法叠加得到采样点叠加输出out；

步骤6，将步骤5得到的采样点叠加输出out乘以衰减因子f，计算出out*f的值，并相应调整衰减因子f的值以及out的值；

步骤7，按步骤5、6所述，依次对第一个采样点之后的各个采样点进行处理，不断调节衰减因子f的值以及out的值，最终完成对所有采样点的混音。

在上述技术方案的基础上，步骤6中，如果out*f的值大于max或者小于min，就按以下原则调整衰减因子f的值以及out的值：

当out*f的值大于max时，f的值等于max/out的值，out的值等于max；

当out*f的值小于min时，f的值等于min/out的值，out的值等于min；

当f的值小于1.0时，平滑增大衰减因子f，即：f的值等于f+(1.0-f)/32.0。

在上述技术方案的基础上，步骤1中，所述音频数据包括但不限于：多人合唱或一人独唱录制的人声和背景音乐进行混合。

在上述技术方案的基础上，k具体取值取决于音量调节的倍数和p的大小，

p取值0.0到100.0。

本发明所述的多路音频的合成和调节的方法，可实现多路音频平滑合成，可实现音量平滑调节，对音效调节速度快，得到平滑和谐的声音。

附图说明

本发明有如下附图：

图1音量线性调节示意图。

图2音量对数调节示意图。

图3本发明流程图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

首先，简单分析一下数字音量调节和多路音频合成。

数字音量调节就是把采样音频数值变大或缩小，改变声音响度。如果是简单的线性变化(参见图1)，很容易造成音量突变，听起来很不和谐。本发明采用对数方程变化(参见图2)，目的在于得到比较和谐的声音效果。

多路音频合成就是把采样得到的多路音频进行叠加，得到一路音频。如果是简单的加法叠加，很容易造成精度溢出，破坏采样数据。和原始音频采样数据点(如16位)相比，本发明会使用更多的位数(如32位)来表示一个采样数据点，混音完成后再降低其振幅，使混音后的数据仍旧分布在原始音频所能表示的精度范围(如16位)之内。

另外，为避免发生精度溢出，本发明使用一个可变的衰减因子对采样音频进行衰减。这个衰减因子代表采样音频的权重，衰减因子随着音频数据的变化而变化。当多路音频合成发生精度溢出时，采用较小的衰减因子，使得溢出的数据在衰减后能够处于临界值以内。当多路音频合成没有发生精度溢出时，让衰减因子慢慢增大，使混音后的数据较为平缓的变化。

本发明所述的多路音频的合成和调节的方法，如图3所示，包括如下步骤：

步骤1，采样多路音频数据作为原始音频，每路音频数据中包含若干采样点；每路音频数据中采样点的数量相同或不同；

步骤2，设定音量调节的对数方程如下；

y＝x*lg(k+p)

式中，各参数含义如下：

k是常量，具体取值取决于音量调节的倍数和p的大小，

p是交互界面用户可调节的数字范围，取值0.0到100.0，

x是原始音频中的一个音频采样点，

y是音量调节后的一个音频采样点，

例如：

音量调节最小是0，最大是原来的2倍，交互界面用户可调节的数字范围是0.0到100.0，那么常量k应该取1.0，因为p取0.0时，lg(1.0+0.0)＝0.0，p取99.0时，lg(1.0+99.0)＝2.0；

步骤4，设置衰减因子f的初始值为1.0，

按音频采样深度的位数设置音频精度最大值max和最小值min；

例如：当音频采样深度16位时，

max＝32767，

min＝-32768，

即：计算机所能存储的16位有符号最大值和最小值；

如果out*f的值大于max或者小于min，就按以下原则调整衰减因子f的值以及out的值：

当out*f的值大于max时，f的值等于max/out的值，out的值等于max；

当out*f的值小于min时，f的值等于min/out的值，out的值等于min；

当f的值小于1.0时，平滑增大衰减因子f，即：f的值等于f+(1.0-f)/32.0；

此时就完成了多路调节音量后的多路音频数据中第一个采样点的混音；

以下为具体实施例。

设有男女合唱和背景音乐三路音频进行混音。

步骤1，采样三路音频数据作为原始音频，每路音频数据中包含采样点如下；

第一路：10个采样点，数据是：男声；

第二路：10个采样点，数据是：女声；

第三路：10个采样点，数据是：背景音乐；

采样涉及到的相关参数为：

采样精度统一为：16位采样精度，取值范围是-32768到32767

采样频率统一为：44100赫兹

采样声道统一为：双声道

步骤2，设定音量调节的对数方程如下；

y＝x*lg(k+p)

设对第一路音量调节如下：声音最多扩大2倍

则k值为1.0，p值为0.0到100.0

x值为原始声音的一个采样点，y值为音量调节后的一个采样点。

对第二路和第三路的音量调节同第一路。

步骤3，对音量调节后的三路音频数据中的第一个采样点(共三个采样点)进行混音；

初始设定衰减因子f＝1.0，32位浮点数。

三路采样点数据分别是a，b，c.

混音后的一个采样点out＝(a+b+c)*f；

如果out大于32767，f＝32767/out，out＝32767；

如果out小于-32768，f＝-32768/out，out＝-32768；

如果f小于1.0，f＝f+(1.0-f)/32.0；

保存f当前值不变，完成第一个采样点的混音。

步骤4，按步骤2、3所述，依次对三路音频的各个采样点进行对数方程运算并不断调节衰减因子f的值，最终完成对所有采样点的音量调节和混音。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种多路音频的合成和调节的方法，其特征在于，包括如下步骤：

步骤2，设定音量调节的对数方程如下；

y＝x*lg(k+p)

式中，各参数含义如下：

k是常量，

p是交互界面用户可调节的数字范围，

x是原始音频中的一个音频采样点，

y是音量调节后的一个音频采样点，

步骤4，设置衰减因子f的初始值为1.0，

按音频采样深度的位数设置音频精度最大值max和最小值min；

2.如权利要求1所述的多路音频的合成和调节的方法，其特征在于：步骤6中，如果out*f的值大于max或者小于min，就按以下原则调整衰减因子f的值以及out的值：

当out*f的值大于max时，f的值等于max/out的值，out的值等于max；

当out*f的值小于min时，f的值等于min/out的值，out的值等于min；

3.如权利要求1所述的多路音频的合成和调节的方法，其特征在于：步骤1中，所述音频数据包括但不限于：多人合唱或一人独唱录制的人声和背景音乐进行混合。

4.如权利要求1所述的多路音频的合成和调节的方法，其特征在于：k具体取值取决于音量调节的倍数和p的大小，

p取值0.0到100.0。