CN109920445B

CN109920445B - 一种混音方法、装置及设备

Info

Publication number: CN109920445B
Application number: CN201910160287.7A
Authority: CN
Inventors: 管超
Original assignee: Beijing Jiaxun Feihong Electrical Co Ltd
Current assignee: Beijing Jiaxun Zhihang Technology Co.,Ltd.
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2022-03-11
Anticipated expiration: 2039-03-04
Also published as: CN109920445A

Abstract

本发明提供一种混音方法、装置及设备，所述方法包括：获取来源于多个终端的待混音的多个语音分片数据；基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量；对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度；将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据。本发明所述方法在解决了以往会议混音爆音问题的基础上维持了系统的易用性，且提高了会议的音频质量。

Description

一种混音方法、装置及设备

技术领域

本发明属于电子信息领域，具体涉及一种混音方法、装置及设备。

背景技术

数字会议系统是指通过网络将多个终端连接起来，集计算机、通信、视频、音频等技术于一体的系统。数字会议系统需要将会议成员的声音混合在一起，再发送给各位会议成员，此过程称为混音。混音技术的良好实现使得传统会议可以异地进行，各位会议成员间交流如同面对面交谈一样。

然而，现有技术中，在对多路音频进行混音时容易出现爆音的现象，给用户的使用带来不便。

发明内容

有鉴于此，本发明的目的至少包括提供一种混音方法、装置及设备，以缓解现有技术中存在的多路语音混音时出现爆音的技术问题。

第一方面，本发明实施例提供了一种混音方法，包括：

获取来源于多个终端的待混音的多个语音分片数据；

基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量；

对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度；

将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，计算每个语音分片数据的历史语音能量，包括：

利用预设的迭代衰减因子对所述当前分片能量进行迭代处理，得到所述历史语音能量。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据，包括：

将多个语音分片数据的能量强度分别与预设阈值比较；

将能量强度小于预设阈值的语音分片数据删除；

将能量强度大于预设阈值的语音分片数据排序；

选取能量强度最大的预设数量个语音分片数据进行线性叠加混音，得到混音数据。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，在获取来源于多个终端的待混音的多个语音分片数据之前，所述方法还包括：

将每个终端采集的音频数据按照预设时间分片进行打包处理，得到分片数据包；

截取每个分片数据包中位于预设截止频率范围内的语音分片数据。

第二方面，本发明实施例还提供一种混音装置，包括：

获取模块，用于获取来源于多个终端的待混音的多个语音分片数据；

计算模块，用于基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量；

加权模块，用于对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度；

混音模块，用于将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述计算模块，还用于：

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述混音模块，包括：

比较单元，用于将多个语音分片数据的能量强度分别与预设阈值比较；

删除单元，用于将能量强度小于预设阈值的语音分片数据删除；

排序单元，用于将能量强度大于预设阈值的语音分片数据排序；

选取单元，用于选取能量强度最大的预设数量个语音分片数据进行线性叠加混音，得到混音数据。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述装置还包括：

打包单元，用于将每个终端采集的音频数据按照预设时间分片进行打包处理，得到分片数据包；

截取单元，用于截取每个分片数据包中位于预设截止频率范围内的语音分片数据。

第三方面，本发明实施例还提供一种混音设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行所述第一方面所述的方法。

与现有公开的技术方案相比，本发明具有的优势为：

本申请实施例通过首先获取来源于多个终端的待混音的多个语音分片数据，然后基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量，再对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度，最后可以将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据。

本申请实施例通过对来源于多个终端的多个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，可以针对主讲者和参与讨论者的声音进行加权，通过选取能量强度大于预设阈值的多个语音分片数据进行叠加混音，使数字会议系统能够自动的识别会议中正常发言的人员，屏蔽无效信息，从而减少了混音过程中各会议成员背景噪音的引入，加强了会议成员较多时会议音频的可用性。

附图说明

图1所示为本发明一个实施例提供的一种混音方法的流程图；

图2所示为本发明一个实施例提供的一种混音装置的结构图；

图3所示为本发明一个实施例提供的一种混音方法以20MS分片为例时的流程图。

具体实施方式

下文将结合具体实施例详细描述本发明方法的具体实施方式及效果。应当注意的是，下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。

以下结合具体实施例对本发明进行详细说明。

由于现有技术中，在对多路音频进行混音时容易出现爆音的现象，给用户的使用带来不便。为此，在本发明的一个实施例中，提供一种混音方法，所述方法通过设计独立衰减因子和独立加权因子将处理过的权重与阈值权重相比较，区分出语音部分与非语音部分，语音部分权重降序排列，取至多n个成员，每路固定衰减x分贝后线性叠加获得混音。

如图1所示，所述混音方法包括以下步骤：

步骤S101，获取来源于多个终端的待混音的多个语音分片数据；

在该步骤之前，可以将每个终端采集的音频数据按照预设时间分片进行打包处理，得到分片数据包；然后，截取每个分片数据包中位于预设截止频率范围内的语音分片数据，示例性的，可以利用数字带通滤波器对每个分片数据包进行滤波处理，保留截至频率位于预设截至频率范围内的语音分片数据。

本申请可以使用短时分片数据作为输入处理，音频在短时间片内具有短时平稳性，经过数字滤波后增强语音部分的能量谱后，能够针对人的语音部分加强权重，减少非会议语音部分信号的影响。

步骤S102，基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量；

在该步骤中，由于语音具有短时平稳性，在20ms内可以认为时平稳信号，计算语音分片数据的当前分片能量；

其中，是经过语音增强后的音频数据，i表示第i个20ms分片包，j表示20ms分片包内第j个采样点。

在该步骤中，计算每个语音分片数据的历史语音能量，可以利用预设的迭代衰减因子对所述当前分片能量进行迭代处理，得到所述历史语音能量。

步骤S103，对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度；

在本申请实施例中，加权因子为q，,用于平衡当前发音与历史发音的权重，生成。使得一个刚刚进行发言的发言者，在发音的首个20ms打包内，就能迅速提高权重，避免丢失音节。

本申请实施例中，通过对语音分片数据的当前分片能量和历史语音能量，分别使用独立的衰减因子和加权因子，使得加权系数能够兼顾参会发言人讲话过程中的停顿及突然发言的情况都能获得较高的权重，避免会议成员的发言在混音过程中出现丢字漏字的问题。

步骤S104，将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据。

在该步骤中，可以首先将多个语音分片数据的能量强度分别与预设阈值比较；将能量强度小于预设阈值的语音分片数据删除；再将能量强度大于预设阈值的语音分片数据排序；最后可以选取能量强度最大的预设数量个语音分片数据进行线性叠加混音，得到混音数据。

本发明实施例针对会议场景进行了优化，在会议场景中一般只有1个主讲者和偶尔打断主讲者的讨论者，在会议成员较多(例如参会成员达到16个或以上时)时本申请仍然如此仍然有效。

如图2所示，本发明实施例还提供一种混音装置，包括：

获取模块11，用于获取来源于多个终端的待混音的多个语音分片数据；

计算模块12，用于基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量；

加权模块13，用于对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度；

混音模块14，用于将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据。

在本发明的又一实施例中，所述计算模块，还用于：

在本发明的又一实施例中，所述混音模块，包括：

在本发明的又一实施例中，所述装置还包括：

本发明实施例还提供一种混音设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法实施例所述的方法的步骤。

本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述方法实施例所述方法。

在本发明的又一实施例中，如图3所示，以20ms分片处理为例具体说明，本发明实施例中以20ms举例说明，实际可以按照工程需要以5ms,10ms,40ms等其他实际值运算。假设语音的采样率为8000Hz,量精度为16位。

1)音频数据以20ms分片数据包逐个处理，记为A_i。A_i中的采样点个数与采样频率和打包时间相关，设分片数据包内采样点个数为m，则A_i＝[a_i1，a_i2，……,a_im]，m＝8000/(1000/20)＝160；

2)使用常见的数字带通滤波器，上下截止频率分别为82HZ和1100HZ，与A_i卷积后生成A_i’，加强音频数据中语音部分的能量谱，A_i’＝[a_i1’，a_i2’，……,a_im’],m＝160；

3)由于语音具有短时平稳性，在20ms内可以认为是平稳信号，计算A_i’的当前分片能量W_i

其中，是经过语音增强后的语音分片数据，i表示第i个20ms分片数据包，j表示20ms分片包内第j个采样点。

在本实施例中，计算得

4)对W_i进行迭代，迭代加入迭代衰减因子p,0＜р＜1,用于迭代计算历史语音能量W_i’

其中：p被设计为能够使得会议成员在发音停顿后的短时间内，W_i’仍然具有一定的强度值，使得发言者短时停顿不会造成语音检测的遗漏。

具体为：

假设时间分片间隔为t毫秒，人说话时时间间隔为s毫秒(s>t)，当人说话暂停s毫秒时，能够维持为s毫秒前的50％强度，显而易见迭代次数为。假设人在说话暂停时没有噪音干扰，则每次迭代输入的应当等于0，公式简化为，迭代次维持50％强度，则。

在本实施例中t等于20毫秒，s等于1000毫秒，将数据带入后计算得知p＝0.0138。

计算得

5)对发言者的A_i的W_i和W_i’进行加权，加权因子为q，0＜q＜1,用于平衡当前发音与历史发音的权重，生成语音分片数据的能量强度

q被设计为能够使得一个刚刚进行发言的发言者，在发音的首个20ms打包内,就能迅速提高权重，避免丢失音节。

具体为：

刚发言的人没有历史发言，故，带入公式后与已经发言暂停s毫秒的人能够维持50％的权重，带入上述公式

在本实施例中，p＝0.0138,带入上述公式计算，q＝0.4930。

计算得

6)对所有发言者的语音分片数据的能量强度υ_i与预设阈值υ_h进行比较，排除非语音的输入，将超过预设阈值的语音分片数据的能量强度u_i按降序排列，取最多n个成员，每路音频衰减xdb后使用线性叠加混音，混音结果为B。

其中υ_h根据根据实验统计数据获取，一般按照有人正常语音发言时，υ_i计算值的1/10为准。

经比较，本实施例中，n＝4，x＝3。n＝4是依据会议场景下实际会同时发言的最大人数确定的；x＝3的取值是因为能够有效减小声音赋值，但是又不会给人的听感音量带来显著减小的值，传统模拟设备一般都采用3db作为混音前衰减的典型值。

7)B作为混音结果输出。

相比于传统方法，本方法能够：

(1)自动地识别会议中发言的成员，只合成发言者的音频，避免了非发言者的混音，提高了系统的信噪比；同时无需人手工判断控制发言者，提高了系统的易用性。

(2)由于只合成发言者的发言并对发言者的数量进行了限制及削弱，有效减少了削顶失真的问题。

(3)相比于平均加权法，对发言者的衰减值仅为固定的xdb(典型值为3db)，减少了超大方会议(例如64)时发言者音量过小的问题，以及自适应加权法声音忽大忽小的问题。

(4)通过独立的p和q衰减因子，解决了对发言者进行检测时前几个音节容易丢失的问题，相比自适应加权发对会议中发言成员的判断更加准确。

本文虽然已经给出了本发明的一些较优实施例，但是本领域的技术人员应当理解，在不脱离本发明精神的情况下，可以对本文的实施例进行改变。上述实施例只是示例性的，不应以本文的实施例作为本发明权利范围的限定。

Claims

1.一种混音方法，其特征在于，包括：

获取来源于多个终端的待混音的多个语音分片数据；

基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量，所述历史语音能量是利用预设的迭代衰减因子对所述当前分片能量进行迭代处理得到的；

对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度，所述语音分片数据的能量强度是利用用于平衡所述当前分片能量及所述历史语音能量的加权因子加权处理得到的，使用加权方法计算语音分片数据的能量强度时，其使用的历史语音能量为当前分片能量的历史语音能量；

2.根据权利要求1所述的混音方法，其特征在于，计算每个语音分片数据的历史语音能量，包括：

3.根据权利要求1所述的混音方法，其特征在于，所述将能量强度大于预设阈值的多个语音分片数据分别衰减预设倍数后进行叠加混音，得到混音数据，包括：

将多个语音分片数据的能量强度分别与预设阈值比较；

将能量强度小于预设阈值的语音分片数据删除；

将能量强度大于预设阈值的语音分片数据排序；

4.根据权利要求1所述的混音方法，其特征在于，在获取来源于多个终端的待混音的多个语音分片数据之前，所述方法还包括：

5.一种混音装置，其特征在于，包括：

计算模块，用于基于所述语音分片数据计算每个语音分片数据的当前分片能量，并计算每个语音分片数据的历史语音能量，所述历史语音能量是利用预设的迭代衰减因子对所述当前分片能量进行迭代处理得到的；

加权模块，用于对每个语音分片数据的所述当前分片能量及所述历史语音能量进行加权处理，得到所述语音分片数据的能量强度，所述语音分片数据的能量强度是利用用于平衡所述当前分片能量及所述历史语音能量的加权因子加权处理得到的，使用加权方法计算语音分片数据的能量强度时，其使用的历史语音能量为当前分片能量的历史语音能量；

6.根据权利要求5所述的混音装置，其特征在于，所述计算模块，还用于：

7.根据权利要求5所述的混音装置，其特征在于，所述混音模块，包括：

8.根据权利要求5所述的混音装置，其特征在于，所述装置还包括：

9.一种混音设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的方法的步骤。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-4任一所述方法。