CN110675885A

CN110675885A - 混音方法、装置及存储介质

Info

Publication number: CN110675885A
Application number: CN201910990310.5A
Authority: CN
Inventors: 陈烈; 史巍
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-01-10
Anticipated expiration: 2039-10-17
Also published as: CN110675885B

Abstract

本发明公开了一种混音方法、装置及存储介质。该混音方法包括：获取多路音频数据；至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路音频数据是否参与混音；利用参与混音的音频数据的数量选择混音算法；采用选中的混音算法对参与混音的音频数据进行混音。通过上述方式，本发明能够支持多路混音且改善混音效果。

Description

混音方法、装置及存储介质

技术领域

本申请涉及语音处理领域，特别是涉及一种混音方法、装置及存储介质。

背景技术

多媒体交互系统中，当在某一时刻有多个参与者发言时，每个参与者需要能听到每个发言人的声音，这要求系统支持实时混音功能，对混音的音频质量和实时性都有一定要求。

常用的混音方法是将各路音频数据直接进行叠加，这样可能会产生叠加溢出，同时由于某些音频数据可能不是语音，影响音频质量，特别是在音频数据数量较多时。可以采用语音活动检测(Voice Activity Detection,VAD)等技术从音频数据中筛选出语音后再进行叠加，但是比较简单的筛选错误率可能较大，影响音频质量；过于复杂的筛选可能带来较大的算法延时，导致输出信号的音量忽大忽小甚至断续。

发明内容

本申请提供一种混音方法、装置及存储介质，能够解决现有技术中混音效果不理想的问题。

为解决上述技术问题，本申请采用的一个技术方案是：获取多路音频数据；至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路音频数据是否参与混音；利用参与混音的音频数据的数量选择混音算法；采用选中的混音算法对参与混音的音频数据进行混音。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种混音装置，该混音装置包括处理器，处理器用于执行指令以实现前述的混音方法。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种存储介质，存储有指令，指令被执行时实现前述的混音方法。

本申请的有益效果是：通过获取多路音频数据；至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路音频数据是否参与混音；利用参与混音的音频数据的数量选择混音算法；采用选中的混音算法对参与混音的音频数据进行混音，混音数据的筛选算法经过优化，延时较低且正确率较高；同时利用参与混音的音频数据的数量选择混音算法，支持混音的路数增加，且在路数较多较少时均可实现较好的混音效果。

附图说明

图1是本发明混音方法第一实施例的流程示意图；

图2是图1中S2的具体流程示意图；

图3是图2中S21的具体流程示意图；

图4是本发明混音方法第二实施例的流程示意图；

图5是本发明混音装置一实施例的结构示意图；

图6是本发明存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

图1是本发明混音方法第一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例包括：

S1：获取多路音频数据。

音频信号采集自声源(可以为多媒体交互系统的参与者)。为便于信号，音频信号被划分为多个帧。音频数据可以为音频信号的当前帧(简称音频当前帧)，也可以为去噪后的音频当前帧。

S2：至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路音频数据是否参与混音。

如图2所示，在本发明一具体实施例中，S2可以具体包括：

S21：利用基于高斯模型的语音活动检测算法判断音频数据是否为语音得到当前判决结果。

采用高斯混合模型，用概率来表征是否存在语音，即基于利用特征值计算得到的似然比而不是特征值本身来评价音频数据是否为语音。

如图3所示，S21可以具体包括：

S211：将音频数据按照频率划分为多个子频带。

可以将音频数据转换到频域，然后在频域上划分为多个子频带。也可以将音频数据输入多个通带不同的带通滤波器，得到多个子频带。

S212：分别计算每个子频带的能熵比以及子频带为语音的似然比。

子频带的能熵比是指子频带的能量与谱熵的比值。可以提取子频带的特征，再基于特征计算子频带为语音的似然比。特征可以包括能量、频域、倒谱、谐波、长时信息等中的至少一种，在此不做限制。

S213：结合所有子频带的似然比和能熵比判断音频数据是否为语音得到当前判决结果。

具体的，可以将每个子频带的似然比与第一阈值比较，能熵比与第三阈值比值，然后统计似然比大于第一阈值的子频带的数量，以及能熵比大于第三阈值的子频带的数量。

判决方式可以有两种，一种可以是：若似然比大于第一阈值的子频带的数量大于第二阈值且能熵比大于第三阈值的子频带的数量大于第四阈值，则当前判决结果为语音，否则当前判决结果为非语音。

另一种可以是：若似然比大于第一阈值的子频带的数量大于第二阈值或能熵比大于第三阈值的子频带的数量大于第四阈值，则当前判决结果为语音，否则当前判决结果为非语音。

第一阈值和/或第三阈值可以是固定的，也可以是可变的。例如，可以根据参与者所处的环境从若干个预设值中选择第一阈值和/或第三阈值，或者动态调整第一阈值和/或第三阈值。

当然，也可以计算所有子频带的似然比和/或能熵比的统计值，例如平均值或加权平均值，再与预设的门限对比得到当前判决结果。

谱熵只与能量的随机性有关，与能量幅值无关，能够更好地区分语音与非语音，且避免了大量的运算。同时能量能够抑制突发噪声的干扰。能熵比结合似然比，运算效率高，延时较低，同时对噪声具有较好的鲁棒性，判决正确率较高。

S22：结合当前判决结果和历史判决结果判断音频数据是否参与混音。

历史判决结果是指在前帧的判决结果。一般来说，历史判决结果可以包括前一判决结果，前一判决结果是指历史判决结果中与当前判决结果最相邻的一个。假设当前帧为第n帧，则前一判决结果是指第n-1帧的判决结果，前二判决结果是指第n-2帧的判决结果，以此类推。

在历史判决结果包括前一判决结果的情况下，可以采用如下判断方式来实现淡入淡出：

若当前判决结果和前一判决结果均为非语音，则音频数据不参与混音。

若当前判决结果为非语音且前一判决结果为语音，则音频数据在时域上与第一系数组相乘且参与混音，第一系数组的取值范围为0至1且组内系数依次变小。这里的依次是指在时域上按照从前到后的顺序。

若当前判决结果和前一判决结果均为语音，则音频数据参与混音。

若当前判决结果为语音且前一判决结果为非语音，则音频数据在时域上与第二系数组相乘且参与混音，第二系数组的取值范围为0至1且组内系数依次变大。

在历史判决结果包括前一判决结果和前二判决结果的情况下，可以采用如下判断方式来实现淡入淡出，如前所述，这里的前一判决结果和前二判决结果是历史判决结果中与当前判决结果最相邻的两个：

若当前判决结果、前一判决结果和前二判决结果均为非语音，则音频数据不参与混音。

若当前判决结果和前一判决结果为非语音，且前二判决结果为语音，则音频数据在时域上与第三系数组相乘且参与混音，第三系数组的取值范围为0至0.5且组内系数依次变小。

若当前判决结果为非语音，且前一判决结果和前二判决结果为语音，则音频数据在时域上与第四系数组相乘且参与混音，第四系数组的取值范围为0.5至1且组内系数依次变小。

若当前判决结果、前一判决结果和前二判决结果均为语音，则音频数据参与混音。

若当前判决结果和前一判决结果为语音，且前二判决结果为非语音，则音频数据在时域上与第五系数组相乘且参与混音，第五系数组的取值范围为0.5至1且组内系数依次变大。

若当前判决结果为语音，且前一判决结果和前二判决结果为非语音，则音频数据在时域上与第六系数组相乘且参与混音，第六系数组的取值范围为0至0.5且组内系数依次变大。

可选的，系数组内的系数可以部分或者全部相等。如果不需要淡入淡出，可以选择不对音频数据进行修正。

此外，在判断是否参与混音的过程中，可以进一步考虑音频数据的重要性。例如，若某路音频数据来自于指定通道，无论当前判决结果和历史判决结果如何，该路音频数据直接参与混音。指定通道可以为重要参与者的通道，其重要性，或者说优先级高于非指定通道。举例说明，指定通道可以为法庭系统中的法官通道，教学系统中的教师通道。

S3：利用参与混音的音频数据的数量选择混音算法。

若参与混音的音频数据的数量大于预设阈值，则选择第一混音算法进行混音；否则选择第二混音算法。第一混音算法比第二混音算法复杂且第一混音算法的效果优于第二混音算法。预设阈值可以根据第一混音算法的性能来决定。在参与混音的音频数据的数量较多的情况下，采用第一混音算法得到的混音数据的质量优于采用第二算法得到的混音数据的质量。

例如，预设阈值可以为5，第一混音算法为自适应加权法，第二混音算法为扩容限幅法。当参与混音的音频数据的数量小于或等于5时，发生溢出的概率小可以采用简单高效的扩容限幅法；当参与混音的音频数据的数量大于5时，为保证音频质量，采用较为复杂但效果更好的自适应加权法。在其他实施例中也可以选择其他算法作为第一/第二混音算法，例如线性叠加法等。

S4：采用选中的混音算法对参与混音的音频数据进行混音。

混音得到混音数据。

可以为多路音频信号的每一帧执行本实施例所提供的混音方法，从而持续输出混音数据。

通过本实施例的实施，混音数据的筛选算法经过优化，延时较低且正确率较高；同时利用参与混音的音频数据的数量选择混音算法，支持混音的路数增加，且在路数较多较少时均可实现较好的混音效果。

图4是本发明混音方法第二实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。本发明混音方法第二实施例，是对本发明混音方法第一实施例的具体扩展，与其相同的部分不再重复。如图4所示，本实施例包括：

S110：根据当前场景控制声源采集开关的状态。

若多媒体交互系统中，某些时刻只允许某些特定的参与者发言，例如在法庭上，某些时刻只允许法官/律师/证人发言。可以根据当前场景控制声源采集开关的状态，只采集这些允许发言的参与者的声音。可选的，可以接收申请打开声源采集开关的请求，再根据当前场景判断是否接受该请求。

S120：接收多路音频当前帧。

S130：对多路音频的音频帧进行去噪处理。

S140：判断音频数据是否来自于指定通道。

若是，则跳转到S150；否则跳转到S160。

S150：音频数据参与混音。

S160：利用基于高斯模型的语音活动检测算法判断音频数据是否为语音得到当前判决结果。

S170：结合当前判决结果和历史判决结果判断音频数据是否参与混音。

为每一路音频数据执行S140-S170，然后跳转到S180。

在其他实施例中，S140-S150与S160-S170的顺序可以调换，即在得到当前判决结果之后再判断音频数据是否来自于指定通道，若是，则无需结合历史判决结果而直接判定音频数据参与混音。

S180：将参与混音的音频数据的数量与预设阈值进行比较。

若参与混音的音频数据的数量大于预设阈值，则跳转到S190；否则跳转到S200。

S190：选择第一混音算法对参与混音的音频数据进行混音。

S200：选择第二混音算法对参与混音的音频数据进行混音。

第一混音算法比第二混音算法复杂且第一混音算法的效果优于第二混音算法。

S210：对混音数据进行自动增益控制后输出。

采用自动增益控制(Automatic Gain Control，AGC)对混音数据的响度进行自适应调整，稳定输出音频的音量，改善输出音频音量忽大忽小的情况。

请参阅图5，图5为本发明混音装置一实施例的结构示意图。如图5所示，该混音装置30包括处理器31。

处理器31还可以称为CPU(Central Processing Unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

混音装置30可以进一步包括存储器(图中未示出)，用于存储处理器31运行所需的指令和数据。

处理器31用于执行指令以实现上述本发明混音方法任一实施例及任意不冲突的组合所提供的方法。

参阅图6，图6为本发明存储介质一实施例的结构示意图。本发明实施例的存储介质40存储有指令，该指令被执行时实现本发明混音方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令可以形成程序文件以软件产品的形式存储在上述存储介质中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种混音方法，其特征在于，包括：

获取多路音频数据；

至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路所述音频数据是否参与混音；

利用参与混音的所述音频数据的数量选择混音算法；

采用选中的混音算法对所述参与混音的音频数据进行混音。

2.根据权利要求1所述的方法，其特征在于，

所述获取多路音频数据后包括：

对所述多路音频的音频帧进行去噪处理。

3.根据权利要求1所述的方法，其特征在于，

所述至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路所述音频数据是否参与混音包括：

利用所述基于高斯模型的语音活动检测算法判断所述音频数据是否为语音，得到当前判决结果；

结合所述当前判决结果和所述历史判决结果判断所述音频数据是否参与混音。

4.根据权利要求3所述的方法，其特征在于，

所述利用所述基于高斯模型的语音活动检测算法判断所述音频数据是否为语音得到当前判决结果包括：

将所述音频数据按照频率划分为多个子频带；

分别计算每个所述子频带的能熵比以及所述子频带为语音的似然比；

结合所有所述子频带的所述似然比和所述能熵比判断所述音频数据是否为语音，得到所述当前判决结果。

5.根据权利要求4所述的方法，其特征在于，

所述结合所有所述子频带的所述似然比和所述能熵比判断所述音频数据是否为语音得到所述当前判决结果包括：

若所述似然比大于第一阈值的所述子频带的数量大于第二阈值且所述能熵比大于第三阈值的所述子频带的数量大于第四阈值，则所述当前判决结果为语音，否则所述当前判决结果为非语音；或

若所述似然比大于所述第一阈值的所述子频带的数量大于所述第二阈值或所述能熵比大于所述第三阈值的所述子频带的数量大于所述第四阈值，则所述当前判决结果为语音，否则所述当前判决结果为非语音。

6.根据权利要求3所述的方法，其特征在于，

所述历史判决结果包括前一判决结果，所述前一判决结果是所述历史判决结果中与当前判决结果最相邻的一个，所述结合所述当前判决结果和所述历史判决结果判断所述音频数据是否参与混音包括：

若所述当前判决结果和所述前一判决结果均为非语音，则所述音频数据不参与混音；

若所述当前判决结果为非语音且所述前一判决结果为语音，则所述音频数据在时域上与第一系数组相乘且参与混音，所述第一系数组的取值范围为0至1且组内系数依次变小；

若所述当前判决结果和所述前一判决结果均为语音，则所述音频数据参与混音；

若所述当前判决结果为语音且所述前一判决结果为非语音，则所述音频数据在时域上与第二系数组相乘且参与混音，所述第二系数组的取值范围为0至1且组内系数依次变大。

7.根据权利要求3所述的方法，其特征在于，

所述历史判决结果包括前一判决结果和前二判决结果，所述前一判决结果和前二判决结果是所述历史判决结果中与当前判决结果最相邻的两个，所述结合所述当前判决结果和所述历史判决结果判断所述音频数据是否参与混音包括：

若所述当前判决结果、所述前一判决结果和所述前二判决结果所述均为非语音，则所述音频数据不参与混音；

若所述当前判决结果和所述前一判决结果为非语音，且所述前二判决结果为语音，则所述音频数据在时域上与第三系数组相乘且参与混音，所述第三系数组的取值范围为0至0.5且组内系数依次变小；

若所述当前判决结果为非语音，且所述前一判决结果和所述前二判决结果为语音，则所述音频数据在时域上与第四系数组相乘且参与混音，所述第四系数组的取值范围为0.5至1且组内系数依次变小；

若所述当前判决结果、所述前一判决结果和所述前二判决结果均为语音，则所述音频数据参与混音；

若所述当前判决结果和所述前一判决结果为语音，且所述前二判决结果为非语音，则所述音频数据在时域上与第五系数组相乘且参与混音，所述第五系数组的取值范围为0.5至1且组内系数依次变大；

若所述当前判决结果为语音，且所述前一判决结果和所述前二判决结果为非语音，则所述音频数据在时域上与第六系数组相乘且参与混音，所述第六系数组的取值范围为0至0.5且组内系数依次变大。

8.根据权利要求1所述的方法，其特征在于，

所述至少利用基于高斯模型的语音活动检测算法和历史判决结果分别判断每路所述音频数据是否参与混音进一步包括：

若所述音频数据来自于指定通道，则所述音频数据参与混音。

9.根据权利要求1所述的方法，其特征在于，

所述利用参与混音的所述音频数据的数量选择混音算法包括：

若参与混音的所述音频数据的数量大于预设阈值，则选择第一混音算法进行混音；否则选择第二混音算法，所述第一混音算法比所述第二混音算法复杂且所述第一混音算法的效果优于所述第二混音算法。

10.根据权利要求9所述的方法，其特征在于，

所述预设阈值为5，所述第一混音算法为自适应加权法，所述第二混音算法为扩容限幅法。

11.根据权利要求1所述的方法，其特征在于，

所述获取多路音频数据之前进一步包括：

根据当前场景控制声源采集开关的状态。

12.根据权利要求1所述的方法，其特征在于，

所述采用选中的混音算法对所述参与混音的音频数据进行混音之后进一步包括：

对混音数据进行自动增益控制后输出。

13.一种混音装置，其特征在于，所述混音装置包括处理器，

所述处理器用于执行指令以实现如权利要求1-12中任一项所述的方法。

14.一种存储介质，存储有指令，其特征在于，所述指令被执行时实现如权利要求1-12中任一项所述的方法。