CN115065912B

CN115065912B - 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置

Info

Publication number: CN115065912B
Application number: CN202210711587.1A
Authority: CN
Inventors: 徐海; 汪泽培
Original assignee: Guangdong Dibi Electronic Technology Co ltd
Current assignee: Guangdong Dibi Electronic Technology Co ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2023-04-25
Anticipated expiration: 2042-06-22
Also published as: CN115065912A

Abstract

本发明适用于声音处理技术领域，提供了一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块，其中：输入模块，用于接收外界声音信号；声纹筛模块，所述声纹筛模块包括有多级声纹筛，声纹筛用于对人声和非人声进行识别筛选；噪声抑制模块，用于对声纹筛模块识别筛选出的非人声进行抑制；自动均衡模块，用于对声纹筛模块识别筛选出的人声自动调节均衡，并将处理后的人声传输至输出模块。声纹筛模块包括有多级声纹筛，能够对人声和非人声进行反复识别和筛选，尽可能去除所有的非人声，尽可能叠加保留所有的人声，本发明对人声的破坏小，避免人声失真。

Description

基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置

技术领域

本发明涉及声音处理技术领域，具体是涉及一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置。

背景技术

在扩声系统中，声反馈（即啸叫）产生的原因是音箱发出的声音折回到话筒，再送到扩声系统中放大，并经音箱送出，而后又折回到话筒，从而形成正反馈，如此循环所致。啸叫不仅是一种让人很难受的噪声，深度的啸叫还会使系统信号过强，从而烧毁功放或音箱。目前针对啸叫的解决方法有陷波法和移频法，陷波法就是在声反馈系统的反馈频率点插入一个陷波滤波器，降低反馈点的增益，使之无法达到啸叫的增益条件；陷波法存在以下缺点：理论上，陷波器法不能完全阻止声反馈；还会衰减人声声音中某些频率成分，从而造成人声失真。移频法通过改变输入音频信号的频率来破坏啸叫产生条件，使得再次进入系统的音频不会和原始信号频率叠加，达到抑制啸叫；移频法存在缺点：改变了人声频率，造成严重失真，尤其是对连续声音，会造成声音抖动。因此，陷波法和移频法均无法很好的解决啸叫问题，那么就需要提供一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块，所述声纹筛模块与输入模块、噪声抑制模块以及自动均衡模块电性连接，所述自动均衡模块与输出模块电性连接，其中：

输入模块，用于接收外界声音信号；

声纹筛模块，所述声纹筛模块包括有多级声纹筛，声纹筛用于对人声和非人声进行识别筛选；

噪声抑制模块，用于对声纹筛模块识别筛选出的非人声进行抑制；

自动均衡模块，用于对声纹筛模块识别筛选出的人声自动调节均衡，并将处理后的人声传输至输出模块。

作为本发明进一步的方案：所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛，第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接，人声声纹筛用于识别筛选出人声和非人声，第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选，第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选，第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选，第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选，第五级人声声纹筛识别筛选出的人声进入自动均衡模块中。

作为本发明进一步的方案：所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。

作为本发明进一步的方案：所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛，第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接，人声声纹筛用于识别筛选出人声和非人声，所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。

作为本发明进一步的方案：所述声纹筛模块包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛，第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接，噪声声纹筛用于识别筛选出人声和非人声，所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。

作为本发明进一步的方案：所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选，第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选，第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选，第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选，第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块中。

作为本发明进一步的方案：声纹筛对人声和非人声进行识别筛选的步骤为：训练神经网络；根据神经网络对人声和非人声进行识别。

作为本发明进一步的方案：所述训练神经网络的步骤，具体为：

获取不包含人声的外界声音信号和包含人声的外界声音信号；

提取外界声音信号的MFCC融合特征，MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE；

对外界声音信号的MFCC融合特征进行特征处理，特征处理包括切分和补齐；

根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练，得到训练完成的预测模型。

作为本发明进一步的方案：所述根据神经网络对人声和非人声进行识别的步骤，具体为：

获取待识别声音信号，提取待识别声音信号的MFCC融合特征；

对待识别声音信号的MFCC融合特征进行特征处理；

将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型，识别得到人声和非人声。

与现有技术相比，本发明的有益效果是：

本发明通过设置声纹筛模块、噪声抑制模块以及自动均衡模块，能够对人声和非人声进行识别筛选，噪声抑制模块对声纹筛模块识别筛选出的非人声进行抑制过滤，让系统更纯净，自动均衡模块对声纹筛模块识别筛选出的人声自动调节均衡，使得声音更加和谐自然；另外，声纹筛模块包括有多级声纹筛，能够对人声和非人声进行反复识别和筛选，尽可能去除所有的非人声，尽可能叠加保留所有的人声，本发明对人声的破坏小，避免人声失真；且对非人声的识别率较高，非人声无法反馈折回扩声系统中，保证了输出声音信号的纯净。

附图说明

图1为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置的结构示意图。

图2为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级人声声纹筛串联的结构示意图。

图3为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级人声声纹筛并联的结构示意图。

图4为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级噪声声纹筛串联的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，所述装置包括输入模块100、声纹筛模块200、噪声抑制模块300、自动均衡模块400以及输出模块500，所述声纹筛模块200与输入模块100、噪声抑制模块300以及自动均衡模块400电性连接，所述自动均衡模块400与输出模块500电性连接，其中：

输入模块100，用于接收外界声音信号；

声纹筛模块200，所述声纹筛模块200包括有多级声纹筛，声纹筛用于对人声和非人声进行识别筛选；

噪声抑制模块300，用于对声纹筛模块200识别筛选出的非人声进行抑制；

自动均衡模块400，用于对声纹筛模块200识别筛选出的人声自动调节均衡，并将处理后的人声传输至输出模块500。

需要说明的是，在扩声系统中，声反馈（即啸叫）产生的原因是音箱发出的声音折回到话筒，再送到扩声系统中放大，并经音箱送出，而后又折回到话筒，从而形成正反馈，如此循环所致。啸叫不仅是一种让人很难受的噪声，深度的啸叫还会使系统信号过强，从而烧毁功放或音箱。目前针对啸叫的解决方法有陷波法和移频法，陷波法就是在声反馈系统的反馈频率点插入一个陷波滤波器，降低反馈点的增益，使之无法达到啸叫的增益条件；陷波法存在以下缺点：理论上，陷波器法不能完全阻止声反馈；还会衰减人声声音中某些频率成分，从而造成人声失真。移频法通过改变输入音频信号的频率来破坏啸叫产生条件，使得再次进入系统的音频不会和原始信号频率叠加，达到抑制啸叫；移频法存在缺点：改变了人声频率，造成严重失真，尤其是对连续声音，会造成声音抖动。因此，陷波法和移频法均无法很好的解决啸叫问题。

本发明实施例中，通过设置声纹筛模块200、噪声抑制模块300以及自动均衡模块400，能够对人声和非人声进行识别筛选，噪声抑制模块300对声纹筛模块200识别筛选出的非人声进行抑制过滤，让系统更纯净，自动均衡模块400对声纹筛模块200识别筛选出的人声自动调节均衡，使得声音更加和谐自然；另外，声纹筛模块200包括有多级声纹筛，能够对人声和非人声进行反复识别和筛选，尽可能去除所有的非人声，尽可能叠加保留所有的人声，本发明实施例对人声的破坏最小，理论上可以做到零破坏扩声系统，即零失真；且随着算法的不断优化，非人声的识别率不断提高，非人声无法反馈折回扩声系统中，保证了输出声音信号的纯净，本发明实施例适用于教学、会议、演唱会、卡拉OK等多场景中。

如图2所示，作为本发明一个优选的实施例，所述声纹筛模块200包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛，第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接，人声声纹筛用于识别筛选出人声和非人声，第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选，第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选，第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选，第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选，第五级人声声纹筛识别筛选出的人声进入自动均衡模块400中。

本发明实施例中，所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块300中。本发明实施例通过将第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛进行串联，能够依次对一个外界声音信号进行五次筛选，筛选后基本没有非人声进入自动均衡模块400中，保证了人声的纯净度。

如图3所示，作为本发明一个优选的实施例，所述声纹筛模块200包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛，第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接，人声声纹筛用于识别筛选出人声和非人声，所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块400中。

本发明实施例中，所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块300中。本发明实施例通过将第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛进行并联，同时将一个外界声音信号输入至五个人声声纹筛中，然后将五个人声声纹筛识别筛选出的人声叠加后进入自动均衡模块400中，这样对人声的破坏很小，避免人声声音发生失真，使用效果好。

如图4所示，作为本发明一个优选的实施例，所述声纹筛模块200包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛，第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接，噪声声纹筛用于识别筛选出人声和非人声，所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块400中。

本发明实施例中，所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选，第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选，第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选，第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选，第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块300中。本发明实施例通过将第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛进行串联，能够依次对一个外界声音信号进行五次筛选，每一级的噪声声纹筛识别筛选出的人声都不会浪费，筛选得到的人声都会叠加进入自动均衡模块400中，避免人声声音发生失真，使用效果好。

作为本发明一个优选的实施例，声纹筛对人声和非人声进行识别筛选的步骤为：训练神经网络；根据神经网络对人声和非人声进行识别。

本发明实施例中，所述训练神经网络的步骤，具体为：获取不包含人声的外界声音信号和包含人声的外界声音信号；提取外界声音信号的MFCC融合特征，MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE；对外界声音信号的MFCC融合特征进行特征处理，特征处理包括切分和补齐；根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练，得到训练完成的预测模型。

本发明实施例中，所述根据神经网络对人声和非人声进行识别的步骤，具体为：获取待识别声音信号，提取待识别声音信号的MFCC融合特征；对待识别声音信号的MFCC融合特征进行特征处理；将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型，识别得到人声和非人声。

具体的，提取MFCC融合特征的方法为：对声音信号进行预校验和添加标记；将进行预校验和添加标记后的声音信号，通过N阶滤波器并剔除第零分量后，得到N-1维的MFCC特征；对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波，得到Delta信息；对N维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波，得到Delta-Delta信息；根据原始的声音信号的梅尔频谱计算RMSE；最后将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3N+1维的MFCC融合特征。其中，所述对声音信号进行预校验和添加标记的方法为：遍历所有声音信号，若存在语音信号不一致的声道则拼接不一致的声道形成新的声音信号序列参与后续计算，并给予不一致标记；否则仅将声音信号中的一个声道参与后续计算，并给予一致标记。另外，在切分和补齐时，需要按预设窗口大小M(即步长)将3N+1维的MFCC融合特征进行切分，得到K个切片；并对K个切片进行自动补齐，获得K个N-1*M维的特征矩阵。所述对K个切片进行自动补齐的方法为：若K＞1，则通过向前平移进行补齐；若K＝1，则通过迭代自身进行补齐。需要说明的是，通用的采取补零来维持输入特征维度的方法会影响识别效果，补零越多对最终识别结果影响越大。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，其特征在于，所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块，所述声纹筛模块与输入模块、噪声抑制模块以及自动均衡模块电性连接，所述自动均衡模块与输出模块电性连接，其中：

输入模块，用于接收外界声音信号；

自动均衡模块，用于对声纹筛模块识别筛选出的人声自动调节均衡，并将处理后的人声传输至输出模块；

其中，所述声纹筛模块包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛，第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接，噪声声纹筛用于识别筛选出人声和非人声，所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中，所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选，第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选，第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选，第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选，第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块中。

2.根据权利要求1所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，其特征在于，声纹筛对人声和非人声进行识别筛选的步骤为：训练神经网络；根据神经网络对人声和非人声进行识别。

3.根据权利要求2所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，其特征在于，所述训练神经网络的步骤，具体为：

4.根据权利要求3所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置，其特征在于，所述根据神经网络对人声和非人声进行识别的步骤，具体为：

获取待识别声音信号，提取待识别声音信号的MFCC融合特征；

对待识别声音信号的MFCC融合特征进行特征处理；