CN116682445A

CN116682445A - 基于特征识别的智能语音降噪系统及方法

Info

Publication number: CN116682445A
Application number: CN202310705128.7A
Authority: CN
Inventors: 吴福全; 赵海
Original assignee: Anhui Dike Digital Gold Technology Co ltd
Current assignee: Anhui Dike Digital Gold Technology Co ltd
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-01

Abstract

本发明公开了基于特征识别的智能语音降噪系统及方法，涉及语音处理技术领域，解决了现有技术将与语音信号相关联的非语音信号也直接去除，导致语音信息表达内容失真的技术问题；本发明基于语音特征计算语音信号与若干备选信号的相似度系数；根据相似度系数从非语音信号中提取若干与语音信号具有强关联性的基础信号，并合成基础信号和语音信号获取目标信号；本发明通过相似度分析，避免语音信号降噪后的失真；本发明通过语音合成数据验证各特征项在相似度计算中的权重系数，根据权重系数确定若干语音特征；根据若干语音特征判断备选信号与语音信号之间的关联性；本发明能够根据若干语音特征快速选择出基础信号，提高信号处理效率。

Description

基于特征识别的智能语音降噪系统及方法

技术领域

本发明属于语音处理领域，涉及基于特征识别的智能语音降噪技术，具体是基于特征识别的智能语音降噪系统及方法。

背景技术

无线语音降噪技术是指当无线语音信号在传输的过程中被各种各样的噪声干扰后，从噪声背景中提取、增强有用的语音信号，降低噪声干扰的技术。信号接收端的通信语音降噪主要是指在时域、频域和其他变换域进行信号分析，通过找出语音和噪音的不同之处进行降噪。

目前经常使用的方法主要有设计带通滤波器、噪声补偿算法等，这类方法在噪声平稳环境中表现较好。现有技术对常用方法进行了改进，将语音信息分为语音信号和非语音信号，通过提取音频特征和设计分类器模型对语音信息进行自动识别，根据识别结果对非语音信号进行去除，实现降噪。现有技术只保留语音信息中的语音信号，而将与语音信号相关联的非语音信号也直接去除，导致语音信息的表达内容失真，影响应用范围。

本发明提供了基于特征识别的智能语音降噪系统及方法，以解决上述问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一；为此，本发明提出了基于特征识别的智能语音降噪系统及方法，用于解决现有技术将与语音信号相关联的非语音信号也直接去除，导致语音信息表达内容失真的技术问题。

为实现上述目的，本发明的第一方面提供了基于特征识别的智能语音降噪系统，包括中枢控制模块，以及与之相连接的语音采集设备和数据库；中枢控制模块通过语音采集设备采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号；中枢控制模块根据语音分离技术对非语音信号进行分离，获取若干备选信号；基于语音特征计算语音信号与若干备选信号的相似度系数；以及判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不进行标记；基于语音合成技术合成基础信号和语音信号，获取目标信号。

现有技术在进行语音降噪时，要么降噪方案适用范围较窄，多数仅在噪声状态平稳的环境中有所效果；要么是降噪方案过于简单粗暴，从语音信息中仅提取包含语音内容的语音信号，对其他语音信号直接舍弃。可见，现有技术无法同时兼顾适用范围和信号保真，影响语音降噪效果。

本发明在获取语音信息之后，通过是否包含语音内容来将语音信息划分为语音信号和非语音信号。通过语音分离技术对非语音信息进行分离获取若干备选信号；比较备选信号与语音信号是否具有相似性，若相似度较高则表面二者具有关联性。最后通过语音合成技术将语音信号以及与其相似度较高的备选信号进行合成，得到降噪后的目标信号。显然，本发明在实现语音降噪的过程中，综合考虑了信号之间的关联性，能够最大程度避免降噪之后的语音信号失真。

本发明的所述中枢控制模块分别与语音采集设备和数据库通信和/或电气连接；所述语音采集设备用于获取需要进行降噪的语音信息；所述数据库用于存储处理好的信号分离模型和语音合成模型。中枢控制模块负责所有的数据处理，数据库存储有本发明各数据过程所需的数据。本发明中的信号分离模型和语音合成模型是在可靠的理论方法基础上结合数据库中的数据训练人工智能模型构建的，人工智能模型包括BP神经网络模型或者RBF神经网络模型。

优选的，所述通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号，包括：对语音信息进行分帧之后加汉明窗处理，获取原始信号；基于Mel倒谱系数及其一阶差分、子频带能量分布对原始信号进行特征提取，并设计分类器模型将原始信号分为语音信号和非语音信号。

在从语音信息中提取语音信号和非语音信号主要采用以下特征：

1)Me1倒谱系数(MFCC)及其一阶差分

人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，MFC℃对频率轴进行不均匀划分，是一种将人耳的听觉感知特性和语音的产生机制相结合的特征参数。标准的FCC参数只反映了语音参数的静态特性，而人耳对语音的动态特征更为敏感，通常用差分倒谱参数来描述这种动态特性。

2)子频带能量分布

在一帧音频信号之内，每个子频带的功率谱能量占该帧整个频带的功率普能量的比率是不同的，由此构成一种分布，称之为子频带能量分布。

优选的，所述中枢控制模块根据语音分离技术对非语音信号进行分离，包括：基于语音分离技术构建语音分离模型；通过语音分离模型对非语音信号进行分离，获取若干备选信号。

语音分离技术包括谱减法、维纳滤波法、非负矩阵分解法或者计算听觉场景分析法等，可根据本发明具体的应用场景来选择合适的语音分离技术构建语音分离模型。语音信息中的语音信号可以理解为语音降噪之后的核心内容，而在非语音信号中可能仍然存在与语音信号存在关联关系的信号。

根据建立的语音分离模型对非语音信号进行语音分离处理，将非语音信号中不同类型的信息分离开来，此时并不知晓哪些信号与语音信号存在关联性。因此，将这些从非语音信号中分离出来的信号标记为备选信号。

优选的，所述基于语音特征计算语音信号与若干备选信号的相似度系数，包括：设置若干特征项，通过语音合成数据验证各特征项在相似度计算中的权重系数；将权重系数大于权重阈值的特征项提取整合，获取若干语音特征；基于若干语音特征分析语音信号与若干备选信号的变化趋势，根据变化趋势的一致程度获取相似度系数。

若要判断两组信号的相似度，也需要基于一些特征。本发明根据语音识别领域常用的特征设置若干特征项，如基频特征主要包括基音频率及其均值、变化范围、变化率和均方差；能量特征主要包括短时平均能量、短时能量变化率、短时平均振幅、振幅平均变化率和短时最大振幅；时长特征主要包括语速和短时平均过零率。根据设置的语音合成数据验证各特征项是否能够在相似度的计算上起到一定作用，根据作用大小选择出部分特征项作为语音特征。

本发明中的语音合成数据是事先挑选的语音数据，这些语音数据来源于各个领域，如音乐领域、施工领域、远程办公领域等。这些语音合成数据中进行信号分离之后，已经知晓了哪些信号之间具备一定的关联性，如在音乐的无线传输过程中，歌手演唱内容对应的信号与乐器伴奏的信号是具备一定关联性的，而其与交通工具的运行噪声是没有关联性的(假设在公交车上用无线耳机音乐)。通过已知信号之间关联性的语音合成数据来验证各特征项在关联性判断上所起到的作用，进而选择获取若干语音特征。

优选的，所述基于若干语音特征分析语音信号与若干备选信号的变化趋势，包括：对若干语音特征进行逐一编号，获取语音特征i；分析语音信号与备选信号在语音特征i下的变化趋势，根据变化趋势的一致程度确定相似度QDi；根据公式XDX＝∑(QZi×QDi)计算语音信号与该备选信号的相似度系数XDX。

在语音信号与备选信号的相似度分析过程中，可分析语音信号与备选信号同一语音特征的变化趋势，根据变化趋势的一致程度来确定相似度；如二者在某语音特征的变化趋势完全一致，则相似度为100％。

在若干语音特征的基础上，可获取语音信号与某备选信号之间的若干相似度，结合对应的权重系数可计算获取语音信号与备选信号之间的相似度系数。相似度系数越大，说明二者的关联性越大。需要说明的是，相似度系数计算公式中各语音特征的权重系数跟语音合成数据验证选择若干语音特征的权重系数关联，具体将在语音合成数据验证时获取的若干语音特征的权重系数进行调整之后，让所有语音特征的权重系数之和为1，则可带入公式进行计算。

优选的，所述基于语音合成技术合成基础信号和语音信号，包括：基于语音合成技术构建语音合成模型；通过语音合成模型合成语音信号与标记的基础信号，获取目标信号。

语音合成技术包括波形拼接合成技术、统计参数语音合成技术或者端到端神经网络语音合成技术。同语音分离模型相似，根据本发明的应用场景来选择合适的语音合成技术，进而构建语音合成模型，以保证语音合成的效果。

通过相似度系数与相似度阈值的比较，可从备选信号中选择符合要求的作为基础信号。在语音合成模型的基础上将语音信号与获取的基础信号进行合成，获取所需要的目标信号。目标信号就是去噪后的语音信息，里面不仅包括语音内容，还包括与语音内容相关联的附属信号。

本发明的第二方面提供了基于特征识别的智能语音降噪方法，包括：采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号；其中，信号预处理包括分帧和加窗；根据语音分离技术对非语音信号进行分离，获取若干备选信号；基于语音特征计算语音信号与若干备选信号的相似度系数；判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不进行标记；基于语音合成技术合成基础信号和语音信号，获取目标信号。

本方法相较于传统的语音降噪方法，能够在复杂的噪声环境中应用；相对于直接识别语音信号，而剔除其他所有信号的降噪方法来说，能够连同与语音信号相关联的信号一起识别，最大程度地避免语音信息失真。

与现有技术相比，本发明的有益效果是：

1.本发明基于语音特征计算语音信号与若干备选信号的相似度系数；根据相似度系数从非语音信号中提取若干与语音信号具有强关联性的基础信号，并合成基础信号和语音信号获取目标信号；本发明通过相似度分析，避免语音信号降噪后的失真。

2.本发明通过语音合成数据验证各特征项在相似度计算中的权重系数，根据权重系数确定若干语音特征；根据若干语音特征判断备选信号与语音信号之间的关联性；本发明能够根据若干语音特征快速选择出基础信号，提高信号处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的工作步骤示意图；

图2为本发明的系统原理示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1-图2，本发明第一方面实施例提供了基于特征识别的智能语音降噪系统，包括中枢控制模块，以及与之相连接的语音采集设备；中枢控制模块通过语音采集设备采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号；中枢控制模块根据语音分离技术对非语音信号进行分离，获取若干备选信号；基于语音特征计算语音信号与若干备选信号的相似度系数；以及判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不进行标记；基于语音合成技术合成基础信号和语音信号，获取目标信号。

本实施例以用户在地铁上以无线耳机听歌的应用场景为例：

第一步：中枢控制模块通过语音采集设备采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号。

用户在地铁上用无线耳机听歌时，信号会受到所处环境的影响，具体是受到周围电磁设备、地铁等发出的电磁波影响，这些影响会在音乐信号中引入噪声，进而导致音乐收听效果不佳。

语音信号中包括语音内容，可参考授权号为CN101404160B的中国发明专利，该专利公开了一种基于音频识别的语音降噪方法，其将模式识别思想引入通信语音降噪，把音频信号分成语音和非语音，通过提取语音特征和设计分类器模型，对输入信号进行自动识别，判断音频类型，如果是噪音则去除，如果是语音则予以保留并进一步处理。从语音信号中提取语音信号和非语音信号可参考该专利中记载的信号预处理、特征提取和音频信号分类的过程。

回归本实施例，从音乐信号中提取语音信号和非语音信号之后，则音乐信号中仅包括歌手演唱部分，类似于伴奏、和声等均会被归类到非语音信号中。

第二步：基于语音特征计算语音信号与若干备选信号的相似度系数；以及判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不进行标记。

根据本实施例的场景选择合适的语音分离模型，通过语音分离模型对非语音信号进行分离整合，获取若干备选信号。如和声会被整合为一条备选信号，某乐器伴奏会被划分为一条备选信号，地铁行驶过程中的电磁波噪声会被整合为一条备选信号。

事先设置若干特征项，如基频变化量、短时能量变化量、短时最大振幅、短时平均过零率等。选择同样场景的多条语音合成数据，不过事先已知晓语音合成数据中各信号之间的关联性，提取若干特征项中能够表示出很好关联性的作为语音特征。这里的关联性主要是指特征项能够与两个信号变化趋势的贴合度。

通过若干语音特征来对非语音信号进行分类，其分类标准是语音信号的语音特征，该方法可通过人工智能模型建立的分类模型完成。本实施例则通过计算相似度系数来完成分类，具体对若干语音特征进行逐一编号，获取语音特征i；分析语音信号与备选信号在语音特征i下的变化趋势，根据变化趋势的一致程度确定相似度QDi；根据公式XDX＝∑(QZi×QDi)计算语音信号与该备选信号的相似度系数XDX。

最终得到的相似度系数相当于一个表征关联性的分数，相关度系数越高则说明该备选信号与语音信号相关性越高。再结合设置的相关度阈值，可完成对备选信号的筛选，获取若干基础信号。当然，也有可能因为所有备选信号与语音信号的关联性都低，筛选不出基础信号；此时，语音信号即可作为最终的目标信号。

第三步：基于语音合成技术合成基础信号和语音信号，获取目标信号。

选择该应用场景下表现最优的语音合成技术，在大量数据的加持下训练得到语音合成模型。通过语音合成模型将语音信号与若干基础信号进行合成，得到目标信号。对于本应用场景而言，目标信号就是用户正在收听的音乐，包括歌手演唱的部分，以及对应的伴奏；其他信号被直接剔除。

上述公式中的部分数据是去除量纲取其数值计算，公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式；公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。

本发明的工作原理：采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号。根据语音分离技术对非语音信号进行分离，获取若干备选信号；基于语音特征计算语音信号与若干备选信号的相似度系数。判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不进行标记；基于语音合成技术合成基础信号和语音信号，获取目标信号。

以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.基于特征识别的智能语音降噪系统，包括中枢控制模块，以及与之相连接的语音采集设备和数据库；其特征在于：

中枢控制模块通过语音采集设备采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号；其中，信号预处理包括分帧和加窗；

中枢控制模块根据语音分离技术对非语音信号进行分离，获取若干备选信号；基于语音特征计算语音信号与若干备选信号的相似度系数；以及

判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不标记；基于语音合成技术合成基础信号和语音信号，获取目标信号。

2.根据权利要求1所述的基于特征识别的智能语音降噪系统，其特征在于，所述通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号，包括：

对语音信息进行分帧之后加汉明窗处理，获取原始信号；

基于Mel倒谱系数及其一阶差分、子频带能量分布对原始信号进行特征提取，并设计分类器模型将原始信号分为语音信号和非语音信号。

3.根据权利要求1所述的基于特征识别的智能语音降噪系统，其特征在于，所述中枢控制模块根据语音分离技术对非语音信号进行分离，包括：

基于语音分离技术构建语音分离模型；其中，语音分离技术包括谱减法、维纳滤波法、非负矩阵分解法或者计算听觉场景分析法；

通过语音分离模型对非语音信号进行分离，获取若干备选信号。

4.根据权利要求1所述的基于特征识别的智能语音降噪系统，其特征在于，所述基于语音特征计算语音信号与若干备选信号的相似度系数，包括：

设置若干特征项，通过语音合成数据验证各特征项在相似度计算中的权重系数；将权重系数大于权重阈值的特征项提取整合，获取若干语音特征；

基于若干语音特征分析语音信号与若干备选信号的变化趋势，根据变化趋势的一致程度获取相似度系数。

5.根据权利要求4所述的基于特征识别的智能语音降噪系统，其特征在于，所述基于若干语音特征分析语音信号与若干备选信号的变化趋势，包括：

对若干语音特征进行逐一编号，获取语音特征i；分析语音信号与备选信号在语音特征i下的变化趋势，根据变化趋势的一致程度确定相似度QDi；

根据公式XDX＝∑(QZi×QDi)计算语音信号与该备选信号的相似度系数XDX；其中，QZi为语音特征i对应的权重系数，i为正整数。

6.根据权利要求1所述的基于特征识别的智能语音降噪系统，其特征在于，所述基于语音合成技术合成基础信号和语音信号，包括：

基于语音合成技术构建语音合成模型；其中，语音合成技术包括波形拼接合成技术、统计参数语音合成技术或者端到端神经网络语音合成技术；

通过语音合成模型合成语音信号与标记的基础信号，获取目标信号。

7.根据权利要求1所述的基于特征识别的智能语音降噪系统，其特征在于，所述中枢控制模块分别与语音采集设备和数据库通信和/或电气连接；所述语音采集设备用于获取需要进行降噪的语音信息；

所述数据库用于存储处理好的信号分离模型和语音合成模型；其中，信号分离模型和语音合成模型基于人工智能模型构建。

8.基于特征识别的智能语音降噪方法，基于权利要求1至7任意一项所述的基于特征识别的智能语音降噪系统运行，其特征在于，包括：

采集语音信息，通过信号预处理和特征提取识别语音信息中的语音信号和非语音信号；其中，信号预处理包括分帧和加窗；

根据语音分离技术对非语音信号进行分离，获取若干备选信号；基于语音特征计算语音信号与若干备选信号的相似度系数；

判断相似度系数是否大于相似度阈值；是，将对应的备选信号标记为基础信号；否，则不进行标记；基于语音合成技术合成基础信号和语音信号，获取目标信号。