CN115132220B

CN115132220B - 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质

Info

Publication number: CN115132220B
Application number: CN202211024274.5A
Authority: CN
Inventors: 王维; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2023-02-28
Anticipated expiration: 2042-08-25
Also published as: CN115132220A

Abstract

本申请涉及语音降噪技术领域，涉及到一种抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质，其中方法包括：使用双麦获取场景中的语音信号，得到第一语音信号和第二语音信号；检测所述第二语音信号中是否包含有电视噪声；当检测到所述第二语音信号中包含有电视噪声时，使用自适应滤波器对所述第一语音信号和第二语音信号进行处理，得到第一输出信号；使用延时滤波器对所述第一语音信号和第二语音信号进行处理，得到第二输出信号；对所述第二输出信号进行残留噪声抑制处理；将所述残留噪声抑制处理后的信号输入到神经网络模型中进行唤醒语音识别。解决现有技术分离电视背景噪音和唤醒语音方式复杂的问题，提高了强电视背景噪声下唤醒率。

Description

抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质

技术领域

本申请涉及语音降噪技术领域，特别是涉及到一种抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质。

背景技术

现有的唤醒实现中，针对电视背景噪声问题，有基于单通道的唤醒方法，通过在训练阶段增加电视噪声作为负样本，使模型能够学习到电视噪声的统计特征，提高模型在实际家居电视场景下的唤醒效果。这种方法相比不做增强训练的方式，有一定的提升效果，但是当电视噪声较大，比如信噪比在0db甚至更低的情况下，这种增强训练的方法依然会失效。另外有基于AI降噪的方法，如在唤醒前端加入Mask或Mapping的语音增强网络，这种方法能够明显抑制电视背景噪声，但是整体模型复杂度会增高很多倍，在一些低资源设备上无法集成。

其它的一些多麦唤醒方案，利用波束成形的方法对电视噪声进行抑制，但是传统波束形成方法会依赖DOA信息进行空间滤波，或者VAD进行噪声估计，而电视背景噪声下进行DOA和VAD都是极具挑战的任务，因此这种唤醒方式难以实现。

发明内容

本申请的主要目的为提供一种抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质，旨在解决现有技术中去除电视背景噪音并获取唤醒语音方式复杂的技术问题。

为了实现上述发明目的，本申请提出一种抑制电视噪声的双麦唤醒的方法，所述方法包括：

使用双麦获取场景中的语音信号，得到第一语音信号和第二语音信号；

检测所述第二语音信号中是否包含有电视噪声；

当检测到所述第二语音信号中包含有电视噪声时，使用自适应滤波器对所述第一语音信号和第二语音信号进行滤波处理，得到表征第一语音信号和第二语音信号之间映射关系的自适应滤波器系数和自适应滤波器输出的第一输出信号；

根据所述自适应滤波器的系数确定延时滤波器的系数，使用所述延时滤波器对所述第一语音信号和第二语音信号进行延时滤波处理，得到消除电视噪声的第二输出信号；

根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，得到残留噪声抑制处理后的信号；

将所述残留噪声抑制处理后的信号输入到神经网络模型中进行唤醒语音识别。

进一步地，所述检测所述第二语音信号中是否包含有电视噪声，包括：

利用电视场景检测模型计算出第二语音信号中每帧语音信号包含电视噪声的概率值；

当所述概率值大于预设阈值时，判定所述第二语音信号中包含有电视噪声。

进一步地，所述根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，得到残留噪声抑制处理后的信号，包括：

将所述第二语音信号、所述第一输出信号和所述第二输出信号分别进行短时傅里叶变换；

根据所述概率值和所述第二输出信号的短时傅里叶变换结果，估计电视背景噪声功率谱；

根据所述第二语音信号的短时傅里叶变换结果、所述第一输出信号的短时傅里叶变换结果和所述第二输出信号的短时傅里叶变换结果，计算后验信噪比、第一先验信噪比、抑制比、第二先验信噪比；

根据所述第二先验信噪比和所述后验信噪比计算增益函数；

根据所述增益函数对第二输出信号进行频谱增益处理，得到残留噪声抑制处理后的信号。

本申请还提供了一种抑制电视噪声的双麦唤醒的装置，所述装置包括：

语音获取模块，用于使用双麦获取场景中的语音信号，得到第一语音信号和第二语音信号；

噪声检测模块，用于检测所述第二语音信号中是否包含有电视噪声；

自适应滤波模块，用于当检测到所述第二语音信号中包含有电视噪声时，使用自适应滤波器对所述第一语音信号和第二语音信号进行滤波处理，得到表征第一语音信号和第二语音信号之间映射关系的自适应滤波器系数和自适应滤波器输出的第一输出信号；

延时滤波模块，用于根据所述自适应滤波器的系数确定延时滤波器的系数，使用所述延时滤波器对所述第一语音信号和第二语音信号进行延时滤波处理，得到消除电视噪声的第二输出信号；

噪声抑制模块，用于根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，得到残留噪声抑制处理后的信号；

唤醒识别模块，用于将所述残留噪声抑制处理后的信号输入到神经网络模型中进行唤醒语音识别。

进一步地，所述噪声检测模块，包括：

噪声检测子模块，用于利用电视场景检测模型计算出第二语音信号中每帧语音信号包含电视噪声的概率值；当所述概率值大于预设阈值时，判定所述第二语音信号中包含有电视噪声。

进一步地，所述噪声抑制模块，包括：

残留噪声抑制子模块，用于将所述第二语音信号、所述第一输出信号和所述第二输出信号分别进行短时傅里叶变换；根据所述概率值和所述第二输出信号的短时傅里叶变换结果，估计电视背景噪声功率谱；根据所述第二语音信号的短时傅里叶变换结果、所述第一输出信号的短时傅里叶变换结果和所述第二输出信号的短时傅里叶变换结果，计算后验信噪比、第一先验信噪比、抑制比、第二先验信噪比；根据所述第二先验信噪比和所述后验信噪比计算增益函数；根据所述增益函数对第二输出信号进行频谱增益处理，得到残留噪声抑制处理后的信号。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的一种抑制电视噪声的双麦唤醒的方法，通过自适应滤波和延时滤波分离方法，能从强电视背景噪声中分离出唤醒语音，完全利用信号处理的方法处理获取的语音，避免了使用深度神经网络进行语音分离，可以方便部署到嵌入式设备上。并且通过电视噪声谱估计方法和利用滤波器输出信号进行先验和后验信噪比计算方法，对残留噪声进行抑制。相比传统谱跟踪方法，利用到了更多的信息，噪声谱跟踪更准确，收敛速度快，能更好的处理电视背景噪声强度大、非平稳性高的场景。解决现有技术中分离电视背景噪音和唤醒语音方式复杂的问题，提高了强电视背景噪声下唤醒率。

附图说明

图1为本申请一实施例的抑制电视噪声的双麦唤醒的方法的流程示意图；

图2为本申请一实施例的抑制电视噪声的双麦唤醒的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种抑制电视噪声的双麦唤醒的方法，包括步骤S1-S6，具体地：

S1、使用双麦获取场景中的语音信号，得到第一语音信号和第二语音信号。

具体地，对于步骤S1，双麦ANC（Adaptive Noise Cancellation），是基于双麦克风结构，该双麦克风采集语音时，通过双通道分别采集场景中的语音信号，得到第一语音信号和第二语音信号。

S2、检测所述第二语音信号中是否包含有电视噪声。

具体地，对于步骤S2，当检测到语音时，使用预训练的电视场景检测模型检测第二语音信号获取的语音信号中是否包含有电视噪声，并计算每帧信号包含电视声音的概率值p。

S3、当检测到所述第二语音信号中包含有电视噪声时，使用自适应滤波器对所述第一语音信号和第二语音信号进行滤波处理，得到表征第一语音信号和第二语音信号之间映射关系的自适应滤波器系数和自适应滤波器输出的第一输出信号。

具体地，对于步骤S3，RLS自适应滤波器(Recursive least squares filter)，输入信号通过系数可调的数字滤波器后产生的输出信号，将输出信号与期望信号进行比较，形成误差信号，通过自适应算法对滤波器系数进行调整，最终使得误差信号的均方值最小。自适应滤波可以利用前一时刻已得的滤波器系数的结果，自动调节当前时刻的滤波器系数，以适应信号和噪声未知的或随时间变化的统计特性，从而实现最优滤波。自适应滤波器不需要关于输入信号的先验知识，计算量小，特别适用于实时处理。在本方法中，将第二语音信号获取的语音信号作为输入信号，第一语音信号获取的语音信号作为期望信号，自适应滤波器收敛后的滤波器系数设为h。自适应滤波器系数h能表征电视背景噪声在双麦之间的相对传递函数RTF（Relative Transfer Function），即输入信号和期望信号之间的映射关系，得到误差信号。第一输出信号为自适应滤波器的输出信号，在滤波器收敛后，第一输出信号接近0。

S4、根据所述自适应滤波器的系数确定延时滤波器的系数，使用所述延时滤波器对所述第一语音信号和第二语音信号进行延时滤波处理，得到消除电视噪声的第二输出信号。

具体地，对于步骤S4，将第一语音信号和第二语音信号输入对应系数的延时滤波器进行滤波，消掉电视背景噪声而保留住唤醒语音，得到的滤波器误差信号第二输出信号即为消除电视噪声的分离输出信号。

其中，延时滤波器的系数是结合自适应滤波器系数、滤波器长度和延时帧数N，得到的将自适应滤波器系数延迟N帧的系数。

滤波器长度（filterlen）的选取跟双麦间距相关，双麦间距越近，滤波器长度可以选取较小。例如当双麦间距为4cm时，根据实验结果，滤波器长度选取为32。

本发明有效的原理依赖一种使用假设，即电视背景噪声是持续存在的。用户操作智能设备操作时，最常见的使用场景是先说出唤醒词再说出查询命令，即一次语音交互是从一句唤醒词开始，而不是紧跟在用户连续讲话之后。当在有唤醒语音的时刻T时，N为延时帧数，使用的是T-N时刻的自适应滤波器系数作为延时帧数，T-N时刻的滤波器系数还没有受到唤醒语音的影响，因此在当前T时刻时，延时滤波模块能从第一语音信号中消掉电视背景噪声而保留住唤醒语音，本发明依赖的这种假设需要选择合适的延时帧数N，如果N过大，缓存的滤波器系数无法准确描述当前时刻的双麦间冲激响应，因而降噪效果会降低；如果N过小，滤波器系数自适应更新时会受到唤醒语音影响，从而导致当前T时刻唤醒语音被消掉一部分，继而会影响后续的唤醒模型检测效果。延时帧数N需要对唤醒语音样本中的唤醒词长度进行统计，再选择一个合适的数值，如本发明使用的唤醒语音样本中的唤醒词长度分布在0.8s~1.2s之间，延时帧数N最终根据实验选择的是ceil(1.2*16000/filterlen)，ceil表示向上取整。

由于自适应滤波是利用前一时刻已得的滤波器系数的结果，自动调节当前时刻的自适应滤波器系数，因此自适应滤波器系数在自适应滤波过程中会相应的进行调整，对应生成多个自适应滤波器系数h。保存的自适应滤波器生成的每个系数h，延时帧数N，延迟器可以使用一个缓存队列实现，如缓存队列矩阵A的大小为(N+1)*filterlen，A初始化为全0，每次获得最新的自适应滤波器系数h时，取出A的第一行，记为h_delayed，A的每一行移动到上一行，将最新的自适应滤波器系数h放到A的最后一行，这样就完成了将滤波器系数延迟N帧的功能，确定了延时滤波器的系数。

S5、根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，得到残留噪声抑制处理后的信号。

具体地，对于步骤S5，经过延时滤波器的处理之后，语音信号中的大部分电视背景噪声已经得到抑制，但由于滤波器更新速度和噪声的非平稳性，分离输出信号第二输出信号中可能还存在一定残留噪声，因此对该残留噪声进行进一步抑制处理，通过电视噪声场景检测模型输出的概率p，估计电视背景噪声功率谱，并计算后验信噪比、第一先验信噪比、抑制比、第二先验信噪比和增益函数，增益后去除残留噪声，可以达到更好的唤醒语音与噪声的分离效果。

S6、将所述残留噪声抑制处理后的信号输入到神经网络模型中进行唤醒语音识别。

具体地，对于步骤S6，将进行残留噪声抑制处理后的第二输出信号输入到神经网络模型中进行唤醒语音识别。通过本方法处理后唤醒语音的信噪比得到了明显提升，提高了的正唤醒率。完全利用信号处理的方法处理获取的语音，避免了使用深度神经网络进行语音分离，可以方便部署到嵌入式设备上。

在一个实施例中，上述检测所述第二语音信号中是否包含有电视噪声的步骤S2，包括：

S201、利用电视场景检测模型计算出第二语音信号中每帧语音信号包含电视噪声的概率值。

S202、当所述概率值大于预设阈值时，判定所述第二语音信号中包含有电视噪声。

具体地，对于步骤S201和S202，电视场景检测模型是利用电视场景噪声数据集，使用CNN/RNN网络训练的模型，该模型能够计算出每帧语音信号包含电视噪声的概率值p(k,l)，其中k为频率索引，l为帧序号。所述概率值用于与预设阈值进行比较，判断获取的语音信号中是否包含有电视噪声。所述概率值也可以用于估计电视背景噪声功率谱。

在一个实施例中，上述根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，得到残留噪声抑制处理后的信号的步骤S5，包括：

S501、将所述第二语音信号、所述第一输出信号和所述第二输出信号分别进行短时傅里叶变换；

S502、根据所述概率值和所述第二输出信号的短时傅里叶变换结果，估计电视背景噪声功率谱；

S503、根据所述第二语音信号的短时傅里叶变换结果、所述第一输出信号的短时傅里叶变换结果和所述第二输出信号的短时傅里叶变换结果，计算后验信噪比、第一先验信噪比、抑制比、第二先验信噪比；

S504、根据所述第二先验信噪比和所述后验信噪比计算增益函数；

S505、根据所述增益函数对第二输出信号进行频谱增益处理，得到残留噪声抑制处理后的信号。

具体地，对于步骤S501、S502和S503，残留噪声抑制的计算都是在频域中进行的计算，k为频率索引，l为帧序号，

分别为第一输出信号、第二输出信号和第二语音信号的短时傅里叶变换，由于计算后验信噪比、第一先验信噪比、抑制比、第二先验信噪比只与当前帧数据相关，因此省略帧序号l。

利用电视噪声场景检测模型输出的概率p(k,l)，估计电视背景噪声功率谱：

其中，

的共轭，即第二语音信号的短时傅里叶变换的共轭。

计算后验信噪比：

利用分离后的信号第二输出信号作为唤醒语音的估计值，计算第一先验信噪比：

利用第二输出信号计算抑制比：

限制在(0,1)之间，利用

作为的平滑因子计算第二先验信噪比：

具体地，对于步骤S504和S505，MMSE增益函数为：

其中F()表示伽马函数，

分别为0阶和1阶贝塞尔函数，

为第二先验信噪比，

为后验信噪比。得到增益函数后，对第二输出信号进行频谱增益处理，得到了残留噪声抑制处理后的信号

：

通过这一步骤提高了输入神经网络中残留噪声抑制处理后信号

的语音质量，有助于提高识别唤醒率。

参照图2，是本申请一实施例中抑制电视噪声的双麦唤醒的装置结构框图，装置包括：

语音获取模块100，用于使用双麦获取场景中的语音信号，得到第一语音信号和第二语音信号；

噪声检测模块200，用于检测所述第二语音信号中是否包含有电视噪声；

自适应滤波模块300，用于当检测到所述第二语音信号中包含有电视噪声时，使用自适应滤波器对所述第一语音信号和第二语音信号进行滤波处理，得到表征第一语音信号和第二语音信号之间映射关系的自适应滤波器系数和自适应滤波器输出的第一输出信号；

延时滤波模块400，用于根据所述自适应滤波器的系数确定延时滤波器的系数，使用所述延时滤波器对所述第一语音信号和第二语音信号进行延时滤波处理，得到消除电视噪声的第二输出信号；

噪声抑制模块500，用于根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，得到残留噪声抑制处理后的信号；

唤醒识别模块600，用于将所述残留噪声抑制处理后的信号输入到神经网络模型中进行唤醒语音识别。

在一个实施例中，上述抑制电视噪声的双麦唤醒的装置，还包括：

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储抑制电视噪声的双麦唤醒的方法运行数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的一种抑制电视噪声的双麦唤醒的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种抑制电视噪声的双麦唤醒的方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种抑制电视噪声的双麦唤醒的方法，其特征在于，所述方法包括：

检测所述第二语音信号中是否包含有电视噪声；

2.根据权利要求1所述的抑制电视噪声的双麦唤醒的方法，其特征在于，所述检测所述第二语音信号中是否包含有电视噪声，包括：

3.根据权利要求2所述的抑制电视噪声的双麦唤醒的方法，其特征在于，所述根据所述第二语音信号、所述第一输出信号和所述第二输出信号，对所述第二输出信号进行残留噪声抑制处理，包括：

根据所述电视背景噪声功率谱和所述第二语音信号的短时傅里叶变换结果计算后验信噪比；

根据所述电视背景噪声功率谱和所述第二输出信号的短时傅里叶变换结果，计算第一先验信噪比；

根据所述第二语音信号的短时傅里叶变换结果和所述第二输出信号的短时傅里叶变换结果，计算抑制比；

根据所述抑制比、所述第一先验信噪比和所述后验信噪比，计算第二先验信噪比；

根据所述第二先验信噪比和所述后验信噪比计算增益函数；

4.一种抑制电视噪声的双麦唤醒的装置，其特征在于，所述装置包括：

5.根据权利要求4所述的抑制电视噪声的双麦唤醒的装置，其特征在于，所述噪声检测模块，包括：

6.根据权利要求5所述的抑制电视噪声的双麦唤醒的装置，其特征在于，所述噪声抑制模块，包括：

残留噪声抑制子模块，用于将所述第二语音信号、所述第一输出信号和所述第二输出信号分别进行短时傅里叶变换；根据所述概率值和所述第二输出信号的短时傅里叶变换结果，估计电视背景噪声功率谱；根据所述电视背景噪声功率谱和所述第二语音信号的短时傅里叶变换结果计算后验信噪比；根据所述电视背景噪声功率谱和所述第二输出信号的短时傅里叶变换结果，计算第一先验信噪比；根据所述第二语音信号的短时傅里叶变换结果和所述第二输出信号的短时傅里叶变换结果，计算抑制比；根据所述抑制比、所述第一先验信噪比和所述后验信噪比，计算第二先验信噪比；根据所述第二先验信噪比和所述后验信噪比计算增益函数；根据所述增益函数对第二输出信号进行频谱增益处理，得到残留噪声抑制处理后的信号。

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。