CN117809674A

CN117809674A - 一种显示设备及啸叫抑制方法

Info

Publication number: CN117809674A
Application number: CN202311057843.0A
Authority: CN
Inventors: 林子毅; 陶廉洁; 周鉴星; 杨毅
Original assignee: Hisense Electronic Technology Shenzhen Co ltd
Current assignee: Hisense Electronic Technology Shenzhen Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2024-04-02

Abstract

本申请一些实施例示出一种显示设备及啸叫抑制方法，所述方法包括：获取所述第一语音信号和所述第二语音信号；将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，所述神经网络模型包括第一分离核、第二分离核和门控循环单元，所述门控循环单元用于检测啸叫语音信号，所述第一分离核和所述第二分离核用于将所述啸叫语音信号从所述第一语音信号中分离。本申请实施例通过神经网络不断学习啸叫语音信号的特性，更准确识别出啸叫语音信号，并且使用两个分离核对目标语音信号和啸叫语音信号进行分离，能够更好抑制啸叫语音信号，更好地保留目标语音信号，减少对音质损失。

Description

一种显示设备及啸叫抑制方法

技术领域

本申请涉及显示设备技术领域，尤其涉及一种显示设备及啸叫抑制方法。

背景技术

传统的啸叫抑制算法大致分为三种，分别为移频法、陷波器法和自适应滤波器法。移频法升高或降低输入音频信号的频率，改变频率的输出信号再次进入系统不会和原始信号频率叠加，达到抑制啸叫的作用，这种方法用在对音质要求不高的场景，因为对输入信号进行移频或者移相的操作，对信号的音质损失很大，会导致声信号的音质变差。

陷波法通过降低啸叫频率点处增益，破坏啸叫产生的增益条件。即对信号中出现的较明显的几个或十几产生啸叫的频率点进行能量衰减的处理，从而达到抑制啸叫的目的，但是此类方法强依赖于啸叫检测的精确度，当人声能量较大时，容易被误判为啸叫，直接对频点进行幅值衰减处理易造成声音的失真。

自适应滤波器法通过使用LMS(Least Mean Square，最小均方算法)、NLMS(Normalized Least Mean Square，归一化最小均方算法)等自适应滤波器，把麦克风二次采集的反馈信号从麦克风信号中过滤掉。这种算法会减小扩音系统的空间感，同时对语音损伤较大，适用于对音质要求不高的场景。

因此，传统的啸叫抑制算法对音质的损失较大，导致听感不愉悦，甚至有可能对歌唱者的歌声产生抑制作用。

发明内容

本申请一些实施例提供了一种显示设备及啸叫抑制方法，通过神经网络不断学习啸叫语音信号的特性，更准确识别出啸叫语音信号，并且使用两个分离核对目标语音信号和啸叫语音信号进行分离，能够更好抑制啸叫语音信号，更好地保留目标语音信号，减少对音质损失。

第一方面，本申请一些实施例中提供一种显示设备，包括：

显示器；

声音采集器，被配置为采集用户输入语音时的第一语音信号；

音频输出接口，被配置为播放用户输入的第二语音信号；

控制器，被配置为：

获取所述第一语音信号和所述第二语音信号；

将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，所述神经网络模型包括第一分离核、第二分离核和门控循环单元，所述门控循环单元用于检测啸叫语音信号，所述第一分离核和所述第二分离核用于将所述啸叫语音信号从所述第一语音信号中分离。

在一些实施例中，所述第一分离核和所述第二分离核用于在时域将所述啸叫语音信号与所述第一语音信号分离。

在一些实施例中，所述控制器执行将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，被进一步配置为：

将所述第一语音信号和所述第二语音信号分别进行分帧加窗处理，得到第一加窗语音信号和第二加窗语音信号；

将所述第一加窗语音信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第一啸叫语音特征，所述第一啸叫语音特征包括啸叫信息的特征；

将所述第一啸叫语音特征输入第一分离核，得到第一分离时域信号；

将所述第一分离时域信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第二啸叫语音特征；

将所述第二啸叫语音特征输入第二分离核，得到第二分离时域信号；

将所述第二分离时域信号通过重叠相加法得到第三语音信号。

在一些实施例中，所述控制器执行将所述第一加窗语音信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第一啸叫语音特征，被进一步配置为：

将所述第一加窗语音信号和所述第二加窗语音信号分别经过一维卷积层，得到第一语音特征和第二语音特征；

分别对所述第一语音特征和所述第二语音特征进行归一化处理，得到第一归一化语音特征和第二归一化语音特征；

将所述第一归一化语音特征和所述第二归一化语音特征级联后输入所述门控循环单元中，得到第一啸叫语音特征。

在一些实施例中，所述控制器执行将所述第一啸叫语音特征输入第一分离核，得到第一分离时域信号，被进一步配置为：

将所述第一啸叫语音特征输入第一分离核中，得到第一预测掩码；

将所述第一预测掩码与所述第一语音特征相乘，得到第一分离特征；

将所述第一分离特征经过一维卷积层，得到第一分离时域信号。

在一些实施例中，所述控制器执行将所述第一分离时域信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第二啸叫语音特征，被进一步配置为：

将所述第一分离时域信号经过一维卷积层提取第三语音特征，以及将所述第二加窗语音信号经过一维卷积层提取第四语音特征；

分别对第三语音特征和第四语音特征进行归一化处理，得到第三归一化语音特征和第四归一化语音特征；

将第三归一化语音特征和第四归一化语音特征级联后输入所述门控循环单元中，得到第二啸叫语音特征。

在一些实施例中，所述控制器执行将所述第二啸叫语音特征输入第二分离核，得到第二分离时域信号，被进一步配置为：

将第二啸叫语音特征输入第二分离核中，得到第二预测掩码；

将所述第二预测掩码与所述第一分离时域信号相乘，得到第二分离特征；

将所述第二分离特征经过一维卷积层，得到第二分离时域信号。

在一些实施例中，在获取所述第一语音信号和所述第二语音信号的步骤之前，所述控制器，被配置为：

控制所述显示器显示首页界面，所述首页界面包括唱歌应用控件；

响应于用户输入的选择唱歌应用控件的指令，控制所述显示器显示唱歌应用页面，所述唱歌应用页面包括至少一个歌曲控件；

响应于用户输入的选择所述歌曲控件的指令，播放所述歌曲控件对应的伴奏，以及启动唱歌功能。

在一些实施例中，所述第一分离核和所述第二分离核分别包括两个长短期记忆网络层、一个全连接层和一个激活层。

第二方面，本申请一些实施例中提供一种啸叫抑制方法，包括：

获取所述第一语音信号和所述第二语音信号，所述第一语音信号为声音采集器采集用户输入语音时的语音信号，所述第二语音信号为音频输出接口播放的语音信号；

将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，所述神经网络模型包括第一分离核、第二分离核和门控循环单元，所述门控循环单元用于检测出啸叫语音信号，所述第一分离核和所述第二分离核用于将所述啸叫语音信号从所述第一语音信号中分离。

本申请的一些实施例提供一种显示设备及啸叫抑制方法。获取声音采集器采集用户输入语音时的第一语音信号和音频输出接口播放的第二语音信号；将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，所述神经网络模型包括第一分离核、第二分离核和门控循环单元，所述门控循环单元用于检测出啸叫语音信号，所述第一分离核和所述第二分离核用于将所述啸叫语音信号从所述第一语音信号中分离。本申请实施例通过神经网络不断学习啸叫语音信号的特性，更准确识别出啸叫语音信号，并且使用两个分离核对目标语音信号和啸叫语音信号进行分离，能够更好抑制啸叫语音信号，更好地保留目标语音信号，减少对音质损失。

附图说明

图1示出了根据一些实施例的显示设备与控制装置之间操作场景；

图2示出了根据一些实施例的控制设备的硬件配置框图；

图3示出了根据一些实施例的显示设备的硬件配置框图；

图4示出了根据一些实施例的显示设备中软件配置图；

图5示出了根据一些实施例提供的一种语音分离方法的流程图；

图6示出了根据一些实施例提供的一种啸叫抑制方法的流程图；

图7示出了根据一些实施例提供的一种唱歌功能声音处理方法的流程图；

图8示出了根据一些实施例提供的一种神经网络模型应用的流程图；

图9示出了根据一些实施例提供的一种分离核的结构图；

图10示出了根据一些实施例提供的另一种啸叫抑制方法的流程图；

图11示出了根据一些实施例提供的又一种啸叫抑制方法的流程图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1和图2为本申请的显示设备的一种具体实施方式。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

显示器260还包括触控屏，触控屏用于接收用户手指在触控屏上滑动或点击等动作输入控制指令。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM(Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

如图4所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。

应用层主要包含电视上的常用应用，以及应用框架(Application Framework)，其中，常用应用主要是基于浏览器Browser开发的应用，例如：HTML5 APPs；以及原生应用(Native APPs)；

应用框架(Application Framework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。

原生应用(Native APPs)可以支持在线或离线，消息推送或本地资源访问。

中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。

硬件层主要包括HAL接口、硬件以及驱动，其中，HAL接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

自适应滤波器法通过使用LMS、NLMS等自适应滤波器，把麦克风二次采集的反馈信号从麦克风信号中过滤掉；这种算法会减小扩音系统的空间感，同时对语音损伤较大，适用于对音质要求不高的场景。

由于深度学习在语音信号处理领域显现着传统信号处理不可比拟的优越性，随着深度学习在语音信号处理领域的应用，语音增强、语音识别、语音合成这些基本的语音处理任务都可以通过深度学习实现，并且性能要远远优于传统信号处理的性能。除此之外，语音分离任务也可以通过深度学习来实现，使用的模型包括DNN(Deep Neural Network，深度神经网络)、CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent NeuralNetwork，循环神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)、GAN(Generative Adversarial Network，生成对抗网络)、DFSMN(Deep Feed-ForwardSequential Memory Networks，深度分离卷积递归短时记忆网络)等。

啸叫抑制可以被看作是语音分离任务的一种，处理的目标是将原始语音和产生的啸叫分离开，提取出原始的语音。

在一些实施例中，可采用双信号变换LSTM网络结构将原始语音和产生的啸叫分离开，提取出原始的语音。

双信号变换LSTM网络结构主要包含两个主要部分，即两个分离核心(SeparationCore)，每个分离核心都会完成一次对待处理信号的分离。

其中，第一个分离核是在频域中完成分离的任务。第一个分离核包含两个长短期记忆网络层，后长短期记忆网络层的输出送给全连接层(Fully Connected Layer)，最后是用于产生掩码(Mask)的激活层。第二个分离核，是在时域中完成分离的任务。第一个分离核输出的信号为时域信号，经过一维卷积层的处理，提取出相关的特征后，在特征域经过归一化处理后，送入第二个分离核中。第二个分离核的结构与第一个分离核相同，同样也是两个长短期记忆网络层，一个全连接层及一个用于产生掩码的激活层。

其中，两个分离核心的基本结构，其结构相同，但参数不同。

在一些实施例中，如图5所示，麦克风信号用y(n)表示，扬声器信号用x(n)表示。将麦克风信号和扬声器信号分别作为输入信号。麦克风信号和扬声器信号分别进行分帧和加窗处理，然后通过快速傅里叶变换(Fast Fourier Transform，FFT)变换到频域，然后经过一维卷积层和归一化处理后，将取幅值送入第一个分离核中，经过两层长短期记忆网络层、一层全连接层及一层激活层后，得到输出的掩码，此掩码与输入信号的快速傅里叶变换的结果相乘，得到处理后的幅度谱，并利用输入信号的相位，使用逆傅里叶变换(InverseFast Fourier Transform，IFFT)将其变换回时域，但不重建波形，得到时域信号。

时域信号和分帧加窗后扬声器信号分别经过一维卷积层的处理，提取出相关的特征并在特征域经过归一化处理后，送入第二个分离核中，得到激活层预测的掩码。将激活层预测的掩码与第一个分离核输出的非归一化特征相乘，再通过一维卷积层转换为时间域，最后对连续时间信号使用重叠相加法(Overlap-and-Add)进行重构，得到输出的抑制啸叫信号后时域的信号s(n)。

为了解决以上技术问题，本申请实施例提供一种显示设备200，显示设备200的结构及各部分的功能可以参阅上述实施例。此外，在上述实施例示出的显示设备200的基础上，本实施例对显示设备200的一些功能做进一步的完善。如图6所示，控制器250执行以下步骤：

步骤S601：获取所述第一语音信号和所述第二语音信号；

其中，所述第一语音信号为声音采集器采集用户输入语音时的语音信号，所述第二语音信号为音频输出接口播放的语音信号。

在一些实施例中，声音采集器可以是显示设备配置的收音设备，也可以是外接有线麦克风设备或无线麦克风设备。麦克风设备包括手持麦克风、领夹麦克风、鹅颈麦克风和界面麦克风和立式麦克风等。

在一些实施例中，音频输出接口包括显示设备配置的扬声器、外接音箱、外接蓝牙音箱等。

在一些实施例中，获取所述第一语音信号和所述第二语音信号的步骤，包括：获取同一时段的第一语音信号和第二语音信号。

示例性的，获取以8:00:00为起始点、时长为20ms由声音采集器采集的语音信号为第一语音信号，以及获取以8:00:00为起始点、时长为20ms由音频输出接口输出的语音信号为第二语音信号。

在一些实施例中，在获取所述第一语音信号和所述第二语音信号的步骤之前，还包括：

控制所述显示器显示首页界面，所述首页界面包括唱歌(K歌)应用控件；

响应于用户输入的选择所述歌曲控件的指令，播放所述歌曲控件对应的伴奏，以及启动唱歌(KTV)功能。

其中，如图7所示，唱歌功能是指将显示设备的麦克风拾取的用户歌唱的声音经过前端处理后通过显示设备的扬声器阵列，从扬声器或外接音箱播放出KTV的音效。其中，前端处理包括啸叫抑制、均衡器、噪声消除以及动态范围控制。

啸叫现象是指音频信号通过扬声器播放后，经过一定的传播路径，再次被麦克风拾取，经过放大器的处理后，最后经由扬声器播放，倘若在“扬声器-麦克风-扬声器”的闭环电路中，存在某种正反馈导致某些音频频率发生自激振荡，就会产生啸叫现象。因此，需要对啸叫进行抑制。

均衡器是一种可以分别调节各种频率成分电信号放大量的电子部件，通过对各种不同频率的电信号的调节来补偿扬声器和声场的缺陷，补偿和修饰各种声源及其它特殊作用。

噪声消除可以通过降噪算法，识别并消除环境噪音。

动态范围控制是指将输入音频信号的动态范围映射到指定的动态范围，可以使声音听起来更柔和或更大声，即一种信号幅度调节方式。通常映射后的动态范围小于映射前的动态范围，因此称之为动态范围压缩。

响应于用户输入打开唱歌应用的语音控制指令，控制所述显示器显示唱歌应用页面，所述唱歌应用页面包括至少一个歌曲控件；

在一些实施例中，通过接收用户持续按压控制装置的语音键并将用户输入“打开唱歌应用”语音数据发送至显示设备的方式接收用户输入打开唱歌应用的语音控制指令。

在一些实施例中，通过远场唤醒词唤醒语音助手，并在唤醒语音助手后接收用户输入“打开唱歌应用”语音数据的方式接收用户输入打开唱歌应用的语音控制指令。

步骤S602：将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，所述神经网络模型包括第一分离核、第二分离核和门控循环单元，所述门控循环单元用于检测啸叫语音信号，所述第一分离核和所述第二分离核用于将所述啸叫语音信号从所述第一语音信号中分离。

其中，神经网络模型训练方法，包括：

对原始样本数据进行筛选，得到筛选样本数据；

通过所述筛选样本数据对神经网络模型进行训练，所述筛选样本数据包括麦克风信号、远端扬声器信号和近端语音信号。

在一些实施例中，对原始样本数据进行筛选，得到筛选样本数据的步骤，包括：

对所述原始样本数据进行数据清洗，以消除原始样本数据中的噪声；

将所述原始样本数据中麦克风信号使用噪声抑制块进行处理，通过从估计的语音中减去噪声输入信号来提取语音信号和噪声信号；

基于语音信号的功率和噪声信号的功率计算信噪比；

判断所述信噪比是否小于预设值，例如，预设值为5db；

如果所述信噪比小于预设值，则不将所述麦克风信号相应的数据作为筛选样本数据；

如果所述信噪比不小于预设值，则将所述麦克风信号相应的数据作为筛选样本数据。

在一些实施例中，如图8所示，将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号的步骤包括：

步骤S801：将所述第一语音信号和所述第二语音信号分别进行分帧加窗处理，得到第一加窗语音信号和第二加窗语音信号；

将第一语音信号和第二语音信号分别进行分帧处理，得到第一分帧语音信号和第二分帧语音信号。其中，一帧有N个采样点，例如N的值为256或512，涵盖的时间约为20～30毫秒。为了避免相邻两帧的变化过大，平缓过度，因此会让两个相邻帧之间有一段重叠区域，此重叠区域包含了A个取样点，通常A的值约为N的1/2或1/3。

将第一分帧语音信号和第二分帧语音信号分别进行加窗处理，得到第一加窗语音信号和第二加窗语音信号。为了缓解频谱泄漏。将每一帧乘以一个窗函数。窗函数包括汉明窗，海宁窗。

步骤S802：将所述第一加窗语音信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第一啸叫语音特征；

其中，将所述第一加窗语音信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第一啸叫语音特征的步骤，包括：

一维卷积层用于提取第一加窗语音信号和所述第二加窗语音信号的语音特征。一维卷积层采用的是1D-Conv里面的卷积层，能够把输入的信号转换成抽象的特征，能够自动学习输入信号的特征，自动提取输入信号的特征。在卷积的时候，通过把数据从高维映射到低维，从而得到了抽象的特征。一维卷积层的参数(权重和偏置)通过在训练中学习得到。

归一化的方式是使用当前以及之前的k帧语音帧，来决定提取出来之后的特征在归一化之后的值。在以下归一化公式中，k为当前帧的索引，t为任意帧的索引，f_k为当前帧的特征，维度为Nx1；f_t≤k为第k帧以及之前的特征，维度为Nxk，[f₁，f₂，...，f_k]；γ和β是训练中学习的参数；E是数学期望；Var是方差，N是特征的维度；∈是一个很小的常数，防止产生计算的不稳定性；⊙是循环卷积。

门控循环单元是一种常用于自然语言处理和序列数据处理中的神经网络模型，在循环神经网络中被广泛应用。门控循环单元可以捕捉时间序列里时间距离较大的依赖关系，通过可以学习的门来控制信息流动。

因啸叫的信息是由麦克风信号和扬声器信号共同估计的，需要级联后，利用二者的信息，共同估计啸叫的信息。啸叫在被抑制前，会一直存在于环境中，而门控循环单元网络可以学习序列数据中的长期依赖关系，并从中学习啸叫的表征。

门控循环单元网络的输入及输出维度被设置为是一样的。例如输入是一个100维的向量，输出也是100维的向量。但啸叫的信息保留在输出结果中。门控循环单元网络通过学习经过1D-Conv层提取出来的特征中的长期依赖关系，把啸叫的信息储存在输出向量中，其是一种抽象的信息，输出向量为带有啸叫信息的特征，其本质上还是一种特征，只是某些特征点的幅值发生了改变。

步骤S803：将所述第一啸叫语音特征输入第一分离核，得到第一分离时域信号；

分离核是长短期记忆网络的核心，长短期记忆网络是一种时间循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的，所有的循环神经网络都具有一种重复神经网络模块的链式形式。

其中，将所述第一啸叫语音特征输入第一分离核，得到第一分离时域信号的步骤，包括：

第一分离核参数需要靠神经网络在训练中进行学习。激活函数也是相同的，都是Sigmoid函数。参数包括长短记忆层和全连接层的权重和偏执，都是在训练中，由神经网络进行学习获得。

如图9所示，所述第一分离核包括两个长短期记忆网络层、一个全连接层和一个激活层。

一维卷积层能够把输入的信号转换成抽象的特征，能够自动学习输入信号的特征，自动提取输入信号的特征。第一分离特征经过一维卷积层的目的在于重构音频信号波形。在重构音频信号波形的时候，用得是1D-Conv里面的转置卷积层(TransposeConvolution，也叫反卷积层)。反卷积的时候会对数据中进行补零操作，因而能够把数据从低维映射到高维，从而能够重构信号的波形。一维卷积层的参数(权重和偏置)通过在训练中学习得到。

将第一啸叫语音特征输入第一分离核进行第一次分离，使得啸叫信号与目标信号分离开，得到第一分离特征。第一分离特征通过一维卷积层处理，从特征域变换为时域，得到第一分离时域信号。

步骤S804：将所述第一分离时域信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第二啸叫语音特征；

其中，将所述第一分离时域信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第二啸叫语音特征的步骤，包括：

一维卷积层用于提取第一分离时域信号和第二加窗语音信号的语音特征。

一维卷积层能够把输入的信号转换成抽象的特征，能够自动学习输入信号的特征，自动提取输入信号的特征。一维卷积层采用的是1D-Conv里面的卷积层，在卷积的时候，通过把数据从高维映射到低维，从而得到了抽象的特征。一维卷积层的参数(权重和偏置)通过在训练中学习得到。

在一些实施例中，无需计算第四归一化语音特征，可直接将将第三归一化语音特征和第二归一化语音特征前后拼接后输入所述门控循环单元中，得到第二啸叫语音特征。

步骤S805：将所述第二啸叫语音特征输入第二分离核，得到第二分离时域信号；

其中，将所述第二啸叫语音特征输入第二分离核，得到第二分离时域信号的步骤，包括：

第二分离核与第一分离核的超参数相同。第二分离核参数需要靠神经网络在训练中进行学习。激活函数也是相同的，都是Sigmoid函数。参数包括长短记忆层和全连接层的权重和偏执，都是在训练中，由神经网络进行学习获得。

如图9所示，所述第二分离核包括两个长短期记忆网络层、一个全连接层和一个激活层。

第二分离特征经过一维卷积层的目的在于重构音频信号波形。在重构音频信号波形的时候，用得是1D-Conv里面的转置卷积层。反卷积的时候会对数据中进行补零操作，因而能够把数据从低维映射到高维，从而能够重构信号的波形。一维卷积层的参数(权重和偏置)通过在训练中学习得到。

将第二啸叫语音特征输入第二分离核进行第二次分离，使得啸叫信号与目标信号分离开，得到第二分离特征。第二分离特征通过一维卷积层处理，从特征域变换为时域，得到第二分离时域信号。

步骤S806：将所述第二分离时域信号通过重叠相加法得到第三语音信号。

重叠相加法的作用是将一帧一帧重叠的语音信号还原重构成连续的语音信号。例如：每帧信号在时间上都有50％的重叠，第一帧信号是0～2秒，第二帧信号为1～3秒。因语音信号不是一个稳态的信号，只具有短时稳定的特性，因需要进行分帧的处理；为了预防频谱泄露，需要进行加窗操作。为了提高每一帧语音信号在端点上的连续性，每一帧信号都需要有重叠；进行信号处理的时候，是对一帧一帧信号进行处理的，一帧信号入，一帧信号出，由于每帧信号都有重叠且进行加窗处理，需要使用重叠相加法，来把这一帧一帧的语音信号重构成连续的语音信号。

需要说明的是，本申请实施例中训练神经网络模型与上述应用神经网络模型采用相同算法。只不过在训练过程中需要不断调整第一分离核、第二分离核等相关参数，以使神经网络模型的准确率达到目标阈值。

本申请实施例采用两个分离核的目的在于避免一个分离核无法很好地清除啸叫，也避免使用两个以上的分离核使得原始语音信号被清除。

本申请实施例使用双信号变换的长短期记忆网络，在时域使用第一个分离核，无需把信号变换到频域，由此减少处理的计算量，且使用门控循环单元结构来更精准地检测啸叫，实现对啸叫更好地消除功能。

在一些实施例中，如图10所示，麦克风信号用y(n)表示，扬声器信号用x(n)表示。将麦克风信号和扬声器信号分别进行分帧和加窗处理，然后经过一维卷积层和归一化处理后进行级联，然后通过门控循环单元检测出啸叫信号，将门控循环单元处理后得到包含啸叫信息特征的语音特征送入第一个分离核中，得到输出的第一预测掩码，将第一预测掩码与麦克风信号经过一维卷积层的结果相乘，得到第一分离特征，将第一分离特征经一维卷积层得到第一分离时域信号。第一分离时域信号和分帧加窗后扬声器信号分别经过一维卷积层和归一化处理后进行级联，然后通过门控循环单元检测出啸叫信号，将门控循环单元处理后得到包含啸叫信息特征的语音特征送入第二个分离核中，得到第二预测掩码。将第二预测掩码与第一分离时域信号相乘，再通过一维卷积层转换为时域信号，最后对连续时间信号使用重叠相加法进行重构，得到输出的抑制啸叫信号后时域的信号s(n)。

在一些实施例中，所述第一分离核在时域将所述啸叫语音信号与所述第一语音信号分离，所述第二分离核用于在时域将所述啸叫语音信号与所述第一语音信号分离。

如图11所示，麦克风信号用y(n)表示，扬声器信号用x(n)表示。将麦克风信号和扬声器信号作为输入信号，将麦克风信号和扬声器信号分别进行分帧和加窗处理，然后通过快速傅里叶变换(Fast Fourier Transform，FFT)变换到频域，然后经过一维卷积层和归一化处理后进行级联，通过门控循环单元检测出啸叫信号，将门控循环单元处理后得到包含啸叫信息特征的语音特征送入第一个分离核中，得到输出的第一预测掩码。第一预测掩码与麦克风信号的快速傅里叶变换的结果相乘，得到处理后的幅度谱，并利用输入信号的相位，使用逆傅里叶变换(Inverse Fast Fourier Transform，IFFT)将其变换回时域，得到第一分离时域信号。第一分离时域信号和分帧加窗后扬声器信号分别经过一维卷积层和归一化处理后进行级联，通过门控循环单元检测出啸叫信号，将门控循环单元处理后得到包含啸叫信息特征的语音特征送入第二个分离核中，得到第二预测掩码。将第二预测掩码与第一分离时域信号相乘，再通过一维卷积层转换为时域信号，最后对连续时间信号使用重叠相加法进行重构，得到输出的抑制啸叫信号后时域的信号s(n)。

本申请实施例的目的在于将目标语音信号与啸叫的信号分离，且使用两个分离核，能够更好地抑制啸叫，还原出更干净的原始信号。本申请实施例的处理方式全都在时域完成，无需变换到频域，节省变换到频域的时间，达到更快更高效地消除啸叫的效果。本申请实施例本质是一种基于深度学习的啸叫抑制方法，神经网络通过不断学习啸叫信号的特性，相比于传统算法，达到对啸叫信号更好地抑制，且更好地保留原始语音信号。

本申请的一些实施例提供一种啸叫抑制方法，所述方法适用于显示设备，显示设备包括显示器、声音采集器、音频数据接口和控制器。声音采集器被配置为采集用户输入语音时的第一语音信号；音频输出接口被配置为播放用户输入的第二语音信号；控制器，被配置为：获取所述第一语音信号和所述第二语音信号；将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，所述神经网络模型包括第一分离核、第二分离核和门控循环单元，所述门控循环单元用于检测啸叫语音信号，所述第一分离核和所述第二分离核用于将所述啸叫语音信号从所述第一语音信号中分离。本申请实施例通过神经网络不断学习啸叫语音信号的特性，更准确识别出啸叫语音信号，并且使用两个分离核对目标语音信号和啸叫语音信号进行分离，能够更好抑制啸叫语音信号，更好地保留目标语音信号，减少对音质损失。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器；

音频输出接口，被配置为播放用户输入的第二语音信号；

控制器，被配置为：

获取所述第一语音信号和所述第二语音信号；

2.根据权利要求1所述的显示设备，其特征在于，所述第一分离核和所述第二分离核用于在时域将所述啸叫语音信号与所述第一语音信号分离。

3.根据权利要求1所述的显示设备，其特征在于，所述控制器执行将所述第一语音信号和所述第二语音信号输入预先训练好的神经网络模型中，得到第三语音信号，被进一步配置为：

4.根据权利要求3所述的显示设备，其特征在于，所述控制器执行将所述第一加窗语音信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第一啸叫语音特征，被进一步配置为：

5.根据权利要求3所述的显示设备，其特征在于，所述控制器执行将所述第一啸叫语音特征输入第一分离核，得到第一分离时域信号，被进一步配置为：

6.根据权利要求3所述的显示设备，其特征在于，所述控制器执行将所述第一分离时域信号和所述第二加窗语音信号处理后通过门控循环单元检测，得到第二啸叫语音特征，被进一步配置为：

7.根据权利要求3所述的显示设备，其特征在于，所述控制器执行将所述第二啸叫语音特征输入第二分离核，得到第二分离时域信号，被进一步配置为：

8.根据权利要求1所述的显示设备，其特征在于，在获取所述第一语音信号和所述第二语音信号的步骤之前，所述控制器，被配置为：

9.根据权利要求1所述的显示设备，其特征在于，所述第一分离核和所述第二分离核分别包括两个长短期记忆网络层、一个全连接层和一个激活层。

10.一种啸叫抑制方法，其特征在于，包括：

获取第一语音信号和第二语音信号，所述第一语音信号为声音采集器采集用户输入语音时的语音信号，所述第二语音信号为音频输出接口播放的语音信号；