CN112885366A

CN112885366A - 主动降噪方法、装置、存储介质以及终端

Info

Publication number: CN112885366A
Application number: CN202110066631.3A
Authority: CN
Inventors: 汤志淼
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-06-01

Abstract

本申请实施例公开了一种主动降噪方法、装置、存储介质以及终端。所述方法包括：获取语音信号，将所述语音信号进行分离处理得到噪声信号；对所述噪声信号进行识别；若所述噪声信号中存在满足噪声条件的第一噪声信号，对所述第一噪声信号进行噪声处理。通过本申请的方法，可以抑制高频率的噪声信号和多种类型的噪声信号，可以提高消噪的效果。

Description

主动降噪方法、装置、存储介质以及终端

技术领域

本申请涉及计算机技术领域，尤其涉及一种主动降噪方法、装置、存储介质以及终端。

背景技术

主动降噪是应用在耳机、家用电器、汽车等领域，它的原理是所有的声音都由一定频谱组成，如果可以找到一种声音，其频谱与所要消除的噪声完全一样，只是相位刚好相反就可以将这噪声完全抵消。现有技术方案能够消除频率低的背景噪声，但对高频噪声消噪效果比较差，并且抑制的噪声类型很少，如常见噪声类型为白噪声和粉红噪声，这些一般能够有效被消除，但生活中也会出现一些不平常的噪声，消除效果不是很好。

发明内容

本申请实施例提供了一种主动降噪方法、装置、计算机存储介质以及终端，旨在解决相关技术中提高噪声消噪效果的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种主动降噪方法，所述方法包括：

获取语音信号，将所述语音信号进行分离处理得到噪声信号；

对所述噪声信号进行识别；

若所述噪声信号中存在满足噪声条件的第一噪声信号，对所述第一噪声信号进行噪声处理。

第二方面，本申请实施例提供了一种主动降噪装置，所述装置包括：

语音获取模块，用于获取语音信号，将所述语音信号进行分离处理得到噪声信号；

噪声识别模块，用于对所述噪声信号进行识别；

噪声处理模块，用于在所述噪声信号中存在满足噪声条件的第一噪声信号时，对所述第一噪声信号进行噪声处理。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种终端，可包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述存储器加载并执行上述的方法步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的方案在执行时，获取语音信号，将所述语音信号进行分离处理得到噪声信号，对所述噪声信号进行识别，若所述噪声信号中存在满足噪声条件的第一噪声信号，对所述第一噪声信号进行噪声处理。通过本申请的方法，可以抑制高频率的噪声信号和多种类型的噪声信号，可以提高消噪的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的终端的结构示意图；

图2是本申请实施例提供的操作系统和用户空间的结构示意图；

图3是图1中安卓操作系统的架构图；

图4是图1中IOS操作系统的架构图；

图5是本申请实施例提供的一种主动降噪方法的流程示意图；

图6是本申请实施例提供的一种主动降噪方法的流程示意图；

图7是本申请实施例提供的一种主动降噪装置的结构示意图。

具体实施方式

为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参见图1，其示出了本申请一个示例性实施例提供的终端的结构方框图。本申请中的终端可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统(包括基于Android系统深度开发的系统)、苹果公司开发的IOS系统(包括基于IOS系统深度开发的系统)或其它系统。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

参见图2所示，存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

以操作系统为Android系统为例，存储器120中存储的程序和数据如图3所示，存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380，其中，Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间，应用层380属于用户空间。Linux内核层320为终端的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序，这些应用程序可以是操作系统自带的原生应用程序，比如联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的第三方应用程序，比如游戏类应用程序、即时通信程序、相片美化程序、购物程序等。

以操作系统为IOS系统为例，存储器120中存储的程序和数据如图4所示，IOS系统包括：核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架，可触摸层480负责用户在终端上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface，UI)框架、用户界面UIKit框架、地图框架等等。

在图4所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的系统服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

其中，在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统，本申请在此不再赘述。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏，该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、无线保真(wirelessfidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的终端。可选地，各步骤的执行主体为终端的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本申请实施例对此不作限定。

本申请实施例的终端，其上还可以安装有显示设备，显示设备可以是各种能实现显示功能的设备，例如：阴极射线管显示器(cathode ray tubedisplay，简称CR)、发光二极管显示器(light-emitting diode display，简称LED)、电子墨水屏、液晶显示屏(liquidcrystal display，简称LCD)、等离子显示面板(plasma display panel，简称PDP)等。用户可以利用终端101上的显示设备，来查看显示的文字、图像、视频等信息。所述终端可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality，增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。

在图1所示的终端中，处理器110可以用于调用存储器120中存储的应用程序，并具体执行本申请实施例的主动降噪方法。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为终端进行介绍说明。

请参见图5，为本申请实施例提供的一种主动降噪方法的流程示意图。如图5所示，本申请实施例的所述方法可以包括以下步骤：

S501，获取语音信号，将语音信号进行分离处理得到噪声信号。

其中，语音信号表示带有背景噪声的说话人语音信号，背景噪声可以包括高频噪声、低频噪声、白噪声、粉红噪声、宽带噪声以及窄带噪声等，但并不限于这些。

一般的，将语音信号进行分离处理得到噪声信号，可以采用语音分离模型识别语音信号中的目标语音信号。语音分离的目标是将目标语音与背景噪声进行分离，即将环境噪声和人声进行分离。

下面对语音分离系统进行解释说明。时频分解，是整个语音分离系统的前端处理模块，通过时频分解，可以将一维时域信号分解成二维时频信号。常用的时频分解方法包括短时傅里叶变换和Gammatone听觉滤波模型。特征提取，主要可以分为时频单元级别的特征和帧级别的特征。时频单元级别的特征是从一个时频单元的信号中提取特征，这种级别的特征粒度更细，能够关注到更加微小的细节，但是缺乏对语音的全局性和整体性的描述，无法获取到语音的时空结构和时序相关性。另外，一个时频单元的信号很难表征可感知的语音特性(例如，音素)。帧级别的特征是从一帧信号中提取的，这种级别的特征粒度更大，能够抓住语音的时空结构,特别是语音的频带相关性，具有更好的全局性和整体性，具有明显的语音感知特性。通过信号处理的方式将输入的时域信号分解成二维的时频信号表示，即傅里叶变换。几种常用的听觉特征包括：梅尔倒谱系数(Mel-frequency cepstral

efficient,MFCC)、PLP(Perceptual linear prediction)、RASTA-PLP(Relative spectraltransform PLP)、GFCC(Gammatone frequency cepstral co efficient)等等。本申请实施例采用梅尔倒谱系数进行特征提取。常用的分离目标大致可以分为三类:时频掩蔽、语音幅度谱估计和隐式时频掩蔽。本申请实施例中可以采用时频掩蔽的目标，训练一个模型来估计一个理想时频掩蔽，使得估计的掩蔽和理想掩蔽尽可能相似。模型训练，利用大量的输入输出训练对通过深度学习算法学习一个从带噪特征到分离目标的映射函数，本申请实施例中选用DNN神经网络去训练。波形合成，利用估计的分离目标以及混合信号，通过逆变换获得目标语音的波形信号。

S502，对噪声信号进行识别。

S503，若噪声信号中存在满足噪声条件的第一噪声信号，对第一噪声信号进行噪声处理。

下面对S502-S503进行具体的说明。

一般的，对噪声信号进行识别，可以基于预设噪声模型对噪声信号识别，预设噪声模型中的噪声信号可以包括高频噪声、蓝噪声、橙噪声以及紫噪声等不平常的噪声。在识别到噪声信号中有预设噪声模型的预设噪声信号时，将对应的噪声信号进行消噪处理；若识别到噪声信号中没有预设噪声模型中的预设噪声信号时，将对应的噪声信号输入至ANC模块。

请参见图6，为本申请实施例提供的一种主动降噪方法的流程示意图。如图6所示，本申请实施例的所述方法可以包括以下步骤：

S601，获取语音信号，将语音信号进行分离处理得到噪声信号。

一般的，本申请实施例基于语音分离模型识别语音信号中目标语音信号。语音分离模型的训练过程包括：将样本语音信号进行时频分解得到样本时频信号，提取样本时频信号的特征信息；对样本时频信号进行分帧处理；提取分帧后的样本时频信号的特征信息；对样本语音信号进行分离处理得到样本分离信号；基于特征信息和样本分离信号对神经网络进行训练得到语音分离模型。具体的语音分离过程可参见图5中的S501，在此不再赘述。

S602，将噪声信号和噪声模型中的预设噪声信号进行匹配。

其中，噪声模型中的预设噪声信号可以包括高频噪声信号、蓝噪声、紫噪声、橙噪声等，但并不限于这些噪声信号。本申请实施例在训练噪声模型时，可以选用Noise92的噪声数据进行模型训练，深度神经网络采用RNN神经网络进行训练，然后得到噪声模型。确定预设噪声信号的特征信息，计算噪声信号中的各种噪声信号的特征信息，将预设噪声信号的第一噪声特征和噪声信号中的各种噪声信号的第二噪声特征进行匹配，分别计算各个第一噪声特征和各个第二噪声特征的相似度值，比较各个相似度值和相似度阈值的大小，判断是否存在匹配的噪声信号。

S603，若在噪声信号中匹配到预设噪声信号，将匹配的噪声信号作为第一噪声信号，对第一噪声信号进行噪声处理。

其中，第一噪声信号可以包括高频率的噪声信号，以及不常见的噪声信号，但并不限于这些。基于S602中的匹配结果，如果在噪声信号中匹配到预设噪声信号，则将对应的噪声信号作为第一噪声信号，对第一噪声信号进行噪声处理。对第一噪声信号进行噪声处理主要是产生一种与第一噪声信号的频谱相同但是相位相反的信号，这种信号就可以和第一噪声信号相抵消。

S604，若噪声信号中存在不满足噪声条件的第二噪声信号，通过ANC模块对第二噪声信号进行噪声处理。

其中，第二噪声信号表示可以通过ANC模块进行消噪处理，并且消噪效果不错的噪声信号。基于S602中的匹配结果，如果在噪声信号中没有匹配到预设噪声信号，则将这些噪声信号称为第二噪声信号，将第二噪声信号通过ANC模块进行噪声处理。ANC模块采用的方法是自适应滤波的最小均方误差方法，给定输入x和输出的期望值d，自适应滤波每次迭代。更新系数，使其输出y与d之差越来越小，直到残差足够接近0且收敛。

S605，将噪声处理后的第一噪声信号和/或第二噪声信号输入至扬声器。

一般的，消噪处理后的第一噪声信号和/或第二噪声信号也就是得到与第一噪声信号频谱相同相位相反的信号，和/或与第二噪声信号频谱相同相位相反的信号，输入至扬声器进行播放，那么上述相位相反的信号在扬声器处和S601中语音信号中的噪声信号相抵消，到达人耳处的就是纯净的不包含噪声信号的语音信号。

请参见图7，为本申请实施例提供的一种主动降噪装置的结构示意图。该主动降噪装置700可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。装置700包括：

语音获取模块710，用于获取语音信号，将所述语音信号进行分离处理得到噪声信号；

噪声识别模块720，用于对所述噪声信号进行识别；

噪声处理模块730，用于在所述噪声信号中存在满足噪声条件的第一噪声信号时，对所述第一噪声信号进行噪声处理。

可选地，语音获取模块710包括：

第一获取单元，用于基于语音分离模型识别所述语音信号中的目标语音信号；

第二获取单元，用于将所述语音信号中的所述目标语音信号分离后得到噪声信号。

可选地，语音获取模块710还包括：

第一训练单元，用于将样本语音信号进行时频分解得到样本时频信号，提取所述样本时频信号的特征信息；

第二训练单元，用于对所述样本语音信号进行分离处理得到样本分离信号；

第三训练单元，用于基于所述特征信息和所述样本分离信号对神经网络进行训练得到语音分离模型。

可选地，语音获取模块710还包括：

第四训练单元，用于对所述样本时频信号进行分帧处理；

第五训练单元，用于提取分帧后的样本时频信号的特征信息。

可选地，噪声识别模块720包括：

第一识别单元，用于将所述噪声信号和噪声模型中的预设噪声信号进行匹配；

第二识别单元，用于在所述噪声信号中匹配到所述预设噪声信号，将匹配的噪声信号作为第一噪声信号，对所述第一噪声信号进行噪声处理。

可选地，主动降噪装置700还包括：

第二噪声处理模块，用于在所述噪声信号中存在不满足噪声条件的第二噪声信号，通过ANC模块对所述第二噪声信号进行噪声处理。

可选地，主动降噪装置700还包括：

输出单元，用于将噪声处理后的所述第一噪声信号和/或所述第二噪声信号输入至扬声器。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述的方法步骤，具体执行过程可以参见图5和图6所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种终端，包括处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种主动降噪方法，其特征在于，所述方法包括：

对所述噪声信号进行识别；

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信号进行分离处理得到噪声信号，包括：

基于语音分离模型识别所述语音信号中的目标语音信号；

将所述语音信号中的所述目标语音信号分离后得到噪声信号。

3.根据权利要求2所述的方法，其特征在于，所述基于语音分离模型识别所述语音信号中目标语音信号之前，还包括：

将样本语音信号进行时频分解得到样本时频信号，提取所述样本时频信号的特征信息；

对所述样本语音信号进行分离处理得到样本分离信号；

基于所述特征信息和所述样本分离信号对神经网络进行训练得到语音分离模型。

4.根据权利要求3所述的方法，其特征在于，所述提取所述样本时频信号的特征信息，包括：

对所述样本时频信号进行分帧处理；

提取分帧后的样本时频信号的特征信息。

5.根据权利要求1所述的方法，其特征在于，所述对所述噪声信号进行识别，包括：

将所述噪声信号和噪声模型中的预设噪声信号进行匹配；

所述若所述噪声信号中存在满足噪声条件的第一噪声信号，对所述第一噪声信号进行噪声处理，包括：

若在所述噪声信号中匹配到所述预设噪声信号，将匹配的噪声信号作为第一噪声信号，对所述第一噪声信号进行噪声处理。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述噪声信号中存在不满足噪声条件的第二噪声信号，通过ANC模块对所述第二噪声信号进行噪声处理。

7.根据权利要求1或6所述的方法，其特征在于，所述方法还包括：

将噪声处理后的所述第一噪声信号和/或所述第二噪声信号输入至扬声器。

8.一种主动降噪装置，其特征在于，所述装置包括：

噪声识别模块，用于对所述噪声信号进行识别；

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。