CN115527547B

CN115527547B - 噪声处理方法及电子设备

Info

Publication number: CN115527547B
Application number: CN202210468798.7A
Authority: CN
Inventors: 吴彪; 夏日升
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-06-16
Anticipated expiration: 2042-04-29
Also published as: CN115527547A

Abstract

本申请公开了一种噪声处理方法及电子设备，涉及终端及音频处理技术领域，该方法包括：当电子设备接收到第一音频信号时，电子设备可以基于第一降噪模型从第一音频信号获取到噪声信号和无噪语音信号。然后，当电子设备判断出无噪语音信号中包括预设的目标语音信号时，电子设备可以基于无噪语音信号进行语音合成，以获取到多条无噪合成语音信号。电子设备将噪声信号叠加至多条无噪合成语音信号上，获取到多条合成音频信号。当电子设备确定出上述多条合成音频信号的声纹与第一音频信号的声纹不相似后，电子设备可以在自身状态满足更新条件时，基于多条无噪合成语音信号和多条合成音频信号更新第一降噪模型。

Description

噪声处理方法及电子设备

技术领域

本申请涉及终端及音频处理技术领域，尤其涉及一种噪声处理方法及电子设备。

背景技术

随着终端技术的不断发展，越来越多的用户在日常生活中使用电子设备处理各项事务。例如，用户可以使用电子设备录制视频或者音频、与他人进行通话、接收由其他电子设备发送的包括语音信息的视频或音频等等。当电子设备应用于上述包含有语音信息的使用场景中时，电子设备不可避免地会接收到发声对象周围环境的噪声信号。例如，在通话场景中，电子设备除了会接收到用户发出的语音信号外，也会接收到用户(也即是发声对象)周围环境中的噪声信号，该噪声信号会影响语音信号的输出质量。因此，当前电子设备通常会基于接收到的音频进行噪声去除处理，从而获得清晰的语音信号。

然而，目前在电子设备基于用户实际使用场景对噪声进行处理的过程中，针对噪声处理效果不理想的场景，电子设备不能高效方便地对噪声处理方法进行优化调整，从而导致用户的使用体验较差等问题。

发明内容

本申请提供了一种噪声处理方法及电子设备，可以使得电子设备在用户实际使用场景中对获取到的音频信号进行降噪时，及时获取到第一降噪模型的降噪效果，并且，电子设备可以针对降噪效果较差的应用场景对第一降噪模型进行优化调整，以更准确地识别到上述应用场景中的噪声信号，提升用户的使用体验。

第一方面，本申请提供了一种噪声处理方法，包括：电子设备获取到第一音频信号。该电子设备基于第一降噪模型，从该第一音频信号中确定出第一噪声信号和第一无噪语音信号。该电子设备从该第一无噪语音信号中提取出对应的语音参数信息。该电子设备基于该第一噪声信号和该第一无噪语音信号的语音参数信息，生成第一合成音频信号。当该电子设备确定出该第一合成音频信号的声纹与该第一音频信号的声纹不相似时，该电子设备生成指定数量的无噪合成语音信号和该指定数量的合成音频信号。当该电子设备确定出该电子设备处于空闲状态时，该电子设备基于该指定数量的无噪合成语音信号和该指定数量的合成音频信号，更新该第一降噪模型。

在一种可能的实现方式中，该电子设备基于该第一噪声信号和该第一无噪语音信号的语音参数信息，生成第一合成音频信号，具体包括：该第一无噪语音信号的语音参数信息，包括该第一无噪语音信号的文本信息和该第一无噪语音信号的声学特征。当该电子设备确定出该第一无噪语音信号的文本信息中包括指定关键词时，该电子设备基于该第一无噪语音信号的文本信息、该第一无噪语音信号的声学特征和控制参数，生成第一无噪合成语音信号。该电子设备叠加该第一噪声信号至该第一无噪合成语音信号，生成该第一合成音频信号。

在一种可能的实现方式中，该电子设备基于该第一噪声信号和该第一无噪语音信号的语音参数信息，生成第一合成音频信号，具体还包括：该电子设备基于该第一无噪语音信号的文本信息、该第一无噪语音信号的声学特征和控制参数，生成第二无噪合成语音信号。其中，该第二无噪合成语音信号的控制参数与该第一无噪合成语音信号的控制参数不同。该电子设备叠加该第一噪声信号至该第二无噪合成语音信号，生成该第二合成音频信号。当该电子设备确定出该第一合成音频信号的声纹与该第一音频信号的声纹不相似时，该电子设备生成指定数量的无噪合成语音信号和该指定数量的合成音频信号，具体包括：当该电子设备确定出该第一合成音频信号的声纹、该第二合成音频信号的声纹与该第一音频信号的声纹互不相似时，该电子设备生成指定数量的无噪合成语音信号和该指定数量的合成音频信号。

在一种可能的实现方式中，该控制参数包括：用于控制情绪的矢量和/或用于控制语速的矢量。

在一种可能的实现方式中，情绪包括以下一种或多种：高兴、悲伤、恐惧和愤怒。语速包括以下一种或多种：急速、快速、中速和缓慢。

在一种可能的实现方式中，当该电子设备确定出该第一合成音频信号的声纹与该第一音频信号的声纹不相似时，该电子设备生成指定数量的无噪合成语音信号和该指定数量的合成音频信号之前，该方法还包括：该电子设备基于第一算法，对该第一合成音频信号的声纹和该第一音频信号的声纹进行相似度计算，确定出该第一合成音频信号的第一相似度计算值。当该电子设备确定出该第一相似度计算值小于第一阈值时，该电子设备确定出该第一合成音频信号的声纹与该第一音频信号的声纹不相似。

在一种可能的实现方式中，当该电子设备确定出该第一合成音频信号的声纹、该第二合成音频信号的声纹与该第一音频信号的声纹互不相似时，该电子设备生成指定数量的无噪合成语音信号和该指定数量的合成音频信号之前，该方法还包括：该电子设备基于第一算法，对该第一合成音频信号的声纹和该第一音频信号的声纹进行相似度计算，确定出该第一合成音频信号的第一相似度计算值。该电子设备基于该第一算法，对该第二合成音频信号的声纹和该第一音频信号的声纹进行相似度计算，确定出该第二合成音频信号的第二相似度计算值。该电子设备基于该第一相似度计算值和该第二相似度计算值，确定出第一值。当该电子设备确定出该第一值小于第一阈值时，该电子设备确定出该第一合成音频信号的声纹、该第二合成音频信号的声纹与该第一音频信号的声纹互不相似。

在一种可能的实现方式中，该电子设备确定出该第一合成音频信号的声纹、该第二合成音频信号的声纹与该第一音频信号的声纹互不相似时，该电子设备生成指定数量的无噪合成语音信号和该指定数量的合成音频信号，具体包括：该电子设备确定出该第一值与该第一阈值间的差值。当该电子设备确定出该差值的绝对值大于第二阈值时，该电子设备生成第一数量的无噪合成语音信号和该第一数量的合成音频信号。当该电子设备确定出该差值的绝对值小于或等于该第二阈值时，该电子设备生成第二数量的无噪合成语音信号和该第二数量的合成音频信号。其中，该第一数量大于该第二数量。

在一种可能的实现方式中，当该电子设备确定出该电子设备处于空闲状态时，该电子设备基于该指定数量的无噪合成语音信号和该指定数量的合成音频信号，更新该第一降噪模型之前，该方法还包括：当该电子设备检测到当前时间处于指定时间范围内，和/或，该电子设备通过麦克风检测到环境噪声的音量低于阈值且没有用户语音时，该电子设备确定出该电子设备处于空闲状态。

在一种可能的实现方式中，该方法还包括：该电子设备获取到第二音频信号。该电子设备基于更新后的第一降噪模型，从该第二音频信号中确定出第二噪声信号和第二无噪语音信号。该电子设备输出该第二无噪语音信号。

第二方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器和显示屏。该一个或多个存储器与一个或多个处理器耦合，该一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当该一个或多个处理器执行该计算机指令时，使得该电子设备执行上述第一方面中任一项可能的实现方式中的方法。这样，可以使得电子设备在用户实际使用场景中对获取到的音频信号进行降噪时，及时获取到第一降噪模型的降噪效果，并且，电子设备可以针对降噪效果较差的应用场景对第一降噪模型进行优化调整，以更准确地识别到上述应用场景中的噪声信号，提升用户的使用体验。

第三方面，本申请实施例提供了一种计算机可读存储介质，包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述第一方面中任一项可能的实现方式中的方法。这样，可以使得电子设备在用户实际使用场景中对获取到的音频信号进行降噪时，及时获取到第一降噪模型的降噪效果，并且，电子设备可以针对降噪效果较差的应用场景对第一降噪模型进行优化调整，以更准确地识别到上述应用场景中的噪声信号，提升用户的使用体验。

第四方面，本申请实施例提供了一种芯片或芯片系统，包括处理电路和接口电路，该接口电路用于接收代码指令并传输至该处理电路，该处理电路用于运行该代码指令以执行上述第一方面中任一项可能的实现方式中的方法。这样，可以使得电子设备在用户实际使用场景中对获取到的音频信号进行降噪时，及时获取到第一降噪模型的降噪效果，并且，电子设备可以针对降噪效果较差的应用场景对第一降噪模型进行优化调整，以更准确地识别到上述应用场景中的噪声信号，提升用户的使用体验。

附图说明

图1A为本申请实施例提供的一种电子设备100的硬件结构示意图；

图1B为本申请实施例提供的一系列音频信号的语谱示意图；

图2为本申请实施例提供的一种噪声处理方法的具体流程示意图；

图3A为本申请实施例提供的一种基于RNN的第一降噪模型的结构示意图；

图3B为本申请实施例提供的一种第一音频信号的时域示意图；

图3C为本申请实施例提供的一种窗函数的处理示意图；

图3D为本申请实施例提供的一种RNN的结构示意图；

图4A为本申请实施例提供的一种语音合成的方法示意图；

图4B为本申请实施例提供的一种更新第一降噪模型的流程示意图；

图5A-图5E为本申请实施例提供的一组用户界面示意图；

图5F为本申请实施例提供的一种使用场景示意图；

图5G为本申请实施例提供的另一种用户界面示意图；

图5H-图5J为本申请实施例提供的另一组用户界面示意图；

图6为本申请实施例提供的一种应用于电子设备100上的软件架构示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请得到说明书和所附权利要书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出醒目的任何或所有可能组合。在本申请实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

首先，介绍本申请实施例中提供的示例性电子设备100。

图1A示出了一种电子设备100的硬件结构示意图。

电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备100的具体类型不作特殊限制。

如图1A所示，电子设备100可以包括处理器101、存储器102、无线通信模块103、显示屏104、麦克风105、音频模块106和扬声器107。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合来实现。

处理器101可以包括一个或多个处理器单元，例如处理器101可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器101中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器101中的存储器为高速缓冲存储器。该存储器可以保存处理器101刚用过或循环使用的指令或数据。如果处理器101需要再次使用该指令或数据，可以从所述存储器中直接调用。避免了重复存取，减少了处理器101的等待时间，因而提高了系统的效率。

在一些实施例中，处理器101可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或USB接口等。

存储器102与处理器101耦合，用于存储各种软件程序和/或多组指令。具体实现中，存储器102可以包括易失性存储器(volatile memory)，例如随机存取存储器(randomaccessmemory，RAM)；也可以包括非易失性存储器(non-vlatile memory)，例如ROM、快闪存储器(flash memory)、硬盘驱动器(Hard Disk Drive，HDD)或固态硬盘(SolidState Drives，SSD)；存储器102还可以包括上述种类的存储器的组合。存储器102还可以存储一些程序代码，以便于处理器101调用存储器102中存储的程序代码，以实现本申请实施例在电子设备100中的实现方法。存储器102可以存储操作系统，例如uCOS、VxWorks、RTLinux等嵌入式操作系统。

无线通信模块103可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块103可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块103经由天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器101。无线通信模块103还可以从处理器101中接收待发送的信号，对其进行调频、放大，经天线转为电磁波辐射出去。在一些实施例中，电子设备100还可以通过无线通信模块103中的蓝牙模块(图1A未示出)、WLAN模块(图1A未示出)发射信号探测或扫描在电子设备100附近的设备，并与该附近的设备建立无线通信连接以传输数据。其中，蓝牙模块可以提供包括经典蓝牙(basic rate/enhanceddatarate，BR/EDR)或蓝牙低功耗(bluetooth low energy，BLE)中一项或多项蓝牙通信的解决方案，WLAN模块可以提供包括Wi-Fi direct、Wi-Fi LAN或Wi-Fi softAP中一项或多项WLAN通信的解决方案。

显示屏104可以用于显示图像、视频等。显示屏104可以包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dotlight emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏104，N为大于1的正整数。

麦克风105，也可以称“话筒”，“传声器”，可以用于采集电子设备周围环境中的声音信号，再将该声音信号转换为电信号，再将该电信号经过一系列处理，例如模数转换等，得到电子设备的处理器101可以处理的数字形式的音频信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风105发声，将声音信号输入到麦克风105。电子设备100可以设置至少一个麦克风105。在另一些实施例中，电子设备100可以设置两个麦克风105，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风105，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

在本申请实施例中，麦克风105可用于采集说话人的语音数据和周围的环境声音，并将这些语音数据传输到处理器101中，用于根据这些语音数据进行降噪处理。

音频模块106可以用于将数字音频信息转换成模拟音频信号输出，也可以用于将模拟音频输入转换成数字音频信号。音频模块106还可以用于对音频信号编码和解码。在一些实施例中，音频模块106还可以设置于处理器101中，或将音频模块106的部分功能模块设置于处理器101中。

扬声器107，也可以称为“喇叭”，用于将音频电信号转换成为声音信号。电子设备100可以通过扬声器107收听音乐，或收听免提电话。

电子设备100还可以包括传感器模块(图1A未示出)和/或触摸传感器(图1A未示出)。触摸传感器也可以称为“触控器件”。触摸传感器可以设置于显示屏104，由触摸传感器与显示屏104组成触摸屏，也称“触控屏”。触摸传感器可以用于检测作用于其上或附近的触摸操作。可选的，传感器模块还可以包括有陀螺仪传感器(图1A未示出)、加速度传感器(图1A未示出)等等。其中，陀螺仪传感器可以用于确定电子设备100的运动姿态，在一些实施例中，电子设备100可以通过陀螺仪传感器确定出电子设备100围绕三个轴(即，x，y和z轴)的角速度。加速度传感器可以用于检测电子设备100在各个方向上(一般为x，y和z轴)的加速度大小，当电子设备100静止时也可以检测出重力的大小及方向。

电子设备100还可以包括移动通信模块(图1A未示出)。该移动通信模块可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。

需要说明的是，图1A中示出的电子设备100仅仅用于示例性解释本申请所提供的电子设备的硬件结构，并不对本申请构成具体限制。

当用户使用电子设备100进行视频或音频录制、与他人通话、接收由其他电子设备发送的包括语音信息的视频或音频等与声音信号相关的处理事务时，为了提升声音信号的输出质量，电子设备100常常会对声音信号进行噪声去除处理，该噪声去除的处理过程可以被称为声音信号的降噪。在一些应用场景中，电子设备100可以基于神经网络(neuralnetwork，NN)算法构成的降噪模型(也可以被称为NN降噪模型)对获取到的声音信号(亦可以被称为音频信号)进行降噪处理。然而，NN降噪模型往往在实际使用之前会预先进行设置。当电子设备100基于用户实际使用场景进行降噪时，针对噪声处理效果不理想的场景，电子设备100不能高效方便地对NN降噪模型进行优化调整，导致用户使用体验较差的问题。

示例性的，请参考图1B所示，本申请实施例以语谱图表示语音降噪处理的三种情况：降噪过度滤除了部分无噪语音信号、降噪过少保留了部分噪声信号、完整滤除噪声信号并完整保留无噪语音信号。其中：

图1B中的第一语谱图示出了未经降噪处理的原始音频信号，第二语谱图示出了降噪过度导致滤除了部分无噪语音信号的语音部分导致语音信号失真，第三语谱图示出了降噪过少导致噪声有部分残留，第四语谱图示出了降噪效果好使得噪声完整滤除并保留了完整无噪语音信号。

具体的，语谱图可以用于表示频域上的音频信号，可以由时域上的音频信号转换而来。该第一语谱图、第二语谱图、第三语谱图和第四语谱图的横坐标表示时间、纵坐标表示频率。其中的每一个点都可以被称为频点。每个频点的颜色的明暗程度表示该时刻频率的音频信号的能量大小。其中，能量的单位为分贝(decibel，dB)，表示该频点对应的音频数据的分贝大小。

如第二语谱图所示，由于在对原始音频信号进行噪声去除时降噪过度，滤除了部分无噪语音信号的语音部分导致语音信号失真，因此，在第二语谱图上丢失了部分无噪语音信号的语谱，例如丢失了时间段t₁-t₂内部分频率小于6K赫兹的无噪语音信号的语谱。

如第三语谱图所示，由于对原始音频信号进行噪声去除时降噪过少，导致噪声有部分残留，因此，在第三语谱图上保留了部分噪声信号的语谱，例如保留了时间段t₃-t₄内部分噪声信号的语谱。

如第四语谱图所示，由于对原始音频信号进行噪声去除时降噪效果好，使得噪声完整滤除并保留了完整无噪语音信号，因此，在第三语谱图上保留了完整的无噪语音信号的语谱，去除了噪声信号的语谱。

因此，为了提高降噪效果，本申请提供了一种噪声处理方法。在该方法中，当电子设备100接收到第一音频信号时，电子设备100可以基于第一降噪模型对第一音频信号进行降噪处理，以获取到其中包括的噪声信号和无噪语音信号。然后，当电子设备100判断出无噪语音信号中包括预设的目标语音信号时，电子设备100可以基于无噪语音信号进行语音合成，以获取到多条无噪合成语音信号。电子设备100将前述获取到的噪声信号叠加至多条无噪合成语音信号上，获取到多条合成音频信号。当电子设备100判断出上述多条合成音频信号的声纹与第一音频信号的声纹不相似时，电子设备100可以在自身状态满足更新条件的情况下，基于多条无噪合成语音信号和多条合成音频信号更新第一降噪模型，以使得电子设备100可以基于更新后的第一降噪模型准确地识别出第一音频信号中的噪声信号。

由上述过程中可以看出，实施本申请提供的噪声处理方法，可以使得电子设备100在用户实际使用场景中对获取到的音频信号进行降噪时，及时获取到第一降噪模型的降噪效果，并且，电子设备100可以针对降噪效果较差的应用场景对第一降噪模型进行优化调整，以更准确地识别到上述应用场景中的噪声信号，提升用户的使用体验。

下面，介绍本申请实施例提供的一种噪声处理方法的具体实施过程。

请参考图2，图2示例性示出了本申请实施例提供的一种噪声处理方法的具体流程示意图。

如图2所示，该噪声处理方法的具体流程可以如下：

S201、电子设备100获取到第一音频信号。

具体的，电子设备100可以通过设置在电子设备100上的麦克风，采集到第一音频信号。该第一音频信号的声源方位可以位于电子设备100的周边环境。该第一音频信号可以是通过电子设备100上的一个麦克风采集到的，也可以是通过电子设备100上的多个麦克风采集到的。或者，第一音频信号也可以是由其他电子设备发送给电子设备100的音频信号。也即是说，关于电子设备100所获取到的第一音频信号的来源，本申请对此不做限制。

S202、电子设备100基于第一降噪模型，从第一音频信号中确定出噪声信号和无噪语音信号。

具体的，第一降噪模型可以是基于神经网络算法的语音降噪模型。其中，神经网络算法可以是循环神经网络(recurrent neural networks，RNN)算法、深度神经网络(dee pneural networks，DNN)算法、双路径循环神经网络(dual-pathrecurrent neural networks，DPRNN)算法、深度复杂卷积循环神经网络(deep complex convolution recurrentnetwork，DCCRNN)算法等等，本申请对此不作限制。

本申请实施例以RNN算法为例，示例性说明电子设备100基于第一降噪模型，从第一音频信号中确定出噪声信号和无噪语音信号的具体流程。如图3A所示，基于RNN的第一降噪模型的结构以及处理流程可以包括：

1).输入第一音频信号，电子设备100可以将第一音频信号作重叠窗处理。

电子设备100可以基于窗函数将第一音频信号进行分帧、加窗处理，使得第一音频信号可以被划分为多帧具有指定长度(例如，指定时间长或指定采样点数)的音频信号。其中，窗函数可以是例如三角形窗函数、矩形窗函数、汉明窗函数等窗函数。

具体的，在对第一音频信号进行分帧的过程中，当指定长度基于时间段进行设定时，一帧音频信号的指定长度可以是10ms、20ms或30ms等，本申请对此不做限制；当指定长度基于采样点数进行设定时，一帧音频信号的指定长度可以是6个采样点、8个采样点或10个采样点，本申请对此也不做限制。同时，为了保证后续电子设备100基于分帧后的音频信号处理所得无噪语音信号的连续性，因此，相邻两帧之间的音频信号可以具有重叠(也即是帧重叠)。当分帧处理时每帧的指定长度基于时间段进行设定时，帧重叠的长度可以是5ms、10ms等，本申请不作限制；当分帧处理时每帧的指定长度基于采样点数进行设定时，帧重叠的长度可以是2个采样点、4个采样点或5个采样点等，本申请对此不作限制。

然后，电子设备100可以基于窗函数针对每帧音频信号进行加窗处理，使得每帧音频信号的两端的幅度渐变至0，以用于减轻后续傅里叶变换处理时音频信号对应的频谱中各谱线之间的相互影响。

示例性的，以图3B所示的第一音频信号中的部分音频信号为例。图3B示出了该部分第一音频信号的时域图，横轴X为时间，纵轴Y为幅值。可以看出，该时域图示出了第一音频信号的幅值随时间变化的关系。电子设备100可以对该部分的第一音频信号进行分帧处理，得到如图3B中示例性所示的第一帧音频信号和第二帧音频信号等。其中，每一帧的长度可以是20ms，帧重叠可以是10ms。第三帧音频信号、第四帧音频信号等后续每一帧音频信号的长度以及相邻帧间的重叠可以参考第一帧音频信号和第二帧音频信号所示，在此不再赘述。然后，电子设备100可以对每一帧音频信号基于窗函数进行加窗处理，也即是使得每一帧音频信号与窗函数相乘。在本示例中，以窗函数为沃尔比斯窗(vorbiswindow)函数为例。沃尔比斯窗函数的公式如下：

其中，该公式中y为加窗处理时的加权值，N的值为电子设备100对第一音频信号作分帧处理时每一帧的帧长度，在本示例中N为20；n的取值小于或等于N，其对应每帧的时间点。例如，当n的值为10时，对应帧中的时间点为10ms，y计算所得的加权值为1，则该加权值1应乘以帧中时间点为10ms时的音频信号，即是对帧中该时间点的音频信号作加窗处理。

如图3C所示，该vorbis窗函数的纵轴Y表示阈值为[0,1]的加权值，横轴X表示每帧的时间点，长度为每一帧的帧长，即是20ms。电子设备100基于vorbis窗函数针对第一帧音频信号进行加窗处理所得信号可以如图3C中的图a所示；基于vorbis窗函数针对第二帧音频信号进行加窗处理所得信号可以如图3C中的图b所示。可以看出，加窗处理后的第一帧音频信号和第二帧音频信号的两端幅值渐变至0。

2).电子设备100基于第一音频信号作基音检测。

其中，基音检测即是指基音周期/基音频率的检测。基音周期指的是：当发声对象发出声音时，声音信号可以被分为浊音和清音。其中，浊音包含了声音信号中的大部分能量，并且在时域上可以表现出明显的周期性。而清音在时域上没有明显的周期性表现。因此，当发声对象发出浊音时所对应产生的频率即为基音频率，相应的周期即基音周期。

具体的，在一段短时间间隔(例如，时间间隔为100ms、500ms等)内，发声对象振动的频率是比较平稳的，也即是有一个稳定的基音，因此，在该短时间间隔内，第一音频信号可以被认为具有周期性。因此，电子设备100可以基于指定频率(例如，8000赫兹、9000赫兹等)对第一音频信号进行采样。然后，电子设备100可以基于指定数值(例如，320点、100点等)将采样后的第一音频信号进行分割，分割后每包含指定数值采样点的音频信号可以被视为一个音框。采样后的第一音频信号可以被分割为多个音框，音框与音框之间可以重叠，重叠点数可以基于电子设备100的计算能力确定。电子设备100可以基于自相关函数(autocorrelation function，ACF)计算出每个音框对应的基音频率，电子设备100可以基于每个音框的基音频率确定出第一音频信号的基音频率。基音检测的具体实现方式可以参考现有技术，在此不再赘述。

3).电子设备100基于重叠窗处理后的第一音频信号作快速傅里叶变换。

具体的，电子设备100可以分别对步骤1)中的每帧基于窗函数处理后的音频信号作快速傅里叶变换(fastfourier transform，FFT)，将音频信号转变为频域信号以便进行后续步骤的处理。例如，如图步骤1)中图3B-图3C示例性所示，电子设备100基于第一音频信号作分帧、加窗处理后可以得到第一帧音频信号、第二帧音频信号等多帧音频信号。电子设备100可以分别对第一帧音频信号、第二帧音频信号等多帧音频信号作快速傅里叶变换，以便于每帧音频信号在后续步骤中的处理。

4).电子设备100基于步骤2)和步骤3)处理后的第一音频信号作基音滤波处理。

具体的，电子设备100可以通过有限长脉冲响应(finiteimpulseresponse，FIR)滤波器、无限长脉冲响应(infinteimpulseresponse，IIR)滤波器等，基于步骤2)和步骤3)处理后的第一音频信号，分离出第一音频信号中基音谐波之间的噪声信号。

5).电子设备100基于步骤2)和步骤3)的输出对第一音频信号进行音频特征提取。

其中，音频特征可以指的是：可以表征音频信号(例如，第一音频信号)对应特质的特征(如音频信号的频谱、倒频谱、共振峰、基音、能量等等)。

具体的，电子设备100可以基于巴克刻度(barkscale，也可以被成为巴克频率)将第一音频信号划分为指定数量(例如，22个、25个等)的频段。其中，巴克刻度表征了人耳对频率感知的非线性特性。巴克刻度在高频率上划分的频段长度大于在低频率上划分的频段长度，也即是说，巴克刻度在低频率上划分的频段比较密集，在高频率上划分的频段比较稀疏。然后，电子设备100可以基于步骤3)和步骤2)的输出，以及第一音频信号根据巴克刻度划分出的指定数量(例如，22个、25个等)的频段，提取出第一音频信号的音频特征。第一音频信号的音频特征可以包括下述中的一种或多种：第一音频信号的巴克频率倒谱系数、第一音频信号前六个巴克频率倒谱系数的一阶导数值、第一音频信号前六个巴克频率倒谱系数的二阶导数值、第一音频信号的基音周期等等。

6).电子设备100基于RNN处理第一音频信号的音频特征，输出第一音频信号对应的多个增益。

具体的，RNN的结构可以如图3D示例性所示。该RNN的结构可以包括：语音活动检测(voiceactivitydetection，VAD)模块，噪声频谱估计(noisespectralestimation，NSE)模块、频谱减法(spectralsubtraction)模块。其中：

VAD模块可以用于识别第一音频信号中具有声音能量的区域和不具有声音能量的静默区域，以便识别出第一音频信号的起始位置和终止位置。VAD模块可以输出消除了静默区域后的第一音频信号；NSE模块可以用于估算第一音频信号中的噪声区域；频谱减法模块可以基于NSE模块估算出的噪声区域，将噪声信号从第一音频信号中分离，输出噪声信号和第一音频信号对应的多个增益。该多个增益可以和前述电子设备100基于巴克刻度所划分的频段对应，也即是说，增益的数量与电子设备100划分的频段数量相同。例如，若前述示例中电子设备100基于巴克刻度将第一音频信号划分为22个频段，则频谱减法模块可以输出共22个各频段对应的增益。并且，各频段的增益值可以基于频段中无噪语音能量与带噪语音能量之比进行计算。因此，频段中噪声能量越大则增益越小。这样，可以增强第一音频信号中的语音信号并抑制噪声。

如图3D所示，VAD模块的输入可以是第一音频信号的音频特征；NSE模块的输入可以是第一音频信号的音频特征、VAD模块中致密层A的输出、门控循环单元A的输出；频谱减法模块的输入可以是第一音频信号的音频特征、门控循环单元B的输出和门控循环单元A的输出。

如图3D所示，VAD模块可以包括致密层A、门控循环单元A和致密层B；NSE模块可以包括门控循环单元B；频谱减法模块可以包括致密层C和门控循环单元C。其中，致密层(如上述的致密层A、致密层B和致密层C)可以包括多个权重值和多个偏置值，用于表征第一音频信号中各音频特征之间的关联；门控循环单元(如上述这门控循环单元A、门控循环单元B和门控循环单元C等)可以用于将当前时刻输入的信息与历史输入信息结合，从而获取各模块对应的输出。

需要说明的是，图3D所示的RNN结构仅仅用于示例性解释本申请，并不对本申请作任何限制。在具体的实现中，RNN的结构可以有别于图3D。

7).电子设备100基于第一音频信号对应的多个增益，对各频段的增益进行插值处理。

具体的，电子设备100对各频段增益进行插值处理的流程如下：电子设备100可以基于前述步骤3)的输出确定出各频段中各频率点的幅度值，然后将各频段中各频率点的幅度值乘以各频段对应的增益，以确定出各频段中各频率点对应的增益。

示例性的，以电子设备100对指定频段1的增益进行插值处理为例。该指定频段1包括五个频率点，该五个频率点的幅度为[0,0.5,0.1,0.2,0.2]，指定频段1对应的增益为g。因此，对指定频段1的增益进行插值处理即是[0,0.5g,0.1g,0.2g,0.2g]，以确定出指定频段1中各频率点对应的增益。

8).电子设备100叠加步骤7)和步骤4)的输出，并进行快速傅里叶逆变换。

具体的，电子设备100叠加步骤7)和步骤4)的输出，即是将步骤7)中所确定出的各频率点对应的增益分别对应作用于步骤4)输出的各频率点上，例如，可以是对应相乘。这样，可以增强第一音频信号中的语音并抑制噪声。然后，电子设备100可以将从第一音频信号中分离出噪声信号后所得的无噪语音信号进行快速傅里叶逆变换，以便将用频域信号进行表示的无噪语音信号转换为时域信号进行表示。

9).电子设备100基于步骤8)的输出作窗叠加处理，输出无噪语音信号和噪声信号。

具体的，在前述步骤中，电子设备100是基于将第一音频信号进行分帧后的多帧音频信号(例如，第一帧音频信号、第二帧音频信号等等)进行处理的，因此，从第一音频信号中分离出噪声信号后所得的无噪语音信号也是划分为多帧表示的。例如，第一帧音频信号对应的第一帧无噪语音信号、第二帧音频信号对应的第二帧无噪语音信号。因此，电子设备100基于步骤8)中将无噪语音信号进行快速傅里叶逆变换后，可以将多帧无噪语音信号进行叠加拼接，以输出在时域上连续表示的无噪语音信号。同时，电子设备100也可以对从第一音频信号中分离出的噪声信号作快速傅里叶逆变换和窗叠加处理，以输出在时域上连续表示的噪声信号，其处理过程可以参考无噪语音信号，在此不再赘述。

在一些示例中，经过该步骤处理后，电子设备100可以将从第一音频信号中确定出的无噪语音信号输出给用户。

从上述流程中可以看出，电子设备100基于NN算法的第一降噪模型从第一音频信号中确定出噪声信号和无噪语音信号，可以降低电子设备100的数据计算量，同时也可以提高电子设备100处理噪声信号的效率。

需要说明的是，从第一音频信号中确定出的噪声信号可以被称为第一噪声信号，从第一音频信号中确定出的无噪语音信号可以被称为第一无噪语音信号。

S203、电子设备100检测无噪语音信号中是否包括预设的目标语音信号。

其中，预设的目标语音信号可以是包括唤醒词的语音信号，和/或包括命令词的语音信号，和/或包括其他预设的指定关键词的语音信号。也即是说，对于目标语音的设置，本申请对此不做限制。其中，唤醒词可以用于触发电子设备100与用户进行语音交互，例如“你好YOYO”；命令词可以用于控制电子设备100执行相应的操作。

具体的，电子设备100可以从无噪语音信号中提取出对应的语音参数信息，该语音参数信息中包括无噪语音信号的文本信息。电子设备100可以判断该文本信息中是否包括指定关键词(例如，上述的唤醒词、命令词等)。若该文本信息中包括指定关键词，则无噪语音信号中包括预设的目标语音信号；若该文本信息中没有包括指定关键词，则无噪语音信号中没有包括预设的目标语音信号。

当电子设备100确定出无噪语音信号中包括预设的目标语音信号时，电子设备100执行步骤S204；当电子设备100确定出无噪语音信号中没有包括预设的目标语音信号时，电子设备100即结束本流程。

这样，可以避免用户在随意说话时，无意间误触发电子设备开启更新第一降噪模型的流程，进而增加电子设备的功耗。

S204、电子设备100基于无噪语音信号对应的语音参数信息进行语音合成，获取到多条无噪合成语音信号。

其中，无噪语音信号对应的语音参数信息可以包括：无噪语音信号对应的声学特征、无噪语音信号中的文本信息等。该多条无噪合成语音信号中，可以包括第一无噪合成语音信号和第二无噪合成语音信号，第二无噪合成语音信号的控制参数与第一无噪合成语音信号的控制参数不同。

具体的，语音合成的方法可以如图4A所示：

如图4A所示，语音合成的输入数据为：待合成文本、控制参数和声学特征。

其中，待合成文本可以是电子设备100从无噪语音信号提取出的文本信息，可以包括前述预设的指定关键词(例如，唤醒词/控制指令等)的文本信息；控制参数可以用于将待合成文本合成多种不同情景下的无噪合成语音信号。控制参数可以是预设的，也可以是基于用户输入的语音信号进行提取(例如，基于前述无噪语音信号提取和/或基于历史记录中的多条用户语音信号进行提取)。控制参数包括但不限于用于控制情绪、语速的矢量。情绪可以划分为：高兴、悲伤、恐惧、愤怒和中性(不喜不悲)等，语速可以被划分为：急速、快速、中速和缓慢等；声学特征可以指的是：与人类的发音机制的解剖学结构有关的特征(如频谱、倒频谱、共振峰、基频、能量、反射系数等等)。声学特征可以是电子设备100基于无噪语音信号提取的声学特征，也可以是基于历史记录中与上述无噪语音信号属于同一发声对象的音频信号所提取出的声学特征。也即是说，该步骤中所使用的声学特征，应与第一音频信号中无噪语音信号的声学特征相同，表征它们属于同一个发声对象，以便后续判断合成音频信号和第一音频信号的声纹相似性，使降噪效果的判断更加方便高效。

电子设备100可以基于上述输入，对待合成文本进行韵律标注，判断待合成文本间字词的停顿位置。然后，电子设备100可以将韵律标注后的待合成文本、控制参数、声学特征进行合成，并经过声码器调节生成对应的波形，以输出无噪合成语音信号。

在一些示例中，电子设备100也可以基于该步骤仅生成一条无噪合成语音信号，也即仅生成第一无噪合成语音信号。

S205、电子设备100将噪声信号叠加至多条无噪合成语音信号上，获取到多条合成音频信号。

具体的，电子设备100基于上述多条无噪合成语音信号叠加步骤S202中获取到的噪声信号的具体实施过程，可以是电子设备100将噪声信号的幅度、功率等参数，与每一条无噪合成语音信号的幅度、功率等参数在对应的时间点或频点上进行代数叠加，以获取到多条合成音频信号。其中，多条合成音频信号中可以包括第一合成音频信号和第二合成音频信号。

示例性的，例如多条无噪合成语音信号中，包括，高兴快速状态下的无噪合成语音信号、悲伤中速状态下的无噪合成语音信号、恐惧急速状态下的无噪合成语音信号。当高兴快速状态下的无噪合成语音信号，叠加噪声信号时，可以生成高兴快速状态对应的合成音频信号；当悲伤中速状态下的无噪合成语音信号，叠加噪声信号时，可以生成悲伤中速状态对应的合成音频信号；当恐惧急速状态下的无噪合成语音信号，叠加噪声信号时，可以生成恐惧急速状态对应的合成音频信号。

在一些示例中，电子设备100也可以基于该步骤以及前述仅生成的第一无噪合成语音信号，将噪声信号叠加至第一无噪合成语音信号上，以仅生成一条合成音频信号，也即仅生成第一合成音频信号。

S206、电子设备100判断多条合成音频信号的声纹是否与第一音频信号的声纹相似。

具体的，该步骤的实施方式可以如下：

a).电子设备100基于多条合成音频信号和第一音频信号进行声纹相似度计算，确定出第一值。

电子设备100可以基于声纹识别模型，使得多条合成音频信号中的每条合成音频信号，分别和第一音频信号进行声纹的相似度计算，得出每条合成音频信号对应的相似度计算值。然后，电子设备100可以基于每一条合成音频信号对应的相似度计算值，确定出第一值。第一值可以是多个相似度计算值的平均值，也可以是多个相似度计算值的中位值，本申请对此不作限制。其中，多条合成音频信号中的第一合成音频信号与第一音频信号进行声纹的相似度计算，可得出第一合成音频信号对应的第一相似度计算值；第二合成音频信号与第一音频信号进行声纹的相似度计算，可得出第二合成音频信号对应的第二相似度计算值。

其中，声纹识别模型可以是矢量量化(vector quantization，VQ)模型、动态时间规整法(dynamictimewarping，DTW)模型等模板模型(也可以被称为非参数模型)，也可以是高斯混合模型-全局通用模型(gaussian mixture model-universal background model，GMM-UBM)、高斯混合模型-支持向量机模型(gaussian mixture model-support vectormachine，GMM-SVM)、联合因子分析(joint factor analysis，JFA)模型、高斯混合模型-身份向量-概率线性判别分析(gaussian mixture model-identityvector-probabilisticlinear discriminant analysis，GMM-iVector-PLDA)、基于深度神经网络的身份向量-概率线性判别分析(deepneuralnetwork-identityvector-probabilistic lineardiscriminant analysis，DNN--iVector-PLDA)、端到端(Endto End)深度神经网络模型等等，本申请对此不作限制。

b).电子设备100基于第一值判断多条合成音频信号是否与第一音频信号相似。

具体的，不同的声纹识别模型对应不同的相似度计算方法，因此，在不同的相似度计算方法下，电子设备100可以取不同的阈值范围并判断第一值是否在该阈值范围内，以判断多条合成音频信号是否与第一音频信号相似。

示例性的，当电子设备100基于指定算法1(例如，曼哈顿距离算法、欧式距离算法等)进行相似度计算时，电子设备100可以判断第一值是否小于或等于指定阈值1(例如，0.2、0.1等)。当电子设备100确定出第一值小于或等于指定阈值1时，电子设备100即确定出多条合成音频信号与第一音频信号相似。当电子设备100确定出第一值大于指定阈值1时，电子设备100即确定出多条合成音频信号与第一音频信号不相似；当电子设备100基于指定算法2(可以被称为第一算法，例如，皮尔逊相关系数算法、余弦距离算法等)进行相似度计算时，电子设备100可以判断第一值是否大于或等于指定阈值2(可以被称为第一阈值，例如，0.8、0.9等)。当电子设备100确定出第一值大于或等于指定阈值2时，电子设备100即确定出多条合成音频信号与第一音频信号相似。电子设备100确定出第一值小于指定阈值2时，电子设备100确定出多条合成音频信号与第一音频信号不相似。

当电子设备100确定出多条合成音频信号的声纹与第一音频信号的声纹不相似时，电子设备100执行后续步骤；当电子设备100确定出多条合成音频信号的声纹与第一音频信号的声纹相似时，电子设备100即可结束流程。

在一些示例中，电子设备100可以基于声纹识别模型，对多条合成音频信号中的每条合成音频信号，分别和第一音频信号进行声纹的相似度计算，得出每条合成音频信号对应的相似度计算值。相似度计算方法可以是前述的指定算法1或指定算法2。当具有指定数值(例如，180、200等)的相似度计算值大于指定阈值1，或，小于指定阈值2时，电子设备100即可确定出多条合成音频信号与第一音频信号不相似。例如，电子设备100包括200条合成音频信号。电子设备100可以基于指定算法1或指定算法2，使得每一条合成音频信号分别和第一音频信号进行声纹的相似度计算，得出每条合成音频信号对应的相似度计算值。当有180个相似度计算值大于指定阈值1，或，小于指定阈值2时，电子设备100即可确定出多条合成音频信号与第一音频信号不相似。

在一些示例中，当电子设备100在前述步骤中仅生成了第一合成音频信号时，电子设备100可以基于指定算法1，对第一合成音频信号的声纹和第一音频信号的声纹进行相似度计算，确定出所述第一合成音频信号的第一相似度计算值。当电子设备100确定出第一相似度计算值大于指定阈值1时，电子设备100确定出所述第一合成音频信号的声纹与第一音频信号的声纹不相似，电子设备100可以执行后续步骤；电子设备100也可以基于指定算法2，对第一合成音频信号的声纹和第一音频信号的声纹进行相似度计算，确定出所述第一合成音频信号的第一相似度计算值。当电子设备100确定出第一相似度计算值小于指定阈值2时，电子设备100确定出所述第一合成音频信号的声纹与第一音频信号的声纹不相似，电子设备100可以执行后续步骤。

需要说明的是，上述示例性说明的相似度算法仅仅用于示例性解释本申请，并不对本申请构成任何限制。在具体的实现方式中，当电子设备100基于不同的相似度算法以计算每条合成音频信号对应的相似度计算值时，其对应的指定阈值1或指定阈值2的取值也可以不同。

这样，电子设备100实施判断多条合成音频信号是否与第一音频信号相似这一步骤，可以使得电子设备100及时获取到在指定噪声信号(例如，基于步骤S202确定出的噪声信号)对应的场景下，第一降噪模型的降噪效果。当电子设备100判断出多条合成音频信号与第一音频信号不相似时，电子设备100确定出第一降噪模型的降噪效果不好；当判断出多条合成音频信号与第一音频信号相似时，电子设备100确定出第一降噪模型的降噪效果好。电子设备100可以基于该步骤中获取到的降噪效果，确定是否更新第一降噪模型，以提升第一降噪模型对指定噪声信号的降噪精确度。

S207、当电子设备100确定出电子设备100满足更新条件时，电子设备100基于多条无噪合成语音信号和多条合成音频信号，更新第一降噪模型。

具体的，该步骤的实施例流程可以如图4B所示：

A).电子设备100获取到多条无噪合成语音信号和多条合成音频信号。

在一种可能的实现方式中，电子设备100该步骤获取到的多条无噪合成语音信号和多条合成音频信号，即是电子设备100在步骤S204-步骤S205所生成的多条无噪合成语音信号和多条合成音频信号。

在另一种可能的实现方式中，电子设备100在该步骤中获取到的无噪合成语音信号和合成音频信号的数量，可以不同于在步骤S204-步骤S205所生成的无噪合成语音信号和合成音频信号。示例性的，电子设备100可以在步骤S204-步骤S205生成了指定数量1(例如，100条、200条)的无噪合成语音信号和合成音频信号。当电子设备100基于步骤S206判断出指定数量1的合成音频信号与第一音频信号不相似时，电子设备100可以判断前述中的第一值与指定阈值1/指定阈值2之间差值的绝对值是否大于指定阈值3(可以被称为第二阈值，例如，0.1、0.2等)。当电子设备100确定出上述差值的绝对值大于指定阈值3时，电子设备100可以在该步骤中生成指定数量2(可以被称为第一数量，例如，5000条、6000条等)的无噪合成语音信号和合成音频信号；当电子设备100确定出上述差值的绝对值小于或等于指定阈值3时，电子设备100可以在该步骤中生成指定数量3(可以被称为第二数量，例如，2500条、3000条等)的无噪合成语音信号和合成音频信号。其中，电子设备100在该步骤中生成无噪合成语音信号和合成音频信号的过程，可以参考前述中的说明，在此不再赘述。该步骤中生成的无噪合成语音信号和合成音频信号可以存储在电子设备100的语料数据库中。并且，指定数量2大于指定数量3。也即是说，第一值接近指定阈值1/指定阈值2时，电子设备100可以在该步骤中生成较少数量的无噪合成语音信号和合成音频信号。这样，电子设备100根据相似度的计算情况来确定用于更新第一降噪模型的数据数量，在提高第一降噪模型的降噪精确度的同时，也可以提升第一降噪模型的更新效率，节省电子设备100的计算资源。

在一些示例中，若电子设备100仅生成了第一合成音频信号，并基于第一合成音频信号对应的第一相似度计算值确定出第一合成音频信号的声纹与第一音频信号的声纹不相似时，电子设备100可以判断第一相似度计算值与指定阈值1/指定阈值2之间差值的绝对值是否大于指定阈值3(例如，0.1、0.2等)。当电子设备100确定出上述差值的绝对值大于指定阈值3时，电子设备100可以在该步骤中生成指定数量2(例如，5000条、6000条等)的无噪合成语音信号和合成音频信号；当电子设备100确定出上述差值的绝对值小于或等于指定阈值3时，电子设备100可以在该步骤中生成指定数量3(例如，2500条、3000条等)的无噪合成语音信号和合成音频信号。电子设备100生成无噪合成语音信号和合成音频信号的过程，可以参考前述中的说明，在此不再赘述。

B).电子设备100判断电子设备100的状态是否满足更新条件。

具体的，为了实现无感知更新第一降噪模型，也就是说，为了避免在用户可能使用电子设备100的过程中进行第一降噪模型的更新从而占用电子设备100的运行进程，影响用户体验，则电子设备100在更新第一降噪模型之前，还需要检测电子设备100的状态，判断设备状态是否满足更新条件。当电子设备100的状态处于空闲状态、充电状态等等时，则电子设备100满足更新条件。

其中，判断电子设备100是否处于空闲状态具体可以通过时间检测和语音检测来确定。例如，当电子设备100检测到当前时间处于指定时间范围(例如，北京时间0点到7点，或北京时间23点到6点范围等)内，和/或，电子设备100通过麦克风检测到环境噪声低于阈值且没有用户语音，则认为此时用户处于睡眠状态，使用电子设备100的可能性较小，因此确认电子设备100此时处于空闲状态。本申请实施例对检测电子设备100是否处于空闲状态的方法具体不作限制。例如，在本申请其他一些实施例中，电子设备100还可以通过智能学习用户使用电子设备的习惯，来判断电子设备100是否处于空闲状态。

在一些示例中，电子设备100也可以通过充电管理模块确定电子设备100是否处于充电状态，并根据该状态判断电子设备100是否满足更新条件。

C).当电子设备100确定出电子设备100满足更新条件时，电子设备100基于A)中的多条无噪合成语音信号和多条合成音频信号，更新第一降噪模型。

其中，电子设备100更新第一降噪模型，也即是电子设备100基于A)中的多条无噪合成语音信号和多条合成音频信号，更新第一降噪模型中RNN结构里所包含的部分或全部权重值以及部分或全部偏置值，以使得损失函数最值化(例如，使得损失函数最大或最小)。

示例性的过程可以是：电子设备100可以根据指定数值间隔(例如，0.001、0.002等)调整RNN结构中所包含的部分权重值和部分偏置值。当电子设备100每一次调整部分权重值和部分偏置值时，电子设备100可以得到包括新权重值和新偏置值的第一降噪模型。电子设备100可以基于该第一降噪模型对A)中的多条合成音频信号进行降噪处理。然后，电子设备100可以基于降噪后的数据和A)中的多条无噪合成语音信号计算损失函数。电子设备100可以基于使得损失函数最值化的权重值以及偏置值确定出更新后的第一降噪模型。其中，损失函数可以包括：理想二值掩蔽(ideal binary mask，IBM函数、理想比值掩蔽(idealratiomask，IRM)函数、相位敏感掩蔽(phase sensitive mask，PSM)函数、尺度不变信号失真比(scale-invariant source-to-noise ratio，Si-SNR)函数、信号失真比(source-to-noise_ratio，SDR)函数等等。

示例性的，以SDR函数为例，其表达式为：

其中，s表示无噪合成语音信号，

表示基于合成音频信号降噪后的无噪语音信号，

和/>

为欧几里得范数。

又示例性的，以Si-SNR函数为例，其表达式为：

其中

中<,>表示向量的点乘,即s和/>

进行乘积再求和的运算。e_noise为合成音频信号通过降噪提取的噪声信号。/>

和/>

为欧几里得范数。

需要说明的时，上述表示的损失函数及其变量仅仅用于示例性解释本申请，在实际应用中，上述损失函数可以包括其他变量，也可以增加或减少变量，也可以具有不一样的变量定义，本申请对此不做限制。

在一种可能的实现方式中，当电子设备100确定出多条合成音频信号与第一音频信号相似时，即是表明电子设备100可以基于第一降噪模型对第一音频信号中的噪声信号进行准确识别，因此，电子设备100可以结束本流程。

当电子设备100执行完图2所示流程，确定出更新后的第一降噪模型时，电子设备100可以基于该更新后的第一降噪模型对第二音频信号进行降噪处理，和/或，基于第二音频信号再次更新第一降噪模型。电子设备100对第二音频信号进行降噪处理的过程和/或基于第二音频信号再次更新第一降噪模型的过程，可以参考前述图2所示的流程，在此不再赘述。其中，电子设备100基于第一降噪模型从第二音频信号中确定出的噪声信号可以被称为第二噪声信号，从第二音频信号中确定出的无噪语音信号可以被称为第二无噪语音信号。电子设备100可以输出该第二无噪语音信号。

在一些实施例中，电子设备100可以基于多个音频信号更新第一降噪模型。其中，多个可以指两个或两个以上。例如，电子设备100可以基于第一音频信号和第三音频信号执行图2所示的流程，分别从第一音频信号和第三音频信号中确定出各自对应的噪声信号和无噪语音信号，以更新第一降噪模型。

接下来，结合UI实施例来介绍应用本申请提供的噪声处理方法的相关场景。

请参考图5A-图5E：开启更新第一降噪模型功能的用户界面示意图。

如图5A所示，电子设备100可以显示出桌面50。该桌面50中可以显示有一个或多个应用图标。其中，该一个或多个应用图标可以包括天气应用图标、股票应用图标、计算器应用图标、设置应用图标501、邮件应用图标、主题应用图标、日历应用图标和视频应用图标等。可选的，桌面50中还可以显示有状态栏、页面指示符和托盘图标区域。其中，状态栏可以包括移动通信信号(又可以称为蜂窝信号)的一个或多个信号强度指示符、无线保真(wireless fidelity，Wi-Fi)信号的信号强度指示符、电池状态指示符、时间指示符等等。页面指示符可以用于表明当前显示的页面与其他页面的位置关系。托盘图标区域包括有多个托盘图标(例如拨号应用图标、信息应用图标、联系人应用图标、相机应用图标等等)，托盘图标在页面切换时保持显示。上述页面也可以包括多个应用图标和页面指示符，页面指示符可以不是页面的一部分而单独存在，上述托盘图标也是可选的，本申请实施例对此不作限制。

电子设备100可以接收到用户作用于设置应用图标501上的触摸操作(例如，点击)，响应于该触摸操作，电子设备100可以显示出设置界面。

如图5B所示，电子设备100可以显示出设置界面51。该设置界面51可以显示有多个设置选项，包括智慧助手选项511等。电子设备100接收到用户作用于智慧助手选项511上的触摸操作(例如，点击)。响应于该触摸操作，电子设备100可以显示出智慧助手界面。

如图5C所示，电子设备100可以显示出智慧助手界面52。该智慧助手界面52可以包括智慧助手提供的一系列功能，例如智慧语音选项521等。电子设备100可以接收到用户作用于智慧语音选项521上的触摸操作(例如，点击)。响应于该触摸操作，电子设备100可以显示出智慧语音界面。

如图5D所示，电子设备100可以显示出智慧语音界面53。该智慧语音界面53可以显示有语音唤醒对应的开关控件，该开关控件保持开启状态；还可以显示有智能降噪对应的开关控件531，该开关控件531保持关闭状态。电子设备100可以接收到用户作用于开关控件531上的触摸操作(例如，点击)。响应于该触摸操作，如图5E所示，电子设备100可以使得开关控件531呈现出开启状态，这样，电子设备100可以实施本申请提供的噪声处理方法，使得电子设备100可以在自身状态满足更新条件的情况下，更新第一降噪模型。

请参考图5F-图5G：当用户处于降噪效果较差的环境时，电子设备100显示出第一提示信息。

如图5F所示，当用户处于第一场景(例如，公路场景、体育馆场景、商场等嘈杂场景)时，电子设备100可以接收到用户对电子设备100发出的语音信号，例如“你好YOYO”。同时电子设备100也可以接收到第一场景中的噪声信号。该第一场景中的噪声信号和用户发出的语音信号可以叠加为图2所示实施例中的第一音频信号。电子设备100可以基于该第一音频信号和本申请实施例提供的噪声处理方法进行降噪处理。电子设备100在步骤S206判断出多条合成音频信号与第一音频信号不相似时，电子设备100可以显示出第一提示信息。

如图5G所示，电子设备100可以在桌面50上显示出提示框502。该提示框502中可以包括第一提示信息，以用于提示用户当前场景的降噪效果较差。该第一提示信息可以是文本信息，例如图5G所示的“当前通话质量差，建议更换场景”。提示框502中还可以包括控件502A。该控件502A可以用于接收用户作用于其上的触摸操作(例如，点击)。响应于该触摸操作，电子设备100可以不再显示出第一提示信息。

需要说明的是，电子设备100可以在任意界面(例如，应用运行时的界面、视频界面等)显示出第一提示信息。并且，第一提示信息可以是电子设备100输出的语音信息或者图片信息，以用于提示用户当前场景的降噪效果较差。也即是说，关于第一提示信息的输出形式，本申请对此不作限制。

请参考图5H-图5I：电子设备100基于其他电子设备发送的视频，实施本申请提供的噪声处理方法。

如图5H所示，电子设备100可以接收到由其他电子设备发送的视频。电子设备100可以显示出视频界面54。该视频界面54可以包括视频画面、时间进度条、控件541等等。电子设备100可以接收到用户作用于控件541上的触摸操作(例如，点击)。响应于该触摸操作，如图5I所示，电子设备100可以在视频界面54上显示出窗口542。该窗口542可以包括控件542A和“更多设置”控件。该控件542A上可以显示有文本信息“音质提纯”。电子设备100可以接收到用户作用于控件542A上的触摸操作(例如，点击)。响应于该触摸操作，电子设备100可以基于该视频所包含的音频信号实施本申请提供的噪声处理方法，更新第一降噪模型。

请参考图5J：当电子设备100确定出电子设备100满足更新条件且开始更新第一降噪模型时，电子设备100可以显示出第二提示信息，该第二提示信息用于提示用户电子设备100更新降噪模型。

如图5J所示，电子设备100通过麦克风检测到环境噪声低于阈值且没有用户输入时，电子设备100可以确定出电子设备100处于空闲状态，满足更新条件。电子设备100开始更新第一降噪模型。电子设备100可以在桌面50中显示出提示框503。该提示框503可以包括第二提示信息，以用于提示用户电子设备100开始更新降噪模型。该第二提示信息可以是文本信息，例如图5J所示的“开始对降噪方法进行优化”。提示框503中还可以包括控件503A。该控件503A可以用于接收用户作用于其上的触摸操作(例如，点击)。响应于该触摸操作，电子设备100可以不再显示出第二提示信息。

需要说明的是，电子设备100可以在任意界面(例如，应用运行时的界面、视频界面等)显示出第二提示信息。并且，第二提示信息可以是电子设备100输出的语音信息或者图片信息，以用于提示用户当前场景的降噪效果较差。也即是说，关于第二提示信息的输出形式，本申请对此不作限制。

在一种可能的实现方式中，当电子设备100显示出第二提示信息，电子设备100可以不更新第一降噪模型。当电子设备100接收并响应于用户作用在控件503A上的输入时，电子设备100再开始对第一降噪模型进行更新。

需要说明的是，上述用户界面仅仅用于示例性解释本申请，在实际应用过程中，用户界面中的元素可以与本申请示例的用户界面不同。或者，实际应用中也可以没有上述用户界面所示出的操作步骤。本申请对此不作限制。

下面，介绍本申请实施例中应用于电子设备100上的软件架构。

请参考图6，图6示例性示出了本申请实施例提供的一种应用于电子设备100上的软件架构示意图。

如图6所示，分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图6所示，应用程序包可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图6所示，应用程序框架层可以包括窗口管理器、内容提供器、师徒系统、电话管理器、资源管理器、通知管理器等等。

窗口管理器可以用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏、锁定屏幕、截取屏幕等。

内容提供其可以用来存放和获取数据，并使得这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听电话、浏览历史和书签、电话簿等。

视图系统可以包括可视控件，例如显示文字的控件、显示图片的控件等。视图系统可以用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器可以用于提供电子设备100的通信功能。例如通话状态的管理(包括接通、挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使得应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动。

在本申请实施例中，内核层还可以包括第一降噪模型。该第一降噪模型可以用于实施图2实施例所示的噪声处理方法，例如从第一音频信号中确定出噪声信号和无噪语音信号、第一降噪模型的更新等。

在一种可能的实现方式中，内核层和系统库层之间还可以包括硬件抽象层(hardware a bstraction layer，HAL)。第一降噪模型可以位于该HAL层中。

下面结合捕获拍照场景，示例性说明电子设备100软件以及硬件的工作流程。

当触摸传感器接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头捕获静态图像或视频。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种噪声处理方法，其特征在于，包括：

电子设备获取到第一音频信号；

所述电子设备基于第一降噪模型，从所述第一音频信号中确定出第一噪声信号和第一无噪语音信号；

所述电子设备从所述第一无噪语音信号中提取出对应的语音参数信息；

所述电子设备基于所述第一噪声信号和所述第一无噪语音信号的语音参数信息，生成第一合成音频信号；

当所述电子设备确定出所述第一合成音频信号的声纹与所述第一音频信号的声纹不相似时，所述电子设备生成指定数量的无噪合成语音信号和所述指定数量的合成音频信号；

当所述电子设备确定出所述电子设备处于空闲状态时，所述电子设备基于所述指定数量的无噪合成语音信号和所述指定数量的合成音频信号，更新所述第一降噪模型。

2.根据权利要求1所述的方法，其特征在于，所述电子设备基于所述第一噪声信号和所述第一无噪语音信号的语音参数信息，生成第一合成音频信号，具体包括：

所述第一无噪语音信号的语音参数信息，包括所述第一无噪语音信号的文本信息和所述第一无噪语音信号的声学特征；

当所述电子设备确定出所述第一无噪语音信号的文本信息中包括指定关键词时，所述电子设备基于所述第一无噪语音信号的文本信息、所述第一无噪语音信号的声学特征和控制参数，生成第一无噪合成语音信号；

所述电子设备叠加所述第一噪声信号至所述第一无噪合成语音信号，生成所述第一合成音频信号。

3.根据权利要求2所述的方法，其特征在于，所述电子设备基于所述第一噪声信号和所述第一无噪语音信号的语音参数信息，生成第一合成音频信号，具体还包括：

所述电子设备基于所述第一无噪语音信号的文本信息、所述第一无噪语音信号的声学特征和控制参数，生成第二无噪合成语音信号；其中，所述第二无噪合成语音信号的控制参数与所述第一无噪合成语音信号的控制参数不同；

所述电子设备叠加所述第一噪声信号至所述第二无噪合成语音信号，生成第二合成音频信号；

当所述电子设备确定出所述第一合成音频信号的声纹与所述第一音频信号的声纹不相似时，所述电子设备生成指定数量的无噪合成语音信号和所述指定数量的合成音频信号，具体包括：

当所述电子设备确定出所述第一合成音频信号的声纹、所述第二合成音频信号的声纹与所述第一音频信号的声纹互不相似时，所述电子设备生成指定数量的无噪合成语音信号和所述指定数量的合成音频信号。

4.根据权利要求2或3所述的方法，其特征在于，所述控制参数包括：

用于控制情绪的矢量和/或用于控制语速的矢量。

5.根据权利要求4所述的方法，其特征在于，

情绪包括以下一种或多种：高兴、悲伤、恐惧和愤怒；

语速包括以下一种或多种：急速、快速、中速和缓慢。

6.根据权利要求1所述的方法，其特征在于，当所述电子设备确定出所述第一合成音频信号的声纹与所述第一音频信号的声纹不相似时，所述电子设备生成指定数量的无噪合成语音信号和所述指定数量的合成音频信号之前，所述方法还包括：

所述电子设备基于第一算法，对所述第一合成音频信号的声纹和所述第一音频信号的声纹进行相似度计算，确定出所述第一合成音频信号的第一相似度计算值；

当所述电子设备确定出所述第一相似度计算值小于第一阈值时，所述电子设备确定出所述第一合成音频信号的声纹与所述第一音频信号的声纹不相似。

7.根据权利要求3所述的方法，其特征在于，当所述电子设备确定出所述第一合成音频信号的声纹、所述第二合成音频信号的声纹与所述第一音频信号的声纹互不相似时，所述电子设备生成指定数量的无噪合成语音信号和所述指定数量的合成音频信号之前，所述方法还包括：

所述电子设备基于所述第一算法，对所述第二合成音频信号的声纹和所述第一音频信号的声纹进行相似度计算，确定出所述第二合成音频信号的第二相似度计算值；

所述电子设备基于所述第一相似度计算值和所述第二相似度计算值，确定出第一值；

当所述电子设备确定出所述第一值小于第一阈值时，所述电子设备确定出所述第一合成音频信号的声纹、所述第二合成音频信号的声纹与所述第一音频信号的声纹互不相似。

8.根据权利要求7所述的方法，其特征在于，所述电子设备确定出所述第一合成音频信号的声纹、所述第二合成音频信号的声纹与所述第一音频信号的声纹互不相似时，所述电子设备生成指定数量的无噪合成语音信号和所述指定数量的合成音频信号，具体包括：

所述电子设备确定出所述第一值与所述第一阈值间的差值；

当所述电子设备确定出所述差值的绝对值大于第二阈值时，所述电子设备生成第一数量的无噪合成语音信号和所述第一数量的合成音频信号；

当所述电子设备确定出所述差值的绝对值小于或等于所述第二阈值时，所述电子设备生成第二数量的无噪合成语音信号和所述第二数量的合成音频信号；其中，所述第一数量大于所述第二数量。

9.根据权利要求1所述的方法，其特征在于，当所述电子设备确定出所述电子设备处于空闲状态时，所述电子设备基于所述指定数量的无噪合成语音信号和所述指定数量的合成音频信号，更新所述第一降噪模型之前，所述方法还包括：

当所述电子设备检测到当前时间处于指定时间范围内，和/或，所述电子设备通过麦克风检测到环境噪声的音量低于阈值且没有用户语音时，所述电子设备确定出所述电子设备处于空闲状态。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述电子设备获取到第二音频信号；

所述电子设备基于更新后的第一降噪模型，从所述第二音频信号中确定出第二噪声信号和第二无噪语音信号；

所述电子设备输出所述第二无噪语音信号。

11.一种电子设备，其特征在于，包括：一个或多个处理器、一个或多个存储器和显示屏；所述一个或多个存储器与一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-10中的任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-10中的任一项所述的方法。

13.一种芯片或芯片系统，其特征在于，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行如权利要求1-10中任一项所述的方法。