CN116546126A - 一种杂音抑制方法及电子设备 - Google Patents

一种杂音抑制方法及电子设备 Download PDF

Info

Publication number
CN116546126A
CN116546126A CN202310831323.4A CN202310831323A CN116546126A CN 116546126 A CN116546126 A CN 116546126A CN 202310831323 A CN202310831323 A CN 202310831323A CN 116546126 A CN116546126 A CN 116546126A
Authority
CN
China
Prior art keywords
frequency
loudness
response data
frequency response
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310831323.4A
Other languages
English (en)
Other versions
CN116546126B (zh
Inventor
刘金麟
李方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202310831323.4A priority Critical patent/CN116546126B/zh
Publication of CN116546126A publication Critical patent/CN116546126A/zh
Application granted granted Critical
Publication of CN116546126B publication Critical patent/CN116546126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本申请公开一种杂音抑制方法及电子设备,可应用于电子技术领域,包括:获取目标语音信号中响度值大于响度阈值的频点,然后根据频点与第一增益值的对应关系,确定频点对应的第一增益值,利用第一增益值调整频点的响度,得到第一频响数据,根据第一频响数据和预先训练的杂音抑制模型,确定各分帧的频响数据分别对应的标志位,依次根据各分帧的频响数据分别对应的标志位,对各分帧的频响数据的响度进行调节,这样先利用第一增益值调整频点的响度,然后再通过标志位,对各分帧的频响数据的响度进行调节,就可以对产生杂音的频点的响度进行抑制,从而也就抑制了听筒中产生的杂音,以达到提升用户听感的目的。

Description

一种杂音抑制方法及电子设备
技术领域
本申请涉及电子技术领域,尤其涉及一种杂音抑制方法及电子设备。
背景技术
目前,电子设备如手机上均会配备听筒,电子设备可以通过听筒接听电话或语音信息等。
但是,为了秉持轻薄的设计理念,往往需要压缩听筒在电子设备中所占的空间,这样就会导致听筒的结构发生变化,进而存在出音管道异形以及出音面积狭窄等问题。
这种结构的听筒,如若接收到低频信号,即可激发较大振幅,使得声音气流流速过大,导致听筒输出的音频中产生杂音。
发明内容
本申请提供一种杂音抑制方法,解决了低频信号在出音管道异形以及出音面积狭窄等结构的听筒上容易产生杂音的问题。以抑制听筒中产生的杂音,使得达到提升用户听感的目的。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请提供一种杂音抑制方法,该方法可以应用于电子设备,包括,
获取目标语音信号中响度值大于响度阈值的频点,然后根据频点与第一增益值的对应关系,确定频点对应的第一增益值,利用第一增益值调整频点的响度,得到第一频响数据,根据第一频响数据和预先训练的杂音抑制模型,确定各分帧的频响数据分别对应的标志位,依次根据各分帧的频响数据分别对应的标志位,对各分帧的频响数据的响度进行调节,这样先利用第一增益值调整频点的响度,然后再通过标志位,对各分帧的频响数据的响度进行调节,就可以对产生杂音的频点的响度进行抑制,从而也就抑制了听筒中产生的杂音,解决了低频信号在出音管道异形以及出音面积狭窄等结构的听筒上容易产生杂音的问题,使得达到提升用户听感的目的。
具体的,可以根据标志位的值与预设的杂音信号抑制值的乘积确定增益值,这里的增益值也可以叫做第二增益值,例如,若杂音需要抑制-6dB,那么标志位为0.5时则表示该分帧信号需要抑制-3dB,对应的第二增益值就为-3dB,若杂音需要抑制-8dB,那么标志位为0.5时则表示该分帧信号需要抑制-4dB,对应的第二增益值就为-4dB。
在某些可能实现的方式中,为了对目标信号中的不同频段分别进行处理,可以采用多带动态范围压缩MBDRC算法。可以将目标语音信号,划分为不同子频带,以宽带语音信号为例,可以将其分为三个频带,100-500Hz、500-4kHz、4k-8kHz ,分频之后则只对预设频段中产生杂音的频点进行压缩,比如说,预先设置对100-500Hz频段中的产生杂音的频点进行压缩,则分频之后只对100-500Hz频段中的产生杂音的频点进行压缩,其余频段则不进行压缩,从而可以得到第一频响数。
在某些可能实现的方式中,杂音抑制模型可以通过以下方式训练:
输入产生杂音的语音信号,然后对产生杂音的语音信号进行特征提取,获得语音信号的时域特征、频域特征以及能量特征,然后计算得到训练目标,即语音信号中是否包含杂音,然后根据时域特征、频域特征、能量特征以及训练目标,基于一定的判别准则对对初始杂音抑制模型进行训练得到杂音抑制模型。
在某些可能实现的方式中,还可以通过虚拟低音算法对第二频响数据进行低音补偿。
具体的,可以通过高通滤波器和低通滤波器对第二频响数据进行分频操作。滤波得到低频信号后,可以确定低频信号对应的音源类型,其中低频信号也可以叫低频数据,然后根据输入音源类型产生相应“缺失”低频的谐波成分,然后通过对低频的谐波成分的比例进行调整以接近真实听感,并可以利用带通滤波器过滤掉语音频带外的多余能量,得到虚拟增强后的低频信号。
高通滤波得到的高频信号,也可以叫高频数据,然后需要进行延时控制,使得高频部分与经过虚拟低音处理过得音频在混合时无时间差。最后,将处理后得高频信号与虚拟增强后的低频信号进行混合,即可得到完整的经过低音补偿的语音信号。也就是第三皮频响数据,至此,因抑制低频杂音而引起的音质损失,经由虚拟低音增强算法可以得到有效补偿。
在某些可能实现的方式中,可以将经过低音补偿的第二频响数据为第三频响数据,然后对第三频响数据的响度进行补偿。
具体的,可以判断第三频响数据中的每个分帧数据是否为包含人声的语音数据,若分帧数据为包含人声的语音数据,将分帧数据的响度值提升至预设阈值,以对第三频响数据的响度进行补偿。
其中,判断第三频响数据中的每个分帧数据是否为包含人声的语音数据,具体可以为:
确定分帧数据的频域特征,将频域特征对应的特征值与预设范围进行比较,以确定所述特征值对应的分帧数据是否包含人声的语音数据,若特征值处于预设范围中,则判断该特征值对应的分帧信号为包含人声的语音信号,若大于预设范围的上限,则判断该特征值对应的分帧信号为不包含人声的语音信号,其中,预设范围为包括人声的频域特征对应的特征值的取值范围。
第二方面,本申请提供了一种电子设备,包括:处理器和存储器;
在所述存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令;当所述指令被所述处理器执行时,使得所述电子设备执如第一方面中任一项所述的方法。
第三方面,本申请提供了一种计算机存储介质,包括计算机指令,当所述计算机指令在移动终端上运行时,使得所述电子设备执如第一方面中任一项所述的方法。
由上述技术方案可知,本申请具有如下有益效果:
电子设备可以对目标信号中的每帧分帧信号进行幅度检测,获取目标语音信号中响度值大于响度阈值的频点,然后根据频点与第一增益值的对应关系,确定频点对应的第一增益值,利用第一增益值调整频点的响度,得到第一频响数据,根据第一频响数据和预先训练的杂音抑制模型,确定各分帧的频响数据分别对应的标志位,依次根据各分帧的频响数据分别对应的标志位,对各分帧的频响数据的响度进行调节。这样先利用第一增益值调整频点的响度,然后再通过标志位,对各分帧的频响数据的响度进行调节,可以对产生杂音的频点的响度进行抑制,从而也就抑制了听筒中产生的杂音,解决了低频信号在出音管道异形以及出音面积狭窄等结构的听筒上容易产生杂音的问题,使得达到提升用户听感的目的。
附图说明
图1为本申请实施例提供的一种电子设备的组成示例图;
图2为本申请实施例提供的一种电子设备的软件结构示例图;
图3为本申请实施例提供的一种应用场景的示意图;
图4为本申请实施例提供的一种听筒结构示意图;
图5为本申请实施例提供的一种杂音抑制方法的流程图;
图6为本申请实施例提供的一种动态范围压缩的输入输出示意图;
图7为本申请实施例提供的一种多带动态范围压缩的原理图;
图8为本申请实施例提供的一种多带动态范围压缩的示例图;
图9为本申请实施例提供的一种杂音抑制的原理图;
图10为本申请实施例提供的一种杂音抑制模型训练的原理图;
图11为本申请实施例提供的一种低音补偿的原理图;
图12为本申请实施例提供的一种响度提升的原理图。
具体实施方式
本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
听筒,也称受话器,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以将听筒靠近人耳,以使人耳接收听筒输出的语音信号。
但是,为了秉持轻薄的设计理念,往往需要压缩听筒在电子设备中所占的空间,这样就会导致听筒的结构发生变化,进而存在出音管道异形以及出音面积狭窄等问题。
这种结构的听筒,如若接收到低频信号,即可激发较大振幅,使得声音气流流速过大,导致听筒输出的音频中产生杂音。
有鉴于此,本申请提供的一种杂音抑制方法及电子设备,可以对目标信号中的每帧音频信号进行幅度检测,也就是说,对目标语音对应的频响曲线中的每帧信号可能产生杂音的频点进行检测,然后,根据检测到的频点的响度值进行相应的增益计算,根据增益值对频响曲线进行动态范围压缩,然后将经过动态范围压缩处理后的目标语音信号输入至预先训练的模型,输出标志位,根据标志位对目标语音信号中可能产生的杂音的分帧信号进行抑制,这样也就抑制了听筒中产生的杂音,解决了低频信号在出音管道异形以及出音面积狭窄等结构的听筒上容易产生杂音的问题,使得达到提升用户听感的目的。
在一些实施例中,电子设备可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant,PDA)、可穿戴电子设备、智能手表等设备,本申请对上述电子设备的具体形式不做特殊限制。在本实施例中,电子设备的结构可以如图1所示,图1为本申请实施例提供的一种电子设备的结构示意图。
如图1所示,电子设备可以包括处理器110,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
其中,控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse codemodulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口等。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中,电子设备可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
另外,在上述部件之上,运行有操作系统。例如苹果公司所开发的iOS操作系统,谷歌公司所开发的Android开源操作系统,微软公司所开发的Windows操作系统等。在该操作系统上可以安装运行应用程序。
电子设备的操作系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备的软件结构。
图2是本申请实施例的电子设备的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用层,框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用层可以包括一系列应用程序包。如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。
框架层为应用层的应用程序提供应用编程接口(application programminginterface,API)和编程框架。框架层包括一些预先定义的函数。如图2所示,框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用层和框架层运行在虚拟机中。虚拟机将应用层和框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
需要说明的是,本申请实施例虽然以Android系统为例进行说明,但是其基本原理同样适用于基于iOS、Windows等操作系统的电子设备。
目前,电子设备如手机上均会配备听筒,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以将听筒靠近人耳,以使人耳接收听筒输出的语音信号。下面以通话场景为例进行介绍。例如,如图3所示,用户A与用户B通过电子设备A和电子设备B进行通话,当用户A说话时,用户A可以靠近电子设备B的麦克风170C发出声音信号,电子设备B的麦克风可以接收声音信号,然后通过天线将电磁波形式的声音信号辐射出去。
电子设备A的天线可以接收电子设备B发出的电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调,调制解调处理器种的解调器可以将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,也就是说应用处理器可以将低频基带信号传送至听筒,听筒将低频基带的电信号转换成声音信号,最后输出,使得用户B接收到用户A发出的声音信号,完成通话。
在目前的电子设备中,为了秉持轻薄的设计理念,往往会使听筒采用偏心设计,以压缩听筒在电子设备中所占的空间,这样就会导致听筒的结构发生变化,如图4所示的听筒结构示意图,图4中的听筒由前盖A、振膜B、球顶C、外壳D、音圈E、华司F、盆架G、磁铁H、出生孔及防尘网I等部件组成。
具体地,前盖A与振膜B构成前腔,可以改善声音特性;球顶C的作用是提高振膜刚性,改善高频性能;外壳D提供器件整体结构与强度;磁铁H用于产生稳定的磁场;华司F完成导磁功能;音圈E在通电时,产生一定作用力;在音圈E运动时,带动振膜B运动,从而推动空气产生声音;盆架G完成导磁功能,同时提供整个器件的骨架。这种结构的听筒可能会存在出音管道异形以及出音面积狭窄等问题。
当接收到低频信号例如500Hz以下的信号时,由于低频信号的波长较长,因此小信号即可激发振膜较大的振幅,使得声音气流流速过大,气流在腔体内容易形成湍流并产生流致噪声,流致噪声经过腔体共振放大,在频率较高的高频谐振峰附近形成宽频的能量集中分布,形成人们主观听音中的气流杂音,导致听筒输出的音频中产生杂音。
为了解决上述低频信号在出音管道异形以及出音面积狭窄等结构的听筒上容易产生杂音的问题。本申请提供一种杂音抑制方法,以抑制听筒中产生的杂音,使得达到提升用户听感的目的。
为了使本申请的技术方案更加清楚、易于理解,下面结合上述实施例及相应的附图,对本申请实施例提供的内存页分配方法进行介绍。参见图5所示的杂音抑制方法的流程图。下面以电子设备为该方法的执行主体进行介绍,如图5所示,该杂音抑制方法可以包括但不限于如下内容:
S501:对目标语音信号进行动态范围压缩。
电子设备对目标语音信号进行动态范围压缩,其中,目标语音信号可以为电子设备接收到的语音信号,或者需要通过听筒输出的语音信号,动态范围压缩DRC通过抑制幅度较大的信号与抬升幅度较小的信号,实现减小或压缩音频信号动态范围的目的。
具体的,通过DRC算法可以对目标语音信号中的每帧分帧信号进行幅度检测,获取目标语音信号中响度值大于响度阈值的频点,其中,需要说明的是大于响度阈值表征频点为产生杂音的频点,响度阈值可以根据需求预先设置,然后可以对每帧信号中产生杂音的频点进行检测,根据检测到的频点的响度值与增益值的对应关系,进行相应的增益计算,这里的增益值也可以叫做第一增益值,也就是说,可以根据频点与第一增益值的对应关系,确定频点对应的第一增益值利用第一增益值调整频点的响度,可以得到第一频响数据。
在某些可能实现的方式中,目标语音信号中响度值大于响度阈值的频点可能是多个,则可以根据频点与第一增益值的对应关系,分别确定每个频点对应的第一增益值,利用每个第一增益值调整对应频点的响度,可以得到第一频响数据,也就是经过动态范围压缩处理后的目标语音信号。
示例性的,如图6所示,响度阈值可以设置为-13dB,也就是a点的响度值,A曲线为经过动态范围压缩之前的曲线,由于没有经过动态范围压缩处理,所以A曲线横坐标输入的响度值与纵坐标输出的响度值相等。B曲线为经过动态范围压缩的曲线,可以看出B曲线中,响度值大于-13dB的频点,都受到了不同程度的压缩,其压缩之前的响度值与对应增益值的关系(频点与第一增益值的对应关系),可以根据需求预先设置,例如以b点为例,压缩之前的频点的响度值为0dB,确定对应需要调整的第一增益值为-7dB,则压缩之后输出的响度值为-7dB,再比如,压缩之前的频点的响度值为-5dB,确定对应需要调整的第一增益值可以为-6dB,压缩之后输出的响度值为-11dB。
在某些可能实现的方式中,为了避免增益处理过程中的信号跳变,可以对目标语音信号中的音频信号做平滑处理,使得分帧信号更加平滑。
在某些可能实现的方式中,为了对目标信号中的不同频段分别进行处理,可以采用多带动态范围压缩MBDRC算法。多带动态范围压缩的基本原理,可以如图7所示,可以将目标语音信号,划分为不同子频带,然后分别进行DRC处理。
具体的,如图8所示,横坐标为频率,纵坐标为幅度,以宽带语音信号为例,可以将其分为三个频带,100-500Hz、500-4kHz、4k-8kHz ,分频之后则只对预设频段中产生杂音的频点进行压缩,比如说,预先设置对100-500Hz频段中的产生杂音的频点进行压缩,则分频之后只对100-500Hz频段中的产生杂音的频点进行压缩,其余频段则不进行压缩,从而可以得到第一频响数据。
MBDRC算法与DRC算法的核心思想类似,区别仅为在增益处理前增加了对输入的目标语音信号进行分频的操作。这样对不同频带进行分开处理,有效提高了信号处理的灵活性,也满足了不同频带进行不同增益控制的需求。最后,将不同频带的信号进行融合,即可得到处理后的信号。
S502:将经过动态范围压缩处理后的目标语音信号输入至预先训练的模型,输出标志位。
标志位用于表示第一频响数据中每个分帧信号中杂音信号的出现程度,其中,分帧信号也可以叫做分帧的频响数据,标志位也可以理解为是该分帧的频响数据进行响度调节时的增益权重其可以是0到1之间的数字。
具体的,如图9所示,图9示出了一种杂音抑制的原理图,举例说明,该第一频响数据中包括多帧分帧信号,对每个分帧信号进行特征提取,获得每个分帧信号的音频特征,其中音频特征包括:时域特征、频域特征以及能量特征,然后根据预先训练好的杂音抑制模型,对杂音抑制模型进行解码,通过对每个分帧信号的音频特征分别进行判断,可以输出多个标志位,也就是多个0到1之间的数字,每个数字对应表示一个分帧信号出现杂音的程度,其中,1表示分帧信号是杂音,0表示分帧信号不是杂音。如果是0到1之间,则表示该分帧信号介于杂音和非杂音之间。根据标志位的值与预设的杂音信号抑制值的乘积确定增益值,这里的增益值也可以叫做第二增益值,例如,若杂音需要抑制-6dB,那么标志位为0.5时则表示该分帧信号需要抑制-3dB,对应的第二增益值就为-3dB,若杂音需要抑制-8dB,那么标志位为0.5时则表示该分帧信号需要抑制-4dB,对应的第二增益值就为-4dB。以实现对输入的目标语音信号中可能产生的杂音进行抑制,得到第二频响数据。
在某些可能实现的方式中,还可以预先对该杂音抑制模型进行训练。
具体的,如图10所示,首先输入信号,需要说明的是这里的输入的信号为产生杂音的语音信号,然后对产生杂音的语音信号进行特征提取,获得语音信号的时域特征、频域特征以及能量特征,然后计算得到训练目标,即语音信号中是否包含杂音,然后根据时域特征、频域特征、能量特征以及训练目标,基于一定的判别准则对对初始杂音抑制模型进行训练得到杂音抑制模型,其中一定的判别准则可以是人工进行判别,然后对杂音抑制模型的参数进行调整,当然本领域技术人员也可以想到通过其他方式对初始杂音抑制模型进行训练,在此不做限定。
电子设备可以对目标信号中的每帧分帧信号进行幅度检测,获取目标语音信号中响度值大于响度阈值的频点,然后根据频点与第一增益值的对应关系,确定频点对应的第一增益值,利用第一增益值调整频点的响度,得到第一频响数据,根据第一频响数据和预先训练的杂音抑制模型,确定各分帧的频响数据分别对应的标志位,依次根据各分帧的频响数据分别对应的标志位,对各分帧的频响数据的响度进行调节。
这样先利用第一增益值调整频点的响度,然后再通过标志位,对各分帧的频响数据的响度进行调节,可以对产生杂音的频点的响度进行抑制,从而也就抑制了听筒中产生的杂音,解决了低频信号在出音管道异形以及出音面积狭窄等结构的听筒上容易产生杂音的问题,使得达到提升用户听感的目的。
经过步骤S501和步骤S502对杂音的抑制,听筒杂音已得到较好的处理。然而,如遇到严重的听筒杂音,则需很强的抑制力度才能使杂音完全消除,这会使用户对中低频语音信号的听感产生严重影响。因此,为了解决这一问题,可以利用虚拟低音算法来补偿损失的音质。这样既可保证严重的低频杂音被有效抑制,又可使受损的低频被“虚拟”出来,实现提高主观效果的目的。
S503:对根据标志位抑制之后的语音信号进行低音补偿。
根据标志位抑制之后的语音信号可以叫做第二频响数据,可以通过虚拟低音算法对第二频响数据进行低音补偿。
具体的,如图11所示,图11示出了一种低音补偿的原理图,可以通过高通滤波器和低通滤波器对第二频响数据进行分频操作。滤波得到低频信号后,可以确定低频信号对应的音源类型,其中低频信号也可以叫低频数据,然后根据输入音源类型产生相应“缺失”低频的谐波成分,需要说明的是,不同音源类型对应不同的低频谐波成分,其中,音源类型可以由对应语音信号中的频率成分确定,例如,音源类型为摇滚音乐,对应高频信号成分多一些,音源类型为成年男子在正常情况下的声音,对应中频信号、低频信号成分多一些,然后通过对低频的谐波成分的比例进行调整以接近真实听感,并可以利用带通滤波器过滤掉语音频带外的多余能量,得到虚拟增强后的低频信号。
高通滤波得到的高频信号,也可以叫高频数据,然后需要进行延时控制,使得高频部分与经过虚拟低音处理过得音频在混合时无时间差。最后,将处理后得高频信号与虚拟增强后的低频信号进行混合,即可得到完整的经过低音补偿的语音信号。也就是第三皮频响数据,至此,因抑制低频杂音而引起的音质损失,经由虚拟低音增强算法可以得到有效补偿。
上述抑制低频杂音致使主观听感损失的问题,已由虚拟低音算法进行补偿。然而,由抑制严重杂音对主观响度产生的影响,则需要对语音信号做进一步处理。因此,可以利用响度控制算法对损失的响度进行提升。需要说明的是,本申请中听筒杂音主要是由信号幅度过大引起的,因此不能通过简单地提高信号增益来提高响度,这有可能重新引入听筒杂音问题。
S504:对进行低音补偿后的语音信号中损失的响度进行提升。
可以采用基于心理声学模型的自动响度控制算法对第三频响数据中损失的响度进行提升,其中,第三频响数据经过低音补偿的第二频响数据。
具体的,如图12所示,图12示出了一种响度提升的原理图,将第三频响数据进行语音端点检测VAD,然后判断当前语音信号中的每个分帧信号(分针数据)是否为包含人声的语音信号。如判断为是,则进行后续处理,如判断为否,则跳过该分帧信号,不进行处理。
进一步的,提取分帧信号的频域特征,其中,频域特征可以为短时能量、短时过零率等,然后对频域特征对应的特征值与预设范围进行比较,其中,预设范围为包括人声的频域特征对应的特征值的取值范围,若特征值处于预设范围中,则判断该特征值对应的分帧信号为包含人声的语音信号,若大于预设范围的上限,则判断该特征值对应的分帧信号为不包含人声的语音信号。这样做的目的是,我们不希望对非人声语音的噪声信号进行放大,这会导致噪声或底噪被放大,影响通话语音质量。
若判断出该分帧信号为包括人声的语音信号,则对该分帧信号进行峰值检测,需要说明的是,对该分帧信号进行峰值检测,是为了使计算响度值更准确。
进一步的,若检测出该分帧信号的峰值,则根据心理声学模型对当前分帧信号的响度值进计算,将计算出的响度值与预设阈值进行比较。若计算的响度值大于阈值,则对当前分帧信号的响度值进行提升,提升至阈值大小,若计算得到的响度值小于阈值,则不对当前分帧信号进行处理。
这样,既可以使人耳的主观响度得到保证,同时又不会使信号幅度过大而重新引入杂音问题,最后,可以对输入的语音信号施加平滑后的动态增益,即可得到期望响度结果。经过虚拟低音算法和自动响度控制算法的处理,可将杂音抑制后损失的音质和响度得到有效提升。
本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种杂音抑制方法,应用于电子设备,其特征在于,包括:
获取目标语音信号中响度值大于响度阈值的频点,其中,大于所述响度阈值表征所述频点为产生杂音的频点;
根据所述频点与第一增益值的对应关系,确定所述频点对应的第一增益值,利用所述第一增益值调整所述频点的响度,以得到第一频响数据;
根据所述第一频响数据和预先训练的杂音抑制模型,确定各分帧的频响数据分别对应的标志位,所述标志位为对该分帧的频响数据进行响度调节时的增益权重;
依次根据各分帧的频响数据分别对应的标志位,对各分帧的频响数据的响度进行调节。
2.根据权利要求1所述方法,其特征在于,所述依次根据各分帧的频响数据分别对应的标志位,对各分帧的频响数据的响度进行调节,包括:
依次根据各分帧的频响数据分别对应的标志位与预设的杂音信号抑制值的乘积,确定各分帧的频响数据的第二增益值;
根据所述第二增益值,对各分帧的频响数据的响度进行调节。
3.根据权利要求1所述的方法,其特征在于,所述获取目标语音信号中响度值大于响度阈值的频点,包括:
对所述目标语音信号进行多带动态范围压缩MBDRC,将所述目标语音信号划分至多个子频带;
获取所述多个子频带中频率处于预设子频带内的响度值大于响度阈值的频点。
4.根据权利要求1所述的方法,其特征在于,所述对各分帧的频响数据的响度进行调节后,得到第二频响数据,所述方法还包括:
确定第二频响数据的低频数据对应的音源类型,所述音源类型由对应频响数据中的频率成分确定;
根据所述音源类型,对所述低频数据的谐波成分的比例进行调节,以对低频信数据进行低音补偿。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定所述第二频响数据中的高频数据;
将所述高频数据与低音补偿后的低频数据进行延时控制,并将进行延时控制之后的高频数据和低频数据融合,以得到经过低音补偿的第二频响数据。
6.根据权利要求5所述的方法,其特征在于,经过低音补偿的第二频响数据为第三频响数据,所述方法还包括:
判断所述第三频响数据中的每个分帧数据是否为包含人声的语音数据;
若所述分帧数据为包含人声的语音数据,将所述分帧数据的响度值提升至预设阈值,以对所述第三频响数据的响度进行补偿。
7.根据权利要求6所述的方法,其特征在于,所述判断所述第三频响数据中的每个分帧数据是否为包含人声的语音数据,包括:
确定所述分帧数据的频域特征;
将所述频域特征对应的特征值与预设范围进行比较,以确定所述特征值对应的分帧数据是否包含人声的语音数据,所述预设范围为包括人声的频域特征对应的特征值的取值范围。
8.根据权利要求1所述的方法,所述杂音抑制模型通过以下方式训练:
获取产生杂音的语音信号的时域特征、频域特征以及能量特征;
利用所述时域特征、所述频域特征以及所述能量特征对初始杂音抑制模型进行训练,以获取所述杂音抑制模型。
9.一种电子设备,其特征在于,包括:处理器和存储器;
其中,在所述存储器中存储有一个或多个计算机程序,所述一个或多个计算机程序包括指令;当所述指令被所述处理器执行时,使得所述电子设备执如权利要求1-8任一项所述的方法。
10.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,所述电子设备执行如权利要求1-8任一项所述的方法。
CN202310831323.4A 2023-07-07 2023-07-07 一种杂音抑制方法及电子设备 Active CN116546126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310831323.4A CN116546126B (zh) 2023-07-07 2023-07-07 一种杂音抑制方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310831323.4A CN116546126B (zh) 2023-07-07 2023-07-07 一种杂音抑制方法及电子设备

Publications (2)

Publication Number Publication Date
CN116546126A true CN116546126A (zh) 2023-08-04
CN116546126B CN116546126B (zh) 2023-10-24

Family

ID=87449251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310831323.4A Active CN116546126B (zh) 2023-07-07 2023-07-07 一种杂音抑制方法及电子设备

Country Status (1)

Country Link
CN (1) CN116546126B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1568502A (zh) * 2001-08-07 2005-01-19 数字信号处理工厂有限公司 利用心理声学模型和过采样滤波器组的声音清晰度增强
EP1760696A2 (en) * 2005-09-03 2007-03-07 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
CN107948869A (zh) * 2017-12-12 2018-04-20 深圳Tcl新技术有限公司 音频处理方法、装置、音响系统及存储介质
WO2020020043A1 (en) * 2018-07-25 2020-01-30 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
WO2022240346A1 (en) * 2021-05-12 2022-11-17 Hearezanz Ab Voice optimization in noisy environments
CN115472174A (zh) * 2022-07-27 2022-12-13 北京探境科技有限公司 声音降噪方法和装置、电子设备和存储介质
CN116055951A (zh) * 2022-07-20 2023-05-02 荣耀终端有限公司 信号处理方法和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1568502A (zh) * 2001-08-07 2005-01-19 数字信号处理工厂有限公司 利用心理声学模型和过采样滤波器组的声音清晰度增强
EP1760696A2 (en) * 2005-09-03 2007-03-07 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
CN107948869A (zh) * 2017-12-12 2018-04-20 深圳Tcl新技术有限公司 音频处理方法、装置、音响系统及存储介质
WO2020020043A1 (en) * 2018-07-25 2020-01-30 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
WO2022240346A1 (en) * 2021-05-12 2022-11-17 Hearezanz Ab Voice optimization in noisy environments
CN116055951A (zh) * 2022-07-20 2023-05-02 荣耀终端有限公司 信号处理方法和电子设备
CN115472174A (zh) * 2022-07-27 2022-12-13 北京探境科技有限公司 声音降噪方法和装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李楠;武帅兵;杨军;: "参量阵扬声器音频动态范围控制的FPGA实现", 电声技术, no. 1 *

Also Published As

Publication number Publication date
CN116546126B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN113873378B (zh) 一种耳机噪声处理方法、装置及耳机
US8972251B2 (en) Generating a masking signal on an electronic device
US20230164475A1 (en) Mode Control Method and Apparatus, and Terminal Device
CN115442709B (zh) 音频处理方法、虚拟低音增强系统、设备和存储介质
US9812149B2 (en) Methods and systems for providing consistency in noise reduction during speech and non-speech periods
CN116665692B (zh) 语音降噪方法和终端设备
CN116055982B (zh) 音频输出方法、设备及存储介质
CN116546126B (zh) 一种杂音抑制方法及电子设备
CN116668892B (zh) 音频信号的处理方法、电子设备及可读存储介质
CN116055951B (zh) 信号处理方法和电子设备
WO2023000778A9 (zh) 一种音频信号的处理方法及相关电子设备
JP2022095689A (ja) 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム
CN113840034B (zh) 声音信号处理方法和终端设备
CN116347320B (zh) 音频播放方法及电子设备
CN113196800A (zh) 无线头戴式耳机的混合麦克风
CN116828102B (zh) 录音方法、设备及存储介质
WO2024016229A1 (zh) 音频处理方法及电子设备
CN116567489B (zh) 一种音频数据处理方法及相关装置
CN116320144B (zh) 一种音频播放方法及电子设备、可读存储介质
WO2024021712A1 (zh) 一种音频播放方法及电子设备
CN115696114B (zh) 一种麦克风配置调整方法、电子设备及介质
WO2024046416A1 (zh) 一种音量调节方法、电子设备及系统
CN115802244A (zh) 虚拟低音生成方法、介质及电子设备
CN117714581A (zh) 音频信号的处理方法和电子设备
CN117153181A (zh) 语音降噪方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant