CN115083440A - 音频信号降噪方法、电子设备和存储介质 - Google Patents

音频信号降噪方法、电子设备和存储介质 Download PDF

Info

Publication number
CN115083440A
CN115083440A CN202210676174.4A CN202210676174A CN115083440A CN 115083440 A CN115083440 A CN 115083440A CN 202210676174 A CN202210676174 A CN 202210676174A CN 115083440 A CN115083440 A CN 115083440A
Authority
CN
China
Prior art keywords
audio signal
noise reduction
music
audio
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210676174.4A
Other languages
English (en)
Inventor
方立华
杨明雪
朋尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210676174.4A priority Critical patent/CN115083440A/zh
Publication of CN115083440A publication Critical patent/CN115083440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本发明实施例提供了一种音频信号降噪方法、电子设备和存储介质。所述音频信号降噪方法包括:基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息;基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率;基于所述降噪参考频率,对所述音乐音频信号进行降噪处理。在本发明实施例的方案中,基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率,避免了音乐特征频段的误降噪,提高了音乐音频信号的降噪效果。

Description

音频信号降噪方法、电子设备和存储介质
技术领域
本发明实施例涉及音频技术领域,尤其涉及一种音频信号降噪方法、电子设备和存储介质。
背景技术
随着信号技术的发展,音频信号降噪处理技术在基于实时通信的音频服务场景中逐渐普及,提高了音频信号的质量。
此外,在特定场景中,还会出现环境噪声(例如,空调声,风扇运转声等)对音频信号质量和音频信号降噪处理的影响,从而音频信号降噪处理系统性能的下降。
为了滤除诸如环境噪声等提高音频信号的质量,传统的音频信号降噪处理技术考虑了音频信号在特定场景中的特征进行了改进,提高了一般音频信号的降噪效果。
然而,对于音乐音频信号而言,降噪效果仍不够理想。
发明内容
有鉴于此,本发明实施例提供一种音频信号降噪方法、电子设备和存储介质,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种音频信号降噪方法,包括:接收音频信号,所述音频信号携带噪声信号;通过第一检测模块对所述音频信号进行检测;当所述第一检测模块检测出所述音频信号包括第一音频模式时,使用第一降噪模块对所述音频信号进行第一降噪处理,以得到第一降噪音频信号;当所述第一检测模块检测出所述音频信号包括第二音频模式时,使用第二降噪模块对所述音频进行第二降噪处理,以得到第二降噪音频信号。
在本发明的另一实现方式中,所述方法还包括:基于所述音频信号进行频谱变换,得到所述音频信号的频谱信息;基于所述音频信号的频谱信息进行音频模式检测,确定所述音频信号的第一音频模式或第二音频模式。
在本发明的另一实现方式中,所述基于所述音频信号的频谱信息进行音频模式检测,确定所述音频信号的第一音频模式,包括:基于所述音频信号的频谱信息输入至预先训练的音频模式检测模型中进行训练,得到所述音频信号的第一音频模式。
在本发明的另一实现方式中,所述方法还包括:基于所述音频信号的频谱信息进行音频模式检测,将所述音频信号的音频模式,确定为非音乐音频信号;基于预设降噪处理,对所述非音乐音频信号进行降噪。
在本发明的另一实现方式中,所述第一音频模式指示所述音频信号为音乐音频信号,所述第二音频模式指示所述音频信号为非音乐音频信号。
根据本发明实施例的第二方面,提供了一种音频信号降噪方法,包括:基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息;基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率;基于所述降噪参考频率,对所述音乐音频信号进行降噪处理。
在本发明的另一实现方式中,所述基于所述降噪参考频率,对所述音乐音频信号进行降噪处理,包括:基于所述降噪参考频率,从所述频谱信息中分离出噪声成分;对分离所述噪声成分的频率信息执行频谱变换的逆变换,得到所述音乐音频信号的降噪信号。
在本发明的另一实现方式中,所述基于所述降噪参考频率,从所述频谱信息中分离出噪声成分,包括:基于所述降噪参考频率,确定抑制系数;基于所述抑制系数对所述频谱信息进行处理,分离噪声成分。
在本发明的另一实现方式中,所述基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率,包括:基于所述频谱信息中至少一个音乐特征频段进行频段分组处理,得到多组相邻频段;确定所述多组相邻频段之间的频段间频率,作为降噪参考频率。
在本发明的另一实现方式中,所述基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息,包括:基于音频信号进行频谱变换,得到所述音频信号的频谱信息;基于所述音频信号的频谱信息进行音频模式检测,将所述音频信号的音频模式,确定为音乐音频信号。
在本发明的另一实现方式中,所述基于所述音频信号的频谱信息进行音频模式检测,将所述音频信号的音频模式,确定为音乐音频信号,包括:基于所述音频信号的频谱信息输入至预先训练的音频模式检测模型中进行训练,得到所述音频信号的音频模式为音乐音频信息。
在本发明的另一实现方式中,所述方法还包括:基于所述音频信号的频谱信息进行音频模式检测,将所述音频信号的音频模式,确定为非音乐音频信号;基于预设降噪处理,对所述非音乐音频信号进行降噪。
在本发明的另一实现方式中,所述方法还包括:基于音频信号进行音频模式检测,将所述音频信号的音频模式,确定为所述音乐音频信号。
在本发明的另一实现方式中,所述基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息,包括:对频谱变换采用的时域分辨率进行扩展处理;基于扩展后的时域分辨率,对音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面或第二方面所述的方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。
在本发明实施例的方案中,基于频谱信息中至少一个音乐特征频段,确定降噪参考频率,避免了音乐特征频段的误降噪,提高了音乐音频信号的降噪效果。此外,能够针对不同音频模式的音频信号进行区别处理,使得音频信号降噪更加高效。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为根据一个示例的实时通信系统的架构示意图。
图1B为基于图1A的架构的音频链路的架构示意图。
图1C为图1B的自动噪声控制过程的示意性框图。
图2为根据本发明的一个实施例的音频信号降噪方法的步骤流程图。
图3为图2实施例的音频信号降噪过程的示意性框图。
图4为根据本发明的另一实施例的音频信号降噪方法的步骤流程图。
图5为根据本发明的另一实施例的电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
应当理解,本披露的权利要求、说明书及附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例可以应用于通信场景,在一个实际应用中,特别适用于基于实时通信技术实现的通信场景中。实时通信技术是指能够实时发送和接收文本、音频和视频等的通信技术,适用于直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等场景,实现纯音频数据、视频数据等的实时传输。本发明实施例即可以具体应用于基于实时通信技术实现的直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等通信场景。
参见图1A,示出了本发明实施例可以应用于其中的一种实时通信系统的架构示意图,可以包括服务端100以及多个客户端200。多个客户端200之间通过服务端100可以建立通信连接,在实时通信场景中,服务端100即用来在多个客户端200之间提供实时通信服务,多个客户端200可以分别作为发送端或接收端,通过服务端100实现实时通信。
用户通过客户端200可与服务端100进行交互以接收其它客户端200发送的数据,或将数据发送至其它客户端200等。在实时通信场景中,可以是用户通过客户端200向服务端100发布数据流,服务端200将该数据流推送至订阅该数据流的客户端中。数据流例如可以是音频流、视频流等媒体数据。如在直播场景中,主播用户通过客户端可以实时采集媒体数据,并发送至服务端,不同主播用户的媒体数据通过直播间进行区分,服务端可以将该主播用户的媒体数据推送至进入该主播用户对应直播间的观看用户。又如在会议场景中,参会用户通过客户端可以实时采集媒体数据并发送至服务端,服务端可以将每个客户端发送的媒体数据推送至其它参会用户的客户端等。
其中,客户端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端100,客户端200与服务端100之间通过网络建立连接,网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
其中,客户端200可以为浏览器、应用程序(APP,Application)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端200可以基于服务端提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于RTC SDK开发获得等。客户端200可以部署在电子设备中,需要依赖设备运行或者设备中的某些app而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
其中,服务端100可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。服务端100可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
对于音频链路而言,主要包括采集、前处理、编码、抖动消除、解码、混音、播放等环节,如图1B所示为音频链路的架构示意图,其可以区分为音频发送(推流)的过程和音频接收(拉流)的过程。
在音频发送的过程,可以包括采集、前处理、编码等环节,具体而言,可以通过采集模块对音频信号进行采集,如采集模块可以为麦克风,然后将模拟信号转换为数据信号,再对音频信号进行前处理。
其中,前处理可以包括三个部分:声学回声消除(AEC,Acoustic EchoCanceller)、自动噪声控制(ANS,Automatic Noise Suppression)、自动增益控制(AGC,Automatic Gain Control),可以依次对音频信号进行声学回声消除、自动噪声控制、自动增益控制。
在音频信号经过前处理后,可以进行音频编码,即对音频信号进行压缩编码,然后对压缩编码后的音频信号进行封装,进而可以通过网络将其发送至网络服务器。
在音频接收的过程中,可以包括抖动消除、解码、混音、播放等环节,具体而言,可以先对音频信号进行抖动消除,如采用抖动缓冲器(Jitterbuffer)进行抖动消除,然后对音频信号进行音频解码。
图1C为图1B的自动噪声控制过程的示意性框图。本示例的自动噪声控制过程依次基于信号获取装置101、语音检测装置103和噪声处理装置104进行处理。信号获取装置101获取带噪声信号102,信号获取装置101可以包括人机交互模块,例如,信号获取装置101通过人机交互模块,获取带噪声信号102。然后,信号获取装置101将带噪声信号102传输至语音检测装置103中。
具体而言,信号获取装置101可以是诸如嵌入式设备、物联网设备等终端设备,也可以是诸如桌面电脑或服务器等非嵌入式设备。嵌入式设备中可以安装有诸如实时操作系统的嵌入式操作系统,通过网络通信模型与对话服务器执行通信。
此外,语音检测装置103可以是一种语音端点检测装置,目的是从声音信号流里识别和消除长时间的静音期,并判断该声音信号流是否是人声语音,语音端点检测一般用于鉴别音频信号当中的语音出现和语音消失。
此外,噪声处理装置104包括噪声估计模块1041和维纳滤波模块1042,通过噪声估计模块1041和维纳滤波模块1042的处理,得到降噪声信号105。噪声估计模块1041用来计算出带噪声信号102中的噪声信号。维纳滤波模块1042是一种基于最小均方误差准则、对平稳过程的最优估计器。
本示例的音频信号降噪在诸如人声音频信号处理过程中,获得了比较优良的效果,但是,噪声估计模块1041基于传统的噪声估计方式对音乐音频信号进行噪声估计时,使得降噪后的音频信号质量较差。
图2示出了本发明的一个实施例的音频信号降噪方法的示例性流程。本发明实施例的方案可以应用于电子设备,例如,具有音频采集组件(例如,具有麦克风)的终端设备,包括但不限于:手机、笔记本电脑、摄影机、智能设备以及各种具有人机交互能力的电子设备等,也可以为具有音频文件的处理功能的电子设备。智能设备包括但不限于智能音箱、智能手表、智能家电等。
本实施例的音频信号降噪方法包括:
S210:基于音乐音频信号进行频谱变换,得到音乐音频信号的频谱信息。
应理解,此处的音乐音频信号指的是符合音乐特征的音频信号,此处的音乐音频区别与语音音频,此处的频谱变换指的是将时域中音乐音频信号变换为频域中的音乐音频信号,对于音频信号处理等离散数字信号处理,可以采用傅里叶变换、拉普拉斯变换、Z变换、希尔伯特变换、离散余弦变换等,上述频谱变换都扩展了函数变换的定义,允许输入和输出有多种的值,本方案中的频谱变换包括但不限于上述频谱变换方式。
需要说明的是,此处的时域指的以时间作为参照来观察音频信号的方法,此处的频域是描述信号在频率方面特性时用到的一种坐标系。对于一个音频信号来说,信号强度随时间的变化规律就是时域特性,信号由单一频率的信号合成的就是频域特性,时域与频域是对信号的两个观察面。
时域是以时间轴为坐标表示动态信号的关系,频域是把信号变为以频率轴为坐标表示出来。本方法可以采用傅里叶变换方法对音乐音频信号进行频谱变换。即将连续测量的时序或信号,表示为不同频率的正弦波信号的无限叠加,来计算该信号中不同正弦波信号的频率、振幅和相位。由于本方案涉及音乐音频信号的频谱变化,其信号处理量较大,也耗费运算时间。因此,优选地,本方法的频谱变换方法可以采用快速傅里叶变换,快速傅里叶变换属于离散傅里叶变换的快速算法,它是根据离散傅里叶变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的,通过快速傅里叶变换可以更有效地对音乐音频信号进行频谱变换处理。
S220:基于频谱信息中至少一个音乐特征频段,确定降噪参考频率。
应理解,此处的频谱信息指的是经过频谱变换后的音乐音频信号,通常情况下,音乐音频信号包括了音乐特征信号和非音乐特征信号,音乐特征信号指的是频谱特征变现较为连续密集的信号,例如,钢琴音乐。非音乐特征信号指的是频谱特征较为离散的信号,例如,人说话的声音。
还应理解,降噪参考频率可以是上限或下限相关的参考频率,降噪处理用于去除多个音乐特征频段的频段间频率,或者,音乐特征频段的下限频率。
S230:基于降噪参考频率,对音乐音频信号进行降噪处理。
应理解,基于降噪参考频率的降噪处理,是指降噪参考频率,。
在本发明实施例的方案中,基于频谱信息中至少一个音乐特征频段,确定降噪参考频率,避免了音乐特征频段的误降噪,提高了音乐音频信号的降噪效果。
下面将结合图3详细描述根据图2实施例的音频信号降噪过程。在图3的音频信号降噪过程中,变换模块310用于将基于时域和振幅的音频信号变换为基于时域和频率的音频信号,变换操作可以是诸如快速傅里叶变换的离散傅里叶变换。从基于时域和频率的音频信号中可以提取频率信息。噪声估计模块320可以包括音频模式检测模块32、音乐音频信号估计模块321和非音乐音频信号估计模块322。滤波模块330用于基于频率信息进行噪声分离处理。逆变换模块340用于将基于时域和频率的音频信号变换为基于时域和振幅的音频信号。逆变换操作可以是诸如逆快速傅里叶变换的逆离散傅里叶变换。
应理解,此处的噪声估计指的是对音乐特征频段进行噪声计算分析,此处的噪声计算分析可以采用噪声估计算法进行计算分析,噪声估计算法就是用来估计噪声,根据估计出的噪声降噪处理。噪声估计主要是根据含噪音频的一些特点或者现象实现的,例如,白噪声和背景噪声等。白噪声指的是功率谱密度在整个频域内均匀分布的噪声;背景噪声指的是环境噪声,例如水波、交通噪声、警报、外来语音、动物噪声,以及来自冰箱、空调、电源和电动机等设备的电气噪声。
常用的噪声估计算法包括分位数噪声估计、直方图噪声估计、最小值跟踪算法,本方案中的噪声估计采用的噪声估计算法包括但不限于上述方法,其中,分位数噪声估计的想法是将某个频带上所有音频帧的能量做一个统计,设定一个分位数值,低于分位数值的认为是噪声,高于分位数值的认为是音频,可以进一步细化了噪声统计的粒度;直方图的噪声估计算法是基于单个频带中最频繁的能量值对应于指定频带的噪声水平的观测,即噪声级对应于能量值直方图的最大值,直方图有时并不只包含一种模式,模式选取取决于所检查的频带、所考虑的信号持续时间、噪声模式和输入信噪比;最小值跟踪算法指的是通过跟踪各个频带的功率最小值,就可以得到每个频带的的噪声水平,主要有两种:最小值统计量算法,在一个有限时间窗内跟踪音频功率谱的最小值;连续谱最小值跟踪,不需要分析窗就可以连续跟踪最小值。
在一种可能的实现方式中,基于降噪参考频率,对音乐音频信号进行降噪处理,包括:基于降噪参考频率,从频谱信息中分离出噪声成分;对分离噪声成分的频率信息执行频谱变换的逆变换,得到音乐音频信号的降噪信号。例如,采用噪声估计模块320从频谱信息中分离出噪声成分,采用逆变换模块340执行频谱变换的逆变换,得到音乐音频信号的降噪信号。
在一种可能的实现方式中,基于降噪参考频率,从频谱信息中分离出噪声成分,包括:基于降噪参考频率,确定抑制系数;基于抑制系数对频谱信息进行处理,分离噪声成分。
应理解,此处的抑制系数可以表示为抑制函数或抑制增益,降噪处理中需要找出音乐音频信号频域的特定函数,并且将这个特定函数与音乐音频信号相乘,得到降噪处理后的音乐音频信号,这个特定函数称作抑制增益,此处的降噪处理后的音乐音频信号指的是降噪处理后时域中的音乐音频信号。
通过根据音乐特征频段和其对应的噪声信号计算出抑制系数,并根据抑制系数和音乐特征频段,得到降噪处理后的音乐音频频域信号,可以针对音乐音频信号进行精确降噪,避免在降噪处理过程中对音乐音频信息进行不必要的损伤。此外,由于上述降噪处理后得出的是音乐音频频域信号,需要将其转换为音乐音频时域信号才能正常使用,此处本方案优选快速傅里叶逆变换对降噪处理后的音乐音频频域信号进行变化处理,进而得出降噪处理后的音乐音频信号。通过上述方法,可以有效提高音乐音频信号处理的效率,降低时延。
在一种可能的实现方式中,基于频谱信息中至少一个音乐特征频段,确定降噪参考频率,包括:基于频谱信息中至少一个音乐特征频段进行频段分组处理,得到多组相邻频段;确定多组相邻频段之间的频段间频率,作为降噪参考频率。
更具体地,可以确定频谱信息中的至少一个音乐特征频段在时域上的延续时长,基于延续时长,确定多组相邻频段,例如,多组相邻频段各自的延续时长从长到短排序,相应地,多组相邻频段作为音频特征的置信度从高到低。由此,可以基于多组相邻频段的置信度执行降噪处理,例如,置信度越大,抑制系数越小。
此外,由于音乐音频信号中存在连续音乐,经过噪声估计可能将连续音乐作为噪声进行滤除,导致噪声估计错误产生音乐损伤,因此,
此外,本方案可以针对连续音乐进行多步骤噪声估计。
第一步,对至少一个音乐音频特征频段进行噪声估计,得出噪声幅度值,此处亦可以对音乐音频信号的频谱中的每个频带进行噪声估计,得出噪声幅度值,优选地,可以采用最小值跟踪算法对每个频带进行处理,得到噪声幅度值。
第二步,对至少一个音乐特征频段与噪声幅度值进行对比处理,判断至少一个音乐特征频段与噪声幅度值相似度是否满足预设相似度条件,此处的预设相似度条件指的是音乐特征频段与噪声幅度值在频谱中的类似度,此处的类似度可以根据实际情况进行人工设定,例如,某一音乐特征频段与噪声幅度值在频谱上完全一致,即相似度满足了预设相似度条件,说明此时产生了噪声错误估计,即将正常的音乐作为噪声进行了估计。
此时需要对第一步的噪声估计进行修正进而二次噪声估计,即选取至少一个音乐特征频段进行噪声估计,由于此时针对的是满足音乐特征的频段进行的噪声估计,不会将音乐作为噪声进行滤除,通过第三步得到噪声信号,优选地,可以以满足音乐特征的频段为中心选取相邻频段内估计的噪声作为参考,用该频段和相邻频段采用最小值跟踪算法估计出最小噪声作为该频段的噪声,达到音乐降噪的目的。通过上述方法可以在音乐与语音混合的音频信号降噪处理中,进行多维度噪声估计,保证音乐的质量,避免对音乐的过度损伤。
在一种可能的实现方式中,基于音乐音频信号进行频谱变换,得到音乐音频信号的频谱信息,包括:基于音频信号进行频谱变换,得到音频信号的频谱信息;基于音频信号的频谱信息进行音频模式检测,将音频信号的音频模式,确定为音乐音频信号。
应理解,此处的模式检测指的是当判断出音频信号满足音乐音频信号模式,选择本方案的音乐音频信号降噪。
可替代地,可以基于音频信号进行音频模式检测,将音频信号的音频模式,确定为音乐音频信号。
应理解,上述的音频模式检测可以采用音频模式检测模块32实现。在音频信号的音频模式为音乐音频信号时,音频信号的频谱信息被输入到音乐音频信号估计模块321。在音频信号的音频模式为非音乐音频信号时,音频信号的频谱信息被输入到非音乐音频信号估计模块322中。通过上述判断可以针对不同模式的音频进行区别处理,使得音频信号降噪更加高效。
在一种可能的实现方式中,基于音频信号的频谱信息进行音频模式检测,将音频信号的音频模式,确定为音乐音频信号,包括:基于音频信号的频谱信息输入至预先训练的音频模式检测模型中进行训练,得到音频信号的音频模式为音乐音频信息。
应理解,此处的将满足音乐音频信号模式的音频数据输入至预设检测模型中进行训练指的是通过机器学习的方式,以满足音乐音频信号模式的音频数据作为训练样本对预设检测模型中进行训练。由于对满足音乐音频信号模式的音频数据判定较为复杂,此处可以通过深度学习的方式进行模型训练,深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。通过上述方法,可以更加准确的判断带降噪信号的模式,提高音频信号降噪的效率。
在一种可能的实现方式中,基于音乐音频信号进行频谱变换,得到音乐音频信号的频谱信息,包括:对频谱变换采用的时域分辨率进行扩展处理;基于扩展后的时域分辨率,对音乐音频信号进行频谱变换,得到音乐音频信号的频谱信息。
应理解,由于音乐音频信号较为复杂,难以准确的识别出噪声,因此,为了能够在音乐的间隙中估计出噪声,可以对音频信号进行分辨率扩展处理。对于一个带宽有限的音乐音频信号而言,在时间域和频率域都存在分辨率。其中,提高时间域采样率可以提高时间域(或者模拟)分辨率,提高频率域采样率可以提高频率域(或数字)分辨率,提高时间域分辨率主要通过提高对信号在时间域采样率来实现频率域分辨率,提高频率域分辨率主要通过提高频率域采样率,更改窗类型和降低时间域采样率来实现。
具体地,提高频率域采样率可以采用以下方式,增加时间域窗长,直接增加频率域采样率,在实际应用中,可能无法提高时间域窗长,特别是对于持续时间比较短的信号。这种情况也可以直接增加频率域采样率;更改窗类型,频谱泄露效应会引起相邻两个频谱峰相互混叠,特别是在时间域采样率过高的情况下,通过对时间域信号加不同类型窗可以减小这种混叠;降低时间域采样率。本方案中的分辨率扩展处理包括但不限于上述方式,通过分辨率扩展处理可以有效识别出音乐音频的噪声,提高音乐音频信号降噪处理的效率。
在另一些示例中,音频信号降噪方法还包括:基于所述音频信号的频谱信息进行音频模式检测(例如,通过音频模式检测模块32),将所述音频信号的音频模式,确定为非音乐音频信号;基于预设降噪处理,对所述非音乐音频信号进行降噪。
图4为根据本发明的另一实施例的音频信号降噪方法的步骤流程图。本发明实施例的方案可以应用于电子设备,例如,具有音频采集组件(例如,具有麦克风)的终端设备,包括但不限于:手机、笔记本电脑、摄影机、可穿戴电子设备以及各种具有人机交互能力的电子设备等,也可以为具有音频文件的处理功能的电子设备。
本实施例的音频信号降噪方法包括:
S410:接收音频信号,音频信号携带噪声信号。
音频信号可以是携带噪声信号的音乐音频信号,也可以是携带噪声信号的非音乐音频信号。例如,音频模式检测模块32可以为第一检测模块和第二检测模块的示例。
S420:通过第一检测模块对音频信号进行检测。
S430:当第一检测模块检测出音频信号包括第一音频模式时,使用第一降噪模块对音频信号进行第一降噪处理,以得到第一降噪音频信号。
例如,第一降噪模块可以实现为音乐音频信号估计模块321,如果音频信号包括第一音频模式,则可以采用音乐音频信号估计模块321进行降噪估计和降噪处理。
S440:当第一检测模块检测出音频信号包括第二音频模式时,使用第二降噪模块对音频进行第二降噪处理,以得到第二降噪音频信号。
例如,第二降噪模块可以实现为非音乐音频信号估计模块322,如果音频信号包括第二音频模式,则可以采用非音乐音频信号估计模块322进行降噪估计和降噪处理。
在本发明实施例的方案中,可以针对不同音频模式(上文所描述的模式)的音频进行区别处理,使得音频信号降噪更加高效。
在另一些示例中,音频信号降噪方法还包括:基于所述音频信号进行频谱变换,得到所述音频信号的频谱信息;基于所述音频信号的频谱信息进行音频模式检测,确定所述音频信号的第一音频模式或第二音频模式。例如,所述第一音频模式指示所述音频信号为音乐音频信号,所述第二音频模式指示所述音频信号为非音乐音频信号。
应理解,此处的模式检测指的是当判断出音频信号满足音乐音频信号模式(第一音频模式),选择本方案的音乐音频信号降噪。
可替代地,可以基于音频信号进行音频模式检测,将音频信号的音频模式,确定为音乐音频信号。
应理解,上述的音频模式检测可以采用音频模式检测模块32实现。在音频信号的音频模式为音乐音频信号时,音频信号的频谱信息被输入到音乐音频信号估计模块321。在音频信号的音频模式为非音乐音频信号时,音频信号的频谱信息被输入到非音乐音频信号估计模块322中。
在另一些示例中,所述基于所述音频信号的频谱信息进行音频模式检测,确定所述音频信号的第一音频模式,包括:基于所述音频信号的频谱信息输入至预先训练的音频模式检测模型中进行训练,得到所述音频信号的第一音频模式。
应理解,此处的将满足音乐音频信号模式的音频数据输入至预设检测模型中进行训练指的是通过机器学习的方式,以满足音乐音频信号模式的音频数据作为训练样本对预设检测模型中进行训练。由于对满足音乐音频信号模式的音频数据判定较为复杂,此处可以通过深度学习的方式进行模型训练,深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。通过上述方法,可以更加准确的判断带降噪信号的模式,提高音频信号降噪的效率。
在另一些示例中,音频信号降噪方法还包括:基于所述音频信号的频谱信息进行音频模式检测,将所述音频信号的音频模式,确定为非音乐音频信号,并且基于预设降噪处理,对所述非音乐音频信号进行降噪。
应理解,图4的音频信号降噪方法的实施例与图2和图3的音频信号降噪方法的相关实施例对应,类似的操作和步骤,在本实施例中不进行赘述。
参照图5,示出了根据本发明的另一实施例的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图5所示,该电子设备可以包括:处理器(processor)502、通信接口(CommunicationsInterface)504、存储有程序510的存储器(memory)506、以及通信总线508。
处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它电子设备或服务器进行通信。处理器,用于执行程序,具体可以执行上述方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是处理器CPU,或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行操作:接收音频信号,所述音频信号携带噪声信号;通过第一检测模块对所述音频信号进行检测;当所述第一检测模块检测出所述音频信号包括第一音频模式时,使用第一降噪模块对所述音频信号进行第一降噪处理,以得到第一降噪音频信号;当所述第一检测模块检测出所述音频信号包括第二音频模式时,使用第二降噪模块对所述音频进行第二降噪处理,以得到第二降噪音频信号。
或者,程序具体可以用于使得处理器执行操作:基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息;基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率;基于所述降噪参考频率,对所述音乐音频信号进行降噪处理。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (12)

1.一种音频信号降噪方法,包括:
接收音频信号,所述音频信号携带噪声信号;
通过第一检测模块对所述音频信号进行检测;
当所述第一检测模块检测出所述音频信号包括第一音频模式时,使用第一降噪模块对所述音频信号进行第一降噪处理,以得到第一降噪音频信号;
当所述第一检测模块检测出所述音频信号包括第二音频模式时,使用第二降噪模块对所述音频进行第二降噪处理,以得到第二降噪音频信号。
2.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述音频信号进行频谱变换,得到所述音频信号的频谱信息;
基于所述音频信号的频谱信息进行音频模式检测,确定所述音频信号的第一音频模式或第二音频模式。
3.根据权利要求2所述的方法,其中,所述基于所述音频信号的频谱信息进行音频模式检测,确定所述音频信号的第一音频模式,包括:
基于所述音频信号的频谱信息输入至预先训练的音频模式检测模型中进行训练,得到所述音频信号的第一音频模式。
4.根据权利要求2所述的方法,其中,所述方法还包括:
基于所述音频信号的频谱信息进行音频模式检测,将所述音频信号的音频模式,确定为非音乐音频信号;
基于预设降噪处理,对所述非音乐音频信号进行降噪。
5.根据权利要求1所述的方法,其中,所述第一音频模式指示所述音频信号为音乐音频信号,所述第二音频模式指示所述音频信号为非音乐音频信号。
6.一种音频信号降噪方法,包括:
基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息;
基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率;
基于所述降噪参考频率,对所述音乐音频信号进行降噪处理。
7.根据权利要求6所述的方法,其中,所述基于所述降噪参考频率,对所述音乐音频信号进行降噪处理,包括:
基于所述降噪参考频率,从所述频谱信息中分离出噪声成分;
对分离所述噪声成分的频率信息执行频谱变换的逆变换,得到所述音乐音频信号的降噪信号。
8.根据权利要求7所述的方法,其中,所述基于所述降噪参考频率,从所述频谱信息中分离出噪声成分,包括:
基于所述降噪参考频率,确定抑制系数;
基于所述抑制系数对所述频谱信息进行处理,分离噪声成分。
9.根据权利要求1所述的方法,其中,所述基于所述频谱信息中至少一个音乐特征频段,确定降噪参考频率,包括:
基于所述频谱信息中至少一个音乐特征频段进行频段分组处理,得到多组相邻频段;
确定所述多组相邻频段之间的频段间频率,作为降噪参考频率。
10.根据权利要求6任一项所述的方法,其中,所述基于音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息,包括:
对频谱变换采用的时域分辨率进行扩展处理;
基于扩展后的时域分辨率,对音乐音频信号进行频谱变换,得到所述音乐音频信号的频谱信息。
11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的方法对应的操作。
12.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
CN202210676174.4A 2022-06-15 2022-06-15 音频信号降噪方法、电子设备和存储介质 Pending CN115083440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210676174.4A CN115083440A (zh) 2022-06-15 2022-06-15 音频信号降噪方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210676174.4A CN115083440A (zh) 2022-06-15 2022-06-15 音频信号降噪方法、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115083440A true CN115083440A (zh) 2022-09-20

Family

ID=83253629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210676174.4A Pending CN115083440A (zh) 2022-06-15 2022-06-15 音频信号降噪方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115083440A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117395568A (zh) * 2023-12-12 2024-01-12 深圳市同创依诺数码科技有限公司 音频播放设备的降噪方法、装置、设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117395568A (zh) * 2023-12-12 2024-01-12 深圳市同创依诺数码科技有限公司 音频播放设备的降噪方法、装置、设备以及存储介质
CN117395568B (zh) * 2023-12-12 2024-04-02 深圳市同创依诺数码科技有限公司 音频播放设备的降噪方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
CN107393526B (zh) 语音静音检测方法、装置、计算机设备和存储介质
US10373609B2 (en) Voice recognition method and apparatus
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN113539283A (zh) 基于人工智能的音频处理方法、装置、电子设备及存储介质
EP2788980A1 (en) Harmonicity-based single-channel speech quality estimation
CN112185410B (zh) 音频处理方法及装置
CN111415653B (zh) 用于识别语音的方法和装置
CN113611324B (zh) 一种直播中环境噪声抑制的方法、装置、电子设备及存储介质
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN115083440A (zh) 音频信号降噪方法、电子设备和存储介质
CN111722696A (zh) 用于低功耗设备的语音数据处理方法和装置
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
WO2023216760A1 (zh) 语音处理方法、装置、存储介质、计算机设备及程序产品
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
CN114783455A (zh) 用于语音降噪的方法、装置、电子设备和计算机可读介质
CN114329042A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN113571079A (zh) 语音增强方法、装置、设备及存储介质
CN112750456A (zh) 即时通信应用中的语音数据处理方法、装置及电子设备
CN116741193B (zh) 语音增强网络的训练方法、装置、存储介质及计算机设备
US11621016B2 (en) Intelligent noise suppression for audio signals within a communication platform
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
WO2024055751A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination