CN116524944A - 音频降噪方法、介质、装置和计算设备 - Google Patents
音频降噪方法、介质、装置和计算设备 Download PDFInfo
- Publication number
- CN116524944A CN116524944A CN202310547140.XA CN202310547140A CN116524944A CN 116524944 A CN116524944 A CN 116524944A CN 202310547140 A CN202310547140 A CN 202310547140A CN 116524944 A CN116524944 A CN 116524944A
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- reduced
- spectrum
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000001228 spectrum Methods 0.000 claims abstract description 199
- 230000005236 sound signal Effects 0.000 claims abstract description 151
- 238000012545 processing Methods 0.000 claims abstract description 144
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003592 biomimetic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开的实施方式提供了一种音频降噪方法、介质、装置和计算设备,涉及人工智能技术领域,该方法包括:获取待降噪音频信号,对待降噪音频信号进行时频转换处理,得到待降噪频域信号;提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;根据声学特征,确定待降噪音频信号存在音乐信号的第一概率;基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。本公开对带噪音乐信号进行降噪处理时,能够在抑制噪声的同时,不损伤音乐音质,给用户高保真的极致音乐音质体验。
Description
技术领域
本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及一种音频降噪方法、介质、装置和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
音频降噪(Audio Noise Suppression,ANS)是一种音频信号增强技术,用于当音频信号被各种各样的背景噪声干扰、甚至淹没后,尽可能地从带噪音频信号中提取出有用音频信号(即降噪音频信号),抑制或降低噪声干扰。在语音处理中,例如,实时通信(RealTime Connection,RTC)场景,ANS发挥着至关重要的作用,能够有效抑制所采集的语音信号中的噪声,为通话的音质保驾护航。但在采用ANS对带噪音乐信号(包含音乐信号和噪声)进行降噪处理时,会严重损伤音乐信号,给用户带来较差的音乐音质体验。
因此,如何在抑制噪声的同时,给用户高保真的极致音乐音质体验,是音频降噪技术应用于带噪音乐信号遇到的挑战。
发明内容
本公开提供一种音频降噪方法、介质、装置和计算设备,以解决在采用ANS对带噪音乐信号进行降噪处理时,会严重损伤音乐信号,给用户带来较差的音乐音质体验的问题。
在本公开实施方式的第一方面中,提供了一种音频降噪方法,包括:
获取待降噪音频信号;
对待降噪音频信号进行时频转换处理,得到待降噪频域信号;
提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;
根据声学特征,确定待降噪音频信号存在音乐信号的第一概率;
基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号,包括:对幅度谱中的噪声信号进行噪声估计,获得第一噪声谱;基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱;基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱,包括:根据下述公式,得到约束处理后的噪声谱:
Dmodify(k,l)=Destimated(k,l)*(1-MPP(l))+Destimated(k,l-1)*
MPP(l)
其中,Dmodify(k,l)表示约束处理后的噪声谱;Destimated(k,l)表示第k个频点第l帧噪声谱,即第一噪声谱;Destimated(k,l-1)表示第k个频点第l-1帧噪声谱;MPP(l)表示第一概率。
在一种可能的实施方式中,基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号,包括:根据幅度谱和约束处理后的噪声谱,获取待降噪音频信号存在语音信号的第二概率;根据幅度谱和约束处理后的噪声谱,获取信噪比;根据第二概率和信噪比,对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱;基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱;根据第二噪声谱、第二概率和幅度谱,获取维纳值;根据维纳值对待降噪频域信号进行降噪处理,得到降噪频域信号;对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,根据声学特征,确定待降噪音频信号存在音乐信号的第一概率,包括:将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率。
在一种可能的实施方式中,音乐检测模型包括全连接层、第一GRU层和第二GRU层,将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率,包括:将声学特征输入全连接层,得到第一维度的第一特征,第一维度大于预设维度;将第一特征输入第一GRU层,得到第二维度的第二特征,第二维度大于第一维度;将第二特征输入第二GRU层,得到目标特征;基于目标特征和激活函数,确定待降噪音频信号存在音乐信号的第一概率。
在一种可能的实施方式中,音乐检测模型是通过以下方式训练获得的:获取训练样本,训练样本包括正样本、负样本和标签,正样本包括音乐信号,负样本包括语音信号以及噪声信号,标签用于区分正样本和负样本;基于训练样本,对音乐检测模型进行迭代训练,直至音乐检测模型的误识率和拒识率均小于阈值,得到训练好的音乐检测模型。
第二方面,本公开实施例提供一种音频降噪装置,包括:
获取模块,用于获取待降噪音频信号;
转换模块,用于对待降噪音频信号进行时频转换处理,得到待降噪频域信号;
提取模块,用于提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;
确定模块,用于根据声学特征,确定待降噪音频信号存在音乐信号的第一概率;
处理模块,用于基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,处理模块具体用于:对幅度谱中的噪声信号进行噪声估计,获得第一噪声谱;基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱;基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,处理模块在用于基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱时,具体用于:根据下述公式,得到约束处理后的噪声谱:
Dmodify(k,l)=Destimated(k,l)*(1-MPP(l))+Destimated(k,l-1)*
MPP(l)
其中,Dmodify(k,l)表示约束处理后的噪声谱;Destimated(k,l)表示第k个频点第l帧噪声谱,即第一噪声谱;Destimated(k,l-1)表示第k个频点第l-1帧噪声谱;MPP(l)表示第一概率。
在一种可能的实施方式中,处理模块在用于基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号时,具体用于:根据幅度谱和约束处理后的噪声谱,获取待降噪音频信号存在语音信号的第二概率;根据幅度谱和约束处理后的噪声谱,获取信噪比;根据第二概率和信噪比,对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱;基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱;根据第二噪声谱、第二概率和幅度谱,获取维纳值;根据维纳值对待降噪频域信号进行降噪处理,得到降噪频域信号;对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,确定模块具体用于:将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率。
在一种可能的实施方式中,音乐检测模型包括全连接层、第一GRU层和第二GRU层,确定模块在用于将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率时,具体用于:将声学特征输入全连接层,得到第一维度的第一特征,第一维度大于预设维度;将第一特征输入第一GRU层,得到第二维度的第二特征,第二维度大于第一维度;将第二特征输入第二GRU层,得到目标特征;基于目标特征和激活函数,确定待降噪音频信号存在音乐信号的第一概率。
在一种可能的实施方式中,该音频降噪装置还包括训练模块,用于通过以下方式训练获得音乐检测模型:获取训练样本,训练样本包括正样本、负样本和标签,正样本包括音乐信号,负样本包括语音信号以及噪声信号,标签用于区分正样本和负样本;基于训练样本,对音乐检测模型进行迭代训练,直至音乐检测模型的误识率和拒识率均小于阈值,得到训练好的音乐检测模型。
第三方面,本公开实施例提供一种计算设备,包括:处理器,以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现如本公开第一方面所述的音频降噪方法。
第四方面,本公开实施例提供一种存储介质,存储介质中存储有计算机程序指令,计算机程序指令被执行时,实现如本公开第一方面所述的音频降噪方法。
第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,计算机程序被执行时实现如本公开第一方面所述的音频降噪方法。
本公开实施例提供的音频降噪方法、介质、装置和计算设备,通过获取待降噪音频信号,对待降噪音频信号进行时频转换处理,得到待降噪频域信号;提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;根据声学特征,确定待降噪音频信号存在音乐信号的第一概率;基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。由于本公开根据从待降噪频域信号提取到的声学特征,确定待降噪音频信号存在音乐信号的第一概率,将第一概率用于抑制待降噪音频信号中的噪声,因此,本公开对带噪音乐信号进行降噪处理时,能够在抑制噪声的同时,不损伤音乐音质,达到无损处理音乐信号的效果,给用户高保真的极致音乐音质体验。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1为相关技术提供的音频降噪方法的流程图;
图2为相关技术提供的将ANS应用于带噪语音信号的效果示意图;
图3为相关技术提供的将ANS应用于带噪音乐信号的效果示意图;
图4为相关技术提供的关闭ANS的带噪音乐信号的效果示意图;
图5为本公开实施例提供的一种应用场景示意图;
图6为本公开一实施例提供的音频降噪方法的流程图;
图7为本公开另一实施例提供的音频降噪方法的流程图;
图8为本公开一实施例提供的音乐检测模型的示意图;
图9为本公开又一实施例提供的音频降噪方法的流程图;
图10为本公开一实施例提供的音频降噪方法的效果示意图;
图11为本公开一实施例提供的音频降噪装置的结构示意图;
图12为本公开一实施例提供的存储介质示意图;
图13为本公开一实施例提供的计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据,本公开实施方式/实施例可以互相组合。
根据本公开的实施方式,提出了一种音频降噪方法、介质、装置和计算设备。
在本文中,需要理解的是,所涉及的术语:
RTC,是一种网络通信系统,用于对音视频信息进行实时转发;
短时傅里叶变换(Short-Time Fourier Transform,STFT),是一种时频域变换技术,用于将时域信号变换为频域信号;
逆短时傅里叶变换(inverse Short-Time Fourier Transform,iSTFT),是一种时频域变换技术,用于将频域信号变换为时域信号;
神经网络(Neural Network,NN),是一种仿生物神经网络结构的数学模型或计算模型;
门控循环单元(Gate Recurrent Unit,GRU),是循环神经网络的一种;
音乐存在概率(Music Presence Probability,MPP),即当前信号存在音乐信号的概率;
误识率(False Acceptance Rate,FAR),用于将负样本判为正样本的概率;
拒识率(False Rejection Rate,FRR),用于将正样本判为负样本的概率。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
本发明人发现,音频降噪是一种音频信号增强技术,在抑制采集音频的噪声的同时,增强采集音频。音频降噪技术通常包括七个模块:短时傅里叶变换模块、噪声谱估计模块、信号存在概率估计模块、信噪比计算模块、噪声谱更新模块、维纳滤波计算模块以及逆短时傅里叶变换模块。
示例性地,图1为相关技术提供的音频降噪方法的流程图。如图1所示,将采集到的待降噪音频信号y(n)输入短时傅里叶变换模块,将y(n)转换为待降噪频域信号Y(k,l),并获取Y(k,l)的幅度谱|Y(k,l)|,其中,n表示时序索引,k表示第k个频点,l表示第l帧信号。通过噪声谱估计模块对|Y(k,l)|中的噪声信号进行估计,获得噪声谱|D(k,l)|。根据|D(k,l)|和|Y(k,l)|,通过信号存在概率估计模块获取Y(k,l)存在语音信号的概率VPP。同时,根据|Y(k,l)|和|D(k,l)|,通过信噪比计算模块获取信噪比,该信噪比包括先验信噪比和后验信噪比。结合VPP和信噪比,通过噪声谱更新模块更新|D(k,l)|,得到更新后的噪声谱。根据更新后的噪声谱、VPP和|Y(k,l)|,通过维纳滤波计算模块获取维纳值Gain(k,l)。将维纳值Gain(k,l)应用于Y(k,l),得到增强的频域信号X(k,l),该X(k,l)也可以称为降噪频域信号。通过逆短时傅里叶变换模块将X(k,l)转换为待降噪音频信号y(n)对应的增强信号x(n),该x(n)也可以称为降噪音频信号x(n)。
基于图1,图2为相关技术提供的将ANS应用于带噪语音信号的效果示意图,如图2所示,201为采集的带噪语音信号,202为ANS抑制噪声后的音频信号(即增强语音信号),其中,横坐标表示时间,纵坐标表示信号的幅度值(Amp),2011表示人声信号,2012表示噪声,2021表示人声信号,2022表示噪声。对比201和202,2022相对于2012的幅度值变小,因此,可以确定,经过音频降噪处理后,噪声被有效抑制,增强了音频中的人声信号。
但在采用ANS对带噪音乐信号(包含音乐信号和噪声)进行降噪处理时,会严重损伤音乐信号,给用户带来较差的音乐音质体验。图3为相关技术提供的将ANS应用于带噪音乐信号的效果示意图,如图3所示,301为采集的带噪音乐信号,302为ANS抑制噪声后的音乐信号,其中,横坐标表示时间,纵坐标表示信号的幅度值(Amp),3011表示音乐信号,3012表示噪声,3021表示音乐信号,3022表示噪声。对比301和302,3022相对于3012的幅度值变小,但是,3021相对于3011的部分幅度值变小,因此,可以确定,将ANS直接应用于带噪音乐信号,在抑制噪声的同时,严重损伤了音乐信号。损伤音乐信号的原因为,ANS中的噪声谱估计模块和噪声谱更新模块将音乐信号中的弥散成分估为噪声,进而抑制音乐信号。而损伤后的音乐信号给用户带来较差音质体验。
另外,相关技术中,在处理带噪音乐信号时,或者是在音乐场景,为了达到音乐音质的高保真处理,主动关闭音频降噪技术。关闭音频降噪技术后,能最大程度保护音乐信号,实现高保真的音乐传输。图4为相关技术提供的关闭ANS的带噪音乐信号的效果示意图,如图4所示,401为采集的带噪音乐信号,402为关闭ANS后的音乐信号,其中,横坐标表示时间,纵坐标表示信号的幅度值(Amp),4011表示音乐信号,4012表示噪声,4021表示音乐信号,4022表示噪声。对比401和402,由于关闭了ANS,402相对于401没有变化,因此,可以确定,关闭音频降噪技术后,采集的带噪音乐信号中的噪声成分难以被抑制,嘈杂的噪声导致用户体验较差。
基于上述问题,本公开提供一种音频降噪方法、介质、装置和计算设备,通过将待降噪音频信号转换为待降噪频域信号,分析待降噪频域信号,提取必要的声学特征,根据声学特征判断待降噪音频信号是否含有音乐信号,并输出待降噪音频信号存在音乐信号的概率,通过概率约束待降噪音频信号中的噪声,能够在抑制噪声的同时,给用户高保真的极致音乐音质体验。
应用场景总览
首先参考图5对本公开提供的方案的应用场景进行示例说明。图5为本公开实施例提供的一种应用场景示意图,如图5所示,本应用场景中,用户通过手机501进入主播的直播间,观看直播,其中,通过服务器502将直播视频流发送给手机501。主播在进行直播时,通过音箱播放一首音乐,手机501在接收到服务器502发送的音乐信号时,对音乐信号进行音频降噪处理,为用户播放高保真音乐。
需要说明的是,图5仅是本公开实施例提供的一种应用场景的示意图,本公开实施例不对图5中包括的设备进行限定,也不对图5中设备之间的位置关系进行限定。
示例性方法
下面结合图5的应用场景,参考图6来描述根据本公开示例性实施方式的用于音频降噪方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
首先,通过具体实施例介绍音频降噪方法。
图6为本公开一实施例提供的音频降噪方法的流程图。本公开实施例的方法可以应用于计算设备中,该计算设备可以是终端。如图6所示,本公开实施例的方法包括:
S601、获取待降噪音频信号。
本公开实施例中,示例性地,待降噪音频信号可以是用户向执行本方法实施例的计算设备输入的,或者,是其它设备向执行本方法实施例的计算设备发送的。示例性地,待降噪音频信号比如为带噪音乐信号,带噪音乐信号包含音乐信号和噪声。
S602、对待降噪音频信号进行时频转换处理,得到待降噪频域信号。
示例性地,参考图1,可以将待降噪音频信号输入短时傅里叶变换模块进行时频转换处理,得到待降噪频域信号。
S603、提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种。
该步骤中,预设维度比如为60维。示例性地,在获得了待降噪频域信号后,可以分析待降噪频域信号,提取待降噪频域信号的60维的声学特征,60维的声学特征比如包括不同维度的信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征以及信号平坦度特征,具体提取声学特征的方式可参考目前相关技术。
S604、根据声学特征,确定待降噪音频信号存在音乐信号的第一概率。
该步骤中,在提取到了待降噪频域信号的预设维度的声学特征后,可以根据声学特征,确定待降噪音频信号存在音乐信号的第一概率。示例性地,将声学特征输入预先训练好的神经网络,确定待降噪音频信号存在音乐信号的第一概率。对于具体如何根据声学特征,确定待降噪音频信号存在音乐信号的第一概率,可参考后续实施例,此处不再赘述。
S605、基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
该步骤中,在确定待降噪音频信号存在音乐信号的第一概率后,可以基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。对于具体如何得到待降噪音频信号对应的降噪音频信号,可参考后续实施例,此处不再赘述。
本公开实施例提供的音频降噪方法,通过获取待降噪音频信号,对待降噪音频信号进行时频转换处理,得到待降噪频域信号;提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;根据声学特征,确定待降噪音频信号存在音乐信号的第一概率;基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。由于本公开实施例根据从待降噪频域信号提取到的声学特征,确定待降噪音频信号存在音乐信号的第一概率,将第一概率用于抑制待降噪音频信号中的噪声,因此,本公开实施例对带噪音乐信号进行降噪处理时,能够在抑制噪声的同时,不损伤音乐音质,达到无损处理音乐信号的效果,给用户高保真的极致音乐音质体验。
图7为本公开另一实施例提供的音频降噪方法的流程图。在上述实施例的基础上,本公开实施例对音频降噪方法进行进一步说明。如图7所示,本公开实施例的方法可以包括:
S701、获取待降噪音频信号。
该步骤的具体描述可以参见图6所示实施例中S601的相关描述,此处不再赘述。
S702、对待降噪音频信号进行时频转换处理,得到待降噪频域信号。
该步骤的具体描述可以参见图6所示实施例中S602的相关描述,此处不再赘述。
S703、提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种。
该步骤的具体描述可以参见图6所示实施例中S603的相关描述,此处不再赘述。
本公开实施例中,图6中S604步骤可以进一步包括如下的S704步骤:
S704、将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率。
该步骤中,在提取到了待降噪频域信号的预设维度的声学特征后,可以将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率。
可选的,音乐检测模型包括全连接层、第一GRU层和第二GRU层,将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率,可以包括:将声学特征输入全连接层,得到第一维度的第一特征,第一维度大于预设维度;将第一特征输入第一GRU层,得到第二维度的第二特征,第二维度大于第一维度;将第二特征输入第二GRU层,得到目标特征;基于目标特征和激活函数,确定待降噪音频信号存在音乐信号的第一概率。
示例性地,图8为本公开一实施例提供的音乐检测模型的示意图,如图8所示,假设预设维度为60维,则将60维声学特征输入音乐检测模型的全连接层,得到第一维度的第一特征,第一维度的第一特征为更高维度的特征;将第一特征输入第一GRU层,得到第二维度的第二特征,第二维度的第二特征为更高维度的特征;将第二特征输入第二GRU层,得到目标特征。采用激活函数分给目标特征,判断待降噪音频信号是否存在音乐信号,若存在,则输出待降噪音频信号存在音乐信号的第一概率。
对于具体如何训练获得音乐检测模型,可参考后续实施例,此处不再赘述。
本公开实施例中,图6中S605步骤可以进一步包括如下的S705至S713步骤:
S705、对待降噪频域信号的幅度谱中的噪声信号进行噪声估计,获得第一噪声谱。
示例性地,参考图1,可以通过噪声谱估计模块对待降噪频域信号的幅度谱中的噪声信号进行噪声估计,获得第一噪声谱。
S706、基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱。
该步骤中,在获得了待降噪音频信号存在音乐信号的第一概率以及第一噪声谱后,可以基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱。
可选的,基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱,可以包括:根据下述公式,得到约束处理后的噪声谱:
Dmodify(k,l)=Destimated(k,l)*(1-MPP(l))+Destimated(k,l-1)*
MPP(l)
其中,Dmodify(k,l)表示约束处理后的噪声谱;Destimated(k,l)表示第k个频点第l帧噪声谱,即第一噪声谱;Destimated(k,l-1)表示第k个频点第l-1帧噪声谱;MPP(l)表示第一概率。
可以理解,用第l帧的MPP约束第k个频点第l帧估计到的噪声谱,进而得到第k个频点第l帧的受约束的噪声谱Dmodify(k,l)。上述公式的物理意义为:当第l帧的待降噪音频信号存在音乐信号的概率很高时,受约束的噪声谱倾向于使用第l-1帧,即前一帧估计到的噪声谱,而不是当前帧估计到的噪声谱,约束噪声谱的更新;当第l帧的待降噪音频信号存在音乐信号的存在概率很低时,受约束的噪声谱倾向于使用第l帧,即当前帧估计到的噪声谱,保证了噪声谱的更新。本公开实施例提供的音频降噪方法,在处理带噪音乐信号时,既可以抑制带噪音乐信号的噪声成分,又不损伤音乐成分,达到高保真处理音乐信号的效果。
在获得了约束处理后的噪声谱后,可以基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。具体的,执行如下S707步骤。
S707、根据幅度谱和约束处理后的噪声谱,获取待降噪音频信号存在语音信号的第二概率。
示例性地,参考图1,将幅度谱和约束处理后的噪声谱输入信号存在概率估计模块,可以获取待降噪音频信号存在语音信号的第二概率。
S708、根据幅度谱和约束处理后的噪声谱,获取信噪比。
示例性地,参考图1,将幅度谱和约束处理后的噪声谱输入信噪比计算模块,可以获取信噪比。
需要说明的是,本公开实施例不对S707和S708执行的先后顺序进行限定。
S709、根据第二概率和信噪比,对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱。
示例性地,参考图1,结合第二概率和信噪比,通过噪声谱更新模块对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱。
S710、基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱。
示例性地,根据上述公式,对更新后的噪声谱进行约束处理,得到第二噪声谱,其中,更新后的噪声谱对应Destimated(k,l),第二噪声谱对应Dmodify(k,l)。
S711、根据第二噪声谱、第二概率和幅度谱,获取维纳值。
示例性地,参考图1,根据第二噪声谱、第二概率和幅度谱,通过维纳滤波计算模块获取维纳值。
S712、根据维纳值对待降噪频域信号进行降噪处理,得到降噪频域信号。
示例性地,参考图1,将维纳值应用于待降噪频域信号,可以得到增强的频域信号,该增强的频域信号即为降噪频域信号。
S713、对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。
示例性地,参考图1,通过逆短时傅里叶变换模块对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。
本公开实施例提供的音频降噪方法,通过获取待降噪音频信号,对待降噪音频信号进行时频转换处理,得到待降噪频域信号;提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率;对待降噪频域信号的幅度谱中的噪声信号进行噪声估计,获得第一噪声谱,基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱;根据幅度谱和约束处理后的噪声谱,获取待降噪音频信号存在语音信号的第二概率,同时,根据幅度谱和约束处理后的噪声谱,获取信噪比;根据第二概率和信噪比,对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱;基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱;根据第二噪声谱、第二概率和幅度谱,获取维纳值;根据维纳值对待降噪频域信号进行降噪处理,得到降噪频域信号;对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。由于本公开实施例根据从待降噪频域信号提取到的声学特征,通过音乐检测模型确定待降噪音频信号存在音乐信号的第一概率,基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱,再基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱,将第二噪声谱用于抑制待降噪音频信号中的噪声,因此,本公开实施例对带噪音乐信号进行降噪处理时,能够在抑制噪声的同时,不损伤音乐音质,达到无损处理音乐信号的效果,给用户高保真的极致音乐音质体验。
在上述实施例的基础上,可选的,音乐检测模型是通过以下方式训练获得的:获取训练样本,训练样本包括正样本、负样本和标签,正样本包括音乐信号,负样本包括语音信号以及噪声信号,标签用于区分正样本和负样本;基于训练样本,对音乐检测模型进行迭代训练,直至音乐检测模型的误识率和拒识率均小于阈值,得到训练好的音乐检测模型。
示例性地,可以采集语音信号、音乐信号以及噪声信号这三种信号,构成训练样本。其中,正样本包括音乐信号,负样本包括语音信号以及噪声信号。标签为[0,1]二值分布,当信号含有音乐信号时,标签为1,即表示正样本;标签为0,则表示负样本。训练的损伤函数比如为交叉熵。基于训练样本,对音乐检测模型进行迭代训练,直至音乐检测模型的误识率和拒识率均小于阈值,得到训练好的音乐检测模型,阈值比如为2%。示例性地,可以基于验证集,获取音乐检测模型的FAR和FRR,在FAR和FRR均小于2%时,音乐检测模型训练收敛。
在上述实施例的基础上,图9为本公开又一实施例提供的音频降噪方法的流程图,如图9所示,与图1相比,增加了音乐检测模块,通过音乐检测模块确定待降噪音频信号存在音乐信号的第一概率,进而通过第一概率约束噪声谱估计模块和噪声谱更新模块。具体的,将采集到的待降噪音频信号y(n)输入短时傅里叶变换模块,将y(n)转换为待降噪频域信号Y(k,l),并获取Y(k,l)的幅度谱|Y(k,l)|。通过音乐检测模块提取Y(k,l)的预设维度的声学特征,将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率。通过噪声谱估计模块对|Y(k,l)|中的噪声信号进行估计,获得噪声谱|D(k,l)|,基于第一概率,对|D(k,l)|进行约束处理,得到约束处理后的噪声谱;根据|Y(k,l)|和约束处理后的噪声谱,通过信号存在概率估计模块获取待降噪音频信号存在语音信号的第二概率。同时,根据|Y(k,l)|和约束处理后的噪声谱,通过信噪比计算模块获取信噪比,该信噪比包括先验信噪比和后验信噪比。根据第二概率和信噪比,通过噪声谱更新模块对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱,基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱。根据第二噪声谱、第二概率和幅度谱,通过维纳滤波计算模块获取维纳值。根据维纳值对Y(k,l)进行降噪处理,得到降噪频域信号。通过逆短时傅里叶变换模块对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。
在上述实施例的基础上,图10为本公开一实施例提供的音频降噪方法的效果示意图,如图10所示,1001为采集的带噪音乐信号,1002为采用本公开实施例提供的音频降噪方法抑制噪声后的音乐信号,其中,横坐标表示时间,纵坐标表示信号的幅度值(Amp),10011表示音乐信号,10012表示噪声,10021表示音乐信号,10022表示噪声。对比1001和1002,10022相对于10012的幅度值变小,且10021相对于10011的幅度值基本没有变化,因此,可以确定,将本公开实施例提供的音频降噪方法应用于带噪音乐信号,在抑制噪声的同时,与图3、图4两种相关技术的效果形成了鲜明的对比。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图11对本公开示例性实施方式的音频降噪装置进行说明。本公开示例性实施方式的装置,可以实现前述音频降噪方法实施例中的各个过程,并达到相同的功能和效果。
图11为本公开一实施例提供的音频降噪装置的结构示意图,如图11所示,本公开实施例的音频降噪装置1100包括:获取模块1101、转换模块1102、提取模块1103、确定模块1104和处理模块1105。其中:
获取模块1101,用于获取待降噪音频信号。
转换模块1102,用于对待降噪音频信号进行时频转换处理,得到待降噪频域信号。
提取模块1103,用于提取待降噪频域信号的预设维度的声学特征,声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种。
确定模块1104,用于根据声学特征,确定待降噪音频信号存在音乐信号的第一概率。
处理模块1105,用于基于第一概率和待降噪频域信号的幅度谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,处理模块1105可以具体用于:对幅度谱中的噪声信号进行噪声估计,获得第一噪声谱;基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱;基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,处理模块1105在用于基于第一概率,对第一噪声谱进行约束处理,得到约束处理后的噪声谱时,可以具体用于:根据下述公式,得到约束处理后的噪声谱:
Dmodify(k,l)=Destimated(k,l)*(1-MPP(l))+Destimated(k,l-1)*
MPP(l)
其中,Dmodify(k,l)表示约束处理后的噪声谱;Destimated(k,l)表示第k个频点第l帧噪声谱,即第一噪声谱;Destimated(k,l-1)表示第k个频点第l-1帧噪声谱;MPP(l)表示第一概率。
在一种可能的实施方式中,处理模块1105在用于基于第一概率和约束处理后的噪声谱,对待降噪频域信号进行降噪处理,得到待降噪音频信号对应的降噪音频信号时,可以具体用于:根据幅度谱和约束处理后的噪声谱,获取待降噪音频信号存在语音信号的第二概率;根据幅度谱和约束处理后的噪声谱,获取信噪比;根据第二概率和信噪比,对约束处理后的噪声谱进行更新处理,得到更新后的噪声谱;基于第一概率,对更新后的噪声谱进行约束处理,得到第二噪声谱;根据第二噪声谱、第二概率和幅度谱,获取维纳值;根据维纳值对待降噪频域信号进行降噪处理,得到降噪频域信号;对降噪频域信号进行时频转换处理,得到待降噪音频信号对应的降噪音频信号。
在一种可能的实施方式中,确定模块1104可以具体用于:将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率。
在一种可能的实施方式中,音乐检测模型包括全连接层、第一GRU层和第二GRU层,确定模块1104在用于将声学特征输入音乐检测模型,确定待降噪音频信号存在音乐信号的第一概率时,可以具体用于:将声学特征输入全连接层,得到第一维度的第一特征,第一维度大于预设维度;将第一特征输入第一GRU层,得到第二维度的第二特征,第二维度大于第一维度;将第二特征输入第二GRU层,得到目标特征;基于目标特征和激活函数,确定待降噪音频信号存在音乐信号的第一概率。
在一种可能的实施方式中,音频降噪装置1100还可以包括训练模块1106,用于通过以下方式训练获得音乐检测模型:获取训练样本,训练样本包括正样本、负样本和标签,正样本包括音乐信号,负样本包括语音信号以及噪声信号,标签用于区分正样本和负样本;基于训练样本,对音乐检测模型进行迭代训练,直至音乐检测模型的误识率和拒识率均小于阈值,得到训练好的音乐检测模型。
本公开实施例的装置,可以用于执行上述任一方法实施例中音频降噪方法的方案,其实现原理和技术效果类似,此处不再赘述。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图12对本公开示例性实施方式的存储介质进行说明。
图12为本公开一实施例提供的存储介质示意图。参考图12所示,存储介质1200中存储着根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图13对本公开示例性实施方式的计算设备进行说明。
图13显示的计算设备1300仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
图13为本公开一实施例提供的计算设备的结构示意图,如图13所示,计算设备1300以通用计算设备的形式表现。计算设备1300的组件可以包括但不限于:上述至少一个处理单元1301、上述至少一个存储单元1302,连接不同系统组件(包括处理单元1301和存储单元1302)的总线1303。示例性地,处理单元1301可以具体为处理器,存储单元1302存储计算机执行指令,处理单元1301执行存储单元1302存储的计算机执行指令,以实现上述的音频降噪方法。
总线1303包括数据总线、控制总线和地址总线。
存储单元1302可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)13021和/或高速缓存存储器13022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)13023。
存储单元1302还可以包括具有一组(至少一个)程序模块13024的程序/实用工具13025,这样的程序模块13024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备1300也可以与一个或多个外部设备1304(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1305进行。并且,计算设备1300还可以通过网络适配器1306与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图13所示,网络适配器1306通过总线1303与计算设备1300的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备1300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了音频降噪装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种音频降噪方法,包括:
获取待降噪音频信号;
对所述待降噪音频信号进行时频转换处理,得到待降噪频域信号;
提取所述待降噪频域信号的预设维度的声学特征,所述声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;
根据所述声学特征,确定所述待降噪音频信号存在音乐信号的第一概率;
基于所述第一概率和所述待降噪频域信号的幅度谱,对所述待降噪频域信号进行降噪处理,得到所述待降噪音频信号对应的降噪音频信号。
2.根据权利要求1所述的音频降噪方法,所述基于所述第一概率和所述待降噪频域信号的幅度谱,对所述待降噪频域信号进行降噪处理,得到所述待降噪音频信号对应的降噪音频信号,包括:
对所述幅度谱中的噪声信号进行噪声估计,获得第一噪声谱;
基于所述第一概率,对所述第一噪声谱进行约束处理,得到约束处理后的噪声谱;
基于所述第一概率和所述约束处理后的噪声谱,对所述待降噪频域信号进行降噪处理,得到所述待降噪音频信号对应的降噪音频信号。
3.根据权利要求2所述的音频降噪方法,所述基于所述第一概率,对所述第一噪声谱进行约束处理,得到约束处理后的噪声谱,包括:
根据下述公式,得到所述约束处理后的噪声谱:
Dmodify(k,l)=Destimated(k,l)*(1-MPP(l))+Destimated(k,l-1)*MPP(l)
其中,Dmodify(k,l)表示所述约束处理后的噪声谱;Destimated(k,l)表示第k个频点第l帧噪声谱,即所述第一噪声谱;Destimated(k,l-1)表示第k个频点第l-1帧噪声谱;MPP(l)表示所述第一概率。
4.根据权利要求2所述的音频降噪方法,所述基于所述第一概率和所述约束处理后的噪声谱,对所述待降噪频域信号进行降噪处理,得到所述待降噪音频信号对应的降噪音频信号,包括:
根据所述幅度谱和所述约束处理后的噪声谱,获取所述待降噪音频信号存在语音信号的第二概率;
根据所述幅度谱和所述约束处理后的噪声谱,获取信噪比;
根据所述第二概率和所述信噪比,对所述约束处理后的噪声谱进行更新处理,得到更新后的噪声谱;
基于所述第一概率,对所述更新后的噪声谱进行约束处理,得到第二噪声谱;
根据所述第二噪声谱、所述第二概率和所述幅度谱,获取维纳值;
根据所述维纳值对所述待降噪频域信号进行降噪处理,得到降噪频域信号;
对所述降噪频域信号进行时频转换处理,得到所述待降噪音频信号对应的降噪音频信号。
5.根据权利要求1至4中任一项所述的音频降噪方法,所述根据所述声学特征,确定所述待降噪音频信号存在音乐信号的第一概率,包括:
将所述声学特征输入音乐检测模型,确定所述待降噪音频信号存在音乐信号的第一概率。
6.根据权利要求5所述的音频降噪方法,所述音乐检测模型包括全连接层、第一门控循环单元GRU层和第二GRU层,所述将所述声学特征输入音乐检测模型,确定所述待降噪音频信号存在音乐信号的第一概率,包括:
将所述声学特征输入所述全连接层,得到第一维度的第一特征,所述第一维度大于所述预设维度;
将所述第一特征输入第一GRU层,得到第二维度的第二特征,所述第二维度大于所述第一维度;
将所述第二特征输入所述第二GRU层,得到目标特征;
基于所述目标特征和激活函数,确定所述待降噪音频信号存在音乐信号的第一概率。
7.根据权利要求5所述的音频降噪方法,所述音乐检测模型是通过以下方式训练获得的:
获取训练样本,所述训练样本包括正样本、负样本和标签,所述正样本包括音乐信号,所述负样本包括语音信号以及噪声信号,所述标签用于区分所述正样本和所述负样本;
基于所述训练样本,对音乐检测模型进行迭代训练,直至音乐检测模型的误识率和拒识率均小于阈值,得到训练好的音乐检测模型。
8.一种音频降噪装置,包括:
获取模块,用于获取待降噪音频信号;
转换模块,用于对所述待降噪音频信号进行时频转换处理,得到待降噪频域信号;
提取模块,用于提取所述待降噪频域信号的预设维度的声学特征,所述声学特征包括信号巴克域幅度特征、信号音调特征、一阶二阶音调差分特征和信号平坦度特征中的至少一种;
确定模块,用于根据所述声学特征,确定所述待降噪音频信号存在音乐信号的第一概率;
处理模块,用于基于所述第一概率和所述待降噪频域信号的幅度谱,对所述待降噪频域信号进行降噪处理,得到所述待降噪音频信号对应的降噪音频信号。
9.一种计算设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7中任一项所述的音频降噪方法。
10.一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令被执行时,实现如权利要求1至7中任一项所述的音频降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310547140.XA CN116524944A (zh) | 2023-05-12 | 2023-05-12 | 音频降噪方法、介质、装置和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310547140.XA CN116524944A (zh) | 2023-05-12 | 2023-05-12 | 音频降噪方法、介质、装置和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116524944A true CN116524944A (zh) | 2023-08-01 |
Family
ID=87404593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310547140.XA Pending CN116524944A (zh) | 2023-05-12 | 2023-05-12 | 音频降噪方法、介质、装置和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524944A (zh) |
-
2023
- 2023-05-12 CN CN202310547140.XA patent/CN116524944A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement | |
CN108615535B (zh) | 语音增强方法、装置、智能语音设备和计算机设备 | |
Soon et al. | Noisy speech enhancement using discrete cosine transform | |
JP4842583B2 (ja) | 多感覚音声強調のための方法および装置 | |
Krueger et al. | Model-based feature enhancement for reverberant speech recognition | |
KR101224755B1 (ko) | 음성-상태 모델을 사용하는 다중-감각 음성 향상 | |
US20070255535A1 (en) | Method of Processing a Noisy Sound Signal and Device for Implementing Said Method | |
KR20090122251A (ko) | 스피치 개선을 위한 노이즈 분산 추정기 | |
Tabibian et al. | Speech enhancement using a wavelet thresholding method based on symmetric Kullback–Leibler divergence | |
CN108461081B (zh) | 语音控制的方法、装置、设备和存储介质 | |
CN111696568A (zh) | 一种半监督瞬态噪声抑制方法 | |
CN112602150A (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN111863008A (zh) | 一种音频降噪方法、装置及存储介质 | |
KR20220022286A (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
Chao et al. | Cross-domain single-channel speech enhancement model with bi-projection fusion module for noise-robust ASR | |
JP2007293059A (ja) | 信号処理装置およびその方法 | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
WO2013061232A1 (en) | Audio signal noise attenuation | |
KR20110024969A (ko) | 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법 | |
Thiagarajan et al. | Pitch-based voice activity detection for feedback cancellation and noise reduction in hearing aids | |
CN116524944A (zh) | 音频降噪方法、介质、装置和计算设备 | |
Lan et al. | Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network | |
Oktar et al. | Denoising speech by notch filter and wavelet thresholding in real time | |
Li et al. | Joint sparse representation based cepstral-domain dereverberation for distant-talking speech recognition | |
Lee et al. | Speech Enhancement Using Phase‐Dependent A Priori SNR Estimator in Log‐Mel Spectral Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |