CN114974196A - 可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质 - Google Patents

可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114974196A
CN114974196A CN202210306321.9A CN202210306321A CN114974196A CN 114974196 A CN114974196 A CN 114974196A CN 202210306321 A CN202210306321 A CN 202210306321A CN 114974196 A CN114974196 A CN 114974196A
Authority
CN
China
Prior art keywords
short
time
domain signal
noise reduction
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210306321.9A
Other languages
English (en)
Inventor
吴柏叡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wondershare Software Co Ltd
Original Assignee
Shenzhen Wondershare Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wondershare Software Co Ltd filed Critical Shenzhen Wondershare Software Co Ltd
Priority to CN202210306321.9A priority Critical patent/CN114974196A/zh
Publication of CN114974196A publication Critical patent/CN114974196A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3016Control strategies, e.g. energy minimization or intensity measurements

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质,其包括:获取输入语音信号的频域信号X(k,m),并计算频域信号X(k,m)的短时平均能量
Figure DDA0003565510470000011
和短时噪音平均能量
Figure DDA0003565510470000012
根据短时平均能量
Figure DDA0003565510470000013
和短时噪音平均能量
Figure DDA0003565510470000014
计算短时语音能量
Figure DDA0003565510470000015
其中,短时语音能量
Figure DDA00035655104700000111
=短时平均能量
Figure DDA0003565510470000016
‑短时噪音平均能量
Figure DDA0003565510470000017
将短时语音能量
Figure DDA0003565510470000018
和短时噪音平均能量
Figure DDA0003565510470000019
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure DDA00035655104700000110
α、β和γ均为可调参数,用于控制降噪范围;利用语音增益W(ω)对频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。本发明可以在对输入语音进行降噪时,可以灵活控制降噪范围以适配不同的需求。

Description

可动态控制降噪范围的降噪方法、装置、计算机设备及存储 介质
技术领域
本发明涉及音频降噪技术领域,尤其涉及一种可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质。
背景技术
一段音频一般可以包括噪音部分和语音部分,例如,对于一段旁白,噪音部分为该旁白的背景音,包括其他人的说话声音、风声、设备引擎声以及电子干扰发出的声音,因此,需要对音频进行处理以去除噪音,俗称降噪。通常在对音频进行降噪处理时,需要通过增益函数在降噪强度和语音保留程度之间进行平衡,避免降噪强度太高导致语音保留程度较低,或者降噪强度太低,降噪效果不明显。目前常见的增益算法有维纳滤波函数、减频谱函数等函数,但是上述算法的增益范围均较窄,且不能灵活调整降噪范围。
发明内容
本发明实施例提供了一种可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质,不仅可以去除语音中的噪音,还可以动态控制降噪范围。
第一方面,本发明实施例提供了一种可动态控制降噪范围的降噪方法,该方法包括:
获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000011
和短时噪音平均能量
Figure RE-GDA0003758804780000012
其中,k为离散频谱指标,m 为短时傅里叶变换时间指标;
根据所述短时平均能量
Figure RE-GDA0003758804780000013
和所述短时噪音平均能量
Figure RE-GDA0003758804780000014
计算短时语音能量
Figure RE-GDA0003758804780000015
其中,所述短时语音能量
Figure RE-GDA0003758804780000016
Figure RE-GDA0003758804780000021
将所述短时语音能量
Figure RE-GDA0003758804780000022
和所述短时噪音平均能量
Figure RE-GDA0003758804780000023
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure RE-GDA0003758804780000024
α、β和γ均为可调参数,用于控制降噪范围;
利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
第二方面,本发明实施例还提供了一种可动态控制降噪范围的降噪装置,该装置包括:
第一计算单元,用于获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000025
和短时噪音平均能量
Figure RE-GDA0003758804780000026
其中,k 为离散频谱指标,m为短时傅里叶变换时间指标;
短时语音能量计算单元,用于根据所述短时平均能量
Figure RE-GDA0003758804780000027
和所述短时噪音平均能量
Figure RE-GDA0003758804780000028
计算短时语音能量
Figure RE-GDA0003758804780000029
其中,所述短时语音能量
Figure RE-GDA00037588047800000210
语音增益计算单元,用于将所述短时语音能量
Figure RE-GDA00037588047800000211
和所述短时噪音平均能量
Figure RE-GDA00037588047800000212
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure RE-GDA00037588047800000213
Figure RE-GDA00037588047800000214
α、β和γ均为可调参数,用于控制降噪范围;
输出语音信号计算单元,用于利用所述语音增益W(ω)对所述频域信号 X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质。该方法包括:获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000031
和短时噪音平均能量
Figure RE-GDA0003758804780000032
其中,k为离散频谱指标,m为短时傅里叶变换时间指标;根据所述短时平均能量
Figure RE-GDA0003758804780000033
和所述短时噪音平均能量
Figure RE-GDA0003758804780000034
计算短时语音能量
Figure RE-GDA0003758804780000035
其中,所述短时语音能量
Figure RE-GDA0003758804780000036
将所述短时语音能量
Figure RE-GDA0003758804780000037
和所述短时噪音平均能量
Figure RE-GDA0003758804780000038
代入增益函数W 以获得语音增益W(ω),其中,增益函数
Figure RE-GDA0003758804780000039
α、β和γ均为可调参数,用于控制降噪范围;利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。本发明实施例可以计算输入语音信号的频域信号X(k,m)的短时平均能量
Figure RE-GDA00037588047800000310
和短时噪音平均能量
Figure RE-GDA00037588047800000311
进而可以获得短时语音能量
Figure RE-GDA00037588047800000312
再将短时噪音平均能量
Figure RE-GDA00037588047800000313
和短时语音能量
Figure RE-GDA00037588047800000314
代入本发明实施例所提供的增益函数W以获得语音增益W(ω),所获得的语音增益W(ω)包括α、β和γ三个可调参数,可以通过调整α、β和γ的取值来调整降噪强度和语音保留程度以及降噪强度与语音保留程度之间的比值,进而实现动态调整降噪范围。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的可动态控制降噪范围的降噪方法的流程示意图;
图2和图3是本发明实施例提供的输入信噪比相对于输出增益的曲线图;
图4是本发明另一实施例提供的可动态控制降噪范围的降噪方法的流程示意图;
图5是本发明实施例提供的一种可动态控制降噪范围的降噪装置的示意性框图;
图6是本发明另一实施例提供的一种可动态控制降噪范围的降噪装置的示意性框图;
图7是本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的可动态控制降噪范围的降噪方法的流程示意图。如图1所示,该方法包括步骤S110~S140。
S110,获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m) 的短时平均能量
Figure RE-GDA0003758804780000041
和短时噪音平均能量
Figure RE-GDA0003758804780000042
其中,k为离散频谱指标,m为短时傅里叶变换时间指标。
在本发明实施例中,频域信号是描述频率与振幅之间的关系,体现在坐标上通常为横轴为频率,纵轴为振幅,频域信号与时域信号可互相转换,转换方法包括但不限于傅里叶变化、离散变换以及改进离散余弦变换。输入语音信号的频域信号X(k,m)可以由时域信号通过傅里叶变换而来,在获得频域信号 X(k,m)后,可以计算频域信号X(k,m)中的短时平均能量
Figure RE-GDA0003758804780000051
和短时噪音平均能量
Figure RE-GDA0003758804780000052
语音输入信号一般是随时间变化的非平稳随机过程,而语音虽然是时变的但是具有短时相关性,这个相关性来源于人的发生器官具有惯性,因此语音的状态是不会发生突变,故在计算能量时,通常计算短时能量(短时平均能量)和短时噪音平均能量即可。其中,频域信号X(k,m)一般包括两个k 和m两个指标,k为离散频谱指标,m为短时傅里叶变换时间指标。
在某些实施例,例如本实施例中,所述获取输入语音信号的频域信号X(k,m) 的步骤可以包括如下步骤:获取所述输入语音信号的时域信号x(n),其中,n 为离散时间指标;通过短时傅里叶变换将所述时域信号转换为所述频域信号 X(k,m)。
在本发明实施例中,一般可以直接获取的语音信号为时域信号,故可以先获取输入语音信号的时域信号x(n),再通过短时傅里叶变换将时域信号x(n)转为频域信号X(k,m)。
在某些实施例,例如本实施例中,所述可动态控制降噪范围的降噪方法还可以包括如下步骤:计算所述频域信号X(k,m)中每一个所述短时傅里叶变换时间指标m的过零率r,并判断是否存在所述过零率r大于预设数值a的短时傅里叶变换时间指标m;若存在所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m,则统计所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的个数N。
在本发明实施例中,过零率是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零,因此可以计算过零的次数。单位时间内过零的次数就称为过零率。因此过零率在一定程度上可以反映信号的频率信息。预设数值a可根据具体情况进行设置,当过零率r大于预设数值a时,表明所对应的短时傅里叶变换时间指标m的过零次数较高,说明该短时傅里叶变换时间指标m所对应的一段信号只存在噪音,可用于统计短时噪音平均能量。假设频域信号X(k,m)中一共有5个短时傅里叶变换时间指标m的过零率r大于a,且分别为m1,m2,m3,m4和m5,则N=5,I={m1,m2,m3,m4和m5}。
在某些实施例,例如本实施例中,所述计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000061
和短时噪音平均能量
Figure RE-GDA0003758804780000062
的步骤包括如下步骤:根据公式
Figure RE-GDA0003758804780000063
计算所述短时噪音平均能量
Figure RE-GDA0003758804780000064
其中,I为所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的集合;根据公式
Figure RE-GDA0003758804780000065
计算所述短时平均能量
Figure RE-GDA0003758804780000066
在本发明实施例中,在存在过零率r大于预设数值a的短时傅里叶变换时间指标m的个数为N,集合为I的前提下,短时噪音平均能量
Figure RE-GDA0003758804780000067
Figure RE-GDA0003758804780000068
短时平均能量
Figure RE-GDA0003758804780000069
S120,根据所述短时平均能量
Figure RE-GDA00037588047800000610
和所述短时噪音平均能量
Figure RE-GDA00037588047800000611
计算短时语音能量
Figure RE-GDA00037588047800000612
其中,所述短时语音能量
Figure RE-GDA00037588047800000613
Figure RE-GDA00037588047800000614
在本发明实施例中,在计算完短时平均能量
Figure RE-GDA00037588047800000615
和短时噪音平均能量
Figure RE-GDA00037588047800000616
后,可用短时平均能量
Figure RE-GDA00037588047800000617
减去短时噪音平均能量
Figure RE-GDA00037588047800000618
求得短时语音能量
Figure RE-GDA00037588047800000619
S130,将所述短时语音能量
Figure RE-GDA0003758804780000071
和所述短时噪音平均能量
Figure RE-GDA0003758804780000072
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure RE-GDA0003758804780000073
α、β和γ均为可调参数,用于控制降噪范围。
在本发明实施例中,增益函数
Figure RE-GDA0003758804780000074
则增益函数
Figure RE-GDA0003758804780000075
将短时噪音平均能量
Figure RE-GDA0003758804780000076
和短时语音能量
Figure RE-GDA0003758804780000077
代入公式(1)可以获得语音增益W(ω)。其中,α、β和γ均为可调参数,α≥0,β≥0,γ≥0,可通过调整三个参数的取值调整降噪强度,以及语音保留程度,且α越大降噪程度越大,β越大降噪程度越大,γ越大大降噪程度越大。如图2所示,图2是输入信噪比相对于输出增益的曲线图,不同的公式对应不同的曲线,每条曲线表示不同的噪音强度下的不同降噪程度,信噪比愈低表示噪音越大,增益越小表示降噪强度越大,但语音可能有较大的丢失。可以看出不同的算法趋势都是信噪比愈低增益就越大,其中,维纳滤波(Wiener)对应的公式为
Figure RE-GDA0003758804780000078
可调整语音损失程度的维纳滤波(SDW-SWF)对应的公式为
Figure RE-GDA0003758804780000079
减量谱(Spectral subtraction)对应的公式为
Figure RE-GDA00037588047800000710
减能谱(Power subtraction)对应的公式为
Figure RE-GDA00037588047800000711
如图3所示,图3同样是输入信噪比相对于输出增益的曲线图,不同的公式对应不同的曲线,其中,
维纳滤波(Wiener)对应的公式为
Figure RE-GDA00037588047800000712
减量谱(Spectral subtraction)对应的公式为
Figure RE-GDA00037588047800000713
parametric2为本发明实施例所提供的增益函数W,可以看出本发明实施例所提供的增益函数W还额外提供了曲线的斜率控制,可以控制曲线的斜率以调整曲线的倾斜程度,可以增加或减少降噪的动态范围。
S140,利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
在本发明实施例中,在获得语音增益W(ω)后,将语音增益W(ω)乘以频域信号X(k,m)以完成对频域信号X(k,m)的增益,从而获得输出语音信号的频域信号Y(k,m)。
在某些实施例,例如本实施例中,所述步骤S140可以包括如下步骤:计算所述语音增益W(ω)的短时平均增益
Figure RE-GDA0003758804780000081
其中,
Figure RE-GDA0003758804780000082
Figure RE-GDA0003758804780000083
利用所述短时平均增益
Figure RE-GDA0003758804780000084
对所述频域信号X(k,m)进行增益以获得所述频域信号Y(k,m)。
在本发明实施例中,在用语音增益W(ω)对频域信号X(k,m)进行增益之前,可以先计算语音增益W(ω)的短时平均增益
Figure RE-GDA0003758804780000085
再用短时平均增益
Figure RE-GDA0003758804780000086
对频域信号X(k,m)进行增益,也可以直接用语音增益W(ω)对频域信号X(k,m) 进行增益。
在某些实施例,例如本实施例中,所述步骤S140之后,可以包括如下步骤:通过反向短时傅里叶变换将所述频域信号Y(k,m)转换为时域信号y(n)以获得所述输出语音信号的时域信号。
在本发明实施例中,在获得频域信号Y(k,m)后,可以通过反向短时傅里叶变换将频域信号Y(k,m)转换为时域信号y(n),再将时域信号y(n)输出以完成对语音信号的处理。
图4是本发明另一实施例提供的一种可动态控制降噪范围的降噪方法,如图4所示,本实施例的可动态控制降噪范围的降噪方法包括步骤S210-S250。其中步骤S210-S240与上述实施例中的步骤S110-S140类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S250。
S250,通过改进离散余弦变换将所述频域信号Y(k,m)转换为时域信号y(n) 以获得所述输出语音信号的时域信号。
在本发明实施例中,可以通过改进离散余弦变换将频域信号Y(k,m)转换为时域信号y(n),再将时域信号y(n)输出以完成对语音信号的处理。
图5是本发明实施例提供的一种可动态控制降噪范围的降噪装置100的示意性框图。如图5所示,对应于以上可动态控制降噪范围的降噪方法,本发明还提供一种可动态控制降噪范围的降噪装置100。该可动态控制降噪范围的降噪装置100包括用于执行上述可动态控制降噪范围的降噪方法的单元。具体地,请参阅图5,该可动态控制降噪范围的降噪装置100包括第一计算单元110、短时语音能量计算单元120、语音增益计算单元130和输出语音信号计算单元140。
其中,第一计算单元110用于获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000091
和短时噪音平均能量
Figure RE-GDA0003758804780000092
其中,k为离散频谱指标,m为短时傅里叶变换时间指标;短时语音能量计算单元120用于根据所述短时平均能量
Figure RE-GDA0003758804780000093
和所述短时噪音平均能量
Figure RE-GDA0003758804780000094
计算短时语音能量
Figure RE-GDA0003758804780000095
其中,所述短时语音能量
Figure RE-GDA0003758804780000096
Figure RE-GDA0003758804780000097
语音增益计算单元130用于将所述短时语音能量
Figure RE-GDA0003758804780000098
和所述短时噪音平均能量
Figure RE-GDA0003758804780000099
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure RE-GDA00037588047800000910
α、β和γ均为可调参数,用于控制降噪范围;输出语音信号计算单元140用于利用所述语音增益 W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
本发明一实施例还提供了一种可动态控制降噪范围的降噪装置。其是在上述实施例的基础上增加了第一判断单元和第一统计单元。。
其中,第一判断单元用于计算所述频域信号X(k,m)中每一个所述短时傅里叶变换时间指标m的过零率r,并判断是否存在所述过零率r大于预设数值a的短时傅里叶变换时间指标m;第一统计单元用于若存在所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m,则统计所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的个数N。
在某些实施例,例如本实施例中,所述第一计算单元110包括第二计算单元和第三计算单元。
其中,第二计算单元用于根据公式
Figure RE-GDA0003758804780000101
计算所述短时噪音平均能量
Figure RE-GDA0003758804780000102
其中,I为所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的集合;第三计算单元用于根据公式
Figure RE-GDA0003758804780000103
Figure RE-GDA0003758804780000104
计算所述短时平均能量
Figure RE-GDA0003758804780000105
在另一实施例中,所述输出语音信号计算单元140包括第四计算单元和第一处理单元。
其中,第四计算单元用于计算所述语音增益W(ω)的短时平均增益
Figure RE-GDA0003758804780000106
其中,
Figure RE-GDA0003758804780000107
第一处理单元用于利用所述短时平均增益
Figure RE-GDA0003758804780000108
对所述频域信号X(k,m)进行增益以获得所述频域信号Y(k,m)。
本发明一实施例还提供了一种可动态控制降噪范围的降噪装置。其是在上述实施例的基础上增加了第一转换单元。
其中,第一转换单元用于通过反向短时傅里叶变换将所述频域信号Y(k,m) 转换为时域信号y(n)以获得所述输出语音信号的时域信号。
本发明一实施例还提供了一种可动态控制降噪范围的降噪装置。其是在上述实施例的基础上增加了第一获取单元和第二转换单元。
其中,第一获取单元用于获取所述输入语音信号的时域信号x(n),其中,n 为离散时间指标;第二转换单元用于通过短时傅里叶变换将所述时域信号转换为所述频域信号X(k,m)。
图6是本发明另一实施例提供的一种可动态控制降噪范围的降噪装置200 的示意性框图。如图6所示,对应于以上可动态控制降噪范围的降噪方法,本发明还提供一种可动态控制降噪范围的降噪装置200。该可动态控制降噪范围的降噪装置200包括用于执行上述可动态控制降噪范围的降噪方法的单元。具体地,请参阅图6,该可动态控制降噪范围的降噪装置200包括第一计算单元110、短时语音能量计算单元120、语音增益计算单元130、输出语音信号计算单元140 和第三转换单元150。
其中,第一计算单元110用于获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000111
和短时噪音平均能量
Figure RE-GDA0003758804780000112
其中,k为离散频谱指标,m为短时傅里叶变换时间指标;短时语音能量计算单元120用于根据所述短时平均能量
Figure RE-GDA0003758804780000113
和所述短时噪音平均能量
Figure RE-GDA0003758804780000114
计算短时语音能量
Figure RE-GDA0003758804780000115
其中,所述短时语音能量
Figure RE-GDA0003758804780000116
Figure RE-GDA0003758804780000117
语音增益计算单元130用于将所述短时语音能量
Figure RE-GDA0003758804780000118
和所述短时噪音平均能量
Figure RE-GDA0003758804780000119
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure RE-GDA00037588047800001110
α、β和γ均为可调参数,用于控制降噪范围;输出语音信号计算单元140用于利用所述语音增益 W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m);第三转换单元150用于通过改进离散余弦变换将所述频域信号Y(k,m)转换为时域信号y(n)以获得所述输出语音信号的时域信号。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述可动态控制降噪范围的降噪装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述可动态控制降噪范围的降噪装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图7,该计算机设备500包括通过系统总线501连接的处理器502、存储器和接口507,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种可动态控制降噪范围的降噪方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种可动态控制降噪范围的降噪方法。
该接口505用于与其它设备进行通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000121
和短时噪音平均能量
Figure RE-GDA0003758804780000122
其中,k为离散频谱指标,m 为短时傅里叶变换时间指标;
根据所述短时平均能量
Figure RE-GDA0003758804780000123
和所述短时噪音平均能量
Figure RE-GDA0003758804780000124
计算短时语音能量
Figure RE-GDA0003758804780000125
其中,所述短时语音能量
Figure RE-GDA0003758804780000126
Figure RE-GDA0003758804780000127
将所述短时语音能量
Figure RE-GDA0003758804780000128
和所述短时噪音平均能量
Figure RE-GDA0003758804780000129
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure RE-GDA00037588047800001210
α、β和γ均为可调参数,用于控制降噪范围;
利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
在一实施例中,所述处理器502还实现如下步骤:
计算所述频域信号X(k,m)中每一个所述短时傅里叶变换时间指标m的过零率r,并判断是否存在所述过零率r大于预设数值a的短时傅里叶变换时间指标m;
若存在所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m,则统计所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的个数N。
在一实施例中,处理器502在实现所计算所述频域信号X(k,m)的短时平均能量
Figure RE-GDA0003758804780000131
和短时噪音平均能量
Figure RE-GDA0003758804780000132
的步骤时,具体实现如下步骤:
根据公式
Figure RE-GDA0003758804780000133
计算所述短时噪音平均能量
Figure RE-GDA0003758804780000134
其中,I为所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m 的集合;
根据公式
Figure RE-GDA0003758804780000135
计算所述短时平均能量
Figure RE-GDA0003758804780000136
在一实施例中,处理器502在实现所述利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)的步骤时,具体实现如下步骤:
计算所述语音增益W(ω)的短时平均增益
Figure RE-GDA0003758804780000137
其中,
Figure RE-GDA0003758804780000138
Figure RE-GDA0003758804780000139
利用所述短时平均增益
Figure RE-GDA00037588047800001310
对所述频域信号X(k,m)进行增益以获得所述频域信号Y(k,m)。
在一实施例中,处理器502在实现所述利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)的步骤之后,还包括如下步骤:
通过反向短时傅里叶变换将所述频域信号Y(k,m)转换为时域信号y(n)以获得所述输出语音信号的时域信号。
在一实施例中,处理器502在实现所述利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)的步骤之后,还包括如下步骤:
通过改进离散余弦变换将所述频域信号Y(k,m)转换为时域信号y(n)以获得所述输出语音信号的时域信号。
在一实施例中,处理器502在实现所述获取输入语音信号的频域信号 X(k,m)的步骤时,具体实现如下步骤:
获取所述输入语音信号的时域信号x(n),其中,n为离散时间指标;
通过短时傅里叶变换将所述时域信号转换为所述频域信号X(k,m)。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(FigitalSignal Processor,FSP)、专用集成电路(Application Specific IntegrateF Circuit,ASIC)、现成可编程门阵列(FielF-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序当被处理器执行时实现上述可动态控制降噪范围的降噪方法的任一实施例。
所述存储介质可以是U盘、移动硬盘、只读存储器(ReaF-Only Memory, ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种可动态控制降噪范围的降噪方法,其特征在于,所述方法包括:
获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure FDA0003565510440000011
和短时噪音平均能量
Figure FDA0003565510440000012
其中,k为离散频谱指标,m为短时傅里叶变换时间指标;
根据所述短时平均能量
Figure FDA0003565510440000013
和所述短时噪音平均能量
Figure FDA0003565510440000014
计算短时语音能量
Figure FDA0003565510440000015
其中,短时语音能量
Figure FDA0003565510440000016
Figure FDA0003565510440000017
将所述短时语音能量
Figure FDA0003565510440000018
和所述短时噪音平均能量
Figure FDA0003565510440000019
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure FDA00035655104400000110
α、β和γ均为可调参数,用于控制降噪范围;
利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
2.如权利要求1所述的可动态控制降噪范围的降噪方法,其特征在于,所述方法还包括:
计算所述频域信号X(k,m)中每一个所述短时傅里叶变换时间指标m的过零率r,并判断是否存在所述过零率r大于预设数值a的短时傅里叶变换时间指标m;
若存在所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m,则统计所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的个数N。
3.如权利要求2所述的可动态控制降噪范围的降噪方法,其特征在于,所述计算所述频域信号X(k,m)的短时平均能量
Figure FDA0003565510440000021
和短时噪音平均能量
Figure FDA0003565510440000022
的步骤包括:
根据公式
Figure FDA0003565510440000023
计算所述短时噪音平均能量
Figure FDA0003565510440000024
其中,I为所有所述过零率r大于所述预设数值a的短时傅里叶变换时间指标m的集合;
根据公式
Figure FDA0003565510440000025
计算所述短时平均能量
Figure FDA0003565510440000026
4.如权利要求1所述的可动态控制降噪范围的降噪方法,其特征在于,所述利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)的步骤,包括:
计算所述语音增益W(ω)的短时平均增益
Figure FDA0003565510440000027
其中,
Figure FDA0003565510440000028
Figure FDA0003565510440000029
利用所述短时平均增益
Figure FDA00035655104400000210
对所述频域信号X(k,m)进行增益以获得所述频域信号Y(k,m)。
5.如权利要求1所述的可动态控制降噪范围的降噪方法,其特征在于,所述利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)的步骤之后,还包括:
通过反向短时傅里叶变换将所述频域信号Y(k,m)转换为时域信号y(n)以获得所述输出语音信号的时域信号。
6.如权利要求1所述的可动态控制降噪范围的降噪方法,其特征在于,所述利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)的步骤之后,还包括:
通过改进离散余弦变换将所述频域信号Y(k,m)转换为时域信号y(n)以获得所述输出语音信号的时域信号。
7.如权利要求1所述的可动态控制降噪范围的降噪方法,其特征在于,所述获取输入语音信号的频域信号X(k,m)的步骤,还包括:
获取所述输入语音信号的时域信号x(n),其中,n为离散时间指标;
通过短时傅里叶变换将所述时域信号转换为所述频域信号X(k,m)。
8.一种可动态控制降噪范围的降噪装置,其特征在于,所述装置包括:
第一计算单元,用于获取输入语音信号的频域信号X(k,m),并计算所述频域信号X(k,m)的短时平均能量
Figure FDA0003565510440000031
和短时噪音平均能量
Figure FDA0003565510440000032
其中,k为离散频谱指标,m为短时傅里叶变换时间指标;
短时语音能量计算单元,用于根据所述短时平均能量
Figure FDA0003565510440000033
和所述短时噪音平均能量
Figure FDA0003565510440000034
计算短时语音能量
Figure FDA0003565510440000035
其中,所述短时语音能量
Figure FDA0003565510440000036
语音增益计算单元,用于将所述短时语音能量
Figure FDA0003565510440000037
和所述短时噪音平均能量
Figure FDA0003565510440000038
代入增益函数W以获得语音增益W(ω),其中,增益函数
Figure FDA0003565510440000039
Figure FDA00035655104400000310
α、β和γ均为可调参数,用于控制降噪范围;
输出语音信号计算单元,用于利用所述语音增益W(ω)对所述频域信号X(k,m)进行增益以获得输出语音信号的频域信号Y(k,m)。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1-7中任一项所述方法的步骤。
CN202210306321.9A 2022-03-25 2022-03-25 可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质 Pending CN114974196A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210306321.9A CN114974196A (zh) 2022-03-25 2022-03-25 可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210306321.9A CN114974196A (zh) 2022-03-25 2022-03-25 可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114974196A true CN114974196A (zh) 2022-08-30

Family

ID=82975444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210306321.9A Pending CN114974196A (zh) 2022-03-25 2022-03-25 可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114974196A (zh)

Similar Documents

Publication Publication Date Title
CN110634497B (zh) 降噪方法、装置、终端设备及存储介质
CN109643554B (zh) 自适应语音增强方法和电子设备
WO1997028527A1 (en) A noisy speech parameter enhancement method and apparatus
US9947341B1 (en) Real-time voice masking in a computer network
CN113160845A (zh) 基于语音存在概率和听觉掩蔽效应的语音增强算法
CN112309414B (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN113539285B (zh) 音频信号降噪方法、电子装置和存储介质
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN108922517A (zh) 训练盲源分离模型的方法、装置及存储介质
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
US20230267947A1 (en) Noise reduction using machine learning
CN111261148A (zh) 语音模型的训练方法、语音增强处理方法及相关设备
TWI594232B (zh) 處理音訊信號之方法及裝置
CN114974196A (zh) 可动态控制降噪范围的降噪方法、装置、计算机设备及存储介质
CN117153174A (zh) 音频动态均衡方法、电子设备及存储介质
CN112201272A (zh) 音频数据降噪的方法、装置、设备及存储介质
Lu et al. Temporal modulation normalization for robust speech feature extraction and recognition
CN113823315A (zh) 降风噪方法、装置、双麦克风设备及存储介质
CN113314134A (zh) 一种骨传导信号补偿方法及装置
Lobato et al. Modeling the perceived tonal loudness of multiple tonal components
CN114005456A (zh) 静态噪音的降噪方法、装置、计算机设备及存储介质
CN110648681A (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
CN109635759A (zh) 一种信号处理方法、装置及计算机可读存储介质
CN112735458B (zh) 噪声估计方法、降噪方法及电子设备
US9413323B2 (en) System and method of filtering an audio signal prior to conversion to an MU-LAW format

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination