CN113012711A - 一种语音处理方法、装置及设备 - Google Patents
一种语音处理方法、装置及设备 Download PDFInfo
- Publication number
- CN113012711A CN113012711A CN201911320774.1A CN201911320774A CN113012711A CN 113012711 A CN113012711 A CN 113012711A CN 201911320774 A CN201911320774 A CN 201911320774A CN 113012711 A CN113012711 A CN 113012711A
- Authority
- CN
- China
- Prior art keywords
- factor
- voice signal
- initial
- gain compensation
- over
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000000873 masking effect Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000009467 reduction Effects 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004891 communication Methods 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims description 91
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 11
- 239000013589 supplement Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Noise Elimination (AREA)
Abstract
本发明提供一种语音处理方法、装置及设备,涉及通信技术领域。该方法包括:获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。本发明的方案,提升了对语音通话的降噪效果。
Description
技术领域
本发明涉及通信技术领域,特别是指一种语音处理方法、装置及设备。
背景技术
随着通信技术的发展,借助通信设备进行语音通话,能够广泛应用于各种场景。并且,语音通话除了可通过通信设备的自身通信功能实现外,还能够基于网络来实现。
然而,在某些场景,如商场、餐馆等地,语音通话会受外界噪声影响,降低通话指令。目前,常用的语音降噪是将带噪语音谱减去噪声谱,来得到纯净语音幅度谱,但是,需要噪声信号平稳或者缓慢变化,因此降噪效果受限,不能满足用户需求。
发明内容
本发明的目的是提供一种语音处理方法、装置及设备,来提升对语音通话的降噪效果。
为达到上述目的,本发明的实施例提供一种语音处理方法,包括:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述根据初始过减因子以及初始增益补偿因子,对所述原始语音信号进行初步降噪,得到第二语音信号,包括:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:
可选地,所述根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述根据所述第二语音信号,计算听觉遮掩阈值,包括:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br,t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子,包括:
根据公式
以及确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号,包括:
为达到上述目的,本发明的实施例还提供一种语音处理装置,包括:
获取模块,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
第一降噪模块,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
第一处理模块,用于根据所述第二语音信号,计算听觉遮掩阈值;
第二处理模块,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
第二降噪模块,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述第一降噪模块包括:
第一获取子模块,用于通过傅里叶变换,获取所述第一语音信号的第一功率谱;
噪声估计子模块,用于根据所述第一功率谱进行噪声估计,得到噪声估计值;
第一处理子模块,用于基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述第一处理子模块还用于通过公式计算第二语音信号的第二功率谱其中,|Y(m,k)|2为所述第一功率谱,为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述噪声估计子模块包括:
获取单元,用于根据预设时间窗,获取所述第一功率谱中的最小功率值;
处理单元,用于根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述第一处理模块包括:
第二处理子模块,用于按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
第三处理子模块,用于通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br,t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述第二处理模块还用于:
根据公式
以及确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述第二降噪模块包括:
为达到上述目的,本发明的实施例还提供一种语音处理设备,包括处理器,所述处理器用于:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述处理器还用于:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述处理器还用于:
可选地,所述处理器还用于:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述处理器还用于:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br,t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述处理器还用于:
根据公式
以及确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述处理器还用于:
为达到上述目的,本发明的实施例还提供一种语音处理设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现如上所述的语音处理方法。
为达到上述目的,本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法中的步骤。
本发明的上述技术方案的有益效果如下:
本发明实施例的方法,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
附图说明
图1为本发明实施例的语音处理方法的步骤示意图;
图2为本发明实施例的语音处理方法的流程图;
图3为本发明实施例的语音处理装置的结构图;
图4为本发明实施例的语音处理设备的结构图;
图5为本发明另一实施例的语音处理设备的结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
如图1所示,本发明实施例的一种语音处理方法,包括:
步骤101,获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
步骤102,根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
步骤103,根据所述第二语音信号,计算听觉遮掩阈值;
步骤104,根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
步骤105,根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
按照上述步骤101-105,应用本发明实施例的方法的设备,如移动终端,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
应该知道的是,该实施例中,为提升处理效率,对于获取到的第一语音信号,可进行分帧加窗,得到长度相同的多段语音信号,从而基于每段语音信号进行后续处理。第一语音信号的每段语音信号可记为Y(n),0≤n≤N-1,N为第一语音信号的信号长度。Y(n)=s(n)+d(n),s(n)为纯净语音信号,d(n)为噪声信号。
该实施例中,使用初始过减因子以及初始增益补偿因子进行初步降噪,可选地,步骤102包括:
通过傅里叶变换,获取所述第一语音信号的第一功率谱。
根据所述第一功率谱进行噪声估计,得到噪声估计值。
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
这里,对第一语音信号进行傅里叶变换,来得到对应的第一功率谱。考虑到带噪语音信号包括纯净语音信号和噪声信号,通过对噪声估计,得到噪声估计值后,进一步基于噪声估计、初始过减因子以及初始增益补偿因子进行降噪,得到第二语音信号的第二功率谱。
假设第一语音信号Y(n),进行傅里叶变换后,得到Y(ω),对应的功率谱为|Y(ω)|2。由于带噪语音信号包括纯净语音信号和噪声信号,|Y(ω)|2可表示为|Y(ω)|2=|S(ω)|2+|D(ω)|2,|S(ω)|2为纯净语音信号的功率谱,|D(ω)|2为噪声信号的功率谱。通过假设噪声信号和纯净语音信号互不相关,其互谱的均值和方差都是0,因此,第二语音信号的功率谱 可以为:当然, 可变换为m为当前帧的序列号,k为当前频带的序列号。其中,因无法得到真实的|D(m,k)|2,因此,会由第一功率谱进行噪声估计,然后结合噪声估计、初始过减因子以及初始增益补偿因子来获得初步降噪后,第二语音信号的第二功率谱
该实施例中,考虑到含噪的语音功率谱可以很快地衰减到噪声功率谱的水平,所以,通过含噪语音的功率谱的最小值并对其进行修正来估计噪声功率谱。可选地,根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
这里,可设置预设时间窗为0.5秒,基于该预设时间窗,获取第一功率谱中的最小功率值,然后根据该最小功率值进行偏差补偿,得到噪声估计值。其中,在查找第一功率谱中的最小功率值时,随着每输入一帧信号可更新最小功率值,直至得到最终的最小功率值。
具体的,偏差补偿方式可基于补偿因子扩大所获取的最小功率值,得到噪声估计值。
该实施例中,得到噪声估计值后,可选地,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:
由上述内容已知,在该实施例中,是通过听觉遮掩阈值来调整过减因子和增益补偿因子的,因此,为获取有效的听觉遮掩阈值,步骤103包括:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br,t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
这里,首先将针对设置的临界频带对初步降噪后的第二语音信号进行分析,得到第二语音信号在临界频带各个子带内的能量。具体的,第r个子带的能量Br可经由公式计算得到,其中,bh表示临界频带当前子带的上限,bl表示临界频带当前子带的下限,u为当前频带的序列号。
由于每个子带之间是有重叠的,因此计算传递函数为下式:如此,结合已得到第二语音信号在临界频带各个子带内的能量,就能够进一步由公式Crt=SFtt'*Br计算该临界频带的扩展功率谱Crt。之后,结合偏移量由公式得到初始掩蔽阈值T0(m,k),再扩展到各个频谱上获得T'(m,k)。
而绝对听觉阈值Ta(m可经由公式Ta(m,=k)-0 -3 8f 6 -4 + -f 6计算获得,其中f为频率。最终,选取T'(m,k)和Ta(m,k)中的最大值作为听觉遮掩阈值T(m,k)。
在该实施例中,优选使用谱平坦度SFM判断临界频带的子带内是噪声特性还是语音特性。SFM计算公式为:SFM∈[0,1]。其中ij表示第i帧的第j个子带,Gij和Aij可以公式和计算,bjh表示临界频带第j个子带的上限,bjl表示临界频带第j个子带的下限。通过SFM的定义计算音调系数:则利用语音清音和浊音发音特性特点定义偏移量Oij:Oij=φ(14.5+i)+5.5(1-φ)。
可选地,所述临界频带为梅尔频带。
在梅尔Mel频带中,可以划分24个子带进行上述过程。当然,也可以划分为其他数量的子带,或者使用其他频带,在此不再赘述。
在计算得到听觉遮掩阈值之后,可选地,步骤104包括:
根据公式
以及确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
其中,优选αmax=8,αmin=1,βmax=0.02,βmin=0,以兼顾输出信噪比和增强质量。
之后,步骤105包括:
这里,通过公式将调整后过减因子以及调整后增益补偿因子代入,来计算第三功率谱进一步降低噪声信号的影响,然后通过逆傅里叶变换得到所需的第三语音信号。这样,经过二次降噪后的第三语音信号,能够达到更高的质量,满足用户需求。
还应该知道的是,在逆傅里叶变换变换处理前,考虑到音乐噪声的残留,还会使用滤波器进行信号的处理。该滤波器的原理如公式得到输出信号SFinal,其中为输入信号,θ为处理参数,处于0~1之间;G(m,k)经过计算也是处于0~1之间的数。之后,将滤波器的输出信号再进一步进行逆傅里叶变换变换,得到更优的第三语音信号。
故,本发明实施例的方法,如图2所示,能够针对获取到的带噪语音信号y(n)经过傅里叶变换、噪声估计、基本谱减(初步降噪)、计算听觉遮掩阈值、调整谱减系数(过减因子和增益补偿因子)、系数谱减(二次降噪)、逆傅里叶变换,得到去噪后的语音信号x(n)。具体的,该实施例的方法可应用于如下场景:
开会任务同声文字转写的预处理过程中;
电话客服语音识别的语音增强模块;
车载业务上,例如驾驶员使用手机导航时通过语音指令选择目的地;
在日常通勤中,如地铁中进行电话语音通信以及室外场景进行客服对话。
综上所述,本发明实施例的方法,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
如图3所示,本发明的实施例还提供一种语音处理装置,包括:
获取模块310,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
第一降噪模块320,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
第一处理模块330,用于根据所述第二语音信号,计算听觉遮掩阈值;
第二处理模块340,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
第二降噪模块350,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述第一降噪模块包括:
第一获取子模块,用于通过傅里叶变换,获取所述第一语音信号的第一功率谱;
噪声估计子模块,用于根据所述第一功率谱进行噪声估计,得到噪声估计值;
第一处理子模块,用于基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述第一处理子模块还用于通过公式计算第二语音信号的第二功率谱其中,|Y(m,k)|2为所述第一功率谱,为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述噪声估计子模块包括:
获取单元,用于根据预设时间窗,获取所述第一功率谱中的最小功率值;
处理单元,用于根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述第一处理模块包括:
第二处理子模块,用于按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
第三处理子模块,用于通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br,t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述第二处理模块还用于:
根据公式
以及确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述第二降噪模块包括:
需要说明的是,该装置是应用了上述语音处理方法的装置,上述方法的实施例的实现方式适用于该装置,也能达到相同的技术效果。
该装置能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
如图4所示,本发明实施例的一种语音处理设备400,包括处理器410,所述处理器410用于:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述处理器还用于:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述处理器还用于:
可选地,所述处理器还用于:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述处理器还用于:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br,t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述处理器还用于:
根据公式
以及确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述处理器还用于:
需要说明的是,该设备是应用了上述语音处理方法的设备,上述方法的实施例的实现方式适用于该设备,也能达到相同的技术效果。
该实施例的语音处理设备,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
本发明另一实施例的一种语音处理设备,如图5所示,包括处理器510、存储器520及存储在所述存储器520上并可在所述处理器510上运行的计算机程序;所述处理器510执行所述计算机程序时实现如上所述的语音处理方法。
该语音处理设备还包括收发器530,用于在处理器510的控制下接收和发送数据。
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器510代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器530可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器510负责管理总线架构和通常的处理,存储器520可以存储处理器510在执行操作时所使用的数据。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种语音处理方法,其特征在于,包括:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据初始过减因子以及初始增益补偿因子,对所述原始语音信号进行初步降噪,得到第二语音信号,包括:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
6.根据权利要求5所述的方法,其特征在于,所述临界频带为梅尔频带。
9.一种语音处理装置,其特征在于,包括:
获取模块,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
第一降噪模块,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
第一处理模块,用于根据所述第二语音信号,计算听觉遮掩阈值;
第二处理模块,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
第二降噪模块,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
10.一种语音处理设备,其特征在于,包括处理器,所述处理器用于:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
11.一种语音处理设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的语音处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的语音处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911320774.1A CN113012711B (zh) | 2019-12-19 | 2019-12-19 | 一种语音处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911320774.1A CN113012711B (zh) | 2019-12-19 | 2019-12-19 | 一种语音处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113012711A true CN113012711A (zh) | 2021-06-22 |
CN113012711B CN113012711B (zh) | 2024-03-22 |
Family
ID=76381448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911320774.1A Active CN113012711B (zh) | 2019-12-19 | 2019-12-19 | 一种语音处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113012711B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963710A (zh) * | 2021-10-19 | 2022-01-21 | 北京融讯科创技术有限公司 | 一种语音增强方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379662A1 (en) * | 2013-11-27 | 2016-12-29 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus and server for processing noisy speech |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
-
2019
- 2019-12-19 CN CN201911320774.1A patent/CN113012711B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379662A1 (en) * | 2013-11-27 | 2016-12-29 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus and server for processing noisy speech |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
Non-Patent Citations (2)
Title |
---|
刘玉军;孔洲;徐万里;张增;杨新旺;蒋冰舒;韩林呈;: "基于谱减法的装甲车辆语音降噪研究", 计算机工程与设计, no. 21 * |
曹亮;张天骐;高洪兴;易琛;: "基于听觉掩蔽效应的多频带谱减语音增强方法", 计算机工程与设计, no. 01, pages 236 - 238 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963710A (zh) * | 2021-10-19 | 2022-01-21 | 北京融讯科创技术有限公司 | 一种语音增强方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113012711B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109643554B (zh) | 自适应语音增强方法和电子设备 | |
JP4210521B2 (ja) | 雑音低減法および装置 | |
US6157909A (en) | Process and device for blind equalization of the effects of a transmission channel on a digital speech signal | |
CN111554315B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
US10043533B2 (en) | Method and device for boosting formants from speech and noise spectral estimation | |
CN108447500B (zh) | 语音增强的方法与装置 | |
US10818302B2 (en) | Audio source separation | |
CN111508519A (zh) | 一种音频信号人声增强的方法及装置 | |
CN101141533A (zh) | 用于提供具有扩展带宽的声音信号的方法和系统 | |
CN108806712B (zh) | 减少频域处理量的方法与装置 | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
CN114898762A (zh) | 基于目标人的实时语音降噪方法、装置和电子设备 | |
CN1367976A (zh) | 通过包含隐藏信息来改进自适应滤波器的方法和装置 | |
CN113012711B (zh) | 一种语音处理方法、装置及设备 | |
CN112802490B (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
US20060184361A1 (en) | Method and apparatus for reducing an interference noise signal fraction in a microphone signal | |
Xu et al. | Zoneformer: On-device Neural Beamformer For In-car Multi-zone Speech Separation, Enhancement and Echo Cancellation | |
WO2015027168A1 (en) | Method and system for speech intellibility enhancement in noisy environments | |
CN112489669B (zh) | 一种音频信号处理方法、装置、设备和介质 | |
CN114882898A (zh) | 多通道语音信号增强方法和装置及计算机设备和存储介质 | |
CN101625870A (zh) | Ans方法和装置、提高监控系统音频质量的方法和系统 | |
CN114360572A (zh) | 语音去噪方法、装置、电子设备及存储介质 | |
CN116137153A (zh) | 一种语音降噪模型的训练方法以及语音增强方法 | |
CN108717855B (zh) | 噪音处理方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |