CN113012711A - 一种语音处理方法、装置及设备 - Google Patents

一种语音处理方法、装置及设备 Download PDF

Info

Publication number
CN113012711A
CN113012711A CN201911320774.1A CN201911320774A CN113012711A CN 113012711 A CN113012711 A CN 113012711A CN 201911320774 A CN201911320774 A CN 201911320774A CN 113012711 A CN113012711 A CN 113012711A
Authority
CN
China
Prior art keywords
factor
voice signal
initial
gain compensation
over
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911320774.1A
Other languages
English (en)
Other versions
CN113012711B (zh
Inventor
潘昕
何礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911320774.1A priority Critical patent/CN113012711B/zh
Publication of CN113012711A publication Critical patent/CN113012711A/zh
Application granted granted Critical
Publication of CN113012711B publication Critical patent/CN113012711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Abstract

本发明提供一种语音处理方法、装置及设备,涉及通信技术领域。该方法包括:获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。本发明的方案,提升了对语音通话的降噪效果。

Description

一种语音处理方法、装置及设备
技术领域
本发明涉及通信技术领域,特别是指一种语音处理方法、装置及设备。
背景技术
随着通信技术的发展,借助通信设备进行语音通话,能够广泛应用于各种场景。并且,语音通话除了可通过通信设备的自身通信功能实现外,还能够基于网络来实现。
然而,在某些场景,如商场、餐馆等地,语音通话会受外界噪声影响,降低通话指令。目前,常用的语音降噪是将带噪语音谱减去噪声谱,来得到纯净语音幅度谱,但是,需要噪声信号平稳或者缓慢变化,因此降噪效果受限,不能满足用户需求。
发明内容
本发明的目的是提供一种语音处理方法、装置及设备,来提升对语音通话的降噪效果。
为达到上述目的,本发明的实施例提供一种语音处理方法,包括:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述根据初始过减因子以及初始增益补偿因子,对所述原始语音信号进行初步降噪,得到第二语音信号,包括:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:
通过公式
Figure BDA0002327082290000021
计算第二语音信号的第二功率谱
Figure BDA0002327082290000022
其中,|Y(m,k)|2为所述第一功率谱,
Figure BDA0002327082290000023
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述根据所述第二语音信号,计算听觉遮掩阈值,包括:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure BDA0002327082290000024
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br
Figure BDA0002327082290000025
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子,包括:
根据公式
Figure BDA0002327082290000031
以及
Figure BDA0002327082290000032
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号,包括:
通过公式
Figure BDA0002327082290000033
计算第三语音信号的第三功率谱
Figure BDA0002327082290000034
通过对所述第三功率谱
Figure BDA0002327082290000035
的逆傅里叶变换,得到第三语音信息。
为达到上述目的,本发明的实施例还提供一种语音处理装置,包括:
获取模块,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
第一降噪模块,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
第一处理模块,用于根据所述第二语音信号,计算听觉遮掩阈值;
第二处理模块,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
第二降噪模块,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述第一降噪模块包括:
第一获取子模块,用于通过傅里叶变换,获取所述第一语音信号的第一功率谱;
噪声估计子模块,用于根据所述第一功率谱进行噪声估计,得到噪声估计值;
第一处理子模块,用于基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述第一处理子模块还用于通过公式
Figure BDA0002327082290000041
计算第二语音信号的第二功率谱
Figure BDA0002327082290000042
其中,|Y(m,k)|2为所述第一功率谱,
Figure BDA0002327082290000043
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述噪声估计子模块包括:
获取单元,用于根据预设时间窗,获取所述第一功率谱中的最小功率值;
处理单元,用于根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述第一处理模块包括:
第二处理子模块,用于按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
第三处理子模块,用于通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure BDA0002327082290000051
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br
Figure BDA0002327082290000052
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述第二处理模块还用于:
根据公式
Figure BDA0002327082290000053
以及
Figure BDA0002327082290000054
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述第二降噪模块包括:
第四处理子模块,用于通过公式
Figure BDA0002327082290000061
计算第三语音信号的第三功率谱
Figure BDA0002327082290000062
第五处理子模块,用于通过对所述第三功率谱
Figure BDA0002327082290000063
的逆傅里叶变换,得到第三语音信息。
为达到上述目的,本发明的实施例还提供一种语音处理设备,包括处理器,所述处理器用于:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述处理器还用于:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述处理器还用于:
通过公式
Figure BDA0002327082290000064
计算第二语音信号的第二功率谱
Figure BDA0002327082290000071
其中,|Y(m,k)|2为所述第一功率谱,
Figure BDA0002327082290000072
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述处理器还用于:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述处理器还用于:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure BDA0002327082290000073
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br
Figure BDA0002327082290000074
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述处理器还用于:
根据公式
Figure BDA0002327082290000075
以及
Figure BDA0002327082290000076
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述处理器还用于:
通过公式
Figure BDA0002327082290000081
计算第三语音信号的第三功率谱
Figure BDA0002327082290000082
通过对所述第三功率谱
Figure BDA0002327082290000083
的逆傅里叶变换,得到第三语音信息。
为达到上述目的,本发明的实施例还提供一种语音处理设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现如上所述的语音处理方法。
为达到上述目的,本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法中的步骤。
本发明的上述技术方案的有益效果如下:
本发明实施例的方法,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
附图说明
图1为本发明实施例的语音处理方法的步骤示意图;
图2为本发明实施例的语音处理方法的流程图;
图3为本发明实施例的语音处理装置的结构图;
图4为本发明实施例的语音处理设备的结构图;
图5为本发明另一实施例的语音处理设备的结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
如图1所示,本发明实施例的一种语音处理方法,包括:
步骤101,获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
步骤102,根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
步骤103,根据所述第二语音信号,计算听觉遮掩阈值;
步骤104,根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
步骤105,根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
按照上述步骤101-105,应用本发明实施例的方法的设备,如移动终端,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
应该知道的是,该实施例中,为提升处理效率,对于获取到的第一语音信号,可进行分帧加窗,得到长度相同的多段语音信号,从而基于每段语音信号进行后续处理。第一语音信号的每段语音信号可记为Y(n),0≤n≤N-1,N为第一语音信号的信号长度。Y(n)=s(n)+d(n),s(n)为纯净语音信号,d(n)为噪声信号。
该实施例中,使用初始过减因子以及初始增益补偿因子进行初步降噪,可选地,步骤102包括:
通过傅里叶变换,获取所述第一语音信号的第一功率谱。
根据所述第一功率谱进行噪声估计,得到噪声估计值。
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
这里,对第一语音信号进行傅里叶变换,来得到对应的第一功率谱。考虑到带噪语音信号包括纯净语音信号和噪声信号,通过对噪声估计,得到噪声估计值后,进一步基于噪声估计、初始过减因子以及初始增益补偿因子进行降噪,得到第二语音信号的第二功率谱。
假设第一语音信号Y(n),进行傅里叶变换后,得到Y(ω),对应的功率谱为|Y(ω)|2。由于带噪语音信号包括纯净语音信号和噪声信号,|Y(ω)|2可表示为|Y(ω)|2=|S(ω)|2+|D(ω)|2,|S(ω)|2为纯净语音信号的功率谱,|D(ω)|2为噪声信号的功率谱。通过假设噪声信号和纯净语音信号互不相关,其互谱的均值和方差都是0,因此,第二语音信号的功率谱
Figure BDA0002327082290000111
Figure BDA0002327082290000112
可以为:
Figure BDA0002327082290000113
当然,
Figure BDA0002327082290000114
Figure BDA0002327082290000115
可变换为
Figure BDA0002327082290000116
m为当前帧的序列号,k为当前频带的序列号。其中,因无法得到真实的|D(m,k)|2,因此,会由第一功率谱进行噪声估计,然后结合噪声估计、初始过减因子以及初始增益补偿因子来获得初步降噪后,第二语音信号的第二功率谱
Figure BDA0002327082290000117
该实施例中,考虑到含噪的语音功率谱可以很快地衰减到噪声功率谱的水平,所以,通过含噪语音的功率谱的最小值并对其进行修正来估计噪声功率谱。可选地,根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
这里,可设置预设时间窗为0.5秒,基于该预设时间窗,获取第一功率谱中的最小功率值,然后根据该最小功率值进行偏差补偿,得到噪声估计值。其中,在查找第一功率谱中的最小功率值时,随着每输入一帧信号可更新最小功率值,直至得到最终的最小功率值。
具体的,偏差补偿方式可基于补偿因子扩大所获取的最小功率值,得到噪声估计值。
该实施例中,得到噪声估计值后,可选地,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:
通过公式
Figure BDA0002327082290000118
计算第二语音信号的第二功率谱
Figure BDA0002327082290000119
其中,|Y(m,k)|2为所述第一功率谱,
Figure BDA00023270822900001110
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
这样,通过预先设置的α0、β0,以及已经得到的
Figure BDA0002327082290000121
即可经由
Figure BDA0002327082290000122
计算第二功率谱
Figure BDA0002327082290000123
由上述内容已知,在该实施例中,是通过听觉遮掩阈值来调整过减因子和增益补偿因子的,因此,为获取有效的听觉遮掩阈值,步骤103包括:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure BDA0002327082290000124
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br
Figure BDA0002327082290000125
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
这里,首先将针对设置的临界频带对初步降噪后的第二语音信号进行分析,得到第二语音信号在临界频带各个子带内的能量。具体的,第r个子带的能量Br可经由公式
Figure BDA0002327082290000126
计算得到,其中,bh表示临界频带当前子带的上限,bl表示临界频带当前子带的下限,u为当前频带的序列号。
由于每个子带之间是有重叠的,因此计算传递函数为下式:
Figure BDA0002327082290000127
如此,结合已得到第二语音信号在临界频带各个子带内的能量,就能够进一步由公式Crt=SFtt'*Br计算该临界频带的扩展功率谱Crt。之后,结合偏移量由公式
Figure BDA0002327082290000128
得到初始掩蔽阈值T0(m,k),再扩展到各个频谱上获得T'(m,k)。
而绝对听觉阈值Ta(m可经由公式Ta(m,=k)-0 -3 8f 6 -4 + -f 6计算获得,其中f为频率。最终,选取T'(m,k)和Ta(m,k)中的最大值作为听觉遮掩阈值T(m,k)。
在该实施例中,优选使用谱平坦度SFM判断临界频带的子带内是噪声特性还是语音特性。SFM计算公式为:
Figure BDA0002327082290000131
SFM∈[0,1]。其中ij表示第i帧的第j个子带,Gij和Aij可以公式
Figure BDA0002327082290000132
Figure BDA0002327082290000133
计算,bjh表示临界频带第j个子带的上限,bjl表示临界频带第j个子带的下限。通过SFM的定义计算音调系数:
Figure BDA0002327082290000134
则利用语音清音和浊音发音特性特点定义偏移量Oij:Oij=φ(14.5+i)+5.5(1-φ)。
可选地,所述临界频带为梅尔频带。
在梅尔Mel频带中,可以划分24个子带进行上述过程。当然,也可以划分为其他数量的子带,或者使用其他频带,在此不再赘述。
在计算得到听觉遮掩阈值之后,可选地,步骤104包括:
根据公式
Figure BDA0002327082290000135
以及
Figure BDA0002327082290000141
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
其中,优选αmax=8,αmin=1,βmax=0.02,βmin=0,以兼顾输出信噪比和增强质量。
之后,步骤105包括:
通过公式
Figure BDA0002327082290000142
计算第三语音信号的第三功率谱
Figure BDA0002327082290000143
通过对所述第三功率谱
Figure BDA0002327082290000144
的逆傅里叶变换,得到第三语音信息。
这里,通过公式
Figure BDA0002327082290000145
将调整后过减因子以及调整后增益补偿因子代入,来计算第三功率谱
Figure BDA0002327082290000146
进一步降低噪声信号的影响,然后通过逆傅里叶变换得到所需的第三语音信号。这样,经过二次降噪后的第三语音信号,能够达到更高的质量,满足用户需求。
还应该知道的是,在逆傅里叶变换变换处理前,考虑到音乐噪声的残留,还会使用滤波器进行信号的处理。该滤波器的原理如公式
Figure BDA0002327082290000151
得到输出信号SFinal,其中
Figure BDA0002327082290000152
为输入信号,
Figure BDA0002327082290000153
θ为处理参数,处于0~1之间;G(m,k)经过计算也是处于0~1之间的数。之后,将滤波器的输出信号再进一步进行逆傅里叶变换变换,得到更优的第三语音信号。
故,本发明实施例的方法,如图2所示,能够针对获取到的带噪语音信号y(n)经过傅里叶变换、噪声估计、基本谱减(初步降噪)、计算听觉遮掩阈值、调整谱减系数(过减因子和增益补偿因子)、系数谱减(二次降噪)、逆傅里叶变换,得到去噪后的语音信号x(n)。具体的,该实施例的方法可应用于如下场景:
开会任务同声文字转写的预处理过程中;
电话客服语音识别的语音增强模块;
车载业务上,例如驾驶员使用手机导航时通过语音指令选择目的地;
在日常通勤中,如地铁中进行电话语音通信以及室外场景进行客服对话。
综上所述,本发明实施例的方法,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
如图3所示,本发明的实施例还提供一种语音处理装置,包括:
获取模块310,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
第一降噪模块320,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
第一处理模块330,用于根据所述第二语音信号,计算听觉遮掩阈值;
第二处理模块340,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
第二降噪模块350,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述第一降噪模块包括:
第一获取子模块,用于通过傅里叶变换,获取所述第一语音信号的第一功率谱;
噪声估计子模块,用于根据所述第一功率谱进行噪声估计,得到噪声估计值;
第一处理子模块,用于基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述第一处理子模块还用于通过公式
Figure BDA0002327082290000161
计算第二语音信号的第二功率谱
Figure BDA0002327082290000162
其中,|Y(m,k)|2为所述第一功率谱,
Figure BDA0002327082290000163
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述噪声估计子模块包括:
获取单元,用于根据预设时间窗,获取所述第一功率谱中的最小功率值;
处理单元,用于根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述第一处理模块包括:
第二处理子模块,用于按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
第三处理子模块,用于通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure BDA0002327082290000171
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br
Figure BDA0002327082290000172
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述第二处理模块还用于:
根据公式
Figure BDA0002327082290000173
以及
Figure BDA0002327082290000174
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述第二降噪模块包括:
第四处理子模块,用于通过公式
Figure BDA0002327082290000181
计算第三语音信号的第三功率谱
Figure BDA0002327082290000182
第五处理子模块,用于通过对所述第三功率谱
Figure BDA0002327082290000183
的逆傅里叶变换,得到第三语音信息。
需要说明的是,该装置是应用了上述语音处理方法的装置,上述方法的实施例的实现方式适用于该装置,也能达到相同的技术效果。
该装置能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
如图4所示,本发明实施例的一种语音处理设备400,包括处理器410,所述处理器410用于:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
可选地,所述处理器还用于:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
可选地,所述处理器还用于:
通过公式
Figure BDA0002327082290000191
计算第二语音信号的第二功率谱
Figure BDA0002327082290000192
其中,|Y(m,k)|2为所述第一功率谱,
Figure BDA0002327082290000193
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
可选地,所述处理器还用于:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
可选地,所述处理器还用于:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure BDA0002327082290000194
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,Crt=SFtt'*Br
Figure BDA0002327082290000195
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
可选地,所述临界频带为梅尔频带。
可选地,所述处理器还用于:
根据公式
Figure BDA0002327082290000201
以及
Figure BDA0002327082290000202
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
可选地,所述处理器还用于:
通过公式
Figure BDA0002327082290000203
计算第三语音信号的第三功率谱
Figure BDA0002327082290000204
通过对所述第三功率谱
Figure BDA0002327082290000205
的逆傅里叶变换,得到第三语音信息。
需要说明的是,该设备是应用了上述语音处理方法的设备,上述方法的实施例的实现方式适用于该设备,也能达到相同的技术效果。
该实施例的语音处理设备,能够针对语音通话,通过获取该语音通中带噪语音信号,即第一语音信号,先使用初始过减因子以及初始增益补偿因子进行初步降噪,得到第二语音信号,然后,根据第二语音信号计算听觉遮掩阈值,从而利用该听觉遮掩阈值调整过减因子以及增益补偿因子,之后使用调整后过减因子以及调整后增益补偿因子,再对第二语音信号进行降噪,得到第三语音信号。如此,在初步降噪的基础上,使用听觉遮掩阈值调整了后续降噪使用的过减因子以及增益补偿因子,使得二次降噪的效果更佳,实现更有效的降噪处理,提升了语音通话的降噪效果。
本发明另一实施例的一种语音处理设备,如图5所示,包括处理器510、存储器520及存储在所述存储器520上并可在所述处理器510上运行的计算机程序;所述处理器510执行所述计算机程序时实现如上所述的语音处理方法。
该语音处理设备还包括收发器530,用于在处理器510的控制下接收和发送数据。
其中,在图5中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器510代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发器530可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器510负责管理总线架构和通常的处理,存储器520可以存储处理器510在执行操作时所使用的数据。
本发明实施例的一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法中的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
进一步需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
上述范例性实施例是参考该些附图来描述的,许多不同的形式和实施例是可行而不偏离本发明精神及教示,因此,本发明不应被建构成为在此所提出范例性实施例的限制。更确切地说,这些范例性实施例被提供以使得本发明会是完善又完整,且会将本发明范围传达给那些熟知此项技术的人士。在该些图式中,组件尺寸及相对尺寸也许基于清晰起见而被夸大。在此所使用的术语只是基于描述特定范例性实施例目的,并无意成为限制用。如在此所使用地,除非该内文清楚地另有所指,否则该单数形式“一”、“一个”和“该”是意欲将该些多个形式也纳入。会进一步了解到该些术语“包含”及/或“包括”在使用于本说明书时,表示所述特征、整数、步骤、操作、构件及/或组件的存在,但不排除一或更多其它特征、整数、步骤、操作、构件、组件及/或其族群的存在或增加。除非另有所示,陈述时,一值范围包含该范围的上下限及其间的任何子范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种语音处理方法,其特征在于,包括:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
2.根据权利要求1所述的方法,其特征在于,所述根据初始过减因子以及初始增益补偿因子,对所述原始语音信号进行初步降噪,得到第二语音信号,包括:
通过傅里叶变换,获取所述第一语音信号的第一功率谱;
根据所述第一功率谱进行噪声估计,得到噪声估计值;
基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱。
3.根据权利要求2所述的方法,其特征在于,所述基于所述噪声估计、初始过减因子以及初始增益补偿因子,得到第二语音信号的第二功率谱,包括:
通过公式
Figure FDA0002327082280000011
计算第二语音信号的第二功率谱
Figure FDA0002327082280000012
其中,|Y(m,k)|2为所述第一功率谱,
Figure FDA0002327082280000013
为所述噪声估计值,α0为所述初始过减因子,β0为所述初始增益补偿因子;m为当前帧的序列号,k为当前频带的序列号。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一功率谱进行噪声估计,得到噪声估计值,包括:
根据预设时间窗,获取所述第一功率谱中的最小功率值;
根据所述最小功率值进行偏差补偿,得到所述噪声估计值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第二语音信号,计算听觉遮掩阈值,包括:
按照临界频带划分的多个子带,计算所述第二语音信号在各个子带内的能量;
通过公式T(m,k)=max(T'(m,k),Ta(m,k)),计算听觉遮掩阈值T(m,k);其中,Ta(m,k)为绝对听觉阈值,T'(m,k)为初始掩蔽阈值T0(m,k)扩展到各个频谱上值,且
Figure FDA0002327082280000021
Oij为第i帧的第j个子带的偏移量,Crt为扩展功率谱,
Figure FDA0002327082280000022
t为被掩蔽的临界带宽指数,t'为信号的临界带宽指数,Br为第r个子带的能量。
6.根据权利要求5所述的方法,其特征在于,所述临界频带为梅尔频带。
7.根据权利要求3所述的方法,其特征在于,所述根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子,包括:
根据公式
Figure FDA0002327082280000023
以及
Figure FDA0002327082280000024
确定调整后过减因子αm以及调整后增益补偿因子βm;其中,Nmin(m,k)为噪声估计的最小值,Nmax(m,k)为噪声估计的最大值,Tmin(m,k)为听觉掩蔽阈值的最小值,Tmax(m,k)为听觉掩蔽阈值的最大值,αmin为过减因子最小值,αmax为过减因子最大值,βmin为增益补偿因子最小值,βmax为增益补偿因子最大值,αm-1为调整过程中的前一过减因子,βm-1为调整过程中的前一增益补偿因子。
8.根据权利要求7所述的方法,其特征在于,所述根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号,包括:
通过公式
Figure FDA0002327082280000031
计算第三语音信号的第三功率谱
Figure FDA0002327082280000032
通过对所述第三功率谱
Figure FDA0002327082280000033
的逆傅里叶变换,得到第三语音信息。
9.一种语音处理装置,其特征在于,包括:
获取模块,用于获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
第一降噪模块,用于根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
第一处理模块,用于根据所述第二语音信号,计算听觉遮掩阈值;
第二处理模块,用于根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
第二降噪模块,用于根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
10.一种语音处理设备,其特征在于,包括处理器,所述处理器用于:
获取语音通话中的第一语音信号,所述第一语音信号为带噪语音信号;
根据初始过减因子以及初始增益补偿因子,对所述第一语音信号进行初步降噪,得到第二语音信号;
根据所述第二语音信号,计算听觉遮掩阈值;
根据所述听觉遮掩阈值,调整所述初始过减因子以及所述初始增益补偿因子,获得调整后过减因子以及调整后增益补偿因子;
根据调整后过减因子以及调整后增益补偿因子,对所述第二语音信号进行降噪,得到第三语音信号。
11.一种语音处理设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的语音处理方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的语音处理方法中的步骤。
CN201911320774.1A 2019-12-19 2019-12-19 一种语音处理方法、装置及设备 Active CN113012711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911320774.1A CN113012711B (zh) 2019-12-19 2019-12-19 一种语音处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911320774.1A CN113012711B (zh) 2019-12-19 2019-12-19 一种语音处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113012711A true CN113012711A (zh) 2021-06-22
CN113012711B CN113012711B (zh) 2024-03-22

Family

ID=76381448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911320774.1A Active CN113012711B (zh) 2019-12-19 2019-12-19 一种语音处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113012711B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963710A (zh) * 2021-10-19 2022-01-21 北京融讯科创技术有限公司 一种语音增强方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379662A1 (en) * 2013-11-27 2016-12-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379662A1 (en) * 2013-11-27 2016-12-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus and server for processing noisy speech
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法
CN110310656A (zh) * 2019-05-27 2019-10-08 重庆高开清芯科技产业发展有限公司 一种语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘玉军;孔洲;徐万里;张增;杨新旺;蒋冰舒;韩林呈;: "基于谱减法的装甲车辆语音降噪研究", 计算机工程与设计, no. 21 *
曹亮;张天骐;高洪兴;易琛;: "基于听觉掩蔽效应的多频带谱减语音增强方法", 计算机工程与设计, no. 01, pages 236 - 238 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963710A (zh) * 2021-10-19 2022-01-21 北京融讯科创技术有限公司 一种语音增强方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113012711B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN109643554B (zh) 自适应语音增强方法和电子设备
JP4210521B2 (ja) 雑音低減法および装置
US6157909A (en) Process and device for blind equalization of the effects of a transmission channel on a digital speech signal
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
US10043533B2 (en) Method and device for boosting formants from speech and noise spectral estimation
CN108447500B (zh) 语音增强的方法与装置
US10818302B2 (en) Audio source separation
CN111508519A (zh) 一种音频信号人声增强的方法及装置
CN101141533A (zh) 用于提供具有扩展带宽的声音信号的方法和系统
CN108806712B (zh) 减少频域处理量的方法与装置
CN110970044B (zh) 一种面向语音识别的语音增强方法
CN114898762A (zh) 基于目标人的实时语音降噪方法、装置和电子设备
CN1367976A (zh) 通过包含隐藏信息来改进自适应滤波器的方法和装置
CN113012711B (zh) 一种语音处理方法、装置及设备
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN113838471A (zh) 基于神经网络的降噪方法、系统、电子设备及存储介质
US20060184361A1 (en) Method and apparatus for reducing an interference noise signal fraction in a microphone signal
Xu et al. Zoneformer: On-device Neural Beamformer For In-car Multi-zone Speech Separation, Enhancement and Echo Cancellation
WO2015027168A1 (en) Method and system for speech intellibility enhancement in noisy environments
CN112489669B (zh) 一种音频信号处理方法、装置、设备和介质
CN114882898A (zh) 多通道语音信号增强方法和装置及计算机设备和存储介质
CN101625870A (zh) Ans方法和装置、提高监控系统音频质量的方法和系统
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质
CN116137153A (zh) 一种语音降噪模型的训练方法以及语音增强方法
CN108717855B (zh) 噪音处理方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant