CN108831500A - 语音增强方法、装置、计算机设备及存储介质 - Google Patents

语音增强方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108831500A
CN108831500A CN201810528830.XA CN201810528830A CN108831500A CN 108831500 A CN108831500 A CN 108831500A CN 201810528830 A CN201810528830 A CN 201810528830A CN 108831500 A CN108831500 A CN 108831500A
Authority
CN
China
Prior art keywords
signal
spectrum
processed
voice signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810528830.XA
Other languages
English (en)
Other versions
CN108831500B (zh
Inventor
涂宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810528830.XA priority Critical patent/CN108831500B/zh
Priority to PCT/CN2018/094411 priority patent/WO2019227590A1/zh
Publication of CN108831500A publication Critical patent/CN108831500A/zh
Application granted granted Critical
Publication of CN108831500B publication Critical patent/CN108831500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

本发明公开了一种语音增强方法、装置、计算机设备及存储介质。该语音增强方法包括:获取待处理语音数据,所述待处理语音数据包括待处理语音信号和待处理噪声信号;分别对所述待处理语音信号和所述待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;获取所述语音信号频谱和所述噪声信号频谱的频谱差值,若所述频谱差值小于预设阈值,则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号;采用带通滤波器对所述原始语音信号进行过滤处理,获取中间语音信号;对所述中间语音信号进行傅里叶逆变换,获取目标语音信号。该语音增强方法进行语音增强,具有实现简单和精度高的优点。

Description

语音增强方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语音增强方法、装置、计算机设备及存储介质。
背景技术
随着语音识别技术的广泛使用,语音信号处理技术的需求也随之扩大。目前,在语音识别或声纹识别过程中,由前端设备采集到的语音信号一般都带有噪声,包括背景环境中的噪声以及前端设备录音过程中产生的噪声。这些携带噪声的语音信号在进行语音识别时,会影响语音识别的准确性,因此,需要对语音信号进行语音增强处理(即对语音信号进行降噪处理),以从该语音信号中尽可能提取到更纯净的语音信号,以使语音识别更加准确。当前对语音信号进行语音增强处理后提取的语音信号精度不高,不利于后续进行语音识别。
发明内容
基于此,有必要针对上述技术问题,提供一种可以提升语音增强处理后语音信号精度的语音增强方法、装置、计算机设备及存储介质。
一种语音增强方法,包括:
获取待处理语音数据,所述待处理语音数据包括待处理语音信号和待处理噪声信号;
分别对所述待处理语音信号和所述待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;
获取所述语音信号频谱和所述噪声信号频谱的频谱差值,若所述频谱差值小于预设阈值,则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号;
采用带通滤波器对所述原始语音信号进行过滤处理,获取中间语音信号;
对所述中间语音信号进行傅里叶逆变换,获取目标语音信号。
一种语音增强装置,包括:
待处理语音数据获取模块,用于获取待处理语音数据,所述待处理语音数据包括待处理语音信号和待处理噪声信号;
信号频谱获取模块,用于分别对所述待处理语音信号和所述待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;
原始语音信号获取模块,用于获取所述语音信号频谱和所述噪声信号频谱的频谱差值,若所述频谱差值小于预设阈值,则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号;
中间语音信号获取模块,用于采用带通滤波器对所述原始语音信号进行过滤处理,获取中间语音信号;
目标语音信号获取模块,用于对所述中间语音信号进行傅里叶逆变换,获取目标语音信号。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音增强方法的步骤。
一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音增强方法的步骤。
上述语音增强方法、装置、计算机设备及存储介质,先获取待处理语音数据,待处理语音数据包括待处理语音信号和待处理噪声信号,以便获取语音信号频谱和噪声信号频谱的频谱差值,并将频谱差值与预设阈值进行判断,采用局部谱减方式对语音信号频谱和噪声信号频谱进行谱减运算,以去除背景环境噪声,获取原始语音信号,该谱减运算的计算过程简单,提高了运算效率。再采用带通滤波器对原始语音信号进行过滤处理,只保留说话人的语音信息,进一步提高语音增强的精度。最后,对中间语音信号进行傅里叶逆变换,获取目标语音信号,以实现语音增强的目的。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音增强方法的一应用环境图;
图2是本发明一实施例中语音增强方法的一流程图;
图3是图2中步骤S20的一具体流程图;
图4是图2中步骤S30的一具体流程图;
图5是图2中步骤S40的一具体流程图;
图6是本发明一实施例中语音增强装置的一示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的语音增强方法,可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
图1示出本发明一实施例中的应用环境图。该语音增强方法可应用在银行、证券、保险等金融机构或者其他机构配置的计算机设备上,用于在语音识别或声纹识别过程中对语音信号进行语音增强,以提高识别的准确率。
在一个实施例中,如图2所示,以该方法应用于图1中的服务器为例进行说明,包括如下步骤:
S10:获取待处理语音数据,待处理语音数据包括待处理语音信号和待处理噪声信号。
其中,待处理语音数据是前端设备的录音模块采集到的说话人的语音数据。具体地,该待处理语音数据可以是wav、mp3或其他格式的语音数据。待处理语音数据包括待处理语音信号和待处理噪声信号。待处理语音信号是前端设备的录音模块采集到的夹杂噪声的语音信号。待处理噪声信号是指待处理语音数据中的静音段,该静音段包括背景环境噪声对应的噪声信号。背景环境噪声是说话人所处环境的环境噪声。
具体地,服务器通过采用VAD(Voice Activity Detection,语音活动检测)算法对待处理语音数据进行端点检测,以获取静音段的语音数据,该静音段的语音数据即为待处理噪声信号;待处理语音数据中除静音段以外的语音数据即为待处理语音信号。VAD算法是用于实现在带有噪声的语音中准确的定位出语音的开始和结束的算法,可用于识别语音数据的信号流中长时间的静音段。本实施例中,服务器通过采用VAD算法对待处理语音数据进行端点检测,以获取待处理语音数据中的静音段,从而区分待处理语音信号和待处理噪声信号。
S20:分别对待处理语音信号和待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱。
其中,语音信号频谱是待处理语音信号进行预处理后获取的信号频谱。语音信号频谱体现了不同信号频率下待处理语音信号的幅值变化。噪声信号频谱是待处理噪声信号进行预处理后获取的信号频谱。噪声信号频谱体现了不同信号频率下待处理噪声信号的幅值变化。幅值是在信号频谱中不同信号频率对应的数值。由于语音增强是基于语音信号的帧级进行运算的,不能直接对语音信号(噪声信号)进行语音增强处理,有助于提取目标语音信号(即噪声含量较低的语音信号),因此,需要对待处理语音信号和待处理噪声信号进行预处理,为后续进行语音增强处理提供技术基础。
S30:获取语音信号频谱和噪声信号频谱的频谱差值,若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号。
其中,原始语音信号是采用谱减法对语音信号频谱和噪声信号频谱进行处理后获取的语音信号。频谱差值是在同一信号频率下语音信号频谱对应的幅值和噪声信号频谱对应的幅值的差值。预设阈值是预先定义好的用于判断是否进行谱减处理的阈值。谱减法是利用噪声的统计平稳性以及加性噪声信号与语音信号不相关的特点而提出的一种语音增强方法。可以理解地,谱减法的基本思想是通过噪声段估计含噪语音信号中的噪声成分,然后将含噪声语音信号减去估计的噪声部分就得到了纯净的语音信号。谱减法具有计算简单、运算量小的优点,能够获得较高的信噪比。信噪比是指一个电子设备或者电子系统中信号与噪声的比例。
本实施例中,服务器采用局部谱减的方式对语音信号频谱和噪声信号频谱进行谱减运算,即先获取同一信号频率下的语音信号频谱和噪声信号频谱的频谱差值,然后将频谱差值与预设阈值进行判断,若频谱差值大于预设阈值时,则说明语音信号突出,则无需进行语音增强;若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号。该过程无需对所有频率下的语音信号频谱和噪声信号频谱进行谱减处理,减少谱减运算的计算量,提高谱减处理效率。
S40:采用带通滤波器对原始语音信号进行过滤处理,获取中间语音信号。
其中,中间语音信号是采用带通滤波器对原始语音信号进行过滤处理获取到的以频域形式表示的语音信号。带通滤波器是指能通过某一频率范围内的频率分量,将该频率范围以外的频率分量衰减到极低水平的滤波器。通过采用带通滤波器过原始语音信号进行过滤,只保留说话人的语音,进一步提高了语音增强的精度。
S50:对中间语音信号进行傅里叶逆变换,获取目标语音信号。
其中,目标语音信号是将频域表示形式的中间语音信号转换为时域表示形式的语音信号。傅里叶逆变换是将一个信号从频域的表示形式映射到时域的表示形式的一种数字变换。具体地,傅里叶逆变换公式为其中,X(k)为中间语音信号,X(n)为目标语音信号,N为中间语音信号所包含的采样点数,为旋转因子。
本实施例所提供的语音增强方法中,服务器先获取待处理语音数据,待处理语音数据包括待处理语音信号和待处理噪声信号,并对待处理语音信号和待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱,以便获取语音信号频谱和噪声信号频谱的频谱差值。采用局部谱减的方式对语音信号频谱和噪声信号频谱进行谱减运算,即需先将频谱差值与预设阈值进行比较判断,若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,有效抑制背景环境噪声,获取原始语音信号,该谱减运算的计算过程简单,提高了运算效率。再采用带通滤波器对原始语音信号进行过滤处理,只保留说话人的语音,进一步提高了语音增强的精度。最后,对中间语音信号进行傅里叶逆变换,获取目标语音信号,以实现语音增强的目的。
在一实施例中,如图2所示,步骤S20中,即分别对待处理语音信号和待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱,具体包括如下步骤:
S21:分别对待处理语音信号和待处理噪声信号进行分帧,获取至少两帧单帧语音信号和至少两帧单帧噪声信号。
由于待处理语音信号和待处理噪声信号整体上看不是平稳的,但是在局部上可以看作是平稳的。在语音识别或声纹识别过程中需要输入的是平稳信号,所以需要对待处理语音信号和待处理噪声信号进行分帧。
分帧是将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大,通过使相邻两帧之间有一段重叠区域,此重叠区域包含了M个采样点,通常M的值约为N的1/2或1/3,此过程称为分帧。其中,每一帧单帧语音信号或每一帧单帧噪声信号包括N个采样点数(N为正整数)。由于单帧语音信号和单帧噪声信号的帧长相同,使得每一帧单帧语音信号包含的采样点数与每一帧单帧噪声信号包含的采样点数的数量相同。
具体地,由于每一帧的起始段和末尾端会出现不连续的地方,分帧越多会导致分帧后的语音信号与待处理语音信号的误差越大,或者导致分帧后的噪声信号与待处理噪声信号的误差越大。为了使分帧后的信号变得连续,每一帧都可以表现出周期函数的特征,因此,还需要对分帧后的信号进行加窗处理。
加窗是每一帧乘以汉明窗(即Hamming Window),由于汉明窗的幅频特性是旁瓣衰减较大,通过加窗处理,可增加帧左端和帧右端的连续性。即通过分帧和加窗处理,可将非平稳语音信号转变为短时平稳信号。设分帧后的信号为S(n),n=0,1…,N-1,N为帧的大小,乘以汉明窗的信号W(n),则加窗后的信号为S'(n)=S(n)×W(n),其中,不同的a值会产生不同的汉明窗,一般情况下a取0.46。
S22:采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱。
其中,语音信号频谱是语音信号在频域上的能量谱。噪声信号频谱是噪声信号在频域上的能量谱。具体地,由于后续谱减法是基于频域进行操作的,因此需采用快速傅里叶变换将时域信号转换为频域能量谱分析。
快速傅里叶变换(Fast Fourier Transform,以下简称FFT)是由离散傅里叶变换(Discrete Fourier Transform,以下简称DFT)的快速计算的统称。快速傅里叶变换用于将时域信号转换为频域能量谱。由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧信号还需进行快速傅里叶变换以得到在频谱上的能量分布。
对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧频谱(即能量谱)。快速傅里叶变换公式具体为xi(w)=FFT{xi(k)}和ni(w)=FFT{ni(k)};其中,xi(k)为第i帧的单帧语音信号,xi(w)为第i帧的语音信号频谱,ni(k)为第i帧的单帧噪音信号,ni(w)为第i帧的噪声信号频谱。具体地,离散傅里叶变换的计算公式为其中,M为每一帧单帧语音信号或每一帧单帧噪声信号所包含的采样点数。由于在数据量较大时,DFT的算法复杂度高,计算量较大,耗费时间,因此采用快速傅里叶变换进行计算,以加快计算速度,节省时间。具体地,快速傅里叶变换是利用离散傅里叶变换公式中的旋转因子的特性,即周期性、对称性和可约性,采用蝶形运算对上述公式进行转换,以降低算法复杂度。
具体地,N个采样点的DFT运算称为蝶形运算,而FFT运算就由若干级迭代的蝶形运算组成。假设每一帧语音信号或每一帧噪声信号的采样点数为2^L个,L为正整数,若采样点不足2^L个,可以用0补位,起到满足帧内采样点数在2^L个,则蝶形运算的公式为其中,X'(k)'为偶数项分支的离散傅立叶变换,x”(k)”为奇数项分支的离散傅立叶变换。通过蝶形运算将N点的DFT运算转换为奇数项离散傅里叶变换或偶数项离散傅里叶变换进行计算,降低算法复杂度,实现高效运算的目的。
本实施例中,由于待处理语音信号或待处理噪声信号整体上看不是平稳的,但是在局部上可以看作是平稳的。在声纹识别过程中需要输入的是平稳信号,所以需要对待处理语音信号或待处理噪声信号进行分帧。分别对待处理语音信号和待处理噪声信号进行分帧,获取至少两帧单帧语音信号和至少两帧单帧噪声信号。并且,由于每一帧的起始段和末尾端会出现不连续的地方,分帧越多会导致分帧后的语音信号(或噪声信号)与待处理语音信号(或待处理噪声信号)的误差越大。为了使分帧后的信号变得连续,每一帧都可以表现出周期函数的特征,因此还需要对分帧后的信号进行加窗处理,以获取至少两帧单帧语音信号和至少两帧单帧噪声信号,以便采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱,以降低运算复杂度加快计算速度,节省时间。
在一实施例中,如图3所示,步骤S30中,即获取语音信号频谱和噪声信号频谱的频谱差值,若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号中,具体包括如下步骤:
S31:获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值。
具体地,频谱是由信号频率(横坐标)和对应的幅值(纵坐标)组成。谱减法的计算是将含噪声的语音信号频谱直接减去噪声信号频谱的估计值,以达到语音增强的效果,但这会导致语音增强的精度不够,语音增强效果不佳。因此,服务器先获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值,再计算同一信号频率下语音信号频谱对应的幅值与噪声信号频谱对应的幅值的幅值差值,并将该幅值差值与预设阈值进行比较,以确定是否进行谱减处理,以使谱减法由线到点,更加细致。
S32:若幅值差值小于预设阈值,则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号。
具体地,若语音信号频谱中每一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值大于预设阈值,则说明语音信号突出,则无需进行语音增强。若同一信号频率对应的幅值的幅值差值小于预设阈值,则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号,从线到点进行谱减运算,以使谱减运算更加细致化,有效抑制了背景环境噪声的干扰,达到语音增强的目的。
谱减法的计算公式为其中,其中,N为帧的数量,μ为噪声频谱的均值,si(W)为原始语音信号,xi(w)为第i帧的语音信号频谱,ni(w)为第i帧的噪声信号频谱。
本实施例中,由于谱减法的计算是将含噪声的语音信号频谱减去噪声信号频谱的估计值,以达到语音增强的效果,但这会导致语音增强精度不够,语音增强效果不佳。因此,服务器先获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中与同一信号频率对应的幅值的幅值差值,并与预设阈值进行比较,若幅值差值大于预设阈值时,则说明语音信号突出,则无需进行语音增强。若幅值差值小于预设阈值,则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号,以使语音增强方法由线到点,更加细致,提高语音增强的精度。
在一实施例中,如图4所示,步骤S40中,即采用带通滤波器对原始语音信号进行过滤处理,获取中间语音信号,具体包括如下步骤:
S41:获取带通滤波器的频谱范围。
其中,带通滤波器的频谱范围是预先设定好的。本实施例中的带通滤波器的频谱范围为500HZ-3000HZ。具体地,由于人类的言语频率(人正常说话的频谱)主要在500HZ-3000HZ之间,低于500HZ和高于3000HZ的频谱范围可以默认为非说话人的声音频谱范围,因此采用带通滤波器过滤掉非说话人语音的频谱,只选择频谱范围在500-3000HZ的的原始语音信号(即只保留说话人的声音频谱范围),以达到语音增强的目的。
S42:采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理,获取中间语音信号。
具体地,采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理,即只选择频谱范围在500HZ-3000HZ的的原始语音信号,以获取中间语音信号,以保留说话人语音,达到语音增强的目的。
本实施例中,先获取预先设定的带通滤波器的频谱范围,采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理,以获取中间语音信号,进一步提取说话人语音部分,提高了语音增强的精度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,图5示出与上述实施例中语音增强方法一一对应的语音增强装置的原理框图。如图5所示,该语音增强装置包括待处理语音数据获取模块10、信号频谱获取模块20、原始语音信号获取模块30、中间语音信号获取模块40和目标语音信号获取模块50。其中,待处理语音数据获取模块10、信号频谱获取模块20、原始语音信号获取模块30、中间语音信号获取模块40和目标语音信号获取模块50的实现功能与上述实施例中语音增强方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
待处理语音数据获取模块10,用于获取待处理语音数据,待处理语音数据包括待处理语音信号和待处理噪声信号。
信号频谱获取模块20,用于分别对待处理语音信号和待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱。
原始语音信号获取模块30,用于获取语音信号频谱和噪声信号频谱的频谱差值,若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号。
中间语音信号获取模块40,用于采用带通滤波器对原始语音信号进行过滤处理,获取中间语音信号。
目标语音信号获取模块50,用于对中间语音信号进行傅里叶逆变换,获取目标语音信号。
具体地,信号频谱获取模块20包括单帧信号获取单元21和信号频谱获取单元22。
单帧信号获取单元21,用于分别对待处理语音信号和待处理噪声信号进行分帧,获取至少两帧单帧语音信号和至少两帧单帧噪声信号;
信号频谱获取单元22,用于采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱。
具体地,快速傅里叶变换公式具体为xi(w)=FFT{xi(k)}和ni(w)=FFT{ni(k)};其中,xi(k)为第i帧的单帧语音信号,xi(w)为第i帧的语音信号频谱,ni(k)为第i帧的单帧噪音信号,ni(w)为第i帧的噪声信号频谱。
具体地,原始语音信号获取模块30包括幅值差值获取单元31和原始语音信号获取单元32。
幅值差值获取单元31,用于获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值。
原始语音信号获取单元32,用于若幅值差值小于预设阈值,则采用谱减法对同一信号频率下的语音信号频谱对应的幅值和噪声信号频谱对应的幅值进行谱减处理,获取原始语音信号。
具体地,谱减法的计算公式为
其中,
其中,N为帧的数量,μ为噪声频谱的均值,si(W)为原始语音信号,xi(w)为第i帧的语音信号频谱,ni(w)为第i帧的噪声信号频谱。
具体地,中间语音信号获取模块40包括频谱范围获取单元41和中间语音信号获取单元42。
频谱范围获取单元41,用于获取带通滤波器的频谱范围;
中间语音信号获取单元42,用于采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理,获取中间语音信号。
关于语音增强装置的具体限定可以参见上文中对于语音增强方法的限定,在此不再赘述。上述语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行语音增强方法过程中生成或获取的数据,如目标语音信号。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待处理语音数据,待处理语音数据包括待处理语音信号和待处理噪声信号;分别对待处理语音信号和待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;获取语音信号频谱和噪声信号频谱的频谱差值,若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号;采用带通滤波器对原始语音信号进行过滤处理,获取中间语音信号;对中间语音信号进行傅里叶逆变换,获取目标语音信号。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别对待处理语音信号和待处理噪声信号进行分帧,获取至少两单帧语音信号和至少两帧单帧噪声信号;采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱。具体地,快速傅里叶变换公式具体为xi(w)=FFT{xi(k)}和ni(w)=FFT{ni(k)};其中,xi(k)为第i帧的单帧语音信号,xi(w)为第i帧的语音信号频谱,ni(k)为第i帧的单帧噪音信号,ni(w)为第i帧的噪声信号频谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值;若幅值差值小于预设阈值,则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号。具体地,谱减法的计算公式为其中,其中,N为帧的数量,μ为噪声频谱的均值,si(W)为原始语音信号,xi(w)为第i帧的语音信号频谱,ni(w)为第i帧的噪声信号频谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取带通滤波器的频谱范围;采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理,获取中间语音信号。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理语音数据,待处理语音数据包括待处理语音信号和待处理噪声信号;分别对待处理语音信号和待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;获取语音信号频谱和噪声信号频谱的频谱差值,若频谱差值小于预设阈值,则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号;采用带通滤波器对原始语音信号进行过滤处理,获取中间语音信号;对中间语音信号进行傅里叶逆变换,获取目标语音信号。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别对待处理语音信号和待处理噪声信号进行分帧,获取至少两单帧语音信号和至少两帧单帧噪声信号;采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱。具体地,快速傅里叶变换公式具体为xi(w)=FFT{xi(k)}和ni(w)=FFT{ni(k)};其中,xi(k)为第i帧的单帧语音信号,xi(w)为第i帧的语音信号频谱,ni(k)为第i帧的单帧噪音信号,ni(w)为第i帧的噪声信号频谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值;若幅值差值小于预设阈值,则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理,获取原始语音信号。具体地,谱减法的计算公式为其中,其中,N为帧的数量,μ为噪声频谱的均值,si(W)为原始语音信号,xi(w)为第i帧的语音信号频谱,ni(w)为第i帧的噪声信号频谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取带通滤波器的频谱范围;采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理,获取中间语音信号。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音增强方法,其特征在于,包括:
获取待处理语音数据,所述待处理语音数据包括待处理语音信号和待处理噪声信号;
分别对所述待处理语音信号和所述待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;
获取所述语音信号频谱和所述噪声信号频谱的频谱差值,若所述频谱差值小于预设阈值,则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号;
采用带通滤波器对所述原始语音信号进行过滤处理,获取中间语音信号;
对所述中间语音信号进行傅里叶逆变换,获取目标语音信号。
2.如权利要求1所述的语音增强方法,其特征在于,所述分别对所述待处理语音信号和所述待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱,包括:
分别对所述待处理语音信号和所述待处理噪声信号进行分帧,获取至少两单帧语音信号和至少两帧单帧噪声信号;
采用快速傅里叶变换公式分别对每一帧所述单帧语音信号和每一帧所述单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱。
3.如权利要求2所述的语音增强方法,其特征在于,所述快速傅里叶变换公式具体为xi(w)=FFT{xi(k)}和ni(w)=FFT{ni(k)};其中,xi(k)为第i帧的单帧语音信号,xi(w)为第i帧的语音信号频谱,ni(k)为第i帧的单帧噪音信号,ni(w)为第i帧的噪声信号频谱。
4.如权利要求1所述的语音增强方法,其特征在于,所述获取所述语音信号频谱和所述噪声信号频谱的频谱差值,若所述频谱差值小于预设阈值,则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号,包括:
获取所述语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一所述信号频率对应的幅值的幅值差值;
若所述幅值差值小于预设阈值,则采用谱减法对同一所述信号频率下的所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号。
5.如权利要求1所述的语音增强方法,其特征在于,所述谱减法的计算公式为其中,
其中,N为帧的数量,μ为所述噪声频谱的均值,si(W)为所述原始语音信号,xi(w)为第i帧的语音信号频谱,ni(w)为第i帧的噪声信号频谱。
6.如权利要求1所述的语音增强方法,其特征在于,所述采用带通滤波器对所述原始语音信号进行过滤处理,获取中间语音信号,包括:
获取带通滤波器的频谱范围;
采用带通滤波器将所述原始语音信号的信号频率不在所述频谱范围内的原始语音信号进行过滤处理,获取中间语音信号。
7.一种语音增强装置,其特征在于,包括:
待处理语音数据获取模块,用于获取待处理语音数据,所述待处理语音数据包括待处理语音信号和待处理噪声信号;
信号频谱获取模块,用于分别对所述待处理语音信号和所述待处理噪声信号进行预处理,获取语音信号频谱和噪声信号频谱;
原始语音信号获取模块,用于获取所述语音信号频谱和所述噪声信号频谱的频谱差值,若所述频谱差值小于预设阈值,则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理,获取原始语音信号;
中间语音信号获取模块,用于采用带通滤波器对所述原始语音信号进行过滤处理,获取中间语音信号;
目标语音信号获取模块,用于对所述中间语音信号进行傅里叶逆变换,获取目标语音信号。
8.如权利要求7所述的语音增强装置,其特征在于,所述信号频谱获取模块,包括:
单帧信号获取单元,用于分别对所述待处理语音信号和所述待处理噪声信号进行分帧,获取至少两帧单帧语音信号和至少两帧单帧噪声信号;
信号频谱获取单元,用于采用快速傅里叶变换公式分别对每一帧所述单帧语音信号和每一帧所述单帧噪声信号进行快速傅里叶变换,获取语音信号频谱和噪声信号频谱。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音增强方法的步骤。
10.一种非易失性存储介质,所述非易失性存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音增强方法的步骤。
CN201810528830.XA 2018-05-29 2018-05-29 语音增强方法、装置、计算机设备及存储介质 Active CN108831500B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810528830.XA CN108831500B (zh) 2018-05-29 2018-05-29 语音增强方法、装置、计算机设备及存储介质
PCT/CN2018/094411 WO2019227590A1 (zh) 2018-05-29 2018-07-04 语音增强方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810528830.XA CN108831500B (zh) 2018-05-29 2018-05-29 语音增强方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108831500A true CN108831500A (zh) 2018-11-16
CN108831500B CN108831500B (zh) 2023-04-28

Family

ID=64146007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810528830.XA Active CN108831500B (zh) 2018-05-29 2018-05-29 语音增强方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108831500B (zh)
WO (1) WO2019227590A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797041A (zh) * 2019-10-21 2020-02-14 珠海市杰理科技股份有限公司 语音降噪处理方法、装置、计算机设备及存储介质
CN111383653A (zh) * 2020-03-18 2020-07-07 北京海益同展信息科技有限公司 语音处理方法及装置、存储介质、机器人
CN111429890A (zh) * 2020-03-10 2020-07-17 厦门快商通科技股份有限公司 一种微弱语音增强方法、语音识别方法及计算机可读存储介质
CN111568384A (zh) * 2020-05-29 2020-08-25 上海联影医疗科技有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN111627454A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 环境语音采集处理方法、装置、设备及可读存储介质
CN112309414A (zh) * 2020-07-21 2021-02-02 东莞市逸音电子科技有限公司 基于音频编解码的主动降噪方法、耳机及电子设备
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
CN112634929A (zh) * 2020-12-16 2021-04-09 普联国际有限公司 一种语音增强方法、装置及存储介质
CN112697270A (zh) * 2020-12-07 2021-04-23 广州极飞科技有限公司 故障检测方法、装置、无人设备及存储介质
WO2021114733A1 (zh) * 2019-12-10 2021-06-17 展讯通信(上海)有限公司 一种分频段进行处理的噪声抑制方法及其系统
CN113035222A (zh) * 2021-02-26 2021-06-25 北京安声浩朗科技有限公司 语音降噪方法、装置、滤波器的确定方法、语音交互设备
CN113345438A (zh) * 2021-05-28 2021-09-03 深圳大学 一种基于扬声器磁场的监听方法及系统
CN115862657A (zh) * 2023-02-22 2023-03-28 科大讯飞(苏州)科技有限公司 随噪增益方法和装置、车载系统、电子设备及存储介质
CN116758934A (zh) * 2023-08-18 2023-09-15 深圳市微克科技有限公司 一种智能穿戴设备对讲功能的实现方法、系统及介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402918B (zh) * 2020-03-20 2023-08-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、设备及存储介质
CN111916060B (zh) * 2020-08-12 2022-03-01 四川长虹电器股份有限公司 一种基于谱减的深度学习语音端点检测方法和系统
CN112309426A (zh) * 2020-11-24 2021-02-02 北京达佳互联信息技术有限公司 语音处理模型训练方法及装置和语音处理方法及装置
CN113539284B (zh) * 2021-06-03 2023-12-29 深圳市发掘科技有限公司 语音降噪方法、装置、计算机设备及存储介质
CN117542370A (zh) * 2024-01-10 2024-02-09 华南理工大学 一种用于智能客服机器人的语音信号智能处理方法及系统
CN117711419B (zh) * 2024-02-05 2024-04-26 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1258368A (zh) * 1998-03-30 2000-06-28 三菱电机株式会社 噪声衰减设备以及噪声衰减方法
US20020150265A1 (en) * 1999-09-30 2002-10-17 Hitoshi Matsuzawa Noise suppressing apparatus
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
CN102411930A (zh) * 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
CN102598128A (zh) * 2009-11-06 2012-07-18 日本电气株式会社 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
JP2013130815A (ja) * 2011-12-22 2013-07-04 Asahi Kasei Electronics Co Ltd 雑音抑圧装置
CN104376848A (zh) * 2013-08-12 2015-02-25 展讯通信(上海)有限公司 语音信号处理方法和装置
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US20180033448A1 (en) * 2016-07-27 2018-02-01 Fujitsu Limited Noise suppression device and noise suppressing method
CN107910013A (zh) * 2017-11-10 2018-04-13 广东欧珀移动通信有限公司 一种语音信号的输出处理方法及装置
CN107910016A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音的噪声可容度判断方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7603258B2 (en) * 2005-11-03 2009-10-13 Gas Technology Institute Noise reduction and estimation of pipeline signals
CN103761974B (zh) * 2014-01-28 2017-01-25 上海力声特医学科技有限公司 一种人工耳蜗
CN104867497A (zh) * 2014-02-26 2015-08-26 北京信威通信技术股份有限公司 一种语音降噪方法
CN107680610A (zh) * 2017-09-27 2018-02-09 安徽硕威智能科技有限公司 一种语音增强系统及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1258368A (zh) * 1998-03-30 2000-06-28 三菱电机株式会社 噪声衰减设备以及噪声衰减方法
US20020150265A1 (en) * 1999-09-30 2002-10-17 Hitoshi Matsuzawa Noise suppressing apparatus
CN1841500A (zh) * 2005-03-30 2006-10-04 松下电器产业株式会社 一种基于自适应非线性谱减的抗噪方法和装置
CN102598128A (zh) * 2009-11-06 2012-07-18 日本电气株式会社 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质
CN102411930A (zh) * 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
JP2013130815A (ja) * 2011-12-22 2013-07-04 Asahi Kasei Electronics Co Ltd 雑音抑圧装置
CN103021420A (zh) * 2012-12-04 2013-04-03 中国科学院自动化研究所 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法
CN104376848A (zh) * 2013-08-12 2015-02-25 展讯通信(上海)有限公司 语音信号处理方法和装置
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US20180033448A1 (en) * 2016-07-27 2018-02-01 Fujitsu Limited Noise suppression device and noise suppressing method
CN107910013A (zh) * 2017-11-10 2018-04-13 广东欧珀移动通信有限公司 一种语音信号的输出处理方法及装置
CN107910016A (zh) * 2017-12-19 2018-04-13 河海大学 一种带噪语音的噪声可容度判断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐波: "《应用模式识别技术导论-人脸识别与语音识别》", 30 May 2001 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
WO2021078010A1 (zh) * 2019-10-21 2021-04-29 珠海市杰理科技股份有限公司 语音降噪处理方法、装置、计算机设备及存储介质
CN110797041A (zh) * 2019-10-21 2020-02-14 珠海市杰理科技股份有限公司 语音降噪处理方法、装置、计算机设备及存储介质
WO2021114733A1 (zh) * 2019-12-10 2021-06-17 展讯通信(上海)有限公司 一种分频段进行处理的噪声抑制方法及其系统
CN111429890A (zh) * 2020-03-10 2020-07-17 厦门快商通科技股份有限公司 一种微弱语音增强方法、语音识别方法及计算机可读存储介质
CN111429890B (zh) * 2020-03-10 2023-02-10 厦门快商通科技股份有限公司 一种微弱语音增强方法、语音识别方法及计算机可读存储介质
CN111383653A (zh) * 2020-03-18 2020-07-07 北京海益同展信息科技有限公司 语音处理方法及装置、存储介质、机器人
CN111627454B (zh) * 2020-05-13 2023-07-21 广州国音智能科技有限公司 环境语音采集处理方法、装置、设备及可读存储介质
CN111627454A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 环境语音采集处理方法、装置、设备及可读存储介质
CN111568384A (zh) * 2020-05-29 2020-08-25 上海联影医疗科技有限公司 医学扫描中的语音降噪方法、装置和计算机设备
CN112309414A (zh) * 2020-07-21 2021-02-02 东莞市逸音电子科技有限公司 基于音频编解码的主动降噪方法、耳机及电子设备
CN112309414B (zh) * 2020-07-21 2024-01-12 东莞市逸音电子科技有限公司 基于音频编解码的主动降噪方法、耳机及电子设备
CN112697270A (zh) * 2020-12-07 2021-04-23 广州极飞科技有限公司 故障检测方法、装置、无人设备及存储介质
CN112634929A (zh) * 2020-12-16 2021-04-09 普联国际有限公司 一种语音增强方法、装置及存储介质
CN113035222A (zh) * 2021-02-26 2021-06-25 北京安声浩朗科技有限公司 语音降噪方法、装置、滤波器的确定方法、语音交互设备
CN113035222B (zh) * 2021-02-26 2023-10-27 北京安声浩朗科技有限公司 语音降噪方法、装置、滤波器的确定方法、语音交互设备
CN113345438A (zh) * 2021-05-28 2021-09-03 深圳大学 一种基于扬声器磁场的监听方法及系统
CN115862657A (zh) * 2023-02-22 2023-03-28 科大讯飞(苏州)科技有限公司 随噪增益方法和装置、车载系统、电子设备及存储介质
CN116758934A (zh) * 2023-08-18 2023-09-15 深圳市微克科技有限公司 一种智能穿戴设备对讲功能的实现方法、系统及介质
CN116758934B (zh) * 2023-08-18 2023-11-07 深圳市微克科技有限公司 一种智能穿戴设备对讲功能的实现方法、系统及介质

Also Published As

Publication number Publication date
WO2019227590A1 (zh) 2019-12-05
CN108831500B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN108831500B (zh) 语音增强方法、装置、计算机设备及存储介质
US8392181B2 (en) Subtraction of a shaped component of a noise reduction spectrum from a combined signal
US10839820B2 (en) Voice processing method, apparatus, device and storage medium
CN110648687B (zh) 一种活动语音检测方法及系统
Tabibian et al. Speech enhancement using a wavelet thresholding method based on symmetric Kullback–Leibler divergence
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
WO2022141868A1 (zh) 一种提取语音特征的方法、装置、终端及存储介质
US10741194B2 (en) Signal processing apparatus, signal processing method, signal processing program
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
CN110176243B (zh) 语音增强方法、模型训练方法、装置和计算机设备
Wang et al. Spectral subtraction based on two-stage spectral estimation and modified cepstrum thresholding
CN112599148A (zh) 一种语音识别方法及装置
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质
US8736359B2 (en) Signal processing method, information processing apparatus, and storage medium for storing a signal processing program
US9190070B2 (en) Signal processing method, information processing apparatus, and storage medium for storing a signal processing program
CN112216285B (zh) 多人会话检测方法、系统、移动终端及存储介质
CN113035216B (zh) 麦克风阵列语音的增强方法、及其相关设备
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2021197566A1 (en) Noise supression for speech enhancement
Hendriks et al. Adaptive time segmentation of noisy speech for improved speech enhancement
Upadhyay et al. An auditory perception based improved multi-band spectral subtraction algorithm for enhancement of speech degraded by non-stationary noises
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant