CN114023352B - 一种基于能量谱深度调制的语音增强方法及装置 - Google Patents

一种基于能量谱深度调制的语音增强方法及装置 Download PDF

Info

Publication number
CN114023352B
CN114023352B CN202111340547.2A CN202111340547A CN114023352B CN 114023352 B CN114023352 B CN 114023352B CN 202111340547 A CN202111340547 A CN 202111340547A CN 114023352 B CN114023352 B CN 114023352B
Authority
CN
China
Prior art keywords
signal
voice
noise
training
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111340547.2A
Other languages
English (en)
Other versions
CN114023352A (zh
Inventor
李志坚
毛文健
李斌
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111340547.2A priority Critical patent/CN114023352B/zh
Publication of CN114023352A publication Critical patent/CN114023352A/zh
Application granted granted Critical
Publication of CN114023352B publication Critical patent/CN114023352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种基于能量谱深度调制的语音增强方法及装置,涉及语音增强技术。针对现有技术中实时性低等问题提出本方案。输入作为训练样本的纯净语音信号和噪声信号;获取纯净语音信号和噪声信号的能量比值得到修正增益g1;将纯净语音信号和噪声信号合成带噪声语音信号;提取带噪声语音信号的特征参数;获取通过能量谱深度调制得到的初始增益g0;周期追踪纯净语音信号和噪声信号得到时间差;将修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练。优点在于,实现对有效语音信号进行增强,对噪声进行抑制,实现低延时,低资源占用的语音增强技术。对于助听器等要求低延时,低硬件资源使用的智能设备来说具有广泛的应用场景。

Description

一种基于能量谱深度调制的语音增强方法及装置
技术领域
本发明涉及语音增强技术,尤其涉及一种基于能量谱深度调制的语音增强方法及装置。
背景技术
随着时代的快速发展,人们对于智能手机,可穿戴式设备如耳机,助听器等智能设备,大型会议,人机交互的使用要求越来越高。而往往在现实生活的使用过程中会受到来自环境的干扰。如对于耳弱患者来说需要佩戴助听器来获取外界的语音信息的时候,由于助听器的算法并不能实现很人性化的要求,经常在放大有效语音的同时也会将噪音一同放大,导致患者的听觉感受十分不舒适。同样的对于视频会议来说,会议现场的人门进行的动作,如摆动桌子,东西掉落,低声聊天等声音也会通过麦克风都传播到远处的线上会议上,让对面的听众听到很多嘈杂的声音干扰到对会议内容的了解学习。语音增强技术是为了能够准确的从复杂的背景噪声中提取出有效语音并进行增强,成为了语音领域一个重要且具有挑战性的研究课题。
在现如今,语音增强技术主要分为两个方法,一个基于传统的统计学原理,如谱减法,维拉滤波法,子空间算法等算法具有广泛的应用。这些方法都是基于语音和噪声信号的统计特性,通常假设噪声是平稳或缓变。在使用场景满足假设条件的情况下,这些方法能取得一个良好得增强效果。但同时在复杂的真实使用过程中,多种多样的噪声使得这些方法失效,反而容易产生令人困扰的音乐噪声。
而另外一个领域则是随着深度学习的发展,人们将深度学习应用于语音增强,在某程度上可以提高算法的不同噪声的抗干扰性,提高鲁棒性。但深度学习的方法存在一个问题就是依赖于庞大的训练数据,测试数据的训练,由训练数据的多样不同,决定了算法的降噪能力。同时由于大量数据的训练迭代,使得需要花大量时间用于数据训练上。对于运行算法的硬件有较高的要求,并不能广泛推广应用。而对于语音增强技术的应用往往要求低延时,才不会给使用者带来不适。
公开号为CN201910406078.6的专利中描述的语音增强方法是一种深度学习的方法,通过获取语音数据集,对语音数据进行预处理并进行频域处理。其后还需要基于深层循环神经网络的模型进行字典训练,从而去提取语音特征参数,并结合非负矩阵分解算法和深度学习的方法去实现语音增强。虽然可以对带噪语音进行增强的效果。但该方法,计算过程依旧需要耗费大量的硬件资源,无法做到低延时的要求。
发明内容
鉴于现有技术的占用资源多,算法耗时长,无法适用复杂的噪声环境的缺陷。本发明目的在于提供一种基于能量谱深度调制的语音增强方法及装置,以解决上述现有技术存在的问题。在保证语音增强质量有保证的同时,可以实现低延时及低占用硬件资源使用。
本发明所述一种基于能量谱深度调制的语音增强方法,包括以下步骤:
S1、将训练完毕的RNN网络封装至语音增强计算模块的步骤;
S2、待处理带噪语音经过所述语音增强计算模块后输出增强语音的步骤;
所述的RNN网络通过以下子步骤训练完成:
S11、输入作为训练样本的纯净语音信号和噪声信号;
S12、获取纯净语音信号和噪声信号的能量比值得到修正增益g1;
S13、将所述纯净语音信号和噪声信号合成带噪声语音信号;
S14、提取所述带噪声语音信号的特征参数;
S15、获取通过能量谱深度调制得到的初始增益g0;
S16、周期追踪所述纯净语音信号和噪声信号得到时间差;
S17、将所述修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练;
其中步骤S14的特征参数在数字处理电路中完成。
训练RNN网络是,将连续的中低频带量化划分为K个频带;根据K的数量不同得到不同级别的语言增益;其中K为大于10且小于25的自然数;频带数K越大,语音增强效果越好。
所述的频带数K为18或22。
所述步骤S12中,将纯净语音信号的时域信号x(i)转化频域信号X(i),将噪声信号的时域信号n(i)转化为频域信号N(i);其中i为K个频带中的序号,即i∈[1,K]。
所述的修正增益g1=EX(i)/EN(i),其中EX(i)是频域信号X(i)的能量值,EN(i)是频域信号N(i)的能量值。
所述步骤S13中,将带噪声语音信号的时域信号y(i)转化为频域信号Y(i)。
所述的初始增益g0=EX(i)/EY(i),其中,EY(i)是频域信号Y(i)的能量值。
开始步骤S2前,先对待处理带噪语音通过语音活动检测,判断语音是否静默;当判断为非静默时才开始步骤S2,否则继续等待下一次待处理带噪语音的输入。
训练RNN网络过程中保存修正增益g1,在RNN网络完成了步骤S17的训练后,利用修正增益g1对RNN网络进行二次修正。
本发明所述的一种基于能量谱深度调制的语音增强装置,包括依次信号连接的语音输入单元、FPGA芯片和语音输出单元;
所述的FPGA芯片设有工程钟模块,所述的工程钟模块被配置为所述方法中的语音增强计算模块。
本发明所述一种基于能量谱深度调制的语音增强方法及装置,其优点在于,将语音增强算法中的特征提取部分与神经网络训练部分分隔开来,使用传统的数字信号处理方法去完成数据的特征提取,同时结合能量谱深度调制进行修正,提高特征参数据值的表征意义。而后通过循环神经网络对特征参数进行训练学习,得出基于能量谱调制的语音增强计算模块。进而实现对有效语音信号进行增强,对噪声进行抑制,实现低延时,低资源占用的语音增强技术。对于助听器等要求低延时,低硬件资源使用的智能设备来说具有广泛的应用场景。
附图说明
图1是本发明所述一种基于能量谱深度调制的语音增强方法的流程示意图;
图2是本发明所述RNN网络的结构示意图。
具体实施方式
本发明所述一种基于能量谱深度调制的语音增强装置至少包括了语音输入单元、FPGA芯片以及语音输出单元。FPGA芯片通过所述语音输入单元拾取原始声音信号,通过其内置的工程钟模块对语音进行增强并通过语音输出单元对用户输出。所述的工程钟模块被配置为语音增强计算模块,而语音增强计算模块封装有用于增强语音的RNN网络。所述的语音输入单元可以是麦克风,属于输出单元可以是喇叭、耳机等放音设备。FPGA芯片得到语音增强后的频谱信号,将得到的增强语音的频谱图经逆傅里叶变换IFFT至时域信号输出成增强语音。
如图1-2所示,本发明所述一种基于能量谱深度调制的语音增强方法通过以下步骤实现,而且训练出所述用于增强语音的RNN网络。
将0—20kHz的语音信号进行划分处理,根据人耳对声音的音高响应进行划分,由于人耳对中低频带的语音信号更加敏感反应,而且日常交流中也是中低频语音信号占主体。
分两种可选模式:
其一是默认正常交流情况下的使用,将0-20kHz的频率阈值划分成中低频的18个频带,即K=18。得出18个初始增益g0,再将该18个初始增益g0传输至下一层能量谱深度调制中进行参数修正,再作为特征参数之一进入循环神经网络(RNN)训练得出最终增益修正。参考中低频增益以一定的权重估计高频的增益,可大幅度的降低训练网络的权重参数;
其二是特殊处理情况,该算法的使用场景不单纯是普通的日常交流场景,还存在高频语音信号需要处理。故需要计算完整的22个频带增益估算值,即K=22。再将该22个初始增益传输至能量谱深度调制在进行参数修正,再进入后续的循环神经网络训练。虽相差只为4个增益值,但经过多次训练之后,神经网络的权重相差可达近30%。
语音增强操作之前,先对待处理带噪语音通过语音活动检测VAD,判断语音是否静默。当判断为非静默时才开始步骤S2,否则继续等待下一次待处理带噪语音的输入。对待处理的语音信号的能量进行检测,当能量值小于设定阈值时,将其定为非语音段,将增益修正为0,进行噪声抑制。当能量值大于设定阈值,将其传输至语音增强计算模块进行语音增强。
所述的RNN网络通过以下步骤训练完成:
将噪声数据集中的所有噪声组合成一个wav音频文件,将纯净语音数据集中的所以语音信号组合成另一个wav音频文件。分别以两个不同的通道向算法端口传输该两组数据,并对其进行预处理,加窗分帧。由于在语音信号处理领域中,语音信号具有短时平稳性,即10ms-30ms的语音信号可以看作是短时稳定信号,故本发明中采用汉明窗为20ms,帧移为10ms。在语音信号处理领域有效的语音信号一般位于200Hz-4000Hz的频域范围内,故需对传入的语音信号先进行低通滤波过滤高频噪声信号并加窗分帧处理。
分帧预处理后,纯净语音信号为时域信号x(i),噪声信号为时域信号n(i)。之后同时进行三步处理:
第一,进行傅里叶变换,即短时FFT,将分别将时域信号x(i)转化为频域信号X(i),将时域信号n(i)转为频域信号N(i)。其中i为K个频带中的序号,即i∈[1,K]。计算对应频带的能量值:频域信号X(i)的能量值EX(i),频域信号N(i)的能量值EN(i)。得到修正增益g1=EX(i)/EN(i)。纯净语音信号的频带能量与噪声信号的频带能量的比值意为能量深度调制,将语音信号从带噪信号中调制出来。
为进一步保证估算初始增益的可靠性,将修正增益保存下来,待训练完成之后,进行二次修正,使训练后的频带增益对语音增强效果更好。
第二,将两路时域信号x(i)和n(i),在时域上按帧进行叠加混合成带噪语音信号,得到时域信号y(i)。进行傅里叶变换,将时域信号y(i)转化为频域信号Y(i),并计算对应的能量值EY(i)。通过MFCC(梅尔倒谱系数)进行特征参数的提取,包括K个频带能量的倒谱系数。对每一频带定义初始增益g0=EX(i)/EY(i)。
第三,将两路时域信号x(i)和n(i)进行基音分析追踪,得到时间差。由于在说活过程中,人声是会出现明显的共振特征的。再加上语音信号的短时平稳性,可以知道在很短的时间内,声带振动的频率是比较平稳的。因此具备稳定的基频,通过在时域中去寻找追踪该周期信号,通过现有技术中的自相关算法去检测得出共振信号出现的时间差。
然后将修正增益g1和特征参数组合成数组,将其传输至循环神经网络RNN的入口参数中,结合初始增益g0及时间差对RNN网络进行训练。本发明中所述的RNN网络设定如图2所示,组成包括输入特征,三个GRU层,输入输出的全连接层dense层。进行训练最后输出K个频带增益参数。对频带增益进行插值,得出480个频点增益。
在经过训练集训练后可得出最终频带增益值,形成语音增强计算模块,并将该模块封装,留下参数入口及参数出口。参数入口可以连接前置的频谱分析单元,参数出口可以连接后置的短时IFFT单元。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (2)

1.一种基于能量谱深度调制的语音增强方法,包括以下步骤:
S1、将训练完毕的RNN网络封装至语音增强计算模块的步骤;
S2、待处理带噪语音经过所述语音增强计算模块后输出增强语音的步骤;
其特征在于,
所述的RNN网络通过以下子步骤训练完成:
S11、输入作为训练样本的纯净语音信号和噪声信号;
S12、获取纯净语音信号和噪声信号的能量比值得到修正增益g1;
S13、将所述纯净语音信号和噪声信号合成带噪声语音信号;
S14、提取所述带噪声语音信号的特征参数;
S15、获取通过能量谱深度调制得到的初始增益g0;
S16、周期追踪所述纯净语音信号和噪声信号得到时间差;
S17、将所述修正增益g1、初始增益g0、特征参数和时间差作为训练参数对RNN网络进行训练;
其中步骤S14的特征参数在数字处理电路中完成;
训练RNN网络是,将连续的中低频带量化划分为K个频带;根据K的数量不同得到不同级别的语言增益;其中K为大于10且小于25的自然数;频带数K越大,语音增强效果越好;
所述的频带数K为18或22;
所述步骤S12中,将纯净语音信号的时域信号x(i)转化频域信号X(i),将噪声信号的时域信号n(i)转化为频域信号N(i);其中i为K个频带中的序号,即i∈[1,K];
所述的修正增益g1=EX(i)/EN(i),其中EX(i)是频域信号X(i)的能量值,EN(i)是频域信号N(i)的能量值;纯净语音信号的频带能量与噪声信号的频带能量的比值意为能量深度调制,将语音信号从带噪信号中调制出来;
所述步骤S13中,将带噪声语音信号的时域信号y(i)转化为频域信号Y(i);
所述的初始增益g0=EX(i)/EY(i),其中,EY(i)是频域信号Y(i)的能量值;
开始步骤S2前,先对待处理带噪语音通过语音活动检测,判断语音是否静默;当判断为非静默时才开始步骤S2,否则继续等待下一次待处理带噪语音的输入
训练RNN网络过程中保存修正增益g1,在RNN网络完成了步骤S17的训练后,利用修正增益g1对RNN网络进行二次修正。
2.一种基于能量谱深度调制的语音增强装置,其特征在于,包括依次信号连接的语音输入单元、FPGA芯片和语音输出单元;
所述的FPGA芯片设有工程钟模块,所述的工程钟模块被配置为权利要求1所述方法中的语音增强计算模块。
CN202111340547.2A 2021-11-12 2021-11-12 一种基于能量谱深度调制的语音增强方法及装置 Active CN114023352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111340547.2A CN114023352B (zh) 2021-11-12 2021-11-12 一种基于能量谱深度调制的语音增强方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111340547.2A CN114023352B (zh) 2021-11-12 2021-11-12 一种基于能量谱深度调制的语音增强方法及装置

Publications (2)

Publication Number Publication Date
CN114023352A CN114023352A (zh) 2022-02-08
CN114023352B true CN114023352B (zh) 2022-12-16

Family

ID=80063849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111340547.2A Active CN114023352B (zh) 2021-11-12 2021-11-12 一种基于能量谱深度调制的语音增强方法及装置

Country Status (1)

Country Link
CN (1) CN114023352B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862657B (zh) * 2023-02-22 2023-07-28 科大讯飞(苏州)科技有限公司 随噪增益方法和装置、车载系统、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
WO2005031708A1 (en) * 2003-10-01 2005-04-07 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN104867498A (zh) * 2014-12-26 2015-08-26 深圳市微纳集成电路与系统应用研究院 一种移动通讯终端及其语音增强方法和模块
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111696568A (zh) * 2020-06-16 2020-09-22 中国科学技术大学 一种半监督瞬态噪声抑制方法
CN111833896A (zh) * 2020-07-24 2020-10-27 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10861478B2 (en) * 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
WO2005031708A1 (en) * 2003-10-01 2005-04-07 Siemens Aktiengesellschaft Speech coding method applying noise reduction by modifying the codebook gain
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN104867498A (zh) * 2014-12-26 2015-08-26 深圳市微纳集成电路与系统应用研究院 一种移动通讯终端及其语音增强方法和模块
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN111696568A (zh) * 2020-06-16 2020-09-22 中国科学技术大学 一种半监督瞬态噪声抑制方法
CN111833896A (zh) * 2020-07-24 2020-10-27 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement》;Jean-Marc Valin等;《 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP)》;20181129;第1-5页 *

Also Published As

Publication number Publication date
CN114023352A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN109065067B (zh) 一种基于神经网络模型的会议终端语音降噪方法
CN111292759B (zh) 一种基于神经网络的立体声回声消除方法及系统
CN111489760B (zh) 语音信号去混响处理方法、装置、计算机设备和存储介质
CN111833896B (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
CN110648678B (zh) 一种用于具有多麦克风会议的场景识别方法和系统
Stern et al. Hearing is believing: Biologically inspired methods for robust automatic speech recognition
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN109493877B (zh) 一种助听装置的语音增强方法和装置
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
CN108712703A (zh) 低功耗的高效降噪耳机及降噪系统
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN111696567B (zh) 用于远场通话的噪声估计方法及系统
CN109147808A (zh) 一种言语增强助听方法
CN114203163A (zh) 音频信号处理方法及装置
US20080219457A1 (en) Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise
Sun et al. A supervised speech enhancement method for smartphone-based binaural hearing aids
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
Bhat et al. Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Shifas et al. End-to-end neural based modification of noisy speech for speech-in-noise intelligibility improvement
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
CN114566179A (zh) 一种时延可控的语音降噪方法
Zhang et al. A speech separation algorithm based on the comb-filter effect
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant