CN112581973A - 一种语音增强方法及系统 - Google Patents

一种语音增强方法及系统 Download PDF

Info

Publication number
CN112581973A
CN112581973A CN202011364900.6A CN202011364900A CN112581973A CN 112581973 A CN112581973 A CN 112581973A CN 202011364900 A CN202011364900 A CN 202011364900A CN 112581973 A CN112581973 A CN 112581973A
Authority
CN
China
Prior art keywords
voice
neural network
noise
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011364900.6A
Other languages
English (en)
Other versions
CN112581973B (zh
Inventor
康迂勇
郑能恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202011364900.6A priority Critical patent/CN112581973B/zh
Publication of CN112581973A publication Critical patent/CN112581973A/zh
Application granted granted Critical
Publication of CN112581973B publication Critical patent/CN112581973B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种语音增强方法及系统,方法包括:构建的语音增强网络模型包含两个并行模块:预测自适应权重模块根据输入特征判断信噪比从而通过权重调节语音失真和残留噪声的占比;预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。通过训练网络可以获得根据信噪比自适应的调节增强语音中的语音失真和残留噪声的比重,利用训练好的网络模型用于实际的降噪任务,得到增强的语音信号。本发明使用神经网络自适应调节增强语音中语音失真和残留噪声,以获得更好的语音增强效果,可以根据不同的任务需求训练不同自适应权重范围,获得更加适合相关任务的语音增强算法。

Description

一种语音增强方法及系统
技术领域
本发明涉及语音增强技术领域,具体涉及一种语音增强方法及系统。
背景技术
语音信号是人类交流、信息传递最方便、快捷的方式之一。背景噪声无处不在,人耳及麦克风实际接收是受噪声干扰的语音信号。噪声会严重影响人类的语音感知及语音产品(例如听力辅助设备、自动语音识别系统,语音通信)的性能。语音增强是一种从带噪语音中移出或抑制噪声的技术,广泛应用于各种语音相关任务的前端处理。在实际处理过程中,语音增强算法会不可避免的引入语音失真和残留噪声。尽管,深度学习在语音增强中取得了非常显著的效果,但大部分的基于深度学习的方法在训练时只是考虑估计语音和增强语音的整体差异,或者只是固定的权重的考虑语音失真和残留噪声。若能准确的平衡语音失真和残留噪声将有助于进一步提升语音增强性能,语音增强引入的语音失真和残留噪声会随着信噪比而变化,通常在高信噪时以语音失真为主导,在低信噪比时以残留噪声为主导。不考虑或者以固定权重考虑语音失真和残留噪声都不能在宽的信噪比范围内使得两者平衡,从而影响增强语音的质量及可懂度。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的语音增强方法未合理平衡语音失真和残留噪声导致的语音感知质量差及可懂度低的缺陷,因此提供一种基于深度学习自适应调节语音失真和残留噪声的语音增强方法及系统。
为达到上述目的,本发明提供以下技术方案:
第一方面,本发明实施例提供一种语音增强方法,包括以下步骤:
构建语音增强网络模型,所述网络模型包括三个子神经网络,其中第一神经网络为公共部,其和第二神经网络构成预测时频掩模模块,同时和第三神经网络构成预测自适应权重模块;
将带噪语音信号的语音特征输入所述网络模型中,第一神经网络根据输入的语音特征生成一个中间隐变量,所述中间隐变量同时作为第二神经网络和第三神经网络的输入,第二神经网络根据所述中间隐变量估计一时频掩膜,第三神经网络根据所述中间隐变量估计一个权重因子,将干净语音信号和噪声信号的幅度谱特征,分别通过第二神经网络估计的时频掩模获得对应的滤波信号,并分别计算语音失真和残留噪声相关的误差,通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数,同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数,最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数,对整个网络的参数进行优化更新,得到训练好的语音增强网络模型;
将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中,得到对应估计的时频掩模,将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱,最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号,得到增强后的语音信号。
在一实施例中,所述语音特征,包括:短时傅里叶变换幅度谱或者其对数形式、梅尔倒谱系数或其差分形式、线性预测系数。
在一实施例中,语音增强部分的损失函数的通过以下公式表示:
Figure BDA0002805125230000031
权重部分的损失函数通过以下公式表示:
Figure BDA0002805125230000032
训练神经网络的总损失函数通过以下公式表示:
J=JWL+Jα
其中,
Figure BDA0002805125230000033
为第三神经网络估计的加权因子,a表示在每种信噪比下观测的最佳加权因子,t、f分别表示帧索引和频率通道,T、F分别表示t和f的总数,X表示干净语音信号,D表示噪声信号,“~”表示对应的滤波信号。
在一实施例中,利用误差反向传播算法对整个网络的参数进行优化更新。
在一实施例中,所述的误差为最小均方误差。
第二方面,本发明实施例提供一种语音增强系统,包括:模型构建模块,用于构建语音增强网络模型,所述网络模型包括三个子神经网络,其中第一神经网络为公共部,其和第二神经网络构成预测时频掩模模块,同时和第三神经网络构成预测自适应权重模块;
模型训练模块,用于将带噪语音信号的语音特征输入所述网络模型中,第一神经网络根据输入的语音特征生成一个中间隐变量,所述中间隐变量同时作为第二神经网络和第三神经网络的输入,第二神经网络根据所述中间隐变量估计一时频掩膜,第三神经网络根据所述中间隐变量估计一个权重因子,将干净语音信号和噪声信号的幅度谱特征,分别通过第二神经网络估计的时频掩模获得对应的滤波信号,并分别计算语音失真和残留噪声相关的误差,通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数,同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数,最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数,对整个网络的参数进行优化更新,得到训练好的语音增强网络模型;
测试模块,用于将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中,得到对应估计的时频掩模,将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱,最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号,得到增强后的语音信号。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面的语音增强方法。
第四方面,本发明实施例提供一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例第一方面的语音增强方法。
本发明技术方案,具有以下优点:
本发明提供了一种语音增强方法及系统,其构建的语音增强网络模型包含两个并行模块:预测自适应权重模块根据输入特征判断信噪比从而通过权重调节语音失真和残留噪声的占比;预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。通过训练网络可以获得根据信噪比自适应的调节增强语音中的语音失真和残留噪声的比重,利用训练好的网络模型用于实际的降噪任务。本发明使用神经网络自适应调节增强语音中语音失真和残留噪声,以获得更好的语音增强效果,可以根据不同的任务需求训练不同自适应权重范围,获得更加适合相关任务的语音增强算法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例中提供的语音增强方法的一个具体示例的工作流程图;
图2为本发明实施例中提供的对神经网络模型进行训练的示意图;
图3本发明实施例中提供的将训练好的神经网络模型用于噪声环境测试的示意图;
图4为本发明实施例提供的语音增强系统的模块组成图;
图5为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种语音增强方法,可以应用于人工耳蜗、助听器、人机交互系统,语音通信等场景,如图1所示,该方法包括以下步骤:
步骤S1:构建语音增强网络模型,所述网络模型包括三个子神经网络,其中第一神经网络为公共部,其和第二神经网络构成预测时频掩模模块,同时和第三神经网络构成预测自适应权重模块。
在本发明实施例中,构建的神经网络模型包含两个并行模块,其中预测自适应权重模块根据输入特征判断信噪比,从而通过权重调节语音失真和残留噪声的占比,预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。
步骤S2:将带噪语音信号的语音特征输入所述网络模型中,第一神经网络根据输入的语音特征生成一个中间隐变量,所述中间隐变量同时作为第二神经网络和第三神经网络的输入,第二神经网络根据所述中间隐变量估计一时频掩膜,第三神经网络根据所述中间隐变量估计一个权重因子,将干净语音信号和噪声信号的幅度谱特征,分别通过第二神经网络估计的时频掩模获得对应的滤波信号,并分别计算语音失真和残留噪声相关的误差,通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数,同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数,最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数,对整个网络的参数进行优化更新,得到训练好的语音增强网络模型。
本发明实施例中输入到网络模型中语音特征,可以包括:短时傅里叶变换幅度谱或者其对数形式、梅尔倒谱系数或其差分形式、线性预测系数,本发明实施例中以是带噪语音的短时傅里叶变换幅度谱为例。上述的涉及的误差均采用最小均方误差(MSE),但是仅作为举例,不以此为限,也可以采用其他误差计算方式;在训练过程中具体的是利用误差反向传播算法(BP算法)对整个网络的参数进行优化更新,其中的语音增强部分的损失函数的通过以下公式表示:
Figure BDA0002805125230000081
权重部分的损失函数通过以下公式表示:
Figure BDA0002805125230000082
训练神经网络的总损失函数通过以下公式表示:
J=JWL+Jα
其中,
Figure BDA0002805125230000083
为第三神经网络估计的加权因子,α表示在每种信噪比下观测的最佳加权因子,t、f分别表示帧索引和频率通道,T、F分别表示t和f的总数,X表示干净语音信号,D表示噪声信号,“~”表示对应的滤波信号。
进行语音增强神经网络的训练过程,如图2所示,其中,神经网络1对应第一神经网络,神经网络2对应第二神经网络,神经网络3对应第三神经网络。通过训练神经网络1和神经网络3组成的权重模块可以获得根据信噪比自适应调节语音失真和残留噪声权重的能力,神经网络1和神经网络2组成的时频掩模块可以估计时频掩模用于语音增强,同时预测的权重会指导预测的时频掩模控制增强后语音失真和残留噪声的比重。在训练过程中通过droupout及正则化技术防止网络过拟合。
步骤S3:将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中,得到对应估计的时频掩模,将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱,最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号,得到增强后的语音信号。
该步骤为测试阶段,其实现过程如图3所示,采用训练好的神经网络模型进行实际的降噪任务,实际只用到预测时频掩模模块。此时神经网络已经学得自适应的能力,预测时频掩模模块根据输入的语音特征估计一个时频掩模,该掩模具有根据信噪比自适应调节语音失真和残留噪声比重的功能,将带噪语音的幅度谱和估计的掩模相乘获得增强的短时幅度谱。最后将增强的短时幅度谱和带噪语音的相位谱结合并通过逆短时傅里叶变换重构时域语音信号。
在本发明实施例提供的语音增强方法,使用神经网络自适应调节增强语音中语音失真和残留噪声,以获得更好的语音增强效果,可以根据不同的任务需求训练不同自适应权重范围,获得更加适合相关任务的语音增强算法。
实施例2
本发明实施例提供一种语音增强系统,如图4所示,包括:
模型构建模块1,用于构建语音增强网络模型,所述网络模型包括三个子神经网络,其中第一神经网络为公共部,其和第二神经网络构成预测时频掩模模块,同时和第三神经网络构成预测自适应权重模块;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
模型训练模块2,用于将带噪语音信号的语音特征输入所述网络模型中,第一神经网络根据输入的语音特征生成一个中间隐变量,所述中间隐变量同时作为第二神经网络和第三神经网络的输入,第二神经网络根据所述中间隐变量估计一时频掩膜,第三神经网络根据所述中间隐变量估计一个权重因子,将干净语音信号和噪声信号的幅度谱特征,分别通过第二神经网络估计的时频掩模获得对应的滤波信号,并分别计算语音失真和残留噪声相关的误差,通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数,同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数,最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数,对整个网络的参数进行优化更新,得到训练好的语音增强网络模型;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
测试模块3,用于将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中,得到对应估计的时频掩模,将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱,最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号,得到增强后的语音信号;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
本发明实施例提供的语音增强系统,构建的语音增强网络模型包含两个并行模块:预测自适应权重模块根据输入特征判断信噪比从而通过权重调节语音失真和残留噪声的占比;预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。通过训练网络可以获得根据信噪比自适应的调节增强语音中的语音失真和残留噪声的比重,利用训练好的网络模型用于实际的降噪任务,得到增强的语音信号。本发明使用神经网络自适应调节增强语音中语音失真和残留噪声,以获得更好的语音增强效果,可以根据不同的任务需求训练不同自适应权重范围,获得更加适合相关任务的语音增强算法。
实施例3
本发明实施例提供一种计算机设备,如图5所示,该设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5以通过总线连接为例。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的语音增强方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。
一个或者多个模块存储在存储器52中,当被处理器51执行时,执行实施例1中的语音增强方法。
上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种语音增强方法,其特征在于,包括以下步骤:
构建语音增强网络模型,所述网络模型包括三个子神经网络,其中第一神经网络为公共部,其和第二神经网络构成预测时频掩模模块,同时和第三神经网络构成预测自适应权重模块;
将带噪语音信号的语音特征输入所述网络模型中,第一神经网络根据输入的语音特征生成一个中间隐变量,所述中间隐变量同时作为第二神经网络和第三神经网络的输入,第二神经网络根据所述中间隐变量估计一时频掩膜,第三神经网络根据所述中间隐变量估计一个权重因子,将干净语音信号和噪声信号的幅度谱特征,分别通过第二神经网络估计的时频掩模获得对应的滤波信号,并分别计算语音失真和残留噪声相关的误差,通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数,同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数,最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数,对整个网络的参数进行优化更新,得到训练好的语音增强网络模型;
将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中,得到对应估计的时频掩模,将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱,最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号,得到增强后的语音信号。
2.根据权利要求1所述的语音增强方法,其特征在于,所述语音特征,包括:短时傅里叶变换幅度谱或者其对数形式、梅尔倒谱系数或其差分形式、线性预测系数。
3.根据权利要求1所述的语音增强方法,其特征在于,
语音增强部分的损失函数的通过以下公式表示:
Figure FDA0002805125220000021
权重部分的损失函数通过以下公式表示:
Figure FDA0002805125220000022
训练神经网络的总损失函数通过以下公式表示:
J=JWL+Jα
其中,
Figure FDA0002805125220000023
为第三神经网络估计的加权因子,α表示在每种信噪比下观测的最佳加权因子,t、f分别表示帧索引和频率通道,T、F分别表示t和f的总数,X表示干净语音信号,D表示噪声信号,“~”表示对应的滤波信号。
4.根据权利要求1所述的语音增强方法,其特征在于,利用误差反向传播算法对整个网络的参数进行优化更新。
5.根据权利要求1所述的语音增强方法,其特征在于,所述的误差为最小均方误差。
6.一种语音增强系统,其特征在于,包括:
模型构建模块,用于构建语音增强网络模型,所述网络模型包括三个子神经网络,其中第一神经网络为公共部,其和第二神经网络构成预测时频掩模模块,同时和第三神经网络构成预测自适应权重模块;
模型训练模块,用于将带噪语音信号的语音特征输入所述网络模型中,第一神经网络根据输入的语音特征生成一个中间隐变量,所述中间隐变量同时作为第二神经网络和第三神经网络的输入,第二神经网络根据所述中间隐变量估计一时频掩膜,第三神经网络根据所述中间隐变量估计一个权重因子,将干净语音信号和噪声信号的幅度谱特征,分别通过第二神经网络估计的时频掩模获得对应的滤波信号,并分别计算语音失真和残留噪声相关的误差,通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数,同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数,最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数,对整个网络的参数进行优化更新,得到训练好的语音增强网络模型;
测试模块,用于将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中,得到对应估计的时频掩模,将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱,最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号,得到增强后的语音信号。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-5任一项所述的语音增强方法。
8.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-5任一项所述的语音增强方法。
CN202011364900.6A 2020-11-27 2020-11-27 一种语音增强方法及系统 Active CN112581973B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011364900.6A CN112581973B (zh) 2020-11-27 2020-11-27 一种语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011364900.6A CN112581973B (zh) 2020-11-27 2020-11-27 一种语音增强方法及系统

Publications (2)

Publication Number Publication Date
CN112581973A true CN112581973A (zh) 2021-03-30
CN112581973B CN112581973B (zh) 2022-04-29

Family

ID=75124261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011364900.6A Active CN112581973B (zh) 2020-11-27 2020-11-27 一种语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN112581973B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257262A (zh) * 2021-05-11 2021-08-13 广东电网有限责任公司清远供电局 一种语音信号处理方法、装置、设备及存储介质
CN113314147A (zh) * 2021-05-26 2021-08-27 北京达佳互联信息技术有限公司 音频处理模型的训练方法及装置、音频处理方法及装置
CN113567162A (zh) * 2021-07-08 2021-10-29 中核检修有限公司 基于声传感器的风机故障智能诊断装置及方法
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
CN113744749A (zh) * 2021-09-18 2021-12-03 太原理工大学 一种基于心理声学域加权损失函数的语音增强方法及系统
CN113921030A (zh) * 2021-12-07 2022-01-11 江苏清微智能科技有限公司 基于加权语音损失的语音增强神经网络训练方法及装置
NO347277B1 (en) * 2021-06-30 2023-08-21 Pexip AS Method and system for speech detection and speech enhancement

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1253581A1 (en) * 2001-04-27 2002-10-30 CSEM Centre Suisse d'Electronique et de Microtechnique S.A. - Recherche et Développement Method and system for enhancing speech in a noisy environment
US20090012783A1 (en) * 2007-07-06 2009-01-08 Audience, Inc. System and method for adaptive intelligent noise suppression
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN109712611A (zh) * 2018-12-28 2019-05-03 苏州思必驰信息科技有限公司 联合模型训练方法及系统
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN110931037A (zh) * 2019-04-25 2020-03-27 南京师范大学 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1253581A1 (en) * 2001-04-27 2002-10-30 CSEM Centre Suisse d'Electronique et de Microtechnique S.A. - Recherche et Développement Method and system for enhancing speech in a noisy environment
US20090012783A1 (en) * 2007-07-06 2009-01-08 Audience, Inc. System and method for adaptive intelligent noise suppression
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN109308904A (zh) * 2018-10-22 2019-02-05 上海声瀚信息科技有限公司 一种阵列语音增强算法
CN109712611A (zh) * 2018-12-28 2019-05-03 苏州思必驰信息科技有限公司 联合模型训练方法及系统
CN110931037A (zh) * 2019-04-25 2020-03-27 南京师范大学 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YU SHAO.ET AL: "A Generalized Time–Frequency Subtraction Method for Robust Speech Enhancement Based on Wavelet Filter Banks Modeling of Human Auditory System", 《IEEE TRANSACTIONS ON SYSTEMS》 *
时文华: "联合深度编解码网络和时频掩蔽估计的单通道语音增强", 《声学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257262A (zh) * 2021-05-11 2021-08-13 广东电网有限责任公司清远供电局 一种语音信号处理方法、装置、设备及存储介质
CN113314147A (zh) * 2021-05-26 2021-08-27 北京达佳互联信息技术有限公司 音频处理模型的训练方法及装置、音频处理方法及装置
NO347277B1 (en) * 2021-06-30 2023-08-21 Pexip AS Method and system for speech detection and speech enhancement
CN113567162A (zh) * 2021-07-08 2021-10-29 中核检修有限公司 基于声传感器的风机故障智能诊断装置及方法
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
CN113744749A (zh) * 2021-09-18 2021-12-03 太原理工大学 一种基于心理声学域加权损失函数的语音增强方法及系统
CN113744749B (zh) * 2021-09-18 2023-09-19 太原理工大学 一种基于心理声学域加权损失函数的语音增强方法及系统
CN113921030A (zh) * 2021-12-07 2022-01-11 江苏清微智能科技有限公司 基于加权语音损失的语音增强神经网络训练方法及装置

Also Published As

Publication number Publication date
CN112581973B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN112581973B (zh) 一种语音增强方法及系统
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN110390950B (zh) 一种基于生成对抗网络的端到端语音增强方法
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN111564160B (zh) 一种基于aewgan的语音降噪的方法
CN107845389A (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN112863535B (zh) 一种残余回声及噪声消除方法及装置
CN112331224A (zh) 轻量级时域卷积网络语音增强方法与系统
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN116030823B (zh) 一种语音信号处理方法、装置、计算机设备及存储介质
CN112435683B (zh) 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN112634927B (zh) 一种短波信道语音增强方法
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
CN113763984B (zh) 一种用于分布式多说话人的参数化噪声消除系统
CN114220451A (zh) 音频消噪方法、电子设备和存储介质
CN110648681B (zh) 语音增强的方法、装置、电子设备及计算机可读存储介质
CN114141266A (zh) 基于pesq驱动的强化学习估计先验信噪比的语音增强方法
CN114724571B (zh) 一种鲁棒的分布式说话人噪声消除系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant