CN109524020A - 一种语音增强处理方法 - Google Patents
一种语音增强处理方法 Download PDFInfo
- Publication number
- CN109524020A CN109524020A CN201811383558.7A CN201811383558A CN109524020A CN 109524020 A CN109524020 A CN 109524020A CN 201811383558 A CN201811383558 A CN 201811383558A CN 109524020 A CN109524020 A CN 109524020A
- Authority
- CN
- China
- Prior art keywords
- sample
- wgan
- denoising
- noise
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种语音增强处理方法,所述方法包括:基于语音数据与噪声数据形成训练样本;对所述训练样本进行预处理,得到处理后的去噪样本;将所述去噪样本进行分为多个批次的去噪样本,分别采用每一个批次的去噪样本对WGAN模进行训练,直至所述多个批次的去噪样本训练完成,得到最终的WGAN‑MBGD模型;采用最终的WGAN‑MBGD模型输出增强后的语音信号。应用本发明的实施例,生成对抗网络梯度不稳定的情况,收敛速度更迅速,同时运用小批量计算也降低了计算量,引入谱减因子和谱下限因子,通过减小频谱间的误差来减小残留噪声。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音增强处理方法。
背景技术
近些年来,信息发展更为迅速,基于语音识别的人机交互系统更是成为研究主流,语音处理技术越来越多的应用到各大系统中。然而,这些设备通常会处于比较复杂的声学环境中,例如街道上的鸣笛声、音乐声、鸟叫声、风声等等,嘈杂的背景噪音往往使语音质量明显变差,导致语音指令无法被准确辨别,系统无法完成某种功能,极大的降低用户体验等问题。因而研究语音增强是具有现实意义的课题。
语音增强的目的主要是从含噪语音中去除复杂的背景噪声,并保证在语音信号不失真的条件下提升语音可懂度。由于语音信号是随机变化,且是非平稳的,因此处理起来相对困难。传统的语音增强算法大多是基于噪声估计,且处理的噪声类型单一,并不能很好的处理复杂背景下的语音去噪问题。随着神经网络的迅速发展,越来越多的神经网络模型也被应用到语音增强算法中。例如基于深度神经网络(deep neural network,DNN)的语音增强模型的网络层数较多,具有学习复杂的非线性函数能力,能够提取输入信号的高维数据信息,从而能有效处理不同类型下的噪声,泛化能力较好。但由于需要提取大量的语音特征,且每层网络节点的参数众多,导致训练时间非常缓慢。而生成对抗网络(generativeadversarial nets,GAN)的出现已经很好的解决了这个问题,GAN是一个端到端的网络模型,可以直接使用原始音频信息,从而极大的加快了网络的训练速度。然而训练中会出现不稳定的问题,导致生成器经常会出现无意义的输出。
发明内容
本发明的目的在于提供一种语音增强处理方法,旨在解决了生成对抗网络梯度不稳定的情况,收敛速度更迅速,同时运用小批量计算也降低了计算量。
为了实现上述目的,本发明提供一种语音增强处理方法,所述方法包括:
基于语音数据与噪声数据形成训练样本;
对所述训练样本进行预处理,得到处理后的去噪样本;
将所述去噪样本进行分为多个批次的去噪样本,分别采用每一个批次的去噪样本对WGAN模进行训练,直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型;
采用最终的WGAN-MBGD模型输出增强后的语音信号。
本发明的优选实施方式中,所述将所述去噪样本进行分为多个批次的去噪样本,分别采用每一个批次的去噪样本对WGAN模进行训练,直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型的步骤,包括:
将所述去噪样本进行分为多个批次;
基于GAN模型和所述去噪样本,构建Wasserstein距离函数,最小化Wasserstein距离,得到WGAN模型、WGAN生成器loss函数和WGAN判别器loss函数;针对每一批次去噪样本执行:对所述WGAN模型进行训练,得到均方误差、模型中的权值集合和偏置集合,其中,所述均方误差是依据样本输入下的期望输出和实际输出所得到的均方误差;
直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型。
本发明的优选实施方式中,所述基于语音数据与噪声数据形成训练样本的步骤,包括:
纯净语音数据与噪声数据相叠加得到训练样本。
本发明的优选实施方式中,所述对所述训练样本进行预处理,得到处理后去噪样本的步骤,包括:
基于语音数据与噪声数据形成训练样本,形成带噪语音信号,并对所述带噪语音信号进行短时傅里叶变换,得到变换信号;
通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值,以及改进的幅度谱减法算法的对所述变换信号进行处理,得到处理后的变换信号;
对所述处理后的变换信号进行反傅里叶变换,得到去噪样本。
本发明的优选实施方式中,所述通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值,以及改进的幅度谱减法算法的对所述变换信号进行处理,得到处理后的变换信号的步骤,包括:
通过改变半波整流本身算法的复杂度,加入谱谱减因子和谱下限因子,并通过噪声估计、语音信号,得到增强后的语音信号。
本发明的优选实施方式中,所述通过改变半波整流本身算法的复杂度,加入谱谱减因子和谱下限因子,并通过噪声估计、语音信号,得到增强后的语音信号的步骤,包括:
在语音信号的绝对值不小于噪声估计的绝对值与谱下限因子的乘积时,确定增强后的语音信号不变,否则,确定增强后的语音信号为噪声估计的绝对值与谱下限因子的乘积;
其中,所述语音信号为根据样本信号的绝对值、噪声估计和谱减因子所得到。
本发明提供的一种语音增强处理方法,有益效果如下:
(1)将小批量梯度下降算法MBGD与W生成对抗网络WGAN相结合的一种语音增强方法,基于GAN框架,利用二人零和博弈中的对抗性质,进行语音增强。语音增强算法采用的是W生成对抗网络,并结合小批量梯度下降算法进行优化,解决了GAN训练不稳定和模式崩溃的问题,同时又减小收敛所需的迭代次数,减少计算量,解决了生成对抗网络梯度不稳定的情况。
(2)传统的幅度谱减法是基于平稳条件下的语音,与实际环境并不相符,易造成处理后的信号中仍然含有“音乐噪声”,导致信号存在一定的失真现象。该方法在做减法处理时可以适量多减去一些噪声分量,减小噪声幅值,因此引入过减因子α,以更好的消除噪声谱峰幅值。谱峰存在的同时也存在波谷,针对波谷,可以引入谱下限因子β,以填充这些波谷峰值,缩小与谱峰间的差距,从而减少“音乐噪声”带来的干扰。改进后的算法在SSNR、PESQ和WSS上的性能有所提升,也表明改进的幅度谱减法在去噪的效果上得到了一定的提升。
(3)引入谱减因子和谱下限因子,通过减小频谱间的误差来减小残留噪声。
附图说明
图1是本发明实施例语音增强处理方法的一种流程图图。
图2是本发明实施例语音增强处理方法的另一张流程图图。
图3是本发明实施例语音增强处理方法的一种效果示意图。
图4是本发明实施例语音增强处理方法的另一种效果示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-4。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
具体的,如图1所示,本发明实施例提供了一种语音增强处理方法,所述方法包括:
S101,基于语音数据与噪声数据形成训练样本。
本发明实施例中,采用的带噪语音数据集是将纯净语音数据与噪声数据相叠加来实现,然后将此数据库作为神经网络的训练样本。纯净语音数据是基于TIMIT语音数据集构建的。随机选择了320条纯净语音数据集,其中男女生语音各160条。噪声数据集来自加性噪声和9种来自Aurora2的噪声数据集。在训练集中将280条纯净语音数据与各种类型噪声数据相加来构建多种条件的训练语音数据集。同时选择NOISEX-92中的白噪声、街道噪声和工业噪声3种噪声数据集与40条纯净语音数据叠加来构建不同条件的测试集。
所有实验所用的纯净语音数据集与噪声数据集使用16KHz进行采样,帧长设置为16ms,帧移设置为8ms。在实验过程中均使用预加重系数a为0.95的预加重滤波器对输入数据进行预处理。均使用对数能量谱特征作为语音特征,则该对数能量谱特征的向量维数是129。
S102,对所述训练样本进行预处理,得到处理后的去噪样本。
传统的幅度谱减法去噪实验中,选取TIMIT语音库中的数据“p232_104.wav”,语音内容为:“There will be no repeat of that performance,that I can guarantee.”作为纯净语音信号,并加入10db的街道噪声进行叠加,作为实验输入数据。对语音信号的幅度谱进行估计,从输入信号y(n)的幅度谱上来进行运算。将带噪信号y(n)经FFT变换后的结果用极坐标表示如:
忽略y(n)与d(n)的相位差,则y(n)的幅度谱为:
|Y(ejω)|=|X(ejω)|+|D(ejω)|
d(n)的幅度谱可以通过无音段中的平均幅度谱来进行估计,再结合d(n)的相位θy(ejω),可得到式:
经过上述处理后的语音信号令为0来进行处理,重新整理公式如式(1)所示:
半波整流法能够去除频域中的残留“音乐噪声”,则语音信号可表示为式(2):
利用每个频率点上相邻分析帧的最小振幅来代替当前帧的幅值。当的幅值小于max|DR(ejω)|时,取相邻分析帧中的最小振幅值;当的幅值大于max|DR(ejω)|时,保持其幅值不变。其公式如式(3):
得到传统的幅度谱减法去噪实验效果图。
如图2所示,为训练样本预处理的处理过程示意图,基于语音数据与噪声数据形成训练样本,形成带噪语音信号,并对所述带噪语音信号进行短时傅里叶变换,得到变换信号;通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值,以及改进的幅度谱减法算法的对所述变换信号进行处理,得到处理后的变换信号;对所述处理后的变换信号进行反傅里叶变换,进行语音样本去噪处理,得到去噪样本。
具体的,通过改变半波整流本身算法的复杂度,加入谱谱减因子和谱下限因子,并通过噪声估计、语音信号,得到增强后的语音信号。
在语音信号的绝对值不小于噪声估计的绝对值与谱下限因子的乘积时,确定增强后的语音信号不变,否则,确定增强后的语音信号为噪声估计的绝对值与谱下限因子的乘积;其中,所述语音信号为根据样本信号的绝对值、噪声估计和谱减因子所得到。该算法通过关于z的幅度谱噪声估计和增强后的信号三者的关系来实现(4):
其中,设置的α值为2,β值为0.001。所引入的谱减因子和谱下限因子,通过减小频谱间的误差来减小残留噪声。
S103,将所述去噪样本进行分为多个批次的去噪样本,分别采用每一个批次的去噪样本对WGAN模进行训练,直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型。
使用基于小批量梯度下降的W生成对抗网络来进行语音增强,基于GAN模型,输入原始语音信号,输出增强语音信号。WGAN在GAN的基础上提出了Wasserstein距离:
由于Wasserstein距离定义中的无法直接求解,所以做一个转换:
在要求函数f的Lipschitz常数||f||L不超过K的条件下,对所有可能满足条件的f取到的上界,然后再除以K。使用一组参数w来定义一系列可能的函数fw,此时求解公式(6)可以近似变成求解如下形式(7):
对于||fw||L≤K,限制神经网络fθ的所有参数wi不超过某个范围[-c,c]。最终得到如下目标函数:
WGAN中的判别器fw做的是近似拟合Wasserstein距离,属于回归任务,所以将GAN最后一层的sigmoid去掉。
接下来生成器要近似地最小化Wasserstein距离,可以最小化L,由于Wasserstein距离的优良性质,不需要担心生成器梯度消失的问题。再考虑到L的第一项与生成器无关,就得到了WGAN的两个loss:
(WGAN生成器loss函数)
(WGAN判别器loss函数)
本领域技术人员可以理解的是,在对算法进行优化的时候,如果使用Adam,判别器的loss有时候会崩掉,当崩掉时,Adam给出的更新方向与梯度方向夹角的cos值就变成负数,更新方向与梯度方向南辕北辙,判别器的loss梯度是不稳定的,不适合用Adam这类基于动量的优化算法。
需要说明的是,对去噪样本分成多个批次,其中,每个批次的数量是相等的。具体的,再针对每一批次去噪样本执行:对WGAN模型进行训练,得到均方误差以及模型中的网络权值集合和偏置集合,其中,均方误差是依据样本输入下的期望输出和实际输出所得到的均方误差。直至判断是不是对所有有批次去噪样本执行完毕,如果是,则过程结束。
所以,采用小批量梯度下降(Mini-Batch Gradient Descent,MBGD)算法,即在更新每一参数时都只计算小部分训练样本的损失函数,称之为WGAN-MBGD。
具体的,MBGD算法是在全部样本里随机抽取多个样本,而m是训练总样本。其中,m个样本为:X1,X2,...,Xi,...,Xm。λ,b分别为网络中权值和偏置的集合,Yi和Ai分别为第i个样本输入下的期望输出和实际输出。||·||为范数运算,均方误差为:
其中均方误差由梯度得▽C:
公式(10)利用m个样本数据估计出整体梯度,m越大时估计越准确。此时更新公式为如(11)、(12),其中,η为一个正数,取值区间为[0,1],η称为学习率。更新后权值λ'k:
其中,λk是第k个样本的权值,是第i个样本的均方误差;更新后的偏置b'k,其中,bk是第k个样本的偏置。
优化时使用小批量梯度下降算法,每次使用小部分样本能够较大程度地减小收敛所需的迭代次数,在减小收敛的同时,又遍历了所有的样本,解决了生成对抗网络梯度不稳定的情况。在WGAN的基础上,融合小批量梯度下降MBGD算法,形成WGAN-MBGD模型,并基于WGAN-MBGD模型实现更快更稳定的语音增强。
S104,采用最终的WGAN-MBGD模型输出增强后的语音信号。
所有实验结果均使用信噪比SNR、饱和信噪比SSNR、主观语音质量评估PESQ和加权谱斜率距离测度WSS四种客观评价指标。SNR为4种不同的信噪比,分别是10db,5db,0db,-5db。SSNR的比值越大,代表语音质量较好。PESQ为语音质量评价中一种典型算法,与主观评价相似度较高,数值在-0.5~4.5范围内,该值的分数越高,则话音质量越好。WSS测量值越小,则意味着话音的可懂度较高。
如图3和4可以看出,WGAN-MBGD对于噪声有非常好的抑制效果,语音信号幅值均有所下降,为了能够进一步便于分析,选取TIMIT语音库中的数据“p232_104.wav”作为纯净语音信号,加入街道噪声,在-5db,0db,5db和10db下进行对比实验并讨论其语音增强算法的差异以及对噪声的抑制程度。
为了便于进一步的分析,故选择测试集中的白噪声、街道噪声和工业噪声3种噪声数据集与40条纯净语音数据叠加来构建不同条件的测试集数据,得出其客观指标实验结果,并将传统的语音增强方法与改进的进行对比。
表1
为能更好的验证WGAN-MBGD语音增强算法的可靠性,以TIMIT语料库中的数据“p232_104.wav”作为纯净的语音信号,以10db街道噪声为背景噪声,与传统的语音增强方法进行比较,计算出不同算法的客观评价指标:SSNR、PESQ和WSS,并以折线图的形式进行对比。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (6)
1.一种语音增强处理方法,其特征在于,所述方法包括:
基于语音数据与噪声数据形成训练样本;
对所述训练样本进行预处理,得到处理后的去噪样本;
将所述去噪样本进行分为多个批次的去噪样本,分别采用每一个批次的去噪样本对WGAN模进行训练,直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型;
采用最终的WGAN-MBGD模型输出增强后的语音信号。
2.根据权利要求1所述的语音增强处理方法,其特征在于,所述将所述去噪样本进行分为多个批次的去噪样本,分别采用每一个批次的去噪样本对WGAN模进行训练,直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型的步骤,包括:
将所述去噪样本进行分为多个批次;
基于GAN模型和所述去噪样本,构建Wasserstein距离函数,最小化Wasserstein距离,得到WGAN模型、WGAN生成器loss函数和WGAN判别器loss函数;针对每一批次去噪样本执行:对所述WGAN模型进行训练,得到均方误差、模型中的权值集合和偏置集合,其中,所述均方误差是依据样本输入下的期望输出和实际输出所得到的均方误差;
直至所述多个批次的去噪样本训练完成,得到最终的WGAN-MBGD模型。
3.根据权利要求1或2所述的语音增强处理方法,其特征在于,所述基于语音数据与噪声数据形成训练样本的步骤,包括:
纯净语音数据与噪声数据相叠加得到训练样本。
4.根据权利要求3所述的语音增强处理方法,其特征在于,所述对所述训练样本进行预处理,得到处理后去噪样本的步骤,包括:
基于语音数据与噪声数据形成训练样本,形成带噪语音信号,并对所述带噪语音信号进行短时傅里叶变换,得到变换信号;
通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值,以及改进的幅度谱减法算法的对所述变换信号进行处理,得到处理后的变换信号;
对所述处理后的变换信号进行反傅里叶变换,得到去噪样本。
5.根据权利要求4所述的语音增强处理方法,其特征在于,所述通过谱减因子消除噪声谱峰幅值、谱下限因子填充波谷峰值,以及改进的幅度谱减法算法的对所述变换信号进行处理,得到处理后的变换信号的步骤,包括:
通过改变半波整流本身算法的复杂度,加入谱谱减因子和谱下限因子,并通过噪声估计、语音信号,得到增强后的语音信号。
6.根据权利要求5所述的语音增强处理方法,其特征在于,所述通过改变半波整流本身算法的复杂度,加入谱谱减因子和谱下限因子,并通过噪声估计、语音信号,得到增强后的语音信号的步骤,包括:
在语音信号的绝对值不小于噪声估计的绝对值与谱下限因子的乘积时,确定增强后的语音信号不变,否则,确定增强后的语音信号为噪声估计的绝对值与谱下限因子的乘积;其中,所述语音信号为根据样本信号的绝对值、噪声估计和谱减因子所得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811383558.7A CN109524020B (zh) | 2018-11-20 | 2018-11-20 | 一种语音增强处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811383558.7A CN109524020B (zh) | 2018-11-20 | 2018-11-20 | 一种语音增强处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109524020A true CN109524020A (zh) | 2019-03-26 |
CN109524020B CN109524020B (zh) | 2023-07-04 |
Family
ID=65776409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811383558.7A Active CN109524020B (zh) | 2018-11-20 | 2018-11-20 | 一种语音增强处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109524020B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110176245A (zh) * | 2019-05-29 | 2019-08-27 | 贾一焜 | 一种语音降噪系统 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
CN110299148A (zh) * | 2019-06-27 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于Tensorflow的语音融合方法、电子装置及存储介质 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN110619886A (zh) * | 2019-10-11 | 2019-12-27 | 北京工商大学 | 一种针对低资源土家语的端到端语音增强方法 |
CN110853663A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN110870762A (zh) * | 2019-06-27 | 2020-03-10 | 上海慧敏医疗器械有限公司 | 鼻流量测量和视听反馈技术的鼻腔共鸣康复仪器及方法 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111369979A (zh) * | 2020-02-26 | 2020-07-03 | 广州市百果园信息技术有限公司 | 训练样本获取方法、装置、设备及计算机存储介质 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113823293A (zh) * | 2021-09-28 | 2021-12-21 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
TWI759591B (zh) * | 2019-04-01 | 2022-04-01 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
US11468892B2 (en) | 2019-10-10 | 2022-10-11 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling electronic apparatus |
CN111564154B (zh) * | 2020-03-23 | 2023-08-08 | 北京邮电大学 | 基于语音增强算法的对抗样本攻击防御方法及装置 |
CN113823293B (zh) * | 2021-09-28 | 2024-04-26 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122826A (zh) * | 2017-05-08 | 2017-09-01 | 京东方科技集团股份有限公司 | 用于卷积神经网络的处理方法和系统、和存储介质 |
CN107330956A (zh) * | 2017-07-03 | 2017-11-07 | 广东工业大学 | 一种漫画手绘图无监督上色方法及装置 |
WO2017223560A1 (en) * | 2016-06-24 | 2017-12-28 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
-
2018
- 2018-11-20 CN CN201811383558.7A patent/CN109524020B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017223560A1 (en) * | 2016-06-24 | 2017-12-28 | Rensselaer Polytechnic Institute | Tomographic image reconstruction via machine learning |
CN107122826A (zh) * | 2017-05-08 | 2017-09-01 | 京东方科技集团股份有限公司 | 用于卷积神经网络的处理方法和系统、和存储介质 |
WO2018205676A1 (zh) * | 2017-05-08 | 2018-11-15 | 京东方科技集团股份有限公司 | 用于卷积神经网络的处理方法和系统、和存储介质 |
CN107330956A (zh) * | 2017-07-03 | 2017-11-07 | 广东工业大学 | 一种漫画手绘图无监督上色方法及装置 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN108831499A (zh) * | 2018-05-25 | 2018-11-16 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 利用语音存在概率的语音增强方法 |
Non-Patent Citations (6)
Title |
---|
YI ZHAO ET AL.: "Wasserstein GAN and Waveform Loss-Based Acoustic Model Training for Multi-Speaker Text-to-Speech Synthesis Systems Using a WaveNet Vocoder", 《IEEE ACCESS》 * |
YI ZHAO ET AL.: "Wasserstein GAN and Waveform Loss-Based Acoustic Model Training for Multi-Speaker Text-to-Speech Synthesis Systems Using a WaveNet Vocoder", 《IEEE ACCESS》, vol. 6, 8 November 2018 (2018-11-08), pages 60478 - 60488, XP011698422, DOI: 10.1109/ACCESS.2018.2872060 * |
刘海东等: "基于生成对抗网络的乳腺癌病理图像可疑区域标记", 《科研信息化技术与应用》 * |
刘海东等: "基于生成对抗网络的乳腺癌病理图像可疑区域标记", 《科研信息化技术与应用》, vol. 8, no. 6, 31 December 2017 (2017-12-31), pages 52 - 64 * |
韩伟等: "联合优化深度神经网络和约束维纳滤波的单通道语音增强方法", 《计算机应用研究》 * |
韩伟等: "联合优化深度神经网络和约束维纳滤波的单通道语音增强方法", 《计算机应用研究》, vol. 34, no. 03, 31 March 2017 (2017-03-31), pages 706 - 709 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11482235B2 (en) | 2019-04-01 | 2022-10-25 | Qnap Systems, Inc. | Speech enhancement method and system |
TWI759591B (zh) * | 2019-04-01 | 2022-04-01 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
CN110136731A (zh) * | 2019-05-13 | 2019-08-16 | 天津大学 | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 |
CN110176245A (zh) * | 2019-05-29 | 2019-08-27 | 贾一焜 | 一种语音降噪系统 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
CN110299148A (zh) * | 2019-06-27 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于Tensorflow的语音融合方法、电子装置及存储介质 |
CN110870762A (zh) * | 2019-06-27 | 2020-03-10 | 上海慧敏医疗器械有限公司 | 鼻流量测量和视听反馈技术的鼻腔共鸣康复仪器及方法 |
CN110870762B (zh) * | 2019-06-27 | 2022-03-29 | 上海慧敏医疗器械有限公司 | 鼻流量测量和视听反馈技术的鼻腔共鸣康复仪器及方法 |
CN110428849B (zh) * | 2019-07-30 | 2021-10-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
US11468892B2 (en) | 2019-10-10 | 2022-10-11 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling electronic apparatus |
CN110619886A (zh) * | 2019-10-11 | 2019-12-27 | 北京工商大学 | 一种针对低资源土家语的端到端语音增强方法 |
CN110619886B (zh) * | 2019-10-11 | 2022-03-22 | 北京工商大学 | 一种针对低资源土家语的端到端语音增强方法 |
CN110853663A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN110853663B (zh) * | 2019-10-12 | 2023-04-28 | 平安科技(深圳)有限公司 | 基于人工智能的语音增强方法、服务器及存储介质 |
CN110956957B (zh) * | 2019-12-23 | 2022-05-17 | 思必驰科技股份有限公司 | 语音增强模型的训练方法及系统 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111369979A (zh) * | 2020-02-26 | 2020-07-03 | 广州市百果园信息技术有限公司 | 训练样本获取方法、装置、设备及计算机存储介质 |
CN111369979B (zh) * | 2020-02-26 | 2023-12-19 | 广州市百果园信息技术有限公司 | 训练样本获取方法、装置、设备及计算机存储介质 |
CN111564154B (zh) * | 2020-03-23 | 2023-08-08 | 北京邮电大学 | 基于语音增强算法的对抗样本攻击防御方法及装置 |
CN113113022A (zh) * | 2021-04-15 | 2021-07-13 | 吉林大学 | 一种基于说话人声纹信息的自动识别身份的方法 |
CN113823293A (zh) * | 2021-09-28 | 2021-12-21 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
CN113823293B (zh) * | 2021-09-28 | 2024-04-26 | 武汉理工大学 | 一种基于语音增强的说话人识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109524020B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109524020A (zh) | 一种语音增强处理方法 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN104157290B (zh) | 一种基于深度学习的说话人识别方法 | |
CN108172238A (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN110379412A (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
CN110415687A (zh) | 语音处理方法、装置、介质、电子设备 | |
CN105488466B (zh) | 一种深层神经网络和水声目标声纹特征提取方法 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN108806708A (zh) | 基于计算听觉场景分析和生成对抗网络模型的语音降噪方法 | |
CN108682418A (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
CN106971740A (zh) | 基于语音存在概率和相位估计的语音增强方法 | |
CN109036465A (zh) | 语音情感识别方法 | |
CN107610708A (zh) | 识别声纹的方法及设备 | |
CN107967920A (zh) | 一种改进的自编码神经网络语音增强算法 | |
Su et al. | Bandwidth extension is all you need | |
CN108922515A (zh) | 语音模型训练方法、语音识别方法、装置、设备及介质 | |
CN110189766B (zh) | 一种基于神经网络的语音风格转移方法 | |
CN110428849A (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN113724712B (zh) | 一种基于多特征融合和组合模型的鸟声识别方法 | |
CN114242044B (zh) | 语音质量评估方法、语音质量评估模型训练方法及装置 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN104112451B (zh) | 一种选择编码模式的方法及装置 | |
CN116013339A (zh) | 一种基于改进crn的单通道语音增强方法 | |
CN114464159A (zh) | 一种基于半流模型的声码器语音合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |