CN110136741B - 一种基于多尺度上下文的单通道语音增强方法 - Google Patents

一种基于多尺度上下文的单通道语音增强方法 Download PDF

Info

Publication number
CN110136741B
CN110136741B CN201910411692.1A CN201910411692A CN110136741B CN 110136741 B CN110136741 B CN 110136741B CN 201910411692 A CN201910411692 A CN 201910411692A CN 110136741 B CN110136741 B CN 110136741B
Authority
CN
China
Prior art keywords
voice
speech
scale
layer
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910411692.1A
Other languages
English (en)
Other versions
CN110136741A (zh
Inventor
韩纪庆
杜志浩
郑贵滨
郑铁然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910411692.1A priority Critical patent/CN110136741B/zh
Publication of CN110136741A publication Critical patent/CN110136741A/zh
Application granted granted Critical
Publication of CN110136741B publication Critical patent/CN110136741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。

Description

一种基于多尺度上下文的单通道语音增强方法
技术领域
本发明涉及单通道语音增强方法,具体是一种直接在时域上进行的基于多尺度上下文信息的单通道语音增强方法。
背景技术
随着语音信号处理技术的迅猛发展,计算机需要处理的语音信号种类和环境也急剧增加。如何能够自动、准确的将语音从纷繁复杂的噪声环境中提取出来并进行增强,就成为一个既重要又具有挑战性的研究课题。语音增强技术一方面作为语音识别、说话人识别,以及关键词识别等语音信号处理技术的前端处理,能够显著提升这些技术对噪声的鲁棒性;另一方面能够提升噪声环境下听者主观的语音可懂度和语音质量。因此,语音增强在实际生活中具有广阔的应用前景。单通道语音增强技术是指只使用单麦克风录制的语音信号,将目标语音从噪声环境中提取并进行增强的技术。相对于多通道语音增强技术,单通道技术具有对设备要求低、实用性强的优点。
近年来,单通道语音增强被看作频域的有监督学习任务,并获得了显著进步。然而将其视为频域的有监督学习任务存在着如下问题:(1)频域上的语音增强仅对语音频谱进行增强,而语音信号是一种时域信号,还需要将增强后的频域信号转换到时域,这一转换过程中引入了带有噪声干扰的相位,这样的带噪相位与增强后的频谱不匹配,从而引入了语音畸变,进而影响了语音质量;(2)频域上的语音增强技术中,采用的语音特征多是基于人耳听觉机理的特征,并非专门为语音增强任务设计的特征,这会造成输入特征和语音增强任务的不匹配,影响增强效果;(3)语音中包含时间上不同尺度的信息,既有大尺度的语义信息,也有小尺度的语音细节纹理,目前的语音增强方法并没有很好地考虑并利用这些多尺度信息。
发明内容
本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题,而提出一种基于多尺度上下文的单通道语音增强方法。
一种基于多尺度上下文的单通道语音增强方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形。
本发明的有益效果为:
本发明省略频域与时域之间的转换,直接研究在时域上进行的基于多尺度上下文信息的单通道语音增强方法,既有理论意义又有现实意义。
本发明针对单通道语音增强,提出了一种更加直接,高效的时域语音增强方法,提高语音听觉上的质量和可懂度。
对语音的时域表示(语音波形),采用一种全新设计的深度全卷积神经网络,利用语音的多尺度上下文信息对语音进行增强。本发明神经网络以带噪语音波形作为输入,在网络的底层直接对语音波形进行建模,并提取语音特征。随后在网络的高层,利用这些语音特征进行语音增强。这样就将语音特征的提取过程与增强模型融合到一个神经网络中,便可以同时学习增强模型和语音特征提取过程,从而避免了语音特征和语音增强任务不匹配的问题。
本发明中的神经网络以增强后的语音波形作为输出,不再根据频谱和相位合成语音。由于语音波形中既包含频谱信息也包含相位信息,这样便同时对语音的频谱和相位进行了增强,从而避免了带噪相位与增强频谱不匹配的问题。
本发明中的神经网络由多个膨胀卷积层(Dilated Convolution)堆叠而成,随着层数的加深,每一层卷积的感受野大小呈指数级增长。对于较浅的卷积层,其感受野较小更容易学习到高频信息(短时上下文);对于较深的卷积层,其感受野较大更容易学习到低频信息(长时上下文)。最终将来自不同深度卷积层的输出汇集起来,便得到了不同尺度的上下文信息,利用这些上下文信息可以更好地进行语音增强。从而解决了多尺度上下文信息利用不足的问题。
如表1所示,对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比都优于带噪语音在语音可懂度、语音质量和信噪比。
附图说明
图1为网络中使用到的一维膨胀卷积的示意图,图中给出了某层卷积的输出单元对应的低层感受野大小,p(1)为第一层感受野大小,p(2)为第二层感受野大小,p(3)为第三层感受野大小;
图2为全卷积网络的结构图,Conventional Conv为传统卷机层,1×1为卷积核大小,channel为通道,linear为线性激活,Dilated Conv为膨胀卷积,r为膨胀系数,pReLU为激活函数。
具体实施方式
具体实施方式一:本实施方式一种基于多尺度上下文的单通道语音增强方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中对语音进行标准化;具体过程为:
对于有N个采样点的语音片段
Figure BDA0002063002630000031
计算语音片段
Figure BDA0002063002630000032
的时域能量α:
Figure BDA0002063002630000033
得到时域能量α后,用时域能量α对语音片段
Figure BDA0002063002630000034
进行标准化,得到标准化后的语音片段S:
Figure BDA0002063002630000035
其中,
Figure BDA0002063002630000036
为长度为N的语音片段中第n个采样点,S(n)为标准化后的语音片段中第n个采样点,1≤n≤N。
在后续的处理中,如果不加特殊说明,都使用标准化后的语音片段S,而不使用原始的语音片段
Figure BDA0002063002630000037
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二中计算全卷积网络第一层语音特征;具体过程为:
使用膨胀系数r=20=1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作,得到中间信号
Figure BDA0002063002630000041
Figure BDA0002063002630000042
其中,
Figure BDA0002063002630000043
表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;
Figure BDA0002063002630000044
表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数
Figure BDA0002063002630000045
相乘的信号中的对应采样点,p表示中间变量;
经过上述卷积之后,可以得到与标准化后的语音片段S(n)长度相同的一种中间信号
Figure BDA0002063002630000046
对中间信号
Figure BDA0002063002630000047
进行非线性变换pReLu,得到第一层的一种语音特征
Figure BDA0002063002630000048
Figure BDA0002063002630000049
其中,αc为可学习参数,初始值为0.1;
将上述的膨胀卷积参数
Figure BDA00020630026300000410
分别随机初始化C次,计算得到C个中间信号
Figure BDA00020630026300000411
再分别进行非线性变换pReLu,得到C个语音特征
Figure BDA00020630026300000412
C个语音特征
Figure BDA00020630026300000413
称为C个通道,共同构成了第一层语音特征L(1)
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:
对于全卷积网络第l层网络,2≤l≤10,以l-1层网络输出的语音特征L(l-1)作为输入,使用膨胀系数r=2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作,得到中间信号
Figure BDA00020630026300000414
Figure BDA0002063002630000051
其中,
Figure BDA0002063002630000052
表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,
Figure BDA0002063002630000053
表示第l层输入的所有C个通道对应的卷积核的集合,
Figure BDA0002063002630000054
表示第l层输入的第u个通道对应的卷积核,q表示
Figure BDA0002063002630000055
的下标,
Figure BDA0002063002630000056
表示第l层输入的第u个通道,p表示
Figure BDA0002063002630000057
的下标;
将上述的膨胀卷积参数
Figure BDA0002063002630000058
分别随机初始化C次,并分别计算得到C个
Figure BDA0002063002630000059
随后分别进行非线性变换pReLu,得到C个语音特征
Figure BDA00020630026300000510
C个语音特征
Figure BDA00020630026300000511
称为C个通道,共同构成第l层的语音特征L(l)
依序重复执行步骤三9次,得到语音特征L(2)、L(3)、L(3)、L(4)、L(5)、L(6)、L(7)、L(8)、L(9)、L(10),再加上L(1)共计10种尺度的语音特征。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤四中综合多层语音特征,构成多尺度语音特征;具体过程为:
将语音特征L(4)、L(6)、L(8)、L(10)按照通道合并在一起,共得到4种不同尺度的语音特征,每种尺度C种特征,共得到4C种不同的语音特征,分别代表了不同尺度的上下文信息,一同构成了多尺度语音特征U。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时不变预测器,预测纯净语音波形;过程为:
根据多尺度语音特征U,可以通过1维卷积操作预测纯净语音波形:
Figure BDA00020630026300000512
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;L(out)(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点,Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C,wc为时不变预测器第c个通道对应的可学习权重,bc为时不变预测器第c个通道对应的偏置;
对所有N个采样点进行预测,得到预测的纯净语音波形。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至五之一不同的是,所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时变预测器,预测纯净语音波形;过程为:
将多尺度语音特征U作为时变预测器的输入,预测每一个采样点的4C个加权系数:
Figure BDA0002063002630000061
其中,W为时变预测器的学习权重,bc为时变预测器第c个通道对应的偏置,bg为时变预测器的偏置,v、h为多尺度语音特征U中通道的下标,1≤v≤4C,1≤g≤4C;g为时变预测器学习权重W输出维度的下标,1≤g≤4C;
Figure BDA0002063002630000062
表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点;
使用
Figure BDA0002063002630000063
对4C个通道的多尺度语音特征U进行加权求和:
Figure BDA0002063002630000064
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C;
从而预测出纯净语音波形的第i个采样点;
对所有N个采样点进行预测,得到预测的纯净语音波形。
其它步骤及参数与具体实施方式一至五之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例具体是按照以下步骤制备的:
对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比的值都优于带噪语音在语音可懂度、语音质量和信噪比的值。
表1
Figure BDA0002063002630000071
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形;
所述步骤一中对语音进行标准化;具体过程为:
对于有N个采样点的语音片段
Figure FDA0002985872030000011
计算语音片段
Figure FDA0002985872030000012
的时域能量α:
Figure FDA0002985872030000013
得到时域能量α后,用时域能量α对语音片段
Figure FDA0002985872030000014
进行标准化,得到标准化后的语音片段S:
Figure FDA0002985872030000015
其中,
Figure FDA0002985872030000016
为长度为N的语音片段中第n个采样点,S(n)为标准化后的语音片段中第n个采样点,1≤n≤N;
所述步骤二中计算全卷积网络第一层语音特征;具体过程为:
使用膨胀系数r=20=1的膨胀卷积核k对标准化后的语音片段S进行1维卷积操作,得到中间信号
Figure FDA0002985872030000017
Figure FDA0002985872030000018
其中,
Figure FDA0002985872030000019
表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;
Figure FDA00029858720300000110
表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数
Figure FDA00029858720300000111
相乘的信号中的对应采样点,p表示中间变量;
对中间信号
Figure FDA0002985872030000021
进行非线性变换pReLu,得到第一层的一种语音特征
Figure FDA0002985872030000022
Figure FDA0002985872030000023
其中,αc为可学习参数,初始值为0.1;
将上述的膨胀卷积参数
Figure FDA0002985872030000024
分别随机初始化C次,计算得到C个中间信号
Figure FDA0002985872030000025
再分别进行非线性变换pReLu,得到C个语音特征
Figure FDA0002985872030000026
C个语音特征
Figure FDA0002985872030000027
称为C个通道,共同构成了第一层语音特征L(1)
2.根据权利要求1所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:
对于全卷积网络第l层网络,2≤l≤10,以l-1层网络输出的语音特征L(l-1)作为输入,使用膨胀系数r=2l-1的膨胀卷积核k对语音特征L(l-1)进行卷积操作,得到中间信号
Figure FDA0002985872030000028
Figure FDA0002985872030000029
其中,
Figure FDA00029858720300000210
表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,
Figure FDA00029858720300000211
表示第l层输入的所有C个通道对应的卷积核的集合,
Figure FDA00029858720300000212
表示第l层输入的第u个通道对应的卷积核,q表示
Figure FDA00029858720300000213
的下标,
Figure FDA00029858720300000214
表示第l层输入的第u个通道,p表示
Figure FDA00029858720300000215
的下标;
将上述的膨胀卷积参数
Figure FDA00029858720300000216
分别随机初始化C次,并分别计算得到C个
Figure FDA00029858720300000217
随后分别进行非线性变换pReLu,得到C个语音特征
Figure FDA00029858720300000218
C个语音特征
Figure FDA00029858720300000219
称为C个通道,共同构成第l层的语音特征L(l)
依序重复执行步骤三9次,得到语音特征L(2)、L(3)、L(3)、L(4)、L(5)、L(6)、L(7)、L(8)、L(9)、L(10),再加上L(1)共计10种尺度的语音特征。
3.根据权利要求2所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤四中综合多层语音特征,构成多尺度语音特征;具体过程为:
将语音特征L(4)、L(6)、L(8)、L(10)按照通道合并在一起,共得到4种不同尺度的语音特征,每种尺度C种特征,共得到4C种不同的语音特征,构成了多尺度语音特征U。
4.根据权利要求3所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时不变预测器,预测纯净语音波形;过程为:
根据多尺度语音特征U,通过1维卷积操作预测纯净语音波形:
Figure FDA0002985872030000031
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;L(out)(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点,Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C,wc为时不变预测器第c个通道对应的可学习权重,bc为时不变预测器第c个通道对应的偏置;
对所有N个采样点进行预测,得到预测的纯净语音波形。
5.根据权利要求4所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时变预测器,预测纯净语音波形;过程为:
将多尺度语音特征U作为时变预测器的输入,预测每一个采样点的4C个加权系数:
Figure FDA0002985872030000032
其中,W为时变预测器的学习权重,bc为时变预测器第c个通道对应的偏置,bg为时变预测器的偏置,v、h为多尺度语音特征U中通道的下标,1≤v≤4C,1≤g≤4C;g为时变预测器学习权重W输出维度的下标,1≤g≤4C;
Figure FDA0002985872030000033
表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点;
使用
Figure FDA0002985872030000034
对4C个通道的多尺度语音特征U进行加权求和:
Figure FDA0002985872030000035
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C;
从而预测出纯净语音波形的第i个采样点;
对所有N个采样点进行预测,得到预测的纯净语音波形。
CN201910411692.1A 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法 Active CN110136741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910411692.1A CN110136741B (zh) 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910411692.1A CN110136741B (zh) 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法

Publications (2)

Publication Number Publication Date
CN110136741A CN110136741A (zh) 2019-08-16
CN110136741B true CN110136741B (zh) 2021-07-13

Family

ID=67574936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910411692.1A Active CN110136741B (zh) 2019-05-16 2019-05-16 一种基于多尺度上下文的单通道语音增强方法

Country Status (1)

Country Link
CN (1) CN110136741B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269305B (zh) * 2021-05-20 2024-05-03 郑州铁路职业技术学院 一种加强记忆的反馈语音强化方法
CN113936680B (zh) * 2021-10-08 2023-08-08 电子科技大学 基于多尺度信息感知卷积神经网络的单通道语音增强方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373610B2 (en) * 2017-02-24 2019-08-06 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling
US10643153B2 (en) * 2017-04-24 2020-05-05 Virginia Tech Intellectual Properties, Inc. Radio signal identification, identification system learning, and identifier deployment
WO2018227169A1 (en) * 2017-06-08 2018-12-13 Newvoicemedia Us Inc. Optimal human-machine conversations using emotion-enhanced natural speech
CN107958271A (zh) * 2017-12-06 2018-04-24 电子科技大学 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统

Also Published As

Publication number Publication date
CN110136741A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110491407B (zh) 语音降噪的方法、装置、电子设备及存储介质
Chen et al. Fullsubnet+: Channel attention fullsubnet with complex spectrograms for speech enhancement
Zhang et al. Deep learning for environmentally robust speech recognition: An overview of recent developments
Trigeorgis et al. Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
CN110136741B (zh) 一种基于多尺度上下文的单通道语音增强方法
Wang et al. Deep learning assisted time-frequency processing for speech enhancement on drones
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
CN112767927A (zh) 一种提取语音特征的方法、装置、终端及存储介质
JP2024038369A (ja) 深層フィルタを決定するための方法および装置
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
CN110675888A (zh) 一种基于RefineNet和评价损失的语音增强方法
Hou et al. Multi-task learning for end-to-end noise-robust bandwidth extension
Soni et al. State-of-the-art analysis of deep learning-based monaural speech source separation techniques
Abdulatif et al. Investigating cross-domain losses for speech enhancement
Girin et al. Audio source separation into the wild
CN112634937A (zh) 一种无需数字特征提取计算的声音分类方法
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
WO2023102930A1 (zh) 语音增强方法、电子设备、程序产品及存储介质
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
Mondal et al. Deep learning technique based real-time audio event detection experiment in a distributed system architecture
Baghel et al. Overlapped speech detection using phase features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant