CN113870888A - 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 - Google Patents
一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 Download PDFInfo
- Publication number
- CN113870888A CN113870888A CN202111119961.0A CN202111119961A CN113870888A CN 113870888 A CN113870888 A CN 113870888A CN 202111119961 A CN202111119961 A CN 202111119961A CN 113870888 A CN113870888 A CN 113870888A
- Authority
- CN
- China
- Prior art keywords
- time
- domain
- frequency
- weight vector
- subjected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 119
- 238000013507 mapping Methods 0.000 claims abstract description 115
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 25
- 238000011176 pooling Methods 0.000 claims description 38
- 230000004913 activation Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 8
- 230000017105 transposition Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 230000001364 causal effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置,其中的方法包括:首先将语音信号经过短时傅里叶变换得到时频域特征,然后利用多层卷积神经网络得到中间映射特征,之后基于时域注意力模块得到时间权值向量,并将其扩展到与中间映射特征相同的维度后做哈达玛乘积,得到经过时域加权的映射特征,然后利用频域注意力模块得到频率权值向量,并将其扩展到与经过时间加权的映射特征相同的维度后做哈达玛乘积,得到最终的经过时域和频域加权的映射特征。本发明的时域和频域注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除模型中,使模型自适应学习时频域特征的权重,以此提升模型性能的效果。
Description
技术领域
本发明涉及音频信号处理领域,尤其涉及一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置。
背景技术
在双向语音通信中,近端扬声器播放的远端信号被近端麦克风采集并重新送回远端时就产生了声学回声。声学回声极大的影响了客户的通话体验和语音后续处理比如语音识别的效果,所以如何尽量消除声学回声并且不引入近端语音的失真成为国内外语音前端处理领域的研究热点。近年来,深度学习方法在回声消除领域超越传统的自适应滤波方法取得了极大的成功。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
目前在时频域的基于卷积神经网络的声学回声消除模型中,最常见的方法之一是卷积循环网络,其缺点是这种模型主要考虑的是对特征沿时间轴建模长时依赖关系,而没有考虑到频率分布对模型的影响,因而导致提取的特征信息不够全面,最终回声消除效果不佳。
发明内容
本发明提出一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置,用于解决或者至少部分解决现有方法中提取的特征信息不够全面,最终回声消除效果不佳的技术问题。其中,基于语音信号时域和频域的特征提取装置(即基于语音信号时域和频域的注意力模块)可以方便地嵌入回声消除装置(即基于卷积神经网络的声学回声消除模型)中,使模型自适应学习时频域特征的权重,以此提升模型性能的效果。
为了解决上述技术问题,本发明第一方面提供了一种基于语音信号时域和频域的特征提取方法,包括:
S1:根据中间映射特征计算得到时间权值向量,并将时间权值向量扩展到与所述中间映射特征相等的维度,其中,中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到,时间权值向量中包含语音特征中重要的时间帧信息;
S2:将所述中间映射特征与所述时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
S3:根据所述经过时域加权的映射特征计算得到频率权值向量,并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度,其中,频率权值向量中包含语音特征中重要的频率信息;
S4:将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积,得到经过时域和频域加权的映射特征。
在一种实施方式中,步骤S1包括:
S1.1:对所述中间映射特征基于通道和频率维进行全局最大池化和平均池化,得到经过最大池化的第一权值向量和经过平均池化的第二权值向量,两个权值向量大小相等,保留有语音特征每个时间帧中重要的通道和频率维的信息,
S1.2:将经过最大池化的第一权值向量和经过平均池化的第二权值向量分别送入第一长短时记忆网络,以在保持时间序列因果依赖的情况下,学习时序特征的权重,得到两个更新后的权值向量;
S1.3:将所述两个更新后的权值向量按点相加并经过sigmoid激活函数得到时间权值向量。
在一种实施方式中,步骤S3包括:
S3.1:对所述经过时域加权的映射特征基于通道维进行全局最大池化和平均池化,得到经过最大池化的第三权值向量和经过平均池化的第四权值向量,两个权值向量大小相等,保留有经过时域加权的映射特征的重要的通道维的信息,
S3.2:将第三权值向量和第四权值向量按照通道维进行堆叠,再利用一维卷积神经网络和批归一化层得到融合权值向量,以学习特征各频率的重要程度;
S3.3:将所述融合权值向量经过sigmoid激活函数得到频率权值向量。
基于同样的发明构思,本发明第二方面提供了一种基于语音信号时域和频域的特征提取装置,所述装置为注意力模块,包括:
时域注意力模块,用于根据中间映射特征计算得到时间权值向量,并将时间权值向量扩展到与所述中间映射特征相等的维度,其中,中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到,时间权值向量中包含语音特征中重要的时间帧信息;
时域加权模块,用于将所述中间映射特征与所述时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
频域注意力模块,用于根据所述经过时域加权的映射特征计算得到频率权值向量,并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度,其中,频率权值向量中包含语音特征中重要的频率信息;
频域加权模块,用于将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积,得到最终经过时域和频域加权的映射特征。
基于同样的发明构思,本发明第三方面提供了一种回声消除方法,包括:
采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征;
对初始声学特征采用基于复数域二维卷积,得到中间映射特征;
对中间映射特征采用权利要求1所述的特征提取方法进行特征提取,得到经过时域和频域加权的映射特征;
对中间映射特征进行时序特征学习,得到经过时间建模的特征;
根据经过时间建模的特征和经过时域和频域加权的映射特征,得到复数域比值掩码;
利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。
基于同样的发明构思,本发明第四方面提供了一种回声消除装置,所述装置为基于卷积神经网络的声学回声消除模型,所述模型包括:
预处理模块,用于采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征;
基于复数域二维卷积的编码器,用于对初始声学特征采用基于复数域二维卷积,得到中间映射特征;
注意力模块,用于对中间映射特征进行特征提取,得到经过时域和频域加权的映射特征;
第二长短时记忆网络,用于对中间映射特征进行时序特征学习,得到经过时间建模的特征;
基于复数域二维转置卷积的解码器,用于根据经过时间建模的特征和经过时域和频域加权的映射特征,得到复数域比值掩码;
变换模块,用于利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。
在一种实施方式中,所述基于复数域二维卷积的编码器包括六层复数域二维卷积模块,其中,每个复数域二维卷积块包括复数卷积层、复数批归一化层和激活函数。
在一种实施方式中,所述基于复数域二维转置卷积的解码器包括六个复数域二维转置卷积块,每个复数域二维转置卷积块包括复数转置卷积层、复数批归一化层和激活函数。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于语音信号时域和频域的特征提取方法,可以自适应地对语音特征进行时域和频域的加权,可以充分保留时间域和频率域的特征信息,从而使得提取的特征信息更为全面。
本发明提供的回声消除方法及装置,可以方便地将注意力模块地嵌入到基于卷积神经网络的声学回声消除任务中,并自适应地对语音特征进行时域和频域加权,以此提升声学回声消除的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中基于卷积神经网络的声学回声消除模型的框架图;
图2为本发明实施中基于复数域二维卷积模块的编码器流程图;
图3为本发明实施中复数域二维卷积块的流程图;
图4为本发明实施中基于时域和频域加权的注意力模块的流程图;
图5为本发明实施中基于时域注意力模块的流程图;
图6为本发明实施中基于频域注意力模块的流程图;
图7为本发明实施中复数域二维转置卷积模块的解码器流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:
根据听觉动态注意力理论,人类总是倾向于用动态神经元回路自适应地调整注意力以感知复杂的环境,比如语音通话过程中如果声学回声占主导,用户就需要集中更多的注意力克服回声的干扰并理解对方通话内容的含义。此外,语音信号的频谱包含了丰富的频率成分,共振峰在低频区域中分布集中,而在高频区域分布稀疏,因此需要用不同的权重区分不同的频谱区域。受此启发,本发明利用注意力模块自适应地对语音特征进行时域和频域的加权以此提高基于卷积神经网络的声学回声消除模型的性能。
本发明的主要构思如下:
首先利用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,之后基于复数域二维卷积编码器模块计算中间映射特征,接着基于长短时记忆网络建模中间映射特征的时间依赖关系。此外,将编码器和解码器通过基于语音信号时域和频域加权的注意力模块相连,以此实现对特征在时间和频率两个维度自适应地加权。最后基于复数域二维转置卷积的解码器模块输出复数域比值掩码,进而对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到估计出的近端干净语音。
通过本发明提供的上述方法可知,基于语音信号时域和频域加权的注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除任务中,并自适应地对语音特征进行时域和频域加权,以此提升声学回声消除的效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于语音信号时域和频域的特征提取方法,包括:
S1:根据中间映射特征计算得到时间权值向量,并将时间权值向量扩展到与所述中间映射特征相等的维度,其中,中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到,时间权值向量中包含语音特征中重要的时间帧信息;
S2:将所述中间映射特征与所述时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
S3:根据所述经过时域加权的映射特征计算得到频率权值向量,并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度,其中,频率权值向量中包含语音特征中重要的频率信息;
S4:将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积,得到经过时域和频域加权的映射特征。
具体实施过程中,可以采用短时傅里叶变换计算语音信号的时频特征,然后经过多层卷积神经网络的变换得到中间映射特征,中间映射特征的组织方式是(批大小,时间维,通道维,频率维)。
在一种实施方式中,步骤S1包括:
S1.1:对所述中间映射特征基于通道和频率维进行全局最大池化和平均池化,得到经过最大池化的第一权值向量和经过平均池化的第二权值向量,两个权值向量大小相等,保留有语音特征每个时间帧中重要的通道和频率维的信息,
S1.2:将经过最大池化的第一权值向量和经过平均池化的第二权值向量分别送入第一长短时记忆网络,以在保持时间序列因果依赖的情况下,学习时序特征的权重,得到两个更新后的权值向量;
S1.3:将所述两个更新后的权值向量按点相加并经过sigmoid激活函数得到时间权值向量。
具体来说,第一权值向量和第二权值向量中保留了语音特征每个时间帧中重要的通道和频率维的信息,然后可以根据这些信息对特征的时间帧加权,以突出其中重要的时间帧。
其中,中间映射特征经过最大池化,保留下通道和频率最显著的信息,然后根据保留下的信息对时间轴加权,使得通道和频率维信息丰富的时间点权值也大一些。但是如果只采用最大池化又会将通道维和频率维的次重要信息全部丢掉,这样信息损失过多,因此用平均池化保留的信息作为补充。
在一种实施方式中,步骤S3包括:
S3.1:对所述经过时域加权的映射特征基于通道维进行全局最大池化和平均池化,得到经过最大池化的第三权值向量和经过平均池化的第四权值向量,两个权值向量大小相等,保留有经过时域加权的映射特征的重要的通道维的信息,
S3.2:将第三权值向量和第四权值向量按照通道维进行堆叠,再利用一维卷积神经网络和批归一化层得到融合权值向量,以学习特征各频率的重要程度;
S3.3:将所述融合权值向量经过sigmoid激活函数得到频率权值向量。
实施例二
基于同样的发明构思,本实施例提供了一种基于语音信号时域和频域的特征提取装置,所述装置为注意力模块,包括:
时域注意力模块,用于根据中间映射特征计算得到时间权值向量,并将时间权值向量扩展到与所述中间映射特征相等的维度,其中,中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到,时间权值向量中包含语音特征中重要的时间帧信息;
时域加权模块,用于将所述中间映射特征与所述时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
频域注意力模块,用于根据所述经过时域加权的映射特征计算得到频率权值向量,并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度,其中,频率权值向量中包含语音特征中重要的频率信息;
频域加权模块,用于将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积,得到最终经过时域和频域加权的映射特征。
其中,基于时域和频域加权的注意力模块如图4所示。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中基于语音信号时域和频域的特征提取方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
通过本发明提供的注意力模块可知,本发明可以很容易地嵌入到基于卷积神经网络的声学回声消除任务中,并自适应地对语音特征进行时域和频域加权,以此提升声学回声消除的效果。
实施例三
基于同样的发明构思,本实施例提供了一种回声消除方法,包括:
S101:采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征;
S102:对初始声学特征采用基于复数域二维卷积,得到中间映射特征;
S103:对中间映射特征进行特征提取,得到经过时域和频域加权的映射特征;
S104:对中间映射特征进行时序特征学习,得到经过时间建模的特征;
S105:根据经过时间建模的特征和经过时域和频域加权的映射特征,得到复数域比值掩码;
S106:利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。
具体实施过程中,步骤S101中初始声学特征的组织方式是(批大小,4,频率维,时间维);
具体来说,帧长、帧移和短时傅里叶变换的长度可以根据需要调整,作为一种实施方式,可以将远端参考信号和近端麦克风信号按照每帧25毫秒分为多个时间帧,且每两个相邻的时间帧之间具有15毫秒的重叠,然后对远端麦克风信号和近端回声信号应用512点的短时傅里叶变换,这会产生257个频率区间。
步骤S102:将步骤S101的初始声学特征通过由复数域二维卷积模块组成的编码器,其中每层复数域二维卷积模块输出的中间映射特征维度各不相同。
步骤S103:将步骤S102输出的特征分别送入六个基于时域和频域加权的注意力模块中。
步骤S1031:将步骤S102中间映射特征输入到如图5所示的时域注意力模块得到时间权值向量,并将其扩展到与步骤S101的中间映射特征相等的维度;其中时域注意力模块具体来说,是对步骤S102的中间映射特征基于通道和频率维进行全局最大池化和平均池化,得到两个大小相等的权值向量,一个是经过最大池化得到的,一个是经过平均池化得到的,然后将两个权值向量分别送入长短时记忆网络更新权值向量,最后将两个更新后的权值向量按点相加并经过sigmoid激活函数得到时间权值向量;
步骤S1032:将步骤S102的中间映射特征与步骤S1031的时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
步骤S1033:将步骤S1032的经过时域加权的映射特征输入到如图6所示的频域注意力模块得到频率权值向量,并将其扩展到与步骤S1032的经过时间加权的映射特征相等的维度。频域注意力模块具体来说,是将步骤S1032的经过时域加权的映射特征基于通道维进行最大池化和平均池化,得到两个大小相等的权值向量,一个是经过最大池化得到的,一个是经过平均池化得到的,然后分别将两个权值向量按照通道维堆叠起来,利用一维卷积网络和批归一化层得到融合权值向量,最后将融合权值向量经过sigmoid激活函数得到频率权值向量;
步骤S1034:将步骤S1033的频率权值向量与步骤S1032的经过时域加权的映射特征做哈达玛乘积,得到最终的经过时域和频域加权的映射特征。
步骤S104:将步骤S102编码器的输出特征输入第二长短时记忆网络中,输出经过时间建模的特征;
第二长短时记忆网络的参数可以根据需要调整,作为实施方式本发明设置了两层长短时记忆网络,每层有800个隐藏单元,输出层是由257个神经元组成的全连接网络。
步骤S105:将步骤S104的输出送入基于复数域二维转置卷积的解码器,同时将步骤S103的六个基于时域和频域加权的注意力模块的输出分别送入解码器的六层复数转置卷积模块,以此得到复数域比值掩码;
步骤S106:利用步骤S105的复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号.
由于本发明实施例三所介绍的方法,为基于本发明实施例一中基于语音信号时域和频域的特征提取方法所实现的方法,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该方法的具体实施步骤,故而在此不再赘述。
实施例四
基于同样的发明构思,本实施例提供了一种回声消除装置,所述装置为基于卷积神经网络的声学回声消除模型,所述模型包括:
预处理模块,用于采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征;
基于复数域二维卷积的编码器,用于对初始声学特征采用基于复数域二维卷积,得到中间映射特征;
注意力模块,用于对中间映射特征进行特征提取,得到经过时域和频域加权的映射特征;
第二长短时记忆网络,用于对中间映射特征进行时序特征学习,得到经过时间建模的特征;
基于复数域二维转置卷积的解码器,用于根据经过时间建模的特征和经过时域和频域加权的映射特征,得到复数域比值掩码;
变换模块,用于利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。
请参见图1,为本发明实施中基于卷积神经网络的声学回声消除模型的框架图。
在一种实施方式中,所述基于复数域二维卷积的编码器包括六层复数域二维卷积模块,其中,每个复数域二维卷积块包括复数卷积层、复数批归一化层和激活函数。
具体来说,由六层复数域二维卷积模块组成的编码器如图2所示。
采用基于卷积神经网络的编码器,其中卷积神经网络的层数、各输入输出的通道数、卷积核大小和步长等网络参数可根据需要调整。作为一种实施方式编码器由六层复数域二维卷积块组成,每个复数域二维卷积块如图3所示包含复数卷积层、复数批归一化层和激活函数,各层二维卷积块的输入通道数为{4,32,64,128,256,256},各卷积神经网络的步长在时间和频率维度的大小为(3,2),步长为(2,1)。复数卷积层的卷积核W可以表示为W=Wr+jWi,其中Wr和Wi分别模拟实部的卷积核和模拟虚部的卷积核,r表示复数的实部,i表示复数的虚部,j表示虚数单位。语音的中间特征定义为X=Xr+jXi其中Xr和Xi分别表示特征的实数部分和特征的虚数部分,这样每层复数卷积层的输出Y可以表示为Y=(Xr*Wr-Xi*Wi)+j(Xr*Wi+Xi*Wr),其中*表示传统的二维卷积操作,由此可以看出复数卷积层包含四个传统的二维卷积操作。复数批归一化可以看作白化二维矢量的问题。激活函数是PReLU,其公式是:
其中,x表示激活函数的输入变量,a表示斜率参数。
在一种实施方式中,所述基于复数域二维转置卷积的解码器包括六个复数域二维转置卷积块,每个复数域二维转置卷积块包括复数转置卷积层、复数批归一化层和激活函数。
具体来说,将第二长短时记忆网络的输出送入基于复数域二维转置卷积的解码器,同时将六个基于时域和频域加权的注意力模块的输出分别送入解码器的六层复数转置卷积模块,以此得到复数域比值掩码;
具体来说,解码器和编码器是对称结构,基于复数域二维转置卷积的解码器如图7由六个复数域二维转置卷积块组成,每个复数域二维转置卷积块中包含复数转置卷积层、复数批归一化层和激活函数,复数转置卷积层与复数卷积层类似,只是将卷积操作改为转置卷积操作,各二维转置卷积块的输入通道数为{512,512,256,128,64,4}。六层复数域二维转置卷积块的输入均为上一层网络的输出和相应的经过时频加权的中间映射特征沿通道维堆叠起来形成的,解码器最后的输出是复数域比值掩码。复数域比值掩码(CRM)定义具体如下:
其中,Yr和Yi分别表示近端麦克风信号的实部和虚部,Sr和Si分别表示近端干净语音的实部和虚部。
利用基于复数域二维转置卷积的解码器得到复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号;
具体来说,经过解码器估计出来的复数域比值掩码可以通过如下公式计算的近端干净语音的复数表示:
由于本发明实施例四所介绍的装置,为实施本发明实施例三中回声消除方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例三的方法所采用的装置都属于本发明所欲保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于语音信号时域和频域的特征提取方法,其特征在于,包括:
S1:根据中间映射特征计算得到时间权值向量,并将时间权值向量扩展到与所述中间映射特征相等的维度,其中,中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到,时间权值向量中包含语音特征中重要的时间帧信息;
S2:将所述中间映射特征与所述时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
S3:根据所述经过时域加权的映射特征计算得到频率权值向量,并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度,其中,频率权值向量中包含语音特征中重要的频率信息;
S4:将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积,得到经过时域和频域加权的映射特征。
2.如权利要求1所述的特征提取方法,其特征在于,步骤S1包括:
S1.1:对所述中间映射特征基于通道和频率维进行全局最大池化和平均池化,得到经过最大池化的第一权值向量和经过平均池化的第二权值向量,两个权值向量大小相等,保留有语音特征每个时间帧中重要的通道和频率维的信息,
S1.2:将经过最大池化的第一权值向量和经过平均池化的第二权值向量分别送入第一长短时记忆网络,以在保持时间序列因果依赖的情况下,学习时序特征的权重,得到两个更新后的权值向量;
S1.3:将所述两个更新后的权值向量按点相加并经过sigmoid激活函数得到时间权值向量。
3.如权利要求1所述的特征提取方法,其特征在于,步骤S3包括:
S3.1:对所述经过时域加权的映射特征基于通道维进行全局最大池化和平均池化,得到经过最大池化的第三权值向量和经过平均池化的第四权值向量,两个权值向量大小相等,保留有经过时域加权的映射特征的重要的通道维的信息,
S3.2:将第三权值向量和第四权值向量按照通道维进行堆叠,再利用一维卷积神经网络和批归一化层得到融合权值向量,以学习特征各频率的重要程度;
S3.3:将所述融合权值向量经过sigmoid激活函数得到频率权值向量。
4.一种基于语音信号时域和频域的特征提取装置,其特征在于,所述装置为注意力模块,包括:
时域注意力模块,用于根据中间映射特征计算得到时间权值向量,并将时间权值向量扩展到与所述中间映射特征相等的维度,其中,中间映射特征由语音信号的时频特征经过多层卷积神经网络变换后得到,时间权值向量中包含语音特征中重要的时间帧信息;
时域加权模块,用于将所述中间映射特征与所述时间权值向量做哈达玛乘积,得到经过时域加权的映射特征;
频域注意力模块,用于根据所述经过时域加权的映射特征计算得到频率权值向量,并将频率权值向量扩展到与所述经过时域加权的映射特征相等的维度,其中,频率权值向量中包含语音特征中重要的频率信息;
频域加权模块,用于将所述频率权值向量与所述经过时域加权的映射特征做哈达玛乘积,得到最终经过时域和频域加权的映射特征。
5.一种回声消除方法,其特征在于,包括:
采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征;
对初始声学特征采用基于复数域二维卷积,得到中间映射特征;
对中间映射特征采用权利要求1所述的特征提取方法进行特征提取,得到经过时域和频域加权的映射特征;
对中间映射特征进行时序特征学习,得到经过时间建模的特征;
根据经过时间建模的特征和经过时域和频域加权的映射特征,得到复数域比值掩码;
利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。
6.一种回声消除装置,其特征在于,所述装置为基于卷积神经网络的声学回声消除模型,所述模型包括:
预处理模块,用于采用短时傅里叶变换计算远端参考信号和近端麦克风信号的实部和虚部,将远端参考信号和近端麦克风信号的实部和虚部以通道维堆叠起来形成四维输入通道的初始声学特征;
基于复数域二维卷积的编码器,用于对初始声学特征采用基于复数域二维卷积,得到中间映射特征;
注意力模块,用于对中间映射特征进行特征提取,得到经过时域和频域加权的映射特征;
第二长短时记忆网络,用于对中间映射特征进行时序特征学习,得到经过时间建模的特征;
基于复数域二维转置卷积的解码器,用于根据经过时间建模的特征和经过时域和频域加权的映射特征,得到复数域比值掩码;
变换模块,用于利用所述复数域比值掩码对近端麦克风信号的实部和虚部进行掩蔽,将掩蔽后的实部和虚部经过逆短时傅里叶变换得到回声消除后的信号。
7.如权利要求6所述的回声消除装置,其特征在于,所述基于复数域二维卷积的编码器包括六层复数域二维卷积模块,其中,每个复数域二维卷积块包括复数卷积层、复数批归一化层和激活函数。
8.如权利要6所述的回声消除装置,其特征在于,所述基于复数域二维转置卷积的解码器包括六个复数域二维转置卷积块,每个复数域二维转置卷积块包括复数转置卷积层、复数批归一化层和激活函数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119961.0A CN113870888B (zh) | 2021-09-24 | 2021-09-24 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
PCT/CN2021/122350 WO2023044962A1 (zh) | 2021-09-24 | 2021-09-30 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119961.0A CN113870888B (zh) | 2021-09-24 | 2021-09-24 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870888A true CN113870888A (zh) | 2021-12-31 |
CN113870888B CN113870888B (zh) | 2024-09-13 |
Family
ID=78993692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111119961.0A Active CN113870888B (zh) | 2021-09-24 | 2021-09-24 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113870888B (zh) |
WO (1) | WO2023044962A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067826A (zh) * | 2022-01-18 | 2022-02-18 | 深圳市友杰智新科技有限公司 | 语音降噪方法、装置、设备及存储介质 |
CN114495958A (zh) * | 2022-04-14 | 2022-05-13 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
CN114722334A (zh) * | 2022-04-11 | 2022-07-08 | 哈尔滨工程大学 | 一种基于stft的高压天然气缸内直喷发动机燃气喷射时间特征在线识别方法 |
CN115116471A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频信号处理方法和装置、训练方法、设备及介质 |
CN115359771A (zh) * | 2022-07-22 | 2022-11-18 | 中国人民解放军国防科技大学 | 一种水声信号降噪方法、系统、设备及存储介质 |
WO2023226839A1 (zh) * | 2022-05-23 | 2023-11-30 | 维沃移动通信有限公司 | 音频增强方法、装置、电子设备及可读存储介质 |
CN118411997A (zh) * | 2024-07-04 | 2024-07-30 | 苏州大学 | 一种基于时域神经网络的单通道语音回声消除方法 |
WO2024164913A1 (zh) * | 2023-02-07 | 2024-08-15 | 抖音视界有限公司 | 一种处理语音信号的方法、装置和电子设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11823703B2 (en) * | 2022-02-03 | 2023-11-21 | GM Global Technology Operations LLC | System and method for processing an audio input signal |
CN116580428A (zh) * | 2023-07-11 | 2023-08-11 | 中国民用航空总局第二研究所 | 一种基于多尺度通道注意力机制的行人重识别方法 |
CN116994587B (zh) * | 2023-09-26 | 2023-12-08 | 成都航空职业技术学院 | 一种培训监管系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711433A (zh) * | 2018-05-18 | 2018-10-26 | 歌尔科技有限公司 | 一种回声消除方法和装置 |
WO2020042706A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN111292759A (zh) * | 2020-05-11 | 2020-06-16 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2548325B (en) * | 2016-02-10 | 2021-12-01 | Audiotelligence Ltd | Acoustic source seperation systems |
CN109063820A (zh) * | 2018-06-07 | 2018-12-21 | 中国科学技术大学 | 利用时频联合长时循环神经网络的数据处理方法 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
CN111261146B (zh) * | 2020-01-16 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN112750465B (zh) * | 2020-12-29 | 2024-04-30 | 昆山杜克大学 | 一种云端语言能力评测系统及可穿戴录音终端 |
-
2021
- 2021-09-24 CN CN202111119961.0A patent/CN113870888B/zh active Active
- 2021-09-30 WO PCT/CN2021/122350 patent/WO2023044962A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711433A (zh) * | 2018-05-18 | 2018-10-26 | 歌尔科技有限公司 | 一种回声消除方法和装置 |
WO2020042706A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 一种基于深度学习的回声消除方法 |
CN111292759A (zh) * | 2020-05-11 | 2020-06-16 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及系统 |
Non-Patent Citations (1)
Title |
---|
胡坚;樊可清;刘洋;: "基于分段块频域自适应滤波算法的长延时回声消除", 数据采集与处理, no. 1, 15 October 2009 (2009-10-15) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114067826A (zh) * | 2022-01-18 | 2022-02-18 | 深圳市友杰智新科技有限公司 | 语音降噪方法、装置、设备及存储介质 |
CN114722334A (zh) * | 2022-04-11 | 2022-07-08 | 哈尔滨工程大学 | 一种基于stft的高压天然气缸内直喷发动机燃气喷射时间特征在线识别方法 |
CN114722334B (zh) * | 2022-04-11 | 2022-12-27 | 哈尔滨工程大学 | 一种基于stft的高压天然气缸内直喷发动机燃气喷射时间特征在线识别方法 |
CN114495958A (zh) * | 2022-04-14 | 2022-05-13 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
CN114495958B (zh) * | 2022-04-14 | 2022-07-05 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
CN115116471A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频信号处理方法和装置、训练方法、设备及介质 |
CN115116471B (zh) * | 2022-04-28 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 音频信号处理方法和装置、训练方法、设备及介质 |
WO2023226839A1 (zh) * | 2022-05-23 | 2023-11-30 | 维沃移动通信有限公司 | 音频增强方法、装置、电子设备及可读存储介质 |
CN115359771A (zh) * | 2022-07-22 | 2022-11-18 | 中国人民解放军国防科技大学 | 一种水声信号降噪方法、系统、设备及存储介质 |
WO2024164913A1 (zh) * | 2023-02-07 | 2024-08-15 | 抖音视界有限公司 | 一种处理语音信号的方法、装置和电子设备 |
CN118411997A (zh) * | 2024-07-04 | 2024-07-30 | 苏州大学 | 一种基于时域神经网络的单通道语音回声消除方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023044962A1 (zh) | 2023-03-30 |
CN113870888B (zh) | 2024-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113870888B (zh) | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 | |
CN110491404B (zh) | 语音处理方法、装置、终端设备及存储介质 | |
CN111292759B (zh) | 一种基于神经网络的立体声回声消除方法及系统 | |
CN110491407B (zh) | 语音降噪的方法、装置、电子设备及存储介质 | |
JP7258182B2 (ja) | 音声処理方法、装置、電子機器及びコンピュータプログラム | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN111768796A (zh) | 一种声学回波消除与去混响方法及装置 | |
CN103152500A (zh) | 多方通话中回音消除方法 | |
CN111986660A (zh) | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 | |
US11404055B2 (en) | Simultaneous dereverberation and denoising via low latency deep learning | |
CN113838471A (zh) | 基于神经网络的降噪方法、系统、电子设备及存储介质 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN112435683A (zh) | 基于t-s模糊神经网络的自适应噪声估计及语音降噪方法 | |
CN117219107B (zh) | 一种回声消除模型的训练方法、装置、设备及存储介质 | |
CN113411456B (zh) | 一种基于语音识别的话音质量评估方法及装置 | |
CN113782044A (zh) | 一种语音增强方法及装置 | |
CN111370016B (zh) | 一种回声消除方法及电子设备 | |
CN114023352B (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
CN113763978A (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
CN111916103A (zh) | 一种音频降噪方法和装置 | |
CN116386655B (zh) | 回声消除模型建立方法和装置 | |
Bekrani et al. | An efficient quasi LMS/newton adaptive algorithm for stereophonic acoustic echo cancellation | |
Bekrani et al. | Neural network based adaptive echo cancellation for stereophonic teleconferencing application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |