CN110136741B - 一种基于多尺度上下文的单通道语音增强方法 - Google Patents
一种基于多尺度上下文的单通道语音增强方法 Download PDFInfo
- Publication number
- CN110136741B CN110136741B CN201910411692.1A CN201910411692A CN110136741B CN 110136741 B CN110136741 B CN 110136741B CN 201910411692 A CN201910411692 A CN 201910411692A CN 110136741 B CN110136741 B CN 110136741B
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- scale
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 28
- 239000000126 substance Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000010339 dilation Effects 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种基于多尺度上下文的单通道语音增强方法,本发明涉及单通道语音增强方法。本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题。过程为:步骤一、对语音进行标准化;步骤二、计算全卷积网络第一层语音特征;步骤三、计算全卷积网络第l层语音特征,l取整数;步骤四、综合多层语音特征,构成多尺度语音特征;步骤五、根据多尺度语音特征,预测纯净语音波形。本发明用于语音增强领域。
Description
技术领域
本发明涉及单通道语音增强方法,具体是一种直接在时域上进行的基于多尺度上下文信息的单通道语音增强方法。
背景技术
随着语音信号处理技术的迅猛发展,计算机需要处理的语音信号种类和环境也急剧增加。如何能够自动、准确的将语音从纷繁复杂的噪声环境中提取出来并进行增强,就成为一个既重要又具有挑战性的研究课题。语音增强技术一方面作为语音识别、说话人识别,以及关键词识别等语音信号处理技术的前端处理,能够显著提升这些技术对噪声的鲁棒性;另一方面能够提升噪声环境下听者主观的语音可懂度和语音质量。因此,语音增强在实际生活中具有广阔的应用前景。单通道语音增强技术是指只使用单麦克风录制的语音信号,将目标语音从噪声环境中提取并进行增强的技术。相对于多通道语音增强技术,单通道技术具有对设备要求低、实用性强的优点。
近年来,单通道语音增强被看作频域的有监督学习任务,并获得了显著进步。然而将其视为频域的有监督学习任务存在着如下问题:(1)频域上的语音增强仅对语音频谱进行增强,而语音信号是一种时域信号,还需要将增强后的频域信号转换到时域,这一转换过程中引入了带有噪声干扰的相位,这样的带噪相位与增强后的频谱不匹配,从而引入了语音畸变,进而影响了语音质量;(2)频域上的语音增强技术中,采用的语音特征多是基于人耳听觉机理的特征,并非专门为语音增强任务设计的特征,这会造成输入特征和语音增强任务的不匹配,影响增强效果;(3)语音中包含时间上不同尺度的信息,既有大尺度的语义信息,也有小尺度的语音细节纹理,目前的语音增强方法并没有很好地考虑并利用这些多尺度信息。
发明内容
本发明是为了解决现有单通道语音增强中,带噪相位与增强频谱不匹配、语音特征和语音增强任务不匹配、以及未有效考虑语音中多尺度上下文信息的问题,而提出一种基于多尺度上下文的单通道语音增强方法。
一种基于多尺度上下文的单通道语音增强方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形。
本发明的有益效果为:
本发明省略频域与时域之间的转换,直接研究在时域上进行的基于多尺度上下文信息的单通道语音增强方法,既有理论意义又有现实意义。
本发明针对单通道语音增强,提出了一种更加直接,高效的时域语音增强方法,提高语音听觉上的质量和可懂度。
对语音的时域表示(语音波形),采用一种全新设计的深度全卷积神经网络,利用语音的多尺度上下文信息对语音进行增强。本发明神经网络以带噪语音波形作为输入,在网络的底层直接对语音波形进行建模,并提取语音特征。随后在网络的高层,利用这些语音特征进行语音增强。这样就将语音特征的提取过程与增强模型融合到一个神经网络中,便可以同时学习增强模型和语音特征提取过程,从而避免了语音特征和语音增强任务不匹配的问题。
本发明中的神经网络以增强后的语音波形作为输出,不再根据频谱和相位合成语音。由于语音波形中既包含频谱信息也包含相位信息,这样便同时对语音的频谱和相位进行了增强,从而避免了带噪相位与增强频谱不匹配的问题。
本发明中的神经网络由多个膨胀卷积层(Dilated Convolution)堆叠而成,随着层数的加深,每一层卷积的感受野大小呈指数级增长。对于较浅的卷积层,其感受野较小更容易学习到高频信息(短时上下文);对于较深的卷积层,其感受野较大更容易学习到低频信息(长时上下文)。最终将来自不同深度卷积层的输出汇集起来,便得到了不同尺度的上下文信息,利用这些上下文信息可以更好地进行语音增强。从而解决了多尺度上下文信息利用不足的问题。
如表1所示,对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比都优于带噪语音在语音可懂度、语音质量和信噪比。
附图说明
图1为网络中使用到的一维膨胀卷积的示意图,图中给出了某层卷积的输出单元对应的低层感受野大小,p(1)为第一层感受野大小,p(2)为第二层感受野大小,p(3)为第三层感受野大小;
图2为全卷积网络的结构图,Conventional Conv为传统卷机层,1×1为卷积核大小,channel为通道,linear为线性激活,Dilated Conv为膨胀卷积,r为膨胀系数,pReLU为激活函数。
具体实施方式
具体实施方式一:本实施方式一种基于多尺度上下文的单通道语音增强方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中对语音进行标准化;具体过程为:
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤二中计算全卷积网络第一层语音特征;具体过程为:
其中,表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数相乘的信号中的对应采样点,p表示中间变量;
其中,αc为可学习参数,初始值为0.1;
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:
其中,表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,表示第l层输入的所有C个通道对应的卷积核的集合,表示第l层输入的第u个通道对应的卷积核,q表示的下标,表示第l层输入的第u个通道,p表示的下标;
依序重复执行步骤三9次,得到语音特征L(2)、L(3)、L(3)、L(4)、L(5)、L(6)、L(7)、L(8)、L(9)、L(10),再加上L(1)共计10种尺度的语音特征。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述步骤四中综合多层语音特征,构成多尺度语音特征;具体过程为:
将语音特征L(4)、L(6)、L(8)、L(10)按照通道合并在一起,共得到4种不同尺度的语音特征,每种尺度C种特征,共得到4C种不同的语音特征,分别代表了不同尺度的上下文信息,一同构成了多尺度语音特征U。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时不变预测器,预测纯净语音波形;过程为:
根据多尺度语音特征U,可以通过1维卷积操作预测纯净语音波形:
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;L(out)(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点,Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C,wc为时不变预测器第c个通道对应的可学习权重,bc为时不变预测器第c个通道对应的偏置;
对所有N个采样点进行预测,得到预测的纯净语音波形。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至五之一不同的是,所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时变预测器,预测纯净语音波形;过程为:
将多尺度语音特征U作为时变预测器的输入,预测每一个采样点的4C个加权系数:
其中,W为时变预测器的学习权重,bc为时变预测器第c个通道对应的偏置,bg为时变预测器的偏置,v、h为多尺度语音特征U中通道的下标,1≤v≤4C,1≤g≤4C;g为时变预测器学习权重W输出维度的下标,1≤g≤4C;表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点;
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C;
从而预测出纯净语音波形的第i个采样点;
对所有N个采样点进行预测,得到预测的纯净语音波形。
其它步骤及参数与具体实施方式一至五之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例具体是按照以下步骤制备的:
对不同带噪语音信噪比进行语音可懂度、语音质量和信噪比的评价,如表1所示,在-12dB带噪语音信噪比下,时不变预测器的语音可懂度为0.49,语音质量为1.25,信噪比为1.94,时变预测器的语音可懂度为0.48,语音质量为1.29,信噪比为2.24,带噪语音的语音可懂度为0.43,语音质量为1.05,信噪比为-12.00,可见在-12dB、-6dB、0dB、6dB、12dB带噪语音信噪比下,时不变预测器和时变预测器在语音可懂度、语音质量和信噪比的值都优于带噪语音在语音可懂度、语音质量和信噪比的值。
表1
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (5)
1.一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述方法具体过程为:
步骤一、对语音进行标准化;
步骤二、计算全卷积网络第一层语音特征;
步骤三、计算全卷积网络第l层语音特征,l取整数;
步骤四、综合多层语音特征,构成多尺度语音特征;
步骤五、根据多尺度语音特征,预测纯净语音波形;
所述步骤一中对语音进行标准化;具体过程为:
所述步骤二中计算全卷积网络第一层语音特征;具体过程为:
其中,表示全卷机网络第一层卷积后得到的中间信号,i表示其第i个采样点;*r表示膨胀系数为r的卷积操作;c表示第c个通道,1≤c≤C,C表示每一层通道总数;q表示卷积核的下标,q∈[-m,m]∩Z,m表示卷积核的大小,Z表示整数集合;表示膨胀卷积参数,q表示其下标;S(p)表示与膨胀卷积参数相乘的信号中的对应采样点,p表示中间变量;
其中,αc为可学习参数,初始值为0.1;
2.根据权利要求1所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤三中计算全卷积网络第l层语音特征,l取整数;具体过程为:
其中,表示全卷机网络第l层卷积后得到的中间信号的第i个采样点,表示第l层输入的所有C个通道对应的卷积核的集合,表示第l层输入的第u个通道对应的卷积核,q表示的下标,表示第l层输入的第u个通道,p表示的下标;
依序重复执行步骤三9次,得到语音特征L(2)、L(3)、L(3)、L(4)、L(5)、L(6)、L(7)、L(8)、L(9)、L(10),再加上L(1)共计10种尺度的语音特征。
3.根据权利要求2所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤四中综合多层语音特征,构成多尺度语音特征;具体过程为:
将语音特征L(4)、L(6)、L(8)、L(10)按照通道合并在一起,共得到4种不同尺度的语音特征,每种尺度C种特征,共得到4C种不同的语音特征,构成了多尺度语音特征U。
5.根据权利要求4所述一种基于多尺度上下文的单通道语音增强方法,其特征在于:所述步骤五中根据多尺度语音特征,预测纯净语音波形;具体过程为:
基于时变预测器,预测纯净语音波形;过程为:
将多尺度语音特征U作为时变预测器的输入,预测每一个采样点的4C个加权系数:
其中,W为时变预测器的学习权重,bc为时变预测器第c个通道对应的偏置,bg为时变预测器的偏置,v、h为多尺度语音特征U中通道的下标,1≤v≤4C,1≤g≤4C;g为时变预测器学习权重W输出维度的下标,1≤g≤4C;表示时变预测器第c个通道预测出的纯净语音波形中的第i个采样点;
其中,Y(i)表示全卷积网络预测出的纯净语音波形中的第i个采样点;Uc,i表示多尺度语音特征第c个通道第i个采样点,1≤c≤4C;
从而预测出纯净语音波形的第i个采样点;
对所有N个采样点进行预测,得到预测的纯净语音波形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910411692.1A CN110136741B (zh) | 2019-05-16 | 2019-05-16 | 一种基于多尺度上下文的单通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910411692.1A CN110136741B (zh) | 2019-05-16 | 2019-05-16 | 一种基于多尺度上下文的单通道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110136741A CN110136741A (zh) | 2019-08-16 |
CN110136741B true CN110136741B (zh) | 2021-07-13 |
Family
ID=67574936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910411692.1A Active CN110136741B (zh) | 2019-05-16 | 2019-05-16 | 一种基于多尺度上下文的单通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110136741B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269305B (zh) * | 2021-05-20 | 2024-05-03 | 郑州铁路职业技术学院 | 一种加强记忆的反馈语音强化方法 |
CN113936680B (zh) * | 2021-10-08 | 2023-08-08 | 电子科技大学 | 基于多尺度信息感知卷积神经网络的单通道语音增强方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10373610B2 (en) * | 2017-02-24 | 2019-08-06 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
US10643153B2 (en) * | 2017-04-24 | 2020-05-05 | Virginia Tech Intellectual Properties, Inc. | Radio signal identification, identification system learning, and identifier deployment |
WO2018227169A1 (en) * | 2017-06-08 | 2018-12-13 | Newvoicemedia Us Inc. | Optimal human-machine conversations using emotion-enhanced natural speech |
CN107958271A (zh) * | 2017-12-06 | 2018-04-24 | 电子科技大学 | 基于膨胀卷积的多尺度特征的皮肤病变深度学习识别系统 |
-
2019
- 2019-05-16 CN CN201910411692.1A patent/CN110136741B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110136741A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491407B (zh) | 语音降噪的方法、装置、电子设备及存储介质 | |
Chen et al. | Fullsubnet+: Channel attention fullsubnet with complex spectrograms for speech enhancement | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
Trigeorgis et al. | Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network | |
CN110120227B (zh) | 一种深度堆叠残差网络的语音分离方法 | |
CN108766419B (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN110136741B (zh) | 一种基于多尺度上下文的单通道语音增强方法 | |
Wang et al. | Deep learning assisted time-frequency processing for speech enhancement on drones | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN112767927A (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
JP2024038369A (ja) | 深層フィルタを決定するための方法および装置 | |
WO2020170907A1 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
CN110675888A (zh) | 一种基于RefineNet和评价损失的语音增强方法 | |
Hou et al. | Multi-task learning for end-to-end noise-robust bandwidth extension | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Abdulatif et al. | Investigating cross-domain losses for speech enhancement | |
Girin et al. | Audio source separation into the wild | |
CN112634937A (zh) | 一种无需数字特征提取计算的声音分类方法 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
WO2023102930A1 (zh) | 语音增强方法、电子设备、程序产品及存储介质 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
Mondal et al. | Deep learning technique based real-time audio event detection experiment in a distributed system architecture | |
Baghel et al. | Overlapped speech detection using phase features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |