CN114038475A - 一种基于语谱补偿的单通道语音增强系统 - Google Patents
一种基于语谱补偿的单通道语音增强系统 Download PDFInfo
- Publication number
- CN114038475A CN114038475A CN202111307973.6A CN202111307973A CN114038475A CN 114038475 A CN114038475 A CN 114038475A CN 202111307973 A CN202111307973 A CN 202111307973A CN 114038475 A CN114038475 A CN 114038475A
- Authority
- CN
- China
- Prior art keywords
- speech
- module
- enhancement
- compensation
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 141
- 238000012549 training Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 17
- 238000000034 method Methods 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010892 electric spark Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于语谱补偿的单通道语音增强系统,包括预增强模块,语谱补偿模块和联合训练模块;所述预增强模块,用于去除语音中的部分干扰信号;所述语谱补偿模块,与所述预增强模块相连接,用于获取语谱补偿的权重矩阵,利用该权重矩阵对预增强的语谱和原始输入的语谱进行融合;所述联合训练模块,与预增强模块和语谱补偿模块相连接,用于联合训练和优化预增强模块与语谱补偿模块。本发明的基于语谱补偿的单通道语音增强系统,具有能够在嘈杂的背景环境中保持增强后的语音有较高的音质、语音清晰、可懂等优点。
Description
技术领域
本发明涉及测距技术领域,特别是涉及一种基于语谱补偿的单通道语音增强系统。
背景技术
语音作为人类交流信息的主要手段之一,语音增强一直在语音信号处理中占据着重要的地位。语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。
实际语音遇到的干扰可以分以下几类:①周期性噪声,例如电气干扰,发动机旋转部分引起的干扰等,这类干扰表现为一些离散的窄频峰;②冲激噪声,例如-些电火花、放电产生的噪声干扰;③宽带噪声,这是指高斯噪声或白噪声一类的噪声,它们的特点是频带宽,几乎覆盖整个语音频带;④语音干扰,例如话筒中拾入其它人的说话,或者传输时遇到串音引起的语音。对付上述各种不同类型的噪声,增强技术亦是不一样的。
语音增强技术的目标是从嘈杂的环境中,将目标干净语音分离出来,去除背景干扰噪声。当一段语音中含有背景噪音,会严重影响语音识别、说话人识别和助听器等系统的性能,因此语音增强技术就显得尤其重要。
在语音增强技术的发展过程中,早期的研究主要是采用基于谱减法、维纳滤波和基于统计的方法等。但是,这些方法对于非平稳噪声效果十分有限,因此也制约着这些方法的应用。近年来,随着计算机技术的发展,基于深度学习的语音增强方法得到了很大的发展,受到了越来越多人的关注。
基于深度学习的语音增强方法利用大量成对的带噪-干净语音数据训练语音增强模型,建立带噪语音特征参数和目标干净语音信号特征参数之间的映射关系,这样对于任意输入的带噪语音信号都可以通过建立的增强模型来输出降噪后的语音信号,从而达到语音增强的目的。采用基于深度学习建模的语音增强方法与传统的方法具有很多优点,比如利用深度学习强大的建模能力,可以很好的学习到带噪语音和目标语音信号之间的映射关系。但是,对于语音增强来说,其最大的问题是增强后的语音存在失真问题。语音失真会丢失很多十分重要的语音信息,严重影响增强后的语音感知质量和可懂度,制约着语音增强的性能。
发明内容
本发明所要解决的技术问题是提供一种基于语谱补偿的单通道语音增强系统,以在嘈杂的背景环境中获得清晰、可懂、音质更好的语音。
为解决上述技术问题,本发明采用如下的技术方案。
一种基于语谱补偿的单通道语音增强系统,包括预增强模块,语谱补偿模块和联合训练模块;
所述预增强模块,用于去除语音中的部分干扰信号;
所述语谱补偿模块,与所述预增强模块相连接,用于获取语谱补偿的权重矩阵λ,利用该权重矩阵λ对预增强的语谱和原始输入的语谱进行融合;
所述联合训练模块,与预增强模块和语谱补偿模块相连接,用于联合训练和优化预增强模块与语谱补偿模块。
本发明的基于语谱补偿的单通道语音增强系统,其结构特征还在于:
优选地,所述预增强模块为利用深度神经网络训练的语音分离系统。
优选地,所述语谱补偿模块利用预增强模块产生的输入获得权重矩阵λ。
优选地,所述语谱补偿模块的输入包括语谱补偿目标函数JSI-SNR。
其中,α表示预增强模块和语谱补偿模块的权重。
本发明的有益效果是:
本发明的一种基于语谱补偿的单通道语音增强系统,包括预增强模块,语谱补偿模块和联合训练模块;所述预增强模块,用于去除语音中的部分干扰信号;所述语谱补偿模块,与所述预增强模块相连接,用于获取语谱补偿的权重矩阵,利用该权重矩阵对预增强的语谱和原始输入的语谱进行融合;所述联合训练模块,与预增强模块和语谱补偿模块相连接,用于联合训练和优化预增强模块与语谱补偿模块。
本发明基于语谱补偿的单通道语音增强系统具有以下有益效果:
(1)本发明中,在预增强模块,利用深度神经网络对于包含噪声的语音进行预增强,以去除大部分的背景噪声,从而实现对输入语音信号预增强的目的;
(2)本发明中,由于预增强模块会产生语音失真进而丢失重要的语音信息,为了找回丢失的信息解决语音失真的问题,在语谱补偿模块,首先估计出语谱补偿的权重矩阵,利用该矩阵对预增强的语谱和原始输入的语谱进行融合,进而实现语谱补偿并对预增强的语音进一步增强的作用;
(3)本发明中,在联合训练模块,采用联合优化预增强模块与语谱补偿模块,可以在保证预增强性能的同时提升谱补偿后语音的质量。因此,分离后的语音比单独基于深度学习的方法更加清晰、可懂,音质更好。
本发明的基于语谱补偿的单通道语音增强系统,具有能够在嘈杂的背景环境中保持增强后的语音有较高的音质、语音清晰、可懂等优点。
附图说明
图1是本发明的基于语谱补偿的单通道语音增强系统的结构示意图;
图2是本发明的基于语谱补偿的单通道语音增强系统中预增强模块的结构示意图;
图3是本发明的基于语谱补偿的单通道语音增强系统中语谱补偿模块的结构示意图;
图4是本发明的基于语谱补偿的单通道语音增强系统中联合训练模块的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,,使本发明的目的、技术方案和优点更加清楚明白,使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。且在附图中,以简化或是方便标示。再者,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
如图1-4,本发明的一种基于语谱补偿的单通道语音增强系统,包括预增强模块,语谱补偿模块和联合训练模块;
所述预增强模块,用于去除语音中的部分干扰信号;
所述语谱补偿模块,与所述预增强模块相连接,用于获取语谱补偿的权重矩阵λ,利用该权重矩阵λ对预增强的语谱和原始输入的语谱进行融合;
所述联合训练模块,与预增强模块和语谱补偿模块相连接,用于联合训练和优化预增强模块与语谱补偿模块。
所述预增强模块为利用深度神经网络训练的语音分离系统。
首先利用预增强模块对带噪语音进行预增强以去除大部分的背景噪声,由于语音失真会丢失很多语音信息,利用语谱补偿模块对预增强的语音和原始输入语音进行语谱补偿,最后利用联合优化方法进一步提高语音增强的音质和可懂度。
预增强模块是去除大部分的干扰信号起到预增强的作用,利用深度神经网络训练得到。预增强模块的输出包括两部分:预增强的掩蔽值和语谱补偿模块的输入。然后利用原始输入语音的幅值谱与预增强的掩蔽值相乘就可以得到估计的目标干净语音的幅值谱在估计的幅值谱和真实的幅值谱之间计算均方误差作为训练目标函数。
如图2是基于语谱补偿的单通道语音增强系统的预增强模块的结构示意图。图2中预增强模块,对输入的带噪语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模。其中,预增强模块是去除大部分的干扰信号起到预增强的作用,利用深度神经网络训练得到,其输出包括两部分:预增强的掩蔽值和语谱补偿模块的输入hin,见下式(1)。
其中,|Y(t,f)|表示输入带噪语音的幅值谱,t和f分别为输入语音的帧数和频率块数;fDNN(*)代表基于深度神经网络的映射函数。为了表述方便,下文中我们将(t,f)省去。
其中,⊙表示点乘符号。
所述语谱补偿模块利用预增强模块产生的输入获得权重矩阵λ。
基于语谱补偿模块,与所述预增强模块连接,主要用于解决预增强模块由于语音失真产生的信息丢失问题。首先利用预增强模块产生的输入为每一个时频单元估计语谱补偿的权重矩阵λ;因为原始输入的语谱没有信息丢失,因此根据该权重矩阵λ,对预增强语音特征和原始输入语音特征进行线性加权进而实现语谱补偿找回因语音失真丢失的语音信息,进一步增强预增强的语音,提升语音增强的性能。
利用语谱补偿后的幅值谱作为最终增强后的特征。接着,利用原始输入语音的相位谱与语谱补偿后的幅值谱进行逆傅里叶变换获得时域上的增强语音。最后,通过计算时域上的增强语音与目标干净语音信号之间的尺度不变的信噪比(SI-SNR)作为该模块的目标函数,去最大化SI-SNR。
图3是基于语谱补偿的单通道语音增强系统的语谱补偿模块的结构示意图,其与所述预增强模块相连接,用于弥补因语音失真带来的信息丢失问题,预增强模块首先将输入的hin通过深度神经网络获取深层表示hmend,见下式(4)。
hmend=fDNN(hin) (4)
然后,对深层表示hmend进行Sigmoid操作,以获取得到语谱补偿的权重矩阵λ,见下式(5)。
其中,σ表示Sigmoid激活函数。
对于,语谱补偿模块的训练目标我们直接定义在时域语音信号上,以尺度不变的信噪比(SI-SNR)作为目标函数JSI-SNR,见下式(8)、(9)和(10)。
所述语谱补偿模块的输入包括语谱补偿目标函数JSI-SNR。
其中,α表示预增强模块和语谱补偿模块的权重。
联合训练模块用于联合优化各个模块,包括:预增强模块和语谱补偿模块。预增强模块的目标函数和语谱补偿模块的目标函数以一定的权重进行线性组合作为最终的目标函数。
图4是基于语谱补偿的单通道语音增强系统的联合训练模块的结构示意图。其与预增强模块和语谱补偿模块相连接,用于联合优化各个模块。总的训练目标函数J见上式(11)。
其中,α表示预增强模块和语谱补偿模块的权重。最终,通过联合训练的方式优化整个语音增强系统。
首先训练一个基于深度学习的语音分离系统作为预增强模块,用于用于对输入的带噪语音进行预增强,去除大部分的噪声信号。
语谱补偿模块,与预增强模块相连,用于获取语谱补偿的权重矩阵,对预增强的语音进行语谱补偿。利用该权重矩阵对预增强的语谱和原始输入的语谱进行融合,进而实现语谱补偿并对预增强的语音进一步增强的作用,找回因语音失真问题丢失的语音信息。
联合训练模块,用于联合训练和优化预增强模块和语谱补偿模块。
本发明基于语谱补偿的单通道语音增强系统具有以下有益效果:
(1)本发明中,在预增强模块,利用深度神经网络对于包含噪声的语音进行预增强,以去除大部分的背景噪声,从而实现对输入语音信号预增强的目的;
(2)本发明中,由于预增强模块会产生语音失真进而丢失重要的语音信息,为了找回丢失的信息解决语音失真的问题,在语谱补偿模块,首先估计出语谱补偿的权重矩阵,利用该矩阵对预增强的语谱和原始输入的语谱进行融合,进而实现语谱补偿并对预增强的语音进一步增强的作用;
(3)本发明中,在联合训练模块,采用联合优化预增强模块与语谱补偿模块,可以在保证预增强性能的同时提升谱补偿后语音的质量。因此,分离后的语音比单独基于深度学习的方法更加清晰、可懂,音质更好。
本发明利用预增强和语谱补偿对输入的带噪语音进行建模,使得增强后的语音更加保真,感知质量和可懂度更高,提高了语音增强系统的性能。
本发明基于语谱补偿的单通道语音增强系统中,构建基于深度学习的预增强模块,对输入的带噪语音进行预增强从而去除大部分的噪声信号,为了解决语音失真问题,我们利用语谱补偿模块对预增强的语音和原始输入语音进行融合,进而找回因失真丢失的语音信息,最后利用联合优化方法进一步提升语音增强模型的性能。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.一种基于语谱补偿的单通道语音增强系统,其特征在于,包括预增强模块,语谱补偿模块和联合训练模块;
所述预增强模块,用于去除语音中的部分干扰信号;
所述语谱补偿模块,与所述预增强模块相连接,用于获取语谱补偿的权重矩阵λ,利用该权重矩阵λ对预增强的语谱和原始输入的语谱进行融合;
所述联合训练模块,与预增强模块和语谱补偿模块相连接,用于联合训练和优化预增强模块与语谱补偿模块。
2.根据权利要求1所述的基于语谱补偿的单通道语音增强系统,其特征在于,所述预增强模块为利用深度神经网络训练的语音分离系统。
5.根据权利要求1所述的基于语谱补偿的单通道语音增强系统,其特征在于,所述语谱补偿模块利用预增强模块产生的输入获得权重矩阵λ。
9.根据权利要求8所述的基于语谱补偿的单通道语音增强系统,其特征在于,所述语谱补偿模块的输入包括语谱补偿目标函数JSI-SNR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307973.6A CN114038475A (zh) | 2021-11-05 | 2021-11-05 | 一种基于语谱补偿的单通道语音增强系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307973.6A CN114038475A (zh) | 2021-11-05 | 2021-11-05 | 一种基于语谱补偿的单通道语音增强系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114038475A true CN114038475A (zh) | 2022-02-11 |
Family
ID=80143072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111307973.6A Pending CN114038475A (zh) | 2021-11-05 | 2021-11-05 | 一种基于语谱补偿的单通道语音增强系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038475A (zh) |
-
2021
- 2021-11-05 CN CN202111307973.6A patent/CN114038475A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN112863535B (zh) | 一种残余回声及噪声消除方法及装置 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN104835503A (zh) | 一种改进gsc自适应语音增强方法 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
CN116030823B (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Xiong et al. | Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
CN113782011A (zh) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 | |
CN112530451A (zh) | 基于去噪自编码器的语音增强方法 | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
CN111462770A (zh) | 一种基于lstm的后期混响抑制方法及系统 | |
CN116665681A (zh) | 一种基于组合滤波的雷声识别方法 | |
CN114038475A (zh) | 一种基于语谱补偿的单通道语音增强系统 | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |