CN112185405A - 一种基于差分运算和联合字典学习的骨导语音增强方法 - Google Patents
一种基于差分运算和联合字典学习的骨导语音增强方法 Download PDFInfo
- Publication number
- CN112185405A CN112185405A CN202010946177.6A CN202010946177A CN112185405A CN 112185405 A CN112185405 A CN 112185405A CN 202010946177 A CN202010946177 A CN 202010946177A CN 112185405 A CN112185405 A CN 112185405A
- Authority
- CN
- China
- Prior art keywords
- time
- bone conduction
- voice
- frequency spectrum
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000000988 bone and bone Anatomy 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 122
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种基于差分运算和联合字典学习的骨导语音增强方法。训练阶段,在室内无噪环境中,用骨导麦克风和气导麦克风组成的双麦克风阵列同步采集训练语音;对骨导语音和气导语音的训练信号做短时傅里叶变换得到时频谱幅度,计算它们的差分时频谱幅度;在时频谱上学习骨导语音时频谱幅度和差分时频谱幅度的联合语音字典。检测阶段,对于骨导语音进行短时傅里叶变换得到时频谱幅度和相位,将幅度在联合语音字典的骨导语音子字典上进行投影,用得到的最优稀疏表示系数与联合语音字典的差分时频谱幅度子字典一起重建差分语音时频谱幅度,用于补偿骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号。
Description
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种基于差分运算和联合字典学习的骨导语音增强方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到环境噪声的污染,人耳和包含空气传导麦克风(简称气导麦克风)的相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是人们试图解决的问题。气导麦克风接收的语音简称为气导语音。
骨导麦克风是另一种非声传感器,其语音传输通道能够屏蔽环境噪声,抗噪性能好。然而人体传导的低通性能以及传感器工艺水平的限制等因素,导致骨导麦克风接收的语音清晰度低,听起来比较沉闷。骨导麦克风接收的语音简称骨导语音。
针对骨导语音的增强对于在强噪声环境下的语音通信应用具有重要的现实意义。
发明内容
本发明提供一种基于差分运算和联合字典学习的骨导语音增强方法。尽管骨导麦克风具有抗噪性能好的特点,但其语音的时频谱信息不丰富,听起来比较沉闷。针对这一问题,专门设计了骨导麦克风和气导麦克风组成的异型双麦克风阵列,同步采集说话人训练语音,构建骨导语音和气导语音的联合训练集,对骨导语音和气导语音做短时傅里叶变换得到其时频谱幅度,考虑到气导语音的时频谱比骨导语音时频谱信息更丰富,设计了特定的差分公式计算气导语音与骨导语音的差分时频谱幅度;充分利用骨导语音时频谱幅度和差分时频谱幅度的对应关系以及语音的稀疏性,得到反映骨导语音时频谱幅度和差分时频谱幅度对应特征的联合语音字典。用待检测骨导语音在骨导语音子字典上投影得到的最优稀疏表示系数与差分时频谱幅度子字典一起重建差分时频谱幅度,该重建气导语音时频谱具有更丰富的频谱信息,用于补充骨导语音的缺失信息,达到提高骨导语音的清晰度的目的。
本发明的目的是通过以下技术方案实现的:
一种基于差分运算和联合字典学习的骨导语音增强方法,包括:
训练阶段,在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列同步采集训练语音,构建训练集;对骨导语音和气导语音做短时傅里叶变换,提取其时频谱的幅度,设计特定的差分公式计算气导语音与骨导语音的差分时频谱幅度;充分利用骨导语音时频谱幅度和差分时频谱幅度的对应关系以及语音的稀疏性,得到反映骨导语音时频谱幅度和差分时频谱幅度对应特征的联合语音字典。
检测阶段,对于待检测骨导语音进行短时傅里叶变换,提取时频谱的幅度和相位;将时频谱幅度在联合语音字典中的骨导语音子字典上进行投影,得到最优稀疏表示系数;用得到稀疏表示系数与联合语音字典的差分时频谱幅度子字典一起重建差分时频谱幅度,并与待检测骨导语音相位一起来增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号。
由上述本发明提供的技术方案可以看出,本方法在训练阶段,首先在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列同步采集训练语音,构建训练集,提供了时间对齐的骨导语音和差分语音,便于揭示它们在时间域上的异同性;其次考虑到气导语音的时频谱比骨导语音时频谱信息更丰富,设计了特定的差分公式计算气导语音与骨导语音的差分时频谱幅度,充分利用了它们的时频谱幅度对应关系以及语音稀疏性学习出骨导语音时频谱幅度和差分时频谱幅度特征关系的联合语音字典;本方法在检测阶段,对于待检测骨导语音,进行短时傅里叶变换,提取时频谱的幅度和相位,将时频谱幅度在联合语音字典的骨导语音子字典上进行投影,用得到的最优稀疏表示系数与联合语音字典的差分时频谱幅度子字典一起重建差分语音时频谱的幅度,用于补偿骨导语音时频谱幅度,结合待检测骨导语音时频谱相位增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,能够为骨导语音补充由于人体传导低通性和传感器工艺水平限制等因素引起的缺失信息,提升了骨导语音信号的听觉质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于差分运算和联合字典学习的骨导语音增强方法的流程图。
图2为骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集系统示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音增强算法,本发明实施例提供一种基于差分运算和联合字典学习的骨导语音增强方法,本方法在训练阶段,首先在室内无噪环境中,用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建训练集,提供了时间对齐的骨导语音和气导语音,便于揭示骨导语音和差分语音在时间域上的异同性;其次考虑到气导语音的时频谱比骨导语音时频谱信息更丰富,设计了特定的差分公式计算气导语音与骨导语音的差分时频谱幅度,充分利用了它们的时频谱幅度对应关系以及语音稀疏性学习出骨导语音时频谱幅度和差分时频谱幅度特征关系的联合语音字典;本方法在检测阶段,对于待检测骨导语音,进行短时傅里叶变换,提取时频谱的幅度和相位,将时频谱幅度在联合语音字典的骨导语音子字典上进行投影,用得到稀疏表示系数与联合语音字典的差分语音子字典一起重建差分时频谱幅度,用于补偿骨导语音时频谱幅度,结合待检测骨导语音时频谱相位增强骨导语音时频谱,能够为骨导语音补充由于人体传导的低通性和传感器工艺水平限制等因素引起的缺失信息,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提升了骨导语音信号的听觉质量。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风(简称气导麦克风)组成的异型双麦克风阵列同步采集训练语音,xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱(简称时频谱),即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、按下式计算|Xtr(tf,f)|和|Ytr(tf,f)|的差分时频谱幅度:
|Δtr(tf,f)|=U{|Ytr(tf,f)|-|Xtr(tf,f)|}
其中,U{}为单位阶跃函数算子;
步骤14、将|Xtr(tf,f)|和|Δtr(tf,f)|组织起来,形成联合矩阵通过稀疏约束学习算法学习出骨导语音时频谱幅度和差分时频谱幅度的对应关系和稀疏特征,得到反映骨导语音时频谱幅度和差分时频谱幅度特征关系的联合语音字典字典的学习过程如下:
其中,DX和DΔ分别是骨导语音时频谱幅度和差分时频谱幅度的子字典;C是骨导语音时频谱幅度和差分时频谱幅度的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息留待后面进一步使用;
步骤22、把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,估计差分时频谱幅度;
利用稀疏表示系数E*与联合语音字典的差分时频谱幅度子字典DΔ,重建出差分时频谱幅度,如下式所示:
步骤24,对骨导语音时频谱幅度的增强;
首先,用估计的差分时频谱幅度补偿骨导语音时频谱幅度,如下式所示:
然后,结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
其中ISTFT{}为短时傅里叶逆变换算子。
本发明实施例上述方案,在训练阶段,在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列系统同步采集训练语音,得到骨导语音和气导语音,构建训练集;对骨导语音和气导语音的训练信号分别做短时傅里叶变换,提取其时频谱的幅度,设计特定的差分公式计算气导语音与骨导语音的差分时频谱幅度,充分利用了它骨导语音时频谱幅度和差分时频谱幅度对应关系以及语音稀疏性学习出骨导语音时频谱幅度和差分时频谱幅度特征关系的联合语音字典。在检测阶段,对于骨导语音,进行短时傅里叶变换,提取时频谱的幅度,将其在联合语音字典的骨导语音子字典上进行投影,用得到稀疏表示系数与联合语音字典的差分语音子字典一起重建差分语音时频谱的幅度,用于补偿骨导语音时频谱幅度,结合待检测骨导语音时频谱相位增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提高了语音的清晰度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (2)
1.一种基于差分运算和联合字典学习的骨导语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风(简称气导麦克风)组成的异型双麦克风阵列同步采集训练语音,xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱(简称时频谱),即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、按下式计算|Xtr(tf,f)|和|Ytr(tf,f)|的差分时频谱幅度:
|Δtr(tf,f)|=U{|Ytr(tf,f)|-|Xtr(tf,f)|}
其中,U{}为单位阶跃函数算子;
步骤14、将|Xtr(tf,f)|和|Δtr(tf,f)|组织起来,形成联合矩阵通过稀疏约束学习算法学习出骨导语音时频谱幅度和差分时频谱幅度的对应关系和稀疏特征,得到反映骨导语音时频谱幅度和差分时频谱幅度特征关系的联合语音字典字典的学习过程如下:
其中,DX和DΔ分别是骨导语音时频谱幅度和差分时频谱幅度的子字典;C是骨导语音时频谱幅度和差分时频谱幅度的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息;
步骤22、把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,估计差分时频谱幅度;
利用稀疏表示系数E*与联合语音字典的差分时频谱幅度子字典DΔ,重建出差分时频谱幅度,如下式所示:
步骤24,对骨导语音时频谱幅度的增强;
首先,用估计的差分时频谱幅度补偿骨导语音时频谱幅度,如下式所示:
然后,结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
其中ISTFT{}为短时傅里叶逆变换算子。
2.根据权利要求1所述的一种基于差分运算和联合字典学习的骨导语音增强方法,其特征在于,训练阶段,在室内无噪环境中,用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和差分语音的联合训练集;对骨导语音和气导语音做短时傅里叶变换得到其时频谱幅度,并计算出差分时频谱幅度;充分利用骨导语音时频谱幅度和差分时频谱幅度的对应关系以及语音的稀疏性,得到反映骨导语音时频谱幅度和差分时频谱幅度对应特征的联合语音字典;检测阶段,对于骨导语音进行短时傅里叶变换得到时频谱幅度和相位,将幅度在联合语音字典的骨导语音子字典上进行投影,用得到的最优稀疏表示系数与联合语音字典的差分语音子字典一起重建差分时频谱幅度,用于补偿骨导语音时频谱幅度,结合待检测骨导语音时频谱相位增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,从而提高语音清晰度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010946177.6A CN112185405B (zh) | 2020-09-10 | 2020-09-10 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010946177.6A CN112185405B (zh) | 2020-09-10 | 2020-09-10 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112185405A true CN112185405A (zh) | 2021-01-05 |
CN112185405B CN112185405B (zh) | 2024-02-09 |
Family
ID=73921746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010946177.6A Active CN112185405B (zh) | 2020-09-10 | 2020-09-10 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112185405B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927709A (zh) * | 2021-02-04 | 2021-06-08 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN116030823A (zh) * | 2023-03-30 | 2023-04-28 | 北京探境科技有限公司 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN111508518A (zh) * | 2020-05-18 | 2020-08-07 | 中国科学技术大学 | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 |
CN111507418A (zh) * | 2020-04-21 | 2020-08-07 | 中国科学技术大学 | 彩瓦质量检测方法 |
-
2020
- 2020-09-10 CN CN202010946177.6A patent/CN112185405B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN111507418A (zh) * | 2020-04-21 | 2020-08-07 | 中国科学技术大学 | 彩瓦质量检测方法 |
CN111508518A (zh) * | 2020-05-18 | 2020-08-07 | 中国科学技术大学 | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 |
Non-Patent Citations (1)
Title |
---|
张雄伟;郑昌艳;曹铁勇;杨吉斌;邢益搏;: "骨导麦克风语音盲增强技术研究现状及展望", 数据采集与处理, no. 05 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927709A (zh) * | 2021-02-04 | 2021-06-08 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN112927709B (zh) * | 2021-02-04 | 2022-06-14 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN116030823A (zh) * | 2023-03-30 | 2023-04-28 | 北京探境科技有限公司 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
CN116030823B (zh) * | 2023-03-30 | 2023-06-16 | 北京探境科技有限公司 | 一种语音信号处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112185405B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
KR101153093B1 (ko) | 다감각 음성 향상을 위한 방법 및 장치 | |
RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
EP2643834B1 (en) | Device and method for producing an audio signal | |
EP1891624B1 (en) | Multi-sensory speech enhancement using a speech-state model | |
JP5665977B2 (ja) | 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法 | |
US7346504B2 (en) | Multi-sensory speech enhancement using a clean speech prior | |
CN111508518B (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
CN111696568B (zh) | 一种半监督瞬态噪声抑制方法 | |
CN112185405A (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
US20070150263A1 (en) | Speech modeling and enhancement based on magnitude-normalized spectra | |
Siam et al. | A novel speech enhancement method using Fourier series decomposition and spectral subtraction for robust speaker identification | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
Zou et al. | Speech signal enhancement based on MAP algorithm in the ICA space | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
Hamid et al. | Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT) | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering | |
CN117014761B (zh) | 交互式脑控耳机控制方法及装置、脑控耳机、存储介质 | |
Aarabi et al. | The fusion of visual lip movements and mixed speech signals for robust speech separation | |
Ullah et al. | Advanced transient noise reduction in speech signals via semi-supervised signal fusion | |
CN114267357A (zh) | 一种基于联合训练的端到端鲁棒语音识别系统 | |
CN114038475A (zh) | 一种基于语谱补偿的单通道语音增强系统 | |
CN116758930A (zh) | 语音增强方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |