CN111968627A - 一种基于联合字典学习和稀疏表示的骨导语音增强方法 - Google Patents

一种基于联合字典学习和稀疏表示的骨导语音增强方法 Download PDF

Info

Publication number
CN111968627A
CN111968627A CN202010810196.6A CN202010810196A CN111968627A CN 111968627 A CN111968627 A CN 111968627A CN 202010810196 A CN202010810196 A CN 202010810196A CN 111968627 A CN111968627 A CN 111968627A
Authority
CN
China
Prior art keywords
voice
bone conduction
time
dictionary
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010810196.6A
Other languages
English (en)
Other versions
CN111968627B (zh
Inventor
叶中付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010810196.6A priority Critical patent/CN111968627B/zh
Publication of CN111968627A publication Critical patent/CN111968627A/zh
Application granted granted Critical
Publication of CN111968627B publication Critical patent/CN111968627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Abstract

本发明提供一种基于联合字典学习和稀疏表示的骨导语音增强方法。训练阶段,在室内无噪环境中,用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导语音和气导语音的训练信号做短时傅里叶逆变换得到时频谱幅度,在时频谱上学习骨导语音和气导语音的联合语音字典。检测阶段,对于骨导语音进行短时傅里叶变换得到时频谱幅度和相位,将幅度在联合语音字典的骨导语音子字典上进行投影,用得到的稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱幅度,并提供两种方法用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,从而提高语音清晰度。

Description

一种基于联合字典学习和稀疏表示的骨导语音增强方法
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种基于联合字典学习和稀疏表示的骨导语音增强方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到环境噪声的污染,人耳和包含空气传导麦克风(简称气导麦克风)的相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是人们试图解决的问题。气导麦克风接收的语音简称为气导语音。
骨导麦克风是另一种非声传感器,其语音传输通道能够屏蔽环境噪声,抗噪性能好。然而人体传导的低通性能以及传感器工艺水平的限制等因素,导致骨导麦克风接收的语音清晰度低,听起来比较沉闷。骨导麦克风接收的语音简称骨导语音。
针对骨导语音的增强对于在强噪声环境下的语音通信应用具有重要的现实意义。
发明内容
尽管骨导麦克风具有抗噪性能好的特点,但其语音的时频谱信息不丰富,听起来比较沉闷。针对这一问题,本发明提供一种基于联合字典学习和稀疏表示的骨导语音增强方法。专门设计了骨导麦克风和气导麦克风组成的异型双麦克风阵列,同步采集说话人训练语音,构建骨导语音和气导语音的联合训练集,在时频谱上学习骨导语音和气导语音对应特征的联合语音字典,骨导语音子字典和气导语音子字典通过稀疏表示系数约束,在子字典的对应原子上,气导语音子字典比骨导语音子字典的频谱信息更丰富。用待检测骨导语音在骨导语音子字典上投影得到的最优稀疏表示系数与气导语音子字典一起重建气导语音时频谱,该重建气导语音时频谱具有更丰富的频谱信息,用于补充骨导语音的缺失信息,达到提高骨导语音的清晰度的目的。
本发明的目的是通过以下技术方案实现的:
一种基于联合字典学习和稀疏表示的骨导语音增强方法,包括:
训练阶段,在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导语音和气导语音的训练信号分别做短时傅里叶逆变换,提取其时频谱的幅度,在时频谱上学习骨导语音和气导语音对应特征的联合语音字典。
检测阶段,对于待检测骨导语音进行短时傅里叶变换,提取时频谱的幅度和相位;将时频谱幅度在联合语音字典中的骨导语音子字典上进行投影,得到最优稀疏表示系数;用得到稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并与待检测骨导语音相位一起来增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号。
由上述本发明提供的技术方案可以看出,本方法在训练阶段,首先在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集,提供了时间对齐的骨导语音和气导语音,便于揭示它们在时间域上的异同性;其次用短时傅里叶变换将训练集中对应的骨导语音和气导语音信号变换成时频谱,充分利用了它们的时频域幅度对应关系以及语音稀疏性学习出骨导语音和气导语音特征关系的联合语音字典;本方法在检测阶段,对于待检测骨导语音,进行短时傅里叶变换,提取时频谱的幅度和相位,将时频谱幅度在联合语音字典的骨导语音子字典上进行投影,用得到的最优稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,进一步结合待检测骨导语音相位,通过两种途径增强骨导语音的时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,能够为骨导语音补充由于人体传导低通性和传感器工艺水平限制等因素引起的缺失信息,提升了骨导语音信号的听觉质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于联合字典学习和稀疏表示的骨导语音增强方法的流程图。
图2为骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集系统示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音增强算法,本发明实施例提供一种基于联合字典学习和稀疏表示的骨导语音增强方法,本方法在训练阶段,首先在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列系统同步采集训练语音,构建骨导语音和气导语音的联合训练集,提供了时间对齐的骨导语音和气导语音,便于揭示它们在时间域上的异同性;其次用短时傅里叶变换将训练集中对应的骨导语音和气导语音信号变换成时频谱,充分利用了它们的时频域幅度对应关系以及语音稀疏性学习出骨导语音和气导语音的联合语音字典;本方法在检测阶段,对于待检测骨导语音,进行短时傅里叶变换,提取时频谱的幅度和相位,将时频谱幅度在联合语音字典的骨导语音子字典上进行投影,用得到稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,进一步结合待检测骨导语音相位,通过两种途径增强骨导语音的时频谱,能够为骨导语音补充由于人体传导的低通性和传感器工艺水平限制等因素引起的缺失信息,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提升了骨导语音信号的听觉质量。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风(简称气导麦克风)组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集
Figure BDA0002630685550000031
其中xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱(简称时频谱),即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、将|Xtr(tf,f)|和|Ytr(tf,f)|组织起来,形成联合矩阵
Figure BDA0002630685550000041
通过稀疏约束学习算法学习出骨导语音和气导语音时频谱幅度的对应关系和稀疏特征,得到反映骨导语音和气导语音时频谱幅度特征关系的联合语音字典
Figure BDA0002630685550000042
字典的学习过程如下:
Figure BDA0002630685550000043
其中,DX和DY分别是骨导语音xtr(t)和气导语音ytr(t)时频谱幅度的子字典;C是骨导语音和气导语音的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,
Figure BDA0002630685550000044
代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息留待后面进一步使用;
步骤22,把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
Figure BDA0002630685550000045
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,
Figure BDA0002630685550000046
代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,对气导语音时频谱幅度的估计;
利用稀疏表示系数E*与联合语音字典的气导语音子字典DY一起,重建出气导语音时频谱幅度,如下式所示:
Figure BDA0002630685550000047
步骤24,对骨导语音时频谱幅度的增强;
首先,计算估计的气导语音时频谱幅度与骨导语音时频谱幅度的差,如下式所示:
Figure BDA0002630685550000051
其次,对于每一时频点(tf,f),分别将差Δ(tf,f)与骨导语音时频谱幅度α|X(tf,f)|进行比较,其中0<α<1,如果Δ(tf,f)≥α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
Figure BDA0002630685550000052
如果Δ(tf,f)<α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
Figure BDA0002630685550000053
当然也可以采用如下的简单方法来增强骨导语音时频谱幅度:
Figure BDA0002630685550000054
最后结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
Figure BDA0002630685550000055
步骤25,对增强后的骨导语音时频谱
Figure BDA0002630685550000056
进行短时傅里叶逆变换,获得增强后的骨导语音时域语音信号
Figure BDA0002630685550000057
Figure BDA0002630685550000058
其中ISTFT{}为短时傅里叶逆变换算子。
本发明实施例上述方案,在训练阶段,在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列系统同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导语音和气导语音的训练信号分别做短时傅里叶逆变换,提取其时频谱的幅度,在时频谱上学习骨导语音和气导语音的联合语音字典。在检测阶段,对于骨导语音,进行短时傅里叶变换,提取时频谱的幅度,将其在联合语音字典的骨导语音子字典上进行投影,用得到稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提高了语音的清晰度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种基于联合字典学习和稀疏表示的骨导语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风(简称气导麦克风)组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集
Figure FDA0002630685540000011
其中xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱(简称时频谱),即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、将|Xtr(tf,f)|和|Ytr(tf,f)|组织起来,形成联合矩阵
Figure FDA0002630685540000012
通过稀疏约束学习算法学习出骨导语音和气导语音时频谱幅度的对应关系和稀疏特征,得到反映骨导语音和气导语音时频谱幅度特征关系的联合语音字典
Figure FDA0002630685540000013
字典的学习过程如下:
Figure FDA0002630685540000014
其中,DX和DY分别是骨导语音xtr(t)和气导语音ytr(t)时频谱幅度的子字典;C是骨导语音和气导语音的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,
Figure FDA0002630685540000015
代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息留待后面进一步使用;
步骤22,把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
Figure FDA0002630685540000021
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,
Figure FDA0002630685540000022
代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,对气导语音时频谱幅度的估计;
利用稀疏表示系数E*与联合语音字典的气导语音子字典DY一起,重建出气导语音时频谱幅度,如下式所示:
Figure FDA0002630685540000023
步骤24,对骨导语音时频谱幅度的增强;
首先,计算估计的气导语音时频谱幅度与骨导语音时频谱幅度的差,如下式所示:
Figure FDA0002630685540000024
其次,对于每一时频点(tf,f),分别将差Δ(tf,f)与骨导语音时频谱幅度α|X(tf,f)|进行比较,其中0<α<1,如果Δ(tf,f)≥α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
Figure FDA0002630685540000025
如果Δ(tf,f)<α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
Figure FDA0002630685540000026
当然也可以采用如下的简单方法来增强骨导语音时频谱幅度:
Figure FDA0002630685540000027
最后结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
Figure FDA0002630685540000028
步骤25,对增强后的骨导语音时频谱
Figure FDA0002630685540000031
进行短时傅里叶逆变换,获得增强后的骨导语音时域语音信号
Figure FDA0002630685540000032
Figure FDA0002630685540000033
其中ISTFT{}为短时傅里叶逆变换算子。
2.一种基于联合字典学习和稀疏表示的骨导语音增强方法,其特征在于,包括如下过程:
在训练阶段,采用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到其时频谱;充分利用骨导语音和气导语音时频谱幅度的对应关系以及语音的稀疏性,得到反映骨导语音和气导语音时频谱幅度对应特征的联合字典;
在检测阶段,对骨导语音做短时傅里叶变换,得到其时频域谱幅度和相位;把骨导语音的时频谱幅度在联合字典中的骨导语音子字典上进行投影,获得骨导语音的稀疏表示系数;用得到的稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并结合待检测骨导语音时频谱相位提供两种方法用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提高了语音的清晰度。
CN202010810196.6A 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法 Active CN111968627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010810196.6A CN111968627B (zh) 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010810196.6A CN111968627B (zh) 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Publications (2)

Publication Number Publication Date
CN111968627A true CN111968627A (zh) 2020-11-20
CN111968627B CN111968627B (zh) 2024-03-29

Family

ID=73366028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010810196.6A Active CN111968627B (zh) 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Country Status (1)

Country Link
CN (1) CN111968627B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
CN111508518A (zh) * 2020-05-18 2020-08-07 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
CN111508518A (zh) * 2020-05-18 2020-08-07 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张雄伟;郑昌艳;曹铁勇;杨吉斌;邢益搏;: "骨导麦克风语音盲增强技术研究现状及展望", 数据采集与处理, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法

Also Published As

Publication number Publication date
CN111968627B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
EP2643834B1 (en) Device and method for producing an audio signal
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
EP1891624B1 (en) Multi-sensory speech enhancement using a speech-state model
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
CN111508518B (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
CN111696568B (zh) 一种半监督瞬态噪声抑制方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
US20070055519A1 (en) Robust bandwith extension of narrowband signals
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
CN111968627A (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
Sun et al. Enhancement of Chinese speech based on nonlinear dynamics
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
Shu-Guang et al. Isolated word recognition in reverberant environments
CN117014761B (zh) 交互式脑控耳机控制方法及装置、脑控耳机、存储介质
Butarbutar et al. Adaptive Wiener Filtering Method for Noise Reduction in Speech Recognition System
Marković et al. Recognition of the Multimodal Speech Based on the GFCC features
Liu et al. Blind source separation and visual voice activity detection for target speech extraction
CN114267357A (zh) 一种基于联合训练的端到端鲁棒语音识别系统
CN114038475A (zh) 一种基于语谱补偿的单通道语音增强系统
Ullah et al. Advanced transient noise reduction in speech signals via semi-supervised signal fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant