CN111968627B - 一种基于联合字典学习和稀疏表示的骨导语音增强方法 - Google Patents

一种基于联合字典学习和稀疏表示的骨导语音增强方法 Download PDF

Info

Publication number
CN111968627B
CN111968627B CN202010810196.6A CN202010810196A CN111968627B CN 111968627 B CN111968627 B CN 111968627B CN 202010810196 A CN202010810196 A CN 202010810196A CN 111968627 B CN111968627 B CN 111968627B
Authority
CN
China
Prior art keywords
voice
bone conduction
dictionary
conduction
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010810196.6A
Other languages
English (en)
Other versions
CN111968627A (zh
Inventor
叶中付
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010810196.6A priority Critical patent/CN111968627B/zh
Publication of CN111968627A publication Critical patent/CN111968627A/zh
Application granted granted Critical
Publication of CN111968627B publication Critical patent/CN111968627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种基于联合字典学习和稀疏表示的骨导语音增强方法。训练阶段,在室内无噪环境中,用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导语音和气导语音的训练信号做短时傅里叶逆变换得到时频谱幅度,在时频谱上学习骨导语音和气导语音的联合语音字典。检测阶段,对于骨导语音进行短时傅里叶变换得到时频谱幅度和相位,将幅度在联合语音字典的骨导语音子字典上进行投影,用得到的稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱幅度,并提供两种方法用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,从而提高语音清晰度。

Description

一种基于联合字典学习和稀疏表示的骨导语音增强方法
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种基于联合字典学习和稀疏表示的骨导语音增强方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到环境噪声的污染,人耳和包含空气传导麦克风(简称气导麦克风)的相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是人们试图解决的问题。气导麦克风接收的语音简称为气导语音。
骨导麦克风是另一种非声传感器,其语音传输通道能够屏蔽环境噪声,抗噪性能好。然而人体传导的低通性能以及传感器工艺水平的限制等因素,导致骨导麦克风接收的语音清晰度低,听起来比较沉闷。骨导麦克风接收的语音简称骨导语音。
针对骨导语音的增强对于在强噪声环境下的语音通信应用具有重要的现实意义。
发明内容
尽管骨导麦克风具有抗噪性能好的特点,但其语音的时频谱信息不丰富,听起来比较沉闷。针对这一问题,本发明提供一种基于联合字典学习和稀疏表示的骨导语音增强方法。专门设计了骨导麦克风和气导麦克风组成的异型双麦克风阵列,同步采集说话人训练语音,构建骨导语音和气导语音的联合训练集,在时频谱上学习骨导语音和气导语音对应特征的联合语音字典,骨导语音子字典和气导语音子字典通过稀疏表示系数约束,在子字典的对应原子上,气导语音子字典比骨导语音子字典的频谱信息更丰富。用待检测骨导语音在骨导语音子字典上投影得到的最优稀疏表示系数与气导语音子字典一起重建气导语音时频谱,该重建气导语音时频谱具有更丰富的频谱信息,用于补充骨导语音的缺失信息,达到提高骨导语音的清晰度的目的。
本发明的目的是通过以下技术方案实现的:
一种基于联合字典学习和稀疏表示的骨导语音增强方法,包括:
训练阶段,在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导语音和气导语音的训练信号分别做短时傅里叶逆变换,提取其时频谱的幅度,在时频谱上学习骨导语音和气导语音对应特征的联合语音字典。
检测阶段,对于待检测骨导语音进行短时傅里叶变换,提取时频谱的幅度和相位;将时频谱幅度在联合语音字典中的骨导语音子字典上进行投影,得到最优稀疏表示系数;用得到稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并与待检测骨导语音相位一起来增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号。
由上述本发明提供的技术方案可以看出,本方法在训练阶段,首先在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集,提供了时间对齐的骨导语音和气导语音,便于揭示它们在时间域上的异同性;其次用短时傅里叶变换将训练集中对应的骨导语音和气导语音信号变换成时频谱,充分利用了它们的时频域幅度对应关系以及语音稀疏性学习出骨导语音和气导语音特征关系的联合语音字典;本方法在检测阶段,对于待检测骨导语音,进行短时傅里叶变换,提取时频谱的幅度和相位,将时频谱幅度在联合语音字典的骨导语音子字典上进行投影,用得到的最优稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,进一步结合待检测骨导语音相位,通过两种途径增强骨导语音的时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,能够为骨导语音补充由于人体传导低通性和传感器工艺水平限制等因素引起的缺失信息,提升了骨导语音信号的听觉质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于联合字典学习和稀疏表示的骨导语音增强方法的流程图。
图2为骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集系统示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音增强算法,本发明实施例提供一种基于联合字典学习和稀疏表示的骨导语音增强方法,本方法在训练阶段,首先在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列系统同步采集训练语音,构建骨导语音和气导语音的联合训练集,提供了时间对齐的骨导语音和气导语音,便于揭示它们在时间域上的异同性;其次用短时傅里叶变换将训练集中对应的骨导语音和气导语音信号变换成时频谱,充分利用了它们的时频域幅度对应关系以及语音稀疏性学习出骨导语音和气导语音的联合语音字典;本方法在检测阶段,对于待检测骨导语音,进行短时傅里叶变换,提取时频谱的幅度和相位,将时频谱幅度在联合语音字典的骨导语音子字典上进行投影,用得到稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,进一步结合待检测骨导语音相位,通过两种途径增强骨导语音的时频谱,能够为骨导语音补充由于人体传导的低通性和传感器工艺水平限制等因素引起的缺失信息,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提升了骨导语音信号的听觉质量。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风(简称气导麦克风)组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集其中xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱(简称时频谱),即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、将|Xtr(tf,f)|和|Ytr(tf,f)|组织起来,形成联合矩阵通过稀疏约束学习算法学习出骨导语音和气导语音时频谱幅度的对应关系和稀疏特征,得到反映骨导语音和气导语音时频谱幅度特征关系的联合语音字典/>字典的学习过程如下:
其中,DX和DY分别是骨导语音xtr(t)和气导语音ytr(t)时频谱幅度的子字典;C是骨导语音和气导语音的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息留待后面进一步使用;
步骤22,把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,对气导语音时频谱幅度的估计;
利用稀疏表示系数E*与联合语音字典的气导语音子字典DY一起,重建出气导语音时频谱幅度,如下式所示:
步骤24,对骨导语音时频谱幅度的增强;
首先,计算估计的气导语音时频谱幅度与骨导语音时频谱幅度的差,如下式所示:
其次,对于每一时频点(tf,f),分别将差Δ(tf,f)与骨导语音时频谱幅度α|X(tf,f)|进行比较,其中0<α<1,如果Δ(tf,f)≥α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
如果Δ(tf,f)<α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
当然也可以采用如下的简单方法来增强骨导语音时频谱幅度:
最后结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
步骤25,对增强后的骨导语音时频谱进行短时傅里叶逆变换,获得增强后的骨导语音时域语音信号/>
其中ISTFT{}为短时傅里叶逆变换算子。
本发明实施例上述方案,在训练阶段,在室内无噪环境下用骨导麦克风和空气传导麦克风组成的异型双麦克风阵列系统同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导语音和气导语音的训练信号分别做短时傅里叶逆变换,提取其时频谱的幅度,在时频谱上学习骨导语音和气导语音的联合语音字典。在检测阶段,对于骨导语音,进行短时傅里叶变换,提取时频谱的幅度,将其在联合语音字典的骨导语音子字典上进行投影,用得到稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提高了语音的清晰度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种基于联合字典学习和稀疏表示的骨导语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、在室内无噪环境下用骨导麦克风和空气传导麦克风简称气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集其中xtr(t)和ytr(t)分别为骨导麦克风和气导麦克风同步采集的说话人语音;
步骤12、对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到时频域上的复数谱简称时频谱,即:
Xtr(tf,f)=STFT{xtr(t)}
Ytr(tf,f)=STFT{ytr(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度,|Ytr(tf,f)|为Ytr(tf,f)的幅度;
步骤13、将|Xtr(tf,f)|和|Ytr(tf,f)|组织起来,形成联合矩阵通过稀疏约束学习算法学习出骨导语音和气导语音时频谱幅度的对应关系和稀疏特征,得到反映骨导语音和气导语音时频谱幅度特征关系的联合语音字典/>字典的学习过程如下:
其中,DX和DY分别是骨导语音xtr(t)和气导语音ytr(t)时频谱幅度的子字典;C是骨导语音和气导语音的联合稀疏表示系数,联合稀疏表示系数为矩阵形式,cg为C的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、对骨导语音x(t)做短时傅里叶变换,得到其时频域谱,即:
X(tf,f)=STFT{x(t)}
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|X(tf,f)|为X(tf,f)的幅度,Φ(tf,f)为X(tf,f)的相位,保留相位信息留待后面进一步使用;
步骤22,把骨导语音的时频谱幅度|X(tf,f)|在联合字典中的骨导语音子字典上进行投影,获得投影的骨导语音的稀疏表示系数,计算如下:
其中,E为|X(tf,f)|在骨导语音子字典DX上的候选稀疏表示系数,E*为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数,稀疏表示系数为矩阵形式,eg分别为E的第g列;q为稀疏约束,代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤23,对气导语音时频谱幅度的估计;
利用稀疏表示系数E*与联合语音字典的气导语音子字典DY一起,重建出气导语音时频谱幅度,如下式所示:
步骤24,对骨导语音时频谱幅度的增强;
首先,计算估计的气导语音时频谱幅度与骨导语音时频谱幅度的差,如下式所示:
其次,对于每一时频点(tf,f),分别将差Δ(tf,f)与骨导语音时频谱幅度α|X(tf,f)|进行比较,其中0<α<1,如果Δ(tf,f)≥α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
如果Δ(tf,f)<α|X(tf,f)|,则骨导语音时频谱幅度的增强按下式给出:
当然也可以采用如下的简单方法来增强骨导语音时频谱幅度:
最后结合待检测骨导语音时频谱X(tf,f)的相位Φ(tf,f),计算增强后的骨导语音时频谱,如下式所示:
步骤25,对增强后的骨导语音时频谱进行短时傅里叶逆变换,获得增强后的骨导语音时域语音信号/>
其中ISTFT{}为短时傅里叶逆变换算子。
2.根据权利要求1所述的一种基于联合字典学习和稀疏表示的骨导语音增强方法,其特征在于,包括如下过程:
在训练阶段,采用骨导麦克风和气导麦克风组成的异型双麦克风阵列同步采集训练语音,构建骨导语音和气导语音的联合训练集;对骨导麦克风和气导麦克风同步采集的骨导语音和气导语音分别做短时傅里叶变换,得到其时频谱;充分利用骨导语音和气导语音时频谱幅度的对应关系以及语音的稀疏性,得到反映骨导语音和气导语音时频谱幅度对应特征的联合字典;
在检测阶段,对骨导语音做短时傅里叶变换,得到其时频域谱幅度和相位;把骨导语音的时频谱幅度在联合字典中的骨导语音子字典上进行投影,获得骨导语音的稀疏表示系数;用得到的稀疏表示系数与联合语音字典的气导语音子字典一起重建气导语音时频谱的幅度,并结合待检测骨导语音时频谱相位提供两种方法用于增强骨导语音时频谱,最后做短时傅里叶逆变换,得到增强后的骨导语音时域信号,提高了语音的清晰度。
CN202010810196.6A 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法 Active CN111968627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010810196.6A CN111968627B (zh) 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010810196.6A CN111968627B (zh) 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Publications (2)

Publication Number Publication Date
CN111968627A CN111968627A (zh) 2020-11-20
CN111968627B true CN111968627B (zh) 2024-03-29

Family

ID=73366028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010810196.6A Active CN111968627B (zh) 2020-08-13 2020-08-13 一种基于联合字典学习和稀疏表示的骨导语音增强方法

Country Status (1)

Country Link
CN (1) CN111968627B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112599145A (zh) * 2020-12-07 2021-04-02 天津大学 基于生成对抗网络的骨传导语音增强方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
CN111508518A (zh) * 2020-05-18 2020-08-07 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
CN111508518A (zh) * 2020-05-18 2020-08-07 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
骨导麦克风语音盲增强技术研究现状及展望;张雄伟;郑昌艳;曹铁勇;杨吉斌;邢益搏;;数据采集与处理(第05期);全文 *

Also Published As

Publication number Publication date
CN111968627A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
JP5127754B2 (ja) 信号処理装置
CN111833896B (zh) 融合反馈信号的语音增强方法、系统、装置和存储介质
EP2643834B1 (en) Device and method for producing an audio signal
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
CN108597505B (zh) 语音识别方法、装置及终端设备
CN111916101B (zh) 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
CN105741849A (zh) 数字助听器中融合相位估计与人耳听觉特性的语音增强方法
Roman et al. Pitch-based monaural segregation of reverberant speech
Jangjit et al. A new wavelet denoising method for noise threshold
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
CN112786064A (zh) 一种端到端的骨气导语音联合增强方法
Siam et al. A novel speech enhancement method using Fourier series decomposition and spectral subtraction for robust speaker identification
JP5443547B2 (ja) 信号処理装置
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
CN106782588A (zh) 一种基于听觉小波包的毫米波生物雷达语音增强方法
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
TWI749547B (zh) 應用深度學習的語音增強系統
KR101610708B1 (ko) 음성 인식 장치 및 방법
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Shu-Guang et al. Isolated word recognition in reverberant environments
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
CN117014761B (zh) 交互式脑控耳机控制方法及装置、脑控耳机、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant