CN111009252A - 一种embedding编解码器的语音增强系统及方法 - Google Patents

一种embedding编解码器的语音增强系统及方法 Download PDF

Info

Publication number
CN111009252A
CN111009252A CN201911314132.0A CN201911314132A CN111009252A CN 111009252 A CN111009252 A CN 111009252A CN 201911314132 A CN201911314132 A CN 201911314132A CN 111009252 A CN111009252 A CN 111009252A
Authority
CN
China
Prior art keywords
embedding
voice
array
long
term memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911314132.0A
Other languages
English (en)
Other versions
CN111009252B (zh
Inventor
蓝天
叶文政
刘峤
吴祖峰
钱宇欣
吕忆蓝
李森
彭川
李萌
惠国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911314132.0A priority Critical patent/CN111009252B/zh
Publication of CN111009252A publication Critical patent/CN111009252A/zh
Application granted granted Critical
Publication of CN111009252B publication Critical patent/CN111009252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法。本发明从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明中神经网络模型可在低信噪比环境下稳定工作。

Description

一种embedding编解码器的语音增强系统及方法
技术领域
本发明属于人工智能语音处理技术领域,具体涉及一种embedding编解码器的语音增强系统及方法。
背景技术
语音增强是语音处理中一项重要的前端技术,其在无线通话、会议录音、听觉辅助、同声传译和语音识别等系统中都有广泛的应用。语音识别系统对语音质量和可懂度要求较高,虽然目前的语音识别系统准确率已经达到了较高的水平,然而对于受噪声或混响污染的语音信号往往难以达到理想的效果。轻微的噪声干扰就可以使语音识别系统的准确率大大降低,现有的非鲁棒性自动语音识别系统还不能在噪声环境下稳定工作。
使用结合注意力机制的语音增强模型来模仿人类的行为方式是一种直觉的做法。文献“Modeling Attention and Memory for Auditory Selection in a Cocktail PartyEnvironment”将语音语谱图的高维映射、注意力机制和长期记忆应用于语音分离。然而,该方法(unified Auditory Selection framework with Attention and Memory,ASAM)在生成掩蔽层的时频元时没有充分利用相关的embedding信息,其在语音增强任务中效果一般,embedding:语谱图中时频点在高维空间上的映射,在自然语言处理中也作为词或句子的表示。
发明内容
针对现有技术中的上述不足,本发明提供的一种embedding编解码器语音增强系统及方法,从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种embedding编解码器的语音增强系统,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;
所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。
进一步地,所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。
再进一步地,所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
进一步地,所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列。
再进一步地,所述步骤S301中时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元。
再进一步地,所述步骤S302中堆叠时频掩蔽层的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸。
再进一步地,所述步骤S303中提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘。
本发明的有益效果:
(1)本发明提供一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,包括四个组件:一个基于长短期记忆(LSTM,Long Short-Term Memory)神经网络的embedding编码器、一个基于卷积神经网络(CNN,Convolutional Neural Network)的embedding解码器网络、长期记忆模块和注意力结构。神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。纯净语音语谱图和带噪语音语谱图分别产生一个embedding向量的阵列,其中来自纯净语音的embedding阵列产生长期记忆。由长期记忆从带噪embedding阵列提取纯净语音信息,以此形成掩蔽层。该掩蔽层滤除embedding阵列中的干扰信息。最后embedding解码器将embedding矩阵还原语音语谱图。本发明从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明中神经网络模型可在低信噪比环境下稳定工作。
(2)本发明提供一种embedding编解码器的语音增强方法,所述方法利用embedding解码器从embedding阵列中提取相关的embedding向量来产生语音语谱图中对应时频元的能量。由于embedding阵列中每个向量可视作对原始输入语谱图对应时频元的高维映射,而embedding阵列与其对应的语谱图一样,应在沿时间和频率方向的局部区域具有稳定性。该方法将局部相关embedding信息加入增强语谱图的形成过程,有效克服了原始方法利用embedding信息不充分的问题,提高了其在语音增强任务中性能,并且可在低信噪比环境中稳定工作。
附图说明
图1为本发明中结合注意力机制和embedding编解码语音增强模型结构示意图。
图2为本发明中embedding解码器功能示意图。
图3为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
如图1-图2所示,本发明提供了一种embedding编解码器的语音增强系统,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
如图3所示,基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列,其实现方法如下:
所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
所述时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致,所述堆叠时频掩蔽的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列;
所述提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
本实施例中,本实验将TIMIT语料库和Noisex92数据集分别作为语音数据集和噪声数据集。TIMIT语料库中的1984条语音和Noisex92中的babble、factory1、destroyerops、f16和white噪声被用于合成带噪语音训练集,混合信噪比范围为-5~0dB。所有音频数据采样频率为16kHz,使用包含512个采样点的hamming窗以及256的帧移的短时傅里叶变换来计算语谱图。评价指标:短时目标可懂度(STOI,short-time objective intelligibility),语音质量感知指标(PESQ,perceptual evaluation of speech quality)。
与本发明的模型(AEED)对比的有:单embedding编解码器(EED),卷积循环神经网络(CRN),深度循环神经网络(DRN)和原始基于声学选择框架的注意力和记忆模型(ASAM)。如表1-4所示,表1为不同模型在可见噪声上对STOI指标的测试结果,表2为不同模型在可见噪声上对PESQ指标的测试结果,表3为不同模型在不可见噪声上对STOI指标的测试结果,表4为不同模型在不可见噪声上对PESQ指标的测试结果。
表1
Figure BDA0002325349650000081
表2
Figure BDA0002325349650000082
表3
Figure BDA0002325349650000083
Figure BDA0002325349650000091
表4
Figure BDA0002325349650000092
实验对比结果如下,AEED和EED的性能较原始ASAM有明显提高,结合了注意力机制和长期记忆的AEED指标总体好于EED。AEED在所有测试中取得了最好的PESQ;CRN在大多数测试条件下取得了最好的STOI,而AEED可以达到与其接近的STOI指标。

Claims (8)

1.一种embedding编解码器的语音增强系统,其特征在于,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;
所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。
2.根据权利要求1所述的embedding编解码器的语音增强系统,其特征在于,所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。
3.根据权利要求1所述的embedding编解码器的语音增强系统,其特征在于,所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
4.一种embedding编解码器的语音增强方法,其特征在于,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
5.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列。
6.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S301中时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元。
7.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S302中堆叠时频掩蔽层的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸。
8.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S303中提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘。
CN201911314132.0A 2019-12-19 2019-12-19 一种embedding编解码器的语音增强系统及方法 Active CN111009252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314132.0A CN111009252B (zh) 2019-12-19 2019-12-19 一种embedding编解码器的语音增强系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314132.0A CN111009252B (zh) 2019-12-19 2019-12-19 一种embedding编解码器的语音增强系统及方法

Publications (2)

Publication Number Publication Date
CN111009252A true CN111009252A (zh) 2020-04-14
CN111009252B CN111009252B (zh) 2020-08-11

Family

ID=70116406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314132.0A Active CN111009252B (zh) 2019-12-19 2019-12-19 一种embedding编解码器的语音增强系统及方法

Country Status (1)

Country Link
CN (1) CN111009252B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
WO2018133951A1 (en) * 2017-01-23 2018-07-26 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110246510A (zh) * 2019-06-24 2019-09-17 电子科技大学 一种基于RefineNet的端到端语音增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133951A1 (en) * 2017-01-23 2018-07-26 Huawei Technologies Co., Ltd. An apparatus and method for enhancing a wanted component in a signal
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
CN110246510A (zh) * 2019-06-24 2019-09-17 电子科技大学 一种基于RefineNet的端到端语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ERIC W.HEALY ET AL.: "《An algorithm to improve speech recognition in noise for hearing-impaired listeners》", 《THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 *
袁文浩等: "《一种时频平滑的深度神经网络语音增强方法》", 《西安电子科技大学学报》 *
黄雅婷等: "《鸡尾酒会问题与相关听觉模型的研究现状与展望》", 《自动化学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999508A (zh) * 2022-07-29 2022-09-02 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置
CN114999508B (zh) * 2022-07-29 2022-11-08 之江实验室 一种利用多源辅助信息的通用语音增强方法和装置

Also Published As

Publication number Publication date
CN111009252B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN112017644B (zh) 一种声音变换系统、方法及应用
Varile et al. Survey of the state of the art in human language technology
CN110085245B (zh) 一种基于声学特征转换的语音清晰度增强方法
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN108847249A (zh) 声音转换优化方法和系统
Wang et al. A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures
CN111986661B (zh) 复杂环境下基于语音增强的深度神经网络语音识别方法
CN113539232B (zh) 一种基于慕课语音数据集的语音合成方法
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
CN115602165A (zh) 基于金融系统的数字员工智能系统
Mirghafori A multiband approach to automatic speech recognition
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN111009252B (zh) 一种embedding编解码器的语音增强系统及方法
Ochieng Deep neural network techniques for monaural speech enhancement: State of the art analysis
Tai et al. Idanet: An information distillation and aggregation network for speech enhancement
Clemins Automatic classification of animal vocalizations
Kurian et al. Connected digit speech recognition system for Malayalam language
Hu et al. Learnable spectral dimension compression mapping for full-band speech enhancement
Bawa et al. Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions
Zhao et al. Time Domain Speech Enhancement using self-attention-based subspace projection
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Weiss Underdetermined source separation using speaker subspace models
Nguyen et al. Bone-conducted speech enhancement using vector-quantized variational autoencoder and gammachirp filterbank cepstral coefficients
Li et al. Robust voice activity detection using an auditory-inspired masked modulation encoder based convolutional attention network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant