CN111009252A - 一种embedding编解码器的语音增强系统及方法 - Google Patents
一种embedding编解码器的语音增强系统及方法 Download PDFInfo
- Publication number
- CN111009252A CN111009252A CN201911314132.0A CN201911314132A CN111009252A CN 111009252 A CN111009252 A CN 111009252A CN 201911314132 A CN201911314132 A CN 201911314132A CN 111009252 A CN111009252 A CN 111009252A
- Authority
- CN
- China
- Prior art keywords
- embedding
- voice
- array
- long
- term memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 14
- 230000007787 long-term memory Effects 0.000 claims description 35
- 230000000873 masking effect Effects 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract description 6
- 238000003062 neural network model Methods 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法。本发明从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明中神经网络模型可在低信噪比环境下稳定工作。
Description
技术领域
本发明属于人工智能语音处理技术领域,具体涉及一种embedding编解码器的语音增强系统及方法。
背景技术
语音增强是语音处理中一项重要的前端技术,其在无线通话、会议录音、听觉辅助、同声传译和语音识别等系统中都有广泛的应用。语音识别系统对语音质量和可懂度要求较高,虽然目前的语音识别系统准确率已经达到了较高的水平,然而对于受噪声或混响污染的语音信号往往难以达到理想的效果。轻微的噪声干扰就可以使语音识别系统的准确率大大降低,现有的非鲁棒性自动语音识别系统还不能在噪声环境下稳定工作。
使用结合注意力机制的语音增强模型来模仿人类的行为方式是一种直觉的做法。文献“Modeling Attention and Memory for Auditory Selection in a Cocktail PartyEnvironment”将语音语谱图的高维映射、注意力机制和长期记忆应用于语音分离。然而,该方法(unified Auditory Selection framework with Attention and Memory,ASAM)在生成掩蔽层的时频元时没有充分利用相关的embedding信息,其在语音增强任务中效果一般,embedding:语谱图中时频点在高维空间上的映射,在自然语言处理中也作为词或句子的表示。
发明内容
针对现有技术中的上述不足,本发明提供的一种embedding编解码器语音增强系统及方法,从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种embedding编解码器的语音增强系统,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;
所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。
进一步地,所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。
再进一步地,所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
进一步地,所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列。
再进一步地,所述步骤S301中时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元。
再进一步地,所述步骤S302中堆叠时频掩蔽层的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸。
再进一步地,所述步骤S303中提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘。
本发明的有益效果:
(1)本发明提供一种embedding编解码器的语音增强系统,构造了一个堆叠的神经网络模型,包括四个组件:一个基于长短期记忆(LSTM,Long Short-Term Memory)神经网络的embedding编码器、一个基于卷积神经网络(CNN,Convolutional Neural Network)的embedding解码器网络、长期记忆模块和注意力结构。神经网络模型对语音语谱图进行编码,对每个时频元高维映射而形成embedding向量表示。纯净语音语谱图和带噪语音语谱图分别产生一个embedding向量的阵列,其中来自纯净语音的embedding阵列产生长期记忆。由长期记忆从带噪embedding阵列提取纯净语音信息,以此形成掩蔽层。该掩蔽层滤除embedding阵列中的干扰信息。最后embedding解码器将embedding矩阵还原语音语谱图。本发明从高维映射的角度对语音语谱图中的时频元进行建模,提出了一种新颖的语音增强模型结构,能够有效提升带噪语音质量和可懂度,并且对不同信噪比环境有着良好的泛化性。此外,本发明中神经网络模型可在低信噪比环境下稳定工作。
(2)本发明提供一种embedding编解码器的语音增强方法,所述方法利用embedding解码器从embedding阵列中提取相关的embedding向量来产生语音语谱图中对应时频元的能量。由于embedding阵列中每个向量可视作对原始输入语谱图对应时频元的高维映射,而embedding阵列与其对应的语谱图一样,应在沿时间和频率方向的局部区域具有稳定性。该方法将局部相关embedding信息加入增强语谱图的形成过程,有效克服了原始方法利用embedding信息不充分的问题,提高了其在语音增强任务中性能,并且可在低信噪比环境中稳定工作。
附图说明
图1为本发明中结合注意力机制和embedding编解码语音增强模型结构示意图。
图2为本发明中embedding解码器功能示意图。
图3为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
如图1-图2所示,本发明提供了一种embedding编解码器的语音增强系统,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
如图3所示,基于上述系统,本发明还提供了一种embedding编解码器的语音增强方法,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列,其实现方法如下:
所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
所述时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致,所述堆叠时频掩蔽的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列;
所述提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
本实施例中,本实验将TIMIT语料库和Noisex92数据集分别作为语音数据集和噪声数据集。TIMIT语料库中的1984条语音和Noisex92中的babble、factory1、destroyerops、f16和white噪声被用于合成带噪语音训练集,混合信噪比范围为-5~0dB。所有音频数据采样频率为16kHz,使用包含512个采样点的hamming窗以及256的帧移的短时傅里叶变换来计算语谱图。评价指标:短时目标可懂度(STOI,short-time objective intelligibility),语音质量感知指标(PESQ,perceptual evaluation of speech quality)。
与本发明的模型(AEED)对比的有:单embedding编解码器(EED),卷积循环神经网络(CRN),深度循环神经网络(DRN)和原始基于声学选择框架的注意力和记忆模型(ASAM)。如表1-4所示,表1为不同模型在可见噪声上对STOI指标的测试结果,表2为不同模型在可见噪声上对PESQ指标的测试结果,表3为不同模型在不可见噪声上对STOI指标的测试结果,表4为不同模型在不可见噪声上对PESQ指标的测试结果。
表1
表2
表3
表4
实验对比结果如下,AEED和EED的性能较原始ASAM有明显提高,结合了注意力机制和长期记忆的AEED指标总体好于EED。AEED在所有测试中取得了最好的PESQ;CRN在大多数测试条件下取得了最好的STOI,而AEED可以达到与其接近的STOI指标。
Claims (8)
1.一种embedding编解码器的语音增强系统,其特征在于,包括基于长短期记忆神经网络的embedding编码器、与所述embedding编码器连接的长期记忆模块、与所述长期记忆模块连接的注意力模块以及基于卷积神经网络的embedding解码器网络;
所述基于长短期记忆神经网络的embedding编码器用于分别对纯净语音语谱图和带噪语音语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列;
所述长期记忆模块由纯净语音的embedding阵列产生,用于从带噪语音embedding阵列中提取语音特征;
所述注意力模块用于利用含有纯净语音特征的长期记忆从带噪语音的embedding阵列中提取语音特征,形成新的embedding阵列;
所述基于卷积神经网络的embedding解码器网络用于将新的embedding阵列还原为增强语音语谱图。
2.根据权利要求1所述的embedding编解码器的语音增强系统,其特征在于,所述基于长短期记忆神经网络的embedding编码器包括1层全连接网络,以及与所述全连接网络连接且位于所述全连接网络后端的2层长短期记忆网络,且所述embedding编码器产生的embedding阵列尺寸为(F×T×E),其中,F表示频率,T表示时间,E表示embedding向量的尺寸。
3.根据权利要求1所述的embedding编解码器的语音增强系统,其特征在于,所述基于卷积神经网络的embedding解码器网络由1层卷积神经网络组成,其卷积核大小为3×3,其输入输出通道数分别为40和1。
4.一种embedding编解码器的语音增强方法,其特征在于,包括如下步骤:
S1、分别对训练集中的纯净语音和带噪语音进行短时傅里叶变换处理,得到纯净语音以及带噪语音的语谱图;
S2、利用embedding编码器分别对所述纯净语音和带噪语音的语谱图进行编码,产生纯净语音的embedding阵列以及带噪语音的embedding阵列,并通过所述纯净语音的embedding阵列产生长期记忆;
S3、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并利用含有纯净语音特征的长期记忆从所述带噪语音的embedding阵列中产生堆叠时频掩蔽层,并利用所述堆叠时频掩蔽层提取语音特征,形成新的embedding阵列;
S4、利用基于卷积神经网络的embedding解码器网络将所述新的embedding阵列还原为增强语音语谱图,实现语音增强。
5.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S3包括如下步骤:
S301、将带噪语音的embedding阵列和所述长期记忆输入至注意力模块,并分别对所述带噪语音的embedding阵列和含有纯净语音特征的长期记忆进行注意力计算得到时频掩蔽;
S302、将所述时频掩蔽进行复制和堆叠,产生堆叠时频掩蔽层,并将堆叠时频掩蔽层的尺寸与embedding阵列的尺寸保持一致;
S303、利用所述堆叠时频掩蔽层从embedding阵列中提取语音特征,形成新的embedding阵列。
6.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S301中时频掩蔽的表达式如下:
at,f=sigmoid(M·At,f)
其中,M表示长期记忆,At,f表示embedding阵列中的每个embedding向量,at,f表示时频掩蔽层的每个时频单元。
7.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S302中堆叠时频掩蔽层的尺寸为(F×T×E),其中,F表示频率,T表示时间、E表示embedding向量的尺寸。
8.根据权利要求4所述的embedding编解码器的语音增强方法,其特征在于,所述步骤S303中提取语音特征A'的表达式如下:
A'=A⊙SM
其中,A表示embedding阵列,SM表示堆叠的时频掩蔽层,⊙表示矩阵点乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314132.0A CN111009252B (zh) | 2019-12-19 | 2019-12-19 | 一种embedding编解码器的语音增强系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314132.0A CN111009252B (zh) | 2019-12-19 | 2019-12-19 | 一种embedding编解码器的语音增强系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111009252A true CN111009252A (zh) | 2020-04-14 |
CN111009252B CN111009252B (zh) | 2020-08-11 |
Family
ID=70116406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911314132.0A Expired - Fee Related CN111009252B (zh) | 2019-12-19 | 2019-12-19 | 一种embedding编解码器的语音增强系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111009252B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
WO2018133951A1 (en) * | 2017-01-23 | 2018-07-26 | Huawei Technologies Co., Ltd. | An apparatus and method for enhancing a wanted component in a signal |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
-
2019
- 2019-12-19 CN CN201911314132.0A patent/CN111009252B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018133951A1 (en) * | 2017-01-23 | 2018-07-26 | Huawei Technologies Co., Ltd. | An apparatus and method for enhancing a wanted component in a signal |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN108831495A (zh) * | 2018-06-04 | 2018-11-16 | 桂林电子科技大学 | 一种应用于噪声环境下语音识别的语音增强方法 |
CN110246510A (zh) * | 2019-06-24 | 2019-09-17 | 电子科技大学 | 一种基于RefineNet的端到端语音增强方法 |
Non-Patent Citations (3)
Title |
---|
ERIC W.HEALY ET AL.: "《An algorithm to improve speech recognition in noise for hearing-impaired listeners》", 《THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 * |
袁文浩等: "《一种时频平滑的深度神经网络语音增强方法》", 《西安电子科技大学学报》 * |
黄雅婷等: "《鸡尾酒会问题与相关听觉模型的研究现状与展望》", 《自动化学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999508A (zh) * | 2022-07-29 | 2022-09-02 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
CN114999508B (zh) * | 2022-07-29 | 2022-11-08 | 之江实验室 | 一种利用多源辅助信息的通用语音增强方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111009252B (zh) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
Varile et al. | Survey of the state of the art in human language technology | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
Wang et al. | A multiobjective learning and ensembling approach to high-performance speech enhancement with compact neural network architectures | |
CN111986661B (zh) | 复杂环境下基于语音增强的深度神经网络语音识别方法 | |
Ganchev | Contemporary methods for speech parameterization | |
CN113539232B (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
Mirghafori | A multiband approach to automatic speech recognition | |
CN115602165A (zh) | 基于金融系统的数字员工智能系统 | |
Fan et al. | Utterance-level permutation invariant training with discriminative learning for single channel speech separation | |
CN111009252B (zh) | 一种embedding编解码器的语音增强系统及方法 | |
Tai et al. | Idanet: An information distillation and aggregation network for speech enhancement | |
Clemins | Automatic classification of animal vocalizations | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
Bawa et al. | Developing sequentially trained robust Punjabi speech recognition system under matched and mismatched conditions | |
Zhao et al. | Time Domain Speech Enhancement using self-attention-based subspace projection | |
Li et al. | Robust voice activity detection using an auditory-inspired masked modulation encoder based convolutional attention network | |
Hu et al. | Learnable spectral dimension compression mapping for full-band speech enhancement | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Hao et al. | Denoi-spex+: a speaker extraction network based speech dialogue system | |
Weiss | Underdetermined source separation using speaker subspace models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200811 |