CN110867192A - 基于门控循环编解码网络的语音增强方法 - Google Patents

基于门控循环编解码网络的语音增强方法 Download PDF

Info

Publication number
CN110867192A
CN110867192A CN201911011966.4A CN201911011966A CN110867192A CN 110867192 A CN110867192 A CN 110867192A CN 201911011966 A CN201911011966 A CN 201911011966A CN 110867192 A CN110867192 A CN 110867192A
Authority
CN
China
Prior art keywords
speech
voice
feature
enhanced
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911011966.4A
Other languages
English (en)
Inventor
常新旭
袁晓光
寇金桥
张杨
杨林
吴敏
王昕�
徐冬冬
赵晓燕
闫帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201911011966.4A priority Critical patent/CN110867192A/zh
Publication of CN110867192A publication Critical patent/CN110867192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于门控循环编解码网络的语音增强方法,涉及语音增强技术领域。本发明针对针对现有的语音增强方法没有利用上下文信息与当前待增强语音帧之间联系的问题,基于人类听觉感知的过程的研究,提出了一种基于门控循环编解码网络的语音增强方法,在语音增强任务中引入编解码器架构,使用编码器对相邻多帧语音信号建模以提取上下文信息,利用解码器挖掘当前待增强语音帧和上下文信息之间的联系,提高了语音增强性能。

Description

基于门控循环编解码网络的语音增强方法
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于门控循环编解 码网络的语音增强方法。
背景技术
语音增强技术作为信号处理过程当中一个基本环节,在语音识别、 移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是 提高被噪声污染语音的质量和可懂度。最近,随着深度学习技术的兴 起,基于深度神经网络(Deep Neural Network,DNN)的有监督语音 增强方法取得了巨大的成功,特别是在低信噪比和非平稳噪声的情况 下,相较于传统方法表现出了更强大的优势。
从监督学习的角度看,基于深度学习的语音增强方法主要包含三 个部分:特征、网络模型和优化目标。幅度调制谱、傅里叶对数幅度 谱和梅尔倒谱系数是常用的语音增强特征。不同的网络模型也被应用 在语音增强任务中,如深度前馈神经网络(DeepFeedForward Neural Network,DFNN)、循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Conventional Neural Network,CNN)。通常用于语 音增强任务的优化目标可分为基于映射的目标和基于时频掩蔽的目 标。
但是,目前基于深度学习的语音增强方法通常只利用了上下文信 息,却忽略了上下文信息与当前待增强语音帧之间的联系。事实上, 人类在交谈中不仅关注对方当前某一时刻所说的内容,同时也会联系 上下文信息去处理所接受的信息。因此,根据这一现象,如何在语音 增强任务中挖掘上下文信息和当前待增强语音帧之间的联系,是提高 语音增强性能的一个突破口,是当前需要解决的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何在语音增强任务中挖掘上下文 信息和当前待增强语音帧之间的联系,提高语音增强性能。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于门控循环编解码 网络的语音增强方法,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于门控循环神经网络的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的 语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计 进行波形重构,恢复语音信号。
优选地,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构 建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建 用于训练网络的干净语音特征和含噪语音特征的数据对,其 中,计算对数功率谱时的帧长为512个点,帧移为256点, 所计算出的特征维度为257。
优选地,步骤二构建的语音增强模型包含两个部分:编码器和解 码器,模型输入为以第n帧为中心的相邻多帧对数功率谱特征,即: X=(xn-N,xn-N+1,...,xn,...,xn-N+1,xn+N),N为整数,编码器将输入的所述相 邻多帧对数功率谱特征重新编码使之成为包含全部上下文信息的高 层特征表示C,解码器根据该特征表示C并结合当前待增强语音特征,生成当前待增强语音的干净语音特征估计
Figure BDA0002244463730000035
这一过程用公式表示如 下:
C=Encoder(X)
Figure BDA0002244463730000031
优选地,编码器和解码器的具体实现是使用GRU网络实现,GRU 网络的公式输出值如下:
Figure BDA0002244463730000032
Figure BDA0002244463730000033
rt=σ(xtWxr+ht-1Whr+br)
zt=σ(xtWxz+ht-1Whz+bz)
其中,
Figure BDA0002244463730000034
代表逐元素乘法,Wxr,Wxz,Wxh∈Rd×h和Whr,Whz,Whh∈Rh×h是 权重参数,br,bz,bh∈R1×h是偏差参数,σ为激活函数。
优选地,所述GRU网络层数为2,每层包含1024个节点。
优选地,模型输入为相邻连续15帧对数功率谱特征。
优选地,步骤三中,含噪语音特征为训练特征,干净语音特征为 训练目标。
优选地,步骤五中,将步骤四所得到的待增强语音特征的干净语 音特征估计结合待增强语音特征的相位谱,通过逆傅里叶变换重构时 域波形信号,最终得到增强的语音信号。
本发明还提供了一种所述的语音增强方法的语音增强效果评估 的方法,该方法采用感知语音质量这种评价指标进行评估。
优选地,该方法还采用短时客观可懂度这种评价指标进行评估。
(三)有益效果
本发明针对针对现有的语音增强方法没有利用上下文信息与当 前待增强语音帧之间联系的问题,基于人类听觉感知的过程的研究, 提出了一种基于门控循环编解码网络的语音增强方法,在语音增强任 务中引入编解码器架构,使用编码器对相邻多帧语音信号建模以提取 上下文信息,利用解码器挖掘当前待增强语音帧和上下文信息之间的 联系,提高了语音增强性能。
附图说明
图1为本发明设计的编码器-解码器架构原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实 施例,对本发明的具体实施方式作进一步详细描述。
当前基于深度学习的语音增强方法通常只利用了上下文信息,却 忽略了上下文信息与当前待增强语音帧之间的联系。根据人类听觉感 知的过程,上下文信息与当前待增强语音帧之间的联系对语音增强任 务至关重要。因此,本发明提出一种基于门控循环神经网络的语音增 强方法,挖掘上下文信息与当前待增强语音帧之间的联系,以提高语 音增强性能。
本发明提出了一种基于门控循环编解码网络的语音增强方法,在 语音增强任务中引入编解码器架构,使用编码器对相邻多帧语音信号 建模以提取上下文信息,利用解码器挖掘当前待增强语音帧和上下文 信息之间的联系。具体流程如下:
步骤一:混合实验数据,提取对数功率谱特征
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构 建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建 用于训练网络的干净语音特征和含噪语音特征的数据对,计 算对数功率谱时的帧长为512个点,帧移为256点,所计算 出的特征维度为257;
步骤二:构建基于门控循环神经网络的语音增强模型
本发明中基于门控循环神经网络的语音增强模型(待训练网络) 主要包含两个部分:编码器和解码器,模型输入为以第n帧为中心的 相邻多帧对数功率谱特征(待增强语音特征),即:X=(xn-N,xn-N+1,...,xn,...,xn-N+1,xn+N),编码器将输入的待增强语音特征重 新编码使之成为包含全部上下文信息的高层特征表示C,解码器根据 该特征表示C并结合当前待增强语音特征,生成当前待增强语音的干 净语音特征估计
Figure BDA0002244463730000061
这一过程用公式表示如下:
C=Encoder(X)
Figure BDA0002244463730000062
编码器和解码器的具体实现是使用2层GRU网络实现,每层节 点数目为1024,网络结构如图1所示,GRU网络的公式定义如下:
Figure BDA0002244463730000063
Figure BDA0002244463730000064
rt=σ(xtWxr+ht-1Whr+br)
zt=σ(xtWxz+ht-1Whz+bz)
其中,
Figure BDA0002244463730000065
代表逐元素乘法,Wxr,Wxz,Wxh∈Rd×h和Whr,Whz,Whh∈Rh×h是 权重参数,br,bz,bh∈R1×h是偏差参数,σ为激活函数。
步骤三:训练语音增强模型
将步骤一所提取的含噪语音特征和干净语音特征数据对语音增 强模型(输入网络)进行训练。其中,含噪语音特征为训练特征,干 净语音特征为训练目标;
步骤四:估计待增强语音的干净语音特征
将步骤一所提取的待增强语音特征送入训练好的模型(网络), 输出得到相应的干净语音特征估计;
步骤五:波形重构,恢复语音信号
将步骤四所得到的待增强语音的干净语音特征估计,并结合待增 强语音的相位谱,通过逆傅里叶变换(ISTFT)重构时域波形信号, 最终得到增强的语音信号。
本发明实施例所使用的干净语音全部来自中文语音数据集Free ST ChineseMandarin Corpus,训练集所使用的噪声来自俄亥俄州立大 学语音实验室的100种噪声,测试集使用的噪声来自noisex-92数据 库。按照步骤一的方法,首先将所使用的语音数据均重采样为16000hz。 对于训练集,本发明从中文数据集中随机选取7000条语音数据,包 含700位不同的说话人,每人10条语音。从-10db,-5db,0db,5db, 10db五种信噪比中随机选取一种信噪比,按照该信噪比将干净语音 与从训练集噪声中随机选取的两种噪声进行混合,构成14000(7000*2) 条数据。对于测试集,实施例从中文数据集中选取与训练集语音数据完全不同的150条语音,包含30位不同的说话人,每人5条语音。 测试集噪声选取了noisex92数据集中的五种不同噪声,分别是babble、 leopard、m109、machinegun和volvo。按照-6db、0db和6db三种不 同信噪比,将150条干净语音和5种噪声进行匹配混合,得到2250 (150*5*3)条含噪语音。
为了验证本发明的性能,本发明选取了DNN自回归语音增强方 法(简记为DNN)和无编解码架构的GRU(简记为GRU)方法作为基 线方法,对比本发明所提出的基于门控循环编解码网络语音增强方法 (简记为GRU-E-D)。DNN网络层数为4,激活函数为ReLU,每个 隐藏层包含2048个节点,并且每个隐藏层之后接一个dropout层,dropout层的比例为0.2,网络输入为相邻连续7帧对数功率谱特征。 GRU网络层数为2,每层包含1024个节点,网络输入为相邻连续15 帧对数功率谱特征。
对语音增强效果的评估采用感知语音质量(Perceptual Evaluation of SpeechQuality,PESQ)和短时客观可懂度(Short time objective intelligibility,STOI)两种评价指标。
由表1可以看出,在三种不同信噪比、不同说话人,六种不同噪 声类型的环境下,经本专利所提出的方法增强的语音的平均PESQ值 明显优于经其余两种基线方法增强的语音的平均PESQ值,平均STOI 值优于DNN方法的平均STOI值。
Figure BDA0002244463730000081
表1不同方法的语音增强性能比较
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于门控循环编解码网络的语音增强方法,其特征在于,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于门控循环神经网络的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构,恢复语音信号。
2.如权利要求1所述的方法,其特征在于,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建用于训练网络的干净语音特征和含噪语音特征的数据对,其中,计算对数功率谱时的帧长为512个点,帧移为256点,所计算出的特征维度为257。
3.如权利要求2所述的方法,其特征在于,步骤二构建的语音增强模型包含两个部分:编码器和解码器,模型输入为以第n帧为中心的相邻多帧对数功率谱特征,即:X=(xn-N,xn-N+1,...,xn,...,xn-N+1,xn+N),N为整数,编码器将输入的所述相邻多帧对数功率谱特征重新编码使之成为包含全部上下文信息的高层特征表示C,解码器根据该特征表示C并结合当前待增强语音特征,生成当前待增强语音的干净语音特征估计
Figure FDA0002244463720000021
这一过程用公式表示如下:
C=Encoder(X)
Figure FDA0002244463720000022
4.如权利要求3所述的方法,其特征在于,编码器和解码器的具体实现是使用GRU网络实现,GRU网络的公式输出值如下:
Figure FDA0002244463720000023
Figure FDA0002244463720000024
rt=σ(xtWxr+ht-1Whr+br)
zt=σ(xtWxz+ht-1Whz+bz)
其中,
Figure FDA0002244463720000025
代表逐元素乘法,Wxr,Wxz,Wxh∈Rd×h和Whr,Whz,Whh∈Rh×h是权重参数,br,bz,bh∈R1×h是偏差参数,σ为激活函数。
5.如权利要求4所述的方法,其特征在于,所述GRU网络层数为2,每层包含1024个节点。
6.如权利要求5所述的方法,其特征在于,模型输入为相邻连续15帧对数功率谱特征。
7.如权利要求1所述的方法,其特征在于,步骤三中,含噪语音特征为训练特征,干净语音特征为训练目标。
8.如权利要求4所述的方法,其特征在于,步骤五中,将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱,通过逆傅里叶变换重构时域波形信号,最终得到增强的语音信号。
9.一种如权利要求1至8中任一项所述的语音增强方法的语音增强效果评估的方法,其特征在于,该方法采用感知语音质量这种评价指标进行评估。
10.如权利要求9所述的方法,其特征在于,该方法还采用短时客观可懂度这种评价指标进行评估。
CN201911011966.4A 2019-10-23 2019-10-23 基于门控循环编解码网络的语音增强方法 Pending CN110867192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911011966.4A CN110867192A (zh) 2019-10-23 2019-10-23 基于门控循环编解码网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911011966.4A CN110867192A (zh) 2019-10-23 2019-10-23 基于门控循环编解码网络的语音增强方法

Publications (1)

Publication Number Publication Date
CN110867192A true CN110867192A (zh) 2020-03-06

Family

ID=69652893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911011966.4A Pending CN110867192A (zh) 2019-10-23 2019-10-23 基于门控循环编解码网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN110867192A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508519A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
CN111785288A (zh) * 2020-06-30 2020-10-16 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN114283829A (zh) * 2021-12-13 2022-04-05 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法
WO2022204630A1 (en) * 2021-03-23 2022-09-29 Qualcomm Incorporated Context-based speech enhancement

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
CN108463848A (zh) * 2016-03-23 2018-08-28 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN109065067A (zh) * 2018-08-16 2018-12-21 福建星网智慧科技股份有限公司 一种基于神经网络模型的会议终端语音降噪方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108463848A (zh) * 2016-03-23 2018-08-28 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法
CN107886967A (zh) * 2017-11-18 2018-04-06 中国人民解放军陆军工程大学 一种深度双向门递归神经网络的骨导语音增强方法
US10283140B1 (en) * 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN109065067A (zh) * 2018-08-16 2018-12-21 福建星网智慧科技股份有限公司 一种基于神经网络模型的会议终端语音降噪方法
CN108986834A (zh) * 2018-08-22 2018-12-11 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白爽冉: "基于深度神经网络的有监督语音增强研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508519A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
CN111785288A (zh) * 2020-06-30 2020-10-16 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN111785288B (zh) * 2020-06-30 2022-03-15 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN112767959A (zh) * 2020-12-31 2021-05-07 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
CN112767959B (zh) * 2020-12-31 2023-10-17 恒安嘉新(北京)科技股份公司 语音增强方法、装置、设备及介质
WO2022204630A1 (en) * 2021-03-23 2022-09-29 Qualcomm Incorporated Context-based speech enhancement
US11715480B2 (en) 2021-03-23 2023-08-01 Qualcomm Incorporated Context-based speech enhancement
CN114283829A (zh) * 2021-12-13 2022-04-05 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法
CN114283829B (zh) * 2021-12-13 2023-06-16 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法

Similar Documents

Publication Publication Date Title
CN110739003B (zh) 基于多头自注意力机制的语音增强方法
CN108986834B (zh) 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
CN110379412B (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN110085245B (zh) 一种基于声学特征转换的语音清晰度增强方法
CN109215674A (zh) 实时语音增强方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN110428849A (zh) 一种基于生成对抗网络的语音增强方法
CN105448302B (zh) 一种环境自适应的语音混响消除方法和系统
CN104966517A (zh) 一种音频信号增强方法和装置
Yuliani et al. Speech enhancement using deep learning methods: A review
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
Tashev et al. DNN-based causal voice activity detector
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
CN110675888A (zh) 一种基于RefineNet和评价损失的语音增强方法
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
CN114360571A (zh) 基于参考的语音增强方法
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN103854655A (zh) 一种低码率语音编码器以及解码器
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
Sivapatham et al. Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306

RJ01 Rejection of invention patent application after publication