CN110867192A - 基于门控循环编解码网络的语音增强方法 - Google Patents
基于门控循环编解码网络的语音增强方法 Download PDFInfo
- Publication number
- CN110867192A CN110867192A CN201911011966.4A CN201911011966A CN110867192A CN 110867192 A CN110867192 A CN 110867192A CN 201911011966 A CN201911011966 A CN 201911011966A CN 110867192 A CN110867192 A CN 110867192A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- feature
- enhanced
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 241000282414 Homo sapiens Species 0.000 abstract description 4
- 230000008447 perception Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000282373 Panthera pardus Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种基于门控循环编解码网络的语音增强方法,涉及语音增强技术领域。本发明针对针对现有的语音增强方法没有利用上下文信息与当前待增强语音帧之间联系的问题,基于人类听觉感知的过程的研究,提出了一种基于门控循环编解码网络的语音增强方法,在语音增强任务中引入编解码器架构,使用编码器对相邻多帧语音信号建模以提取上下文信息,利用解码器挖掘当前待增强语音帧和上下文信息之间的联系,提高了语音增强性能。
Description
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于门控循环编解 码网络的语音增强方法。
背景技术
语音增强技术作为信号处理过程当中一个基本环节,在语音识别、 移动通信和人工听觉等诸多领域有着广泛的应用前景。其主要目的是 提高被噪声污染语音的质量和可懂度。最近,随着深度学习技术的兴 起,基于深度神经网络(Deep Neural Network,DNN)的有监督语音 增强方法取得了巨大的成功,特别是在低信噪比和非平稳噪声的情况 下,相较于传统方法表现出了更强大的优势。
从监督学习的角度看,基于深度学习的语音增强方法主要包含三 个部分:特征、网络模型和优化目标。幅度调制谱、傅里叶对数幅度 谱和梅尔倒谱系数是常用的语音增强特征。不同的网络模型也被应用 在语音增强任务中,如深度前馈神经网络(DeepFeedForward Neural Network,DFNN)、循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Conventional Neural Network,CNN)。通常用于语 音增强任务的优化目标可分为基于映射的目标和基于时频掩蔽的目 标。
但是,目前基于深度学习的语音增强方法通常只利用了上下文信 息,却忽略了上下文信息与当前待增强语音帧之间的联系。事实上, 人类在交谈中不仅关注对方当前某一时刻所说的内容,同时也会联系 上下文信息去处理所接受的信息。因此,根据这一现象,如何在语音 增强任务中挖掘上下文信息和当前待增强语音帧之间的联系,是提高 语音增强性能的一个突破口,是当前需要解决的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何在语音增强任务中挖掘上下文 信息和当前待增强语音帧之间的联系,提高语音增强性能。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于门控循环编解码 网络的语音增强方法,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于门控循环神经网络的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的 语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计 进行波形重构,恢复语音信号。
优选地,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构 建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建 用于训练网络的干净语音特征和含噪语音特征的数据对,其 中,计算对数功率谱时的帧长为512个点,帧移为256点, 所计算出的特征维度为257。
优选地,步骤二构建的语音增强模型包含两个部分:编码器和解 码器,模型输入为以第n帧为中心的相邻多帧对数功率谱特征,即: X=(xn-N,xn-N+1,...,xn,...,xn-N+1,xn+N),N为整数,编码器将输入的所述相 邻多帧对数功率谱特征重新编码使之成为包含全部上下文信息的高 层特征表示C,解码器根据该特征表示C并结合当前待增强语音特征,生成当前待增强语音的干净语音特征估计这一过程用公式表示如 下:
C=Encoder(X)
优选地,编码器和解码器的具体实现是使用GRU网络实现,GRU 网络的公式输出值如下:
rt=σ(xtWxr+ht-1Whr+br)
zt=σ(xtWxz+ht-1Whz+bz)
优选地,所述GRU网络层数为2,每层包含1024个节点。
优选地,模型输入为相邻连续15帧对数功率谱特征。
优选地,步骤三中,含噪语音特征为训练特征,干净语音特征为 训练目标。
优选地,步骤五中,将步骤四所得到的待增强语音特征的干净语 音特征估计结合待增强语音特征的相位谱,通过逆傅里叶变换重构时 域波形信号,最终得到增强的语音信号。
本发明还提供了一种所述的语音增强方法的语音增强效果评估 的方法,该方法采用感知语音质量这种评价指标进行评估。
优选地,该方法还采用短时客观可懂度这种评价指标进行评估。
(三)有益效果
本发明针对针对现有的语音增强方法没有利用上下文信息与当 前待增强语音帧之间联系的问题,基于人类听觉感知的过程的研究, 提出了一种基于门控循环编解码网络的语音增强方法,在语音增强任 务中引入编解码器架构,使用编码器对相邻多帧语音信号建模以提取 上下文信息,利用解码器挖掘当前待增强语音帧和上下文信息之间的 联系,提高了语音增强性能。
附图说明
图1为本发明设计的编码器-解码器架构原理图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实 施例,对本发明的具体实施方式作进一步详细描述。
当前基于深度学习的语音增强方法通常只利用了上下文信息,却 忽略了上下文信息与当前待增强语音帧之间的联系。根据人类听觉感 知的过程,上下文信息与当前待增强语音帧之间的联系对语音增强任 务至关重要。因此,本发明提出一种基于门控循环神经网络的语音增 强方法,挖掘上下文信息与当前待增强语音帧之间的联系,以提高语 音增强性能。
本发明提出了一种基于门控循环编解码网络的语音增强方法,在 语音增强任务中引入编解码器架构,使用编码器对相邻多帧语音信号 建模以提取上下文信息,利用解码器挖掘当前待增强语音帧和上下文 信息之间的联系。具体流程如下:
步骤一:混合实验数据,提取对数功率谱特征
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构 建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建 用于训练网络的干净语音特征和含噪语音特征的数据对,计 算对数功率谱时的帧长为512个点,帧移为256点,所计算 出的特征维度为257;
步骤二:构建基于门控循环神经网络的语音增强模型
本发明中基于门控循环神经网络的语音增强模型(待训练网络) 主要包含两个部分:编码器和解码器,模型输入为以第n帧为中心的 相邻多帧对数功率谱特征(待增强语音特征),即:X=(xn-N,xn-N+1,...,xn,...,xn-N+1,xn+N),编码器将输入的待增强语音特征重 新编码使之成为包含全部上下文信息的高层特征表示C,解码器根据 该特征表示C并结合当前待增强语音特征,生成当前待增强语音的干 净语音特征估计这一过程用公式表示如下:
C=Encoder(X)
编码器和解码器的具体实现是使用2层GRU网络实现,每层节 点数目为1024,网络结构如图1所示,GRU网络的公式定义如下:
rt=σ(xtWxr+ht-1Whr+br)
zt=σ(xtWxz+ht-1Whz+bz)
步骤三:训练语音增强模型
将步骤一所提取的含噪语音特征和干净语音特征数据对语音增 强模型(输入网络)进行训练。其中,含噪语音特征为训练特征,干 净语音特征为训练目标;
步骤四:估计待增强语音的干净语音特征
将步骤一所提取的待增强语音特征送入训练好的模型(网络), 输出得到相应的干净语音特征估计;
步骤五:波形重构,恢复语音信号
将步骤四所得到的待增强语音的干净语音特征估计,并结合待增 强语音的相位谱,通过逆傅里叶变换(ISTFT)重构时域波形信号, 最终得到增强的语音信号。
本发明实施例所使用的干净语音全部来自中文语音数据集Free ST ChineseMandarin Corpus,训练集所使用的噪声来自俄亥俄州立大 学语音实验室的100种噪声,测试集使用的噪声来自noisex-92数据 库。按照步骤一的方法,首先将所使用的语音数据均重采样为16000hz。 对于训练集,本发明从中文数据集中随机选取7000条语音数据,包 含700位不同的说话人,每人10条语音。从-10db,-5db,0db,5db, 10db五种信噪比中随机选取一种信噪比,按照该信噪比将干净语音 与从训练集噪声中随机选取的两种噪声进行混合,构成14000(7000*2) 条数据。对于测试集,实施例从中文数据集中选取与训练集语音数据完全不同的150条语音,包含30位不同的说话人,每人5条语音。 测试集噪声选取了noisex92数据集中的五种不同噪声,分别是babble、 leopard、m109、machinegun和volvo。按照-6db、0db和6db三种不 同信噪比,将150条干净语音和5种噪声进行匹配混合,得到2250 (150*5*3)条含噪语音。
为了验证本发明的性能,本发明选取了DNN自回归语音增强方 法(简记为DNN)和无编解码架构的GRU(简记为GRU)方法作为基 线方法,对比本发明所提出的基于门控循环编解码网络语音增强方法 (简记为GRU-E-D)。DNN网络层数为4,激活函数为ReLU,每个 隐藏层包含2048个节点,并且每个隐藏层之后接一个dropout层,dropout层的比例为0.2,网络输入为相邻连续7帧对数功率谱特征。 GRU网络层数为2,每层包含1024个节点,网络输入为相邻连续15 帧对数功率谱特征。
对语音增强效果的评估采用感知语音质量(Perceptual Evaluation of SpeechQuality,PESQ)和短时客观可懂度(Short time objective intelligibility,STOI)两种评价指标。
由表1可以看出,在三种不同信噪比、不同说话人,六种不同噪 声类型的环境下,经本专利所提出的方法增强的语音的平均PESQ值 明显优于经其余两种基线方法增强的语音的平均PESQ值,平均STOI 值优于DNN方法的平均STOI值。
表1不同方法的语音增强性能比较
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领 域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以 做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于门控循环编解码网络的语音增强方法,其特征在于,包括以下步骤:
步骤一:混合实验数据,提取对数功率谱特征;
步骤二:构建基于门控循环神经网络的语音增强模型;
步骤三:将步骤一提取的数据对所述语音增强模型进行训练;
步骤四:将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型,输出得到相应的干净语音特征估计;
步骤五:将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构,恢复语音信号。
2.如权利要求1所述的方法,其特征在于,步骤一具体为:
1)将原始的干净语音数据和噪声数据重采样为16000hz;
2)按照不同的输入信噪比,混合干净语音数据和噪声数据,构建含噪语音数据;
3)提取干净语音数据和含噪语音数据的对数功率谱特征,构建用于训练网络的干净语音特征和含噪语音特征的数据对,其中,计算对数功率谱时的帧长为512个点,帧移为256点,所计算出的特征维度为257。
5.如权利要求4所述的方法,其特征在于,所述GRU网络层数为2,每层包含1024个节点。
6.如权利要求5所述的方法,其特征在于,模型输入为相邻连续15帧对数功率谱特征。
7.如权利要求1所述的方法,其特征在于,步骤三中,含噪语音特征为训练特征,干净语音特征为训练目标。
8.如权利要求4所述的方法,其特征在于,步骤五中,将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱,通过逆傅里叶变换重构时域波形信号,最终得到增强的语音信号。
9.一种如权利要求1至8中任一项所述的语音增强方法的语音增强效果评估的方法,其特征在于,该方法采用感知语音质量这种评价指标进行评估。
10.如权利要求9所述的方法,其特征在于,该方法还采用短时客观可懂度这种评价指标进行评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911011966.4A CN110867192A (zh) | 2019-10-23 | 2019-10-23 | 基于门控循环编解码网络的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911011966.4A CN110867192A (zh) | 2019-10-23 | 2019-10-23 | 基于门控循环编解码网络的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110867192A true CN110867192A (zh) | 2020-03-06 |
Family
ID=69652893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911011966.4A Pending CN110867192A (zh) | 2019-10-23 | 2019-10-23 | 基于门控循环编解码网络的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110867192A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508519A (zh) * | 2020-04-03 | 2020-08-07 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111785288A (zh) * | 2020-06-30 | 2020-10-16 | 北京嘀嘀无限科技发展有限公司 | 语音增强方法、装置、设备及存储介质 |
CN112767959A (zh) * | 2020-12-31 | 2021-05-07 | 恒安嘉新(北京)科技股份公司 | 语音增强方法、装置、设备及介质 |
CN114283829A (zh) * | 2021-12-13 | 2022-04-05 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
WO2022204630A1 (en) * | 2021-03-23 | 2022-09-29 | Qualcomm Incorporated | Context-based speech enhancement |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN107886967A (zh) * | 2017-11-18 | 2018-04-06 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
CN108463848A (zh) * | 2016-03-23 | 2018-08-28 | 谷歌有限责任公司 | 用于多声道语音识别的自适应音频增强 |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
-
2019
- 2019-10-23 CN CN201911011966.4A patent/CN110867192A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108463848A (zh) * | 2016-03-23 | 2018-08-28 | 谷歌有限责任公司 | 用于多声道语音识别的自适应音频增强 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN107886967A (zh) * | 2017-11-18 | 2018-04-06 | 中国人民解放军陆军工程大学 | 一种深度双向门递归神经网络的骨导语音增强方法 |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN108986834A (zh) * | 2018-08-22 | 2018-12-11 | 中国人民解放军陆军工程大学 | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 |
CN109658949A (zh) * | 2018-12-29 | 2019-04-19 | 重庆邮电大学 | 一种基于深度神经网络的语音增强方法 |
CN110085249A (zh) * | 2019-05-09 | 2019-08-02 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
Non-Patent Citations (1)
Title |
---|
白爽冉: "基于深度神经网络的有监督语音增强研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111508519A (zh) * | 2020-04-03 | 2020-08-07 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111785288A (zh) * | 2020-06-30 | 2020-10-16 | 北京嘀嘀无限科技发展有限公司 | 语音增强方法、装置、设备及存储介质 |
CN111785288B (zh) * | 2020-06-30 | 2022-03-15 | 北京嘀嘀无限科技发展有限公司 | 语音增强方法、装置、设备及存储介质 |
CN112767959A (zh) * | 2020-12-31 | 2021-05-07 | 恒安嘉新(北京)科技股份公司 | 语音增强方法、装置、设备及介质 |
CN112767959B (zh) * | 2020-12-31 | 2023-10-17 | 恒安嘉新(北京)科技股份公司 | 语音增强方法、装置、设备及介质 |
WO2022204630A1 (en) * | 2021-03-23 | 2022-09-29 | Qualcomm Incorporated | Context-based speech enhancement |
US11715480B2 (en) | 2021-03-23 | 2023-08-01 | Qualcomm Incorporated | Context-based speech enhancement |
CN114283829A (zh) * | 2021-12-13 | 2022-04-05 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
CN114283829B (zh) * | 2021-12-13 | 2023-06-16 | 电子科技大学 | 一种基于动态门控卷积循环网络的语音增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110739003B (zh) | 基于多头自注意力机制的语音增强方法 | |
CN108986834B (zh) | 基于编解码器架构与递归神经网络的骨导语音盲增强方法 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
CN110379412B (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN109215674A (zh) | 实时语音增强方法 | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN110428849A (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN105448302B (zh) | 一种环境自适应的语音混响消除方法和系统 | |
CN104966517A (zh) | 一种音频信号增强方法和装置 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
Tashev et al. | DNN-based causal voice activity detector | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
CN110675888A (zh) | 一种基于RefineNet和评价损失的语音增强方法 | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN103854655A (zh) | 一种低码率语音编码器以及解码器 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
Sivapatham et al. | Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions | |
CN114023352B (zh) | 一种基于能量谱深度调制的语音增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |
|
RJ01 | Rejection of invention patent application after publication |