CN113113049A - 一种联合语音增强的语音活动检测方法 - Google Patents

一种联合语音增强的语音活动检测方法 Download PDF

Info

Publication number
CN113113049A
CN113113049A CN202110292283.1A CN202110292283A CN113113049A CN 113113049 A CN113113049 A CN 113113049A CN 202110292283 A CN202110292283 A CN 202110292283A CN 113113049 A CN113113049 A CN 113113049A
Authority
CN
China
Prior art keywords
voice
vad
decoder
network
activity detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110292283.1A
Other languages
English (en)
Inventor
张晓雷
谭旭
陈益江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110292283.1A priority Critical patent/CN113113049A/zh
Publication of CN113113049A publication Critical patent/CN113113049A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种联合语音增强的语音活动检测方法,首先在Conv‑TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI‑SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。

Description

一种联合语音增强的语音活动检测方法
技术领域
本发明属于语音识别技术领域,具体涉及一种语音活动检测方法。
背景技术
语音活动检测(voice activity detection,VAD)旨在区分音频记录中的语音段和噪声段。对于许多与语音相关的应用(例如语音识别和说话者识别)是重要的前端。近年来,基于深度学习的VAD带来了显着的性能提升。特别是将时域信号直接带入深度网络的端到端VAD是最近的研究趋势。
尽管基于深度学习的VAD已显示出其效果,但如何在低信噪比(signal-to-noiseratio,SNR)环境中进一步提高其性能却是长期利益。单个VAD很难满足要求。一个自然的想法是将语音增强(speech enhancement,SE)引入VAD。最早的方法使用基于深度学习的方法间语音增强网络初始化VAD。也有方法使用语音增强网络首先对语音进行降噪,然后使用降噪后的语音作为VAD的输入,对增强网络和VAD进行联合微调。但当SE模块的性能很差时,使用增强结果作为VAD的输入可能会对VAD造成损害。针对此问题的现有解决方法有:使用先进的语音增强方法来提取VAD的去噪特征;使用U-Net同时估计干净的语音频谱和噪声频谱,然后使用增强的语音频谱图通过阈值直接进行VAD;使用基于降噪变分自编码器的SE模块的输出和潜在变量作为VAD的输入;将基于卷积循环网络的SE提取的嘈杂声特征和增强的声学特征串联起来,作为基于残差卷积神经网络的VAD的输入等。此外,还有方法提出了多目标网络来联合训练SE和VAD以提高它们的性能,其中VAD和SE共享相同的网络,并且具有不同的损失函数。但是以上方法对VAD的性能提升有限。
发明内容
为了克服现有技术的不足,本发明提供了一种联合语音增强的语音活动检测方法,首先在Conv-TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI-SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:SE解码器和VAD解码器均以去噪特征图D作为输入;
SE解码器生成纯净语音信号s的估计值
Figure BDA0002982746930000021
VAD解码器生成VAD分数,在VAD解码器后面增加Sigmoid函数,将VAD解码器的输出限制在0和1之间,输出为
Figure BDA0002982746930000022
表示语音活动检测VAD软预测评分;
步骤3:构建联合损失函数;
定义联合损失:
Figure BDA0002982746930000023
其中
Figure BDA0002982746930000024
Figure BDA0002982746930000025
分别是语音活动检测和语音增强的损失函数,λ∈(0,1)是平衡两个损失函数的超参数;
Figure BDA0002982746930000034
为交叉熵损失函数;
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
Figure BDA0002982746930000031
Figure BDA0002982746930000032
其中
Figure BDA0002982746930000033
y=[y1,...,yT]为语音活动检测VAD的预测标签;
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
本发明的有益效果如下:
1、本发明同时进行语音增强和语音端点检测,提高了工作效率。
2、本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
附图说明
图1为本发明方法联合网络模型结构示意图。
图2为本发明实施例参考干净语音波形图。
图3为本发明实施例含噪语音波形图。
图4为本发明实施例Multi-mSS模型增强结果波形图。
图5为本发明实施例单SE模型增强结果波形图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明采用了基于Conv-TasNet的全卷积网络,使语音增强(SE)任务和语音活动检测(VAD)任务共享相同的编码器和分离模块,最后使用两个解码器分别生成增强的语音和语音似然比。
如图1所示,一种联合语音增强的语音活动检测方法,包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器主要是一维卷积层,编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:解码器是两个独立的一维转置卷积层,每个都对编码器执行相反的尺寸变换。SE解码器和VAD解码器均以去噪特征图D作为输入;
SE解码器生成纯净语音信号s的估计值
Figure BDA0002982746930000041
VAD解码器生成VAD分数,在VAD解码器后面增加Sigmoid函数,将VAD解码器的输出限制在0和1之间,输出为
Figure BDA0002982746930000042
表示语音活动检测VAD软预测评分;
步骤3:构建联合损失函数;
定义联合损失:
Figure BDA0002982746930000043
其中
Figure BDA0002982746930000044
Figure BDA0002982746930000045
分别是语音活动检测和语音增强的损失函数,λ∈(0,1)是平衡两个损失函数的超参数;
Figure BDA0002982746930000046
为交叉熵损失函数;
因为语音增强损失SI-SDR经常被用作端到端语音分离的优化目标,所以联合学习的传统思想是共同优化语音增强损失SI-SDR和交叉熵损失函数
Figure BDA0002982746930000057
但此策略中的两个解码器为独立优化,无法同时优化VAD和语音增强,而VAD和语音增强具有许多共同的特性。例如,最早的基于理想二进制掩蔽的语音增强功能可以看作是应用于每个频段的VAD。
为了同时受益于VAD和语音增强的优势,本发明提出了一种新的语音增强损失,称为mSI-SDR,作为联合训练的增强。mSI-SDR是对常规SI-SDR的修订。SI-SDR旨在解决信噪比中与比有关的问题:
Figure BDA0002982746930000051
其中s为参考信号,
Figure BDA0002982746930000052
为估计信号,
Figure BDA0002982746930000053
为比例因子。
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
Figure BDA0002982746930000054
Figure BDA0002982746930000055
其中
Figure BDA0002982746930000056
y=[y1,...,yT]为语音活动检测VAD的预测标签;
从式(4)可看出mSI-SDR将增强后语音、纯净语音、VAD预测标签及预测概率均考虑在内。式(4)对于优化VAD与SE具有重要作用,使得
Figure BDA0002982746930000058
专注于增强语音活动片段。
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
具体实施例:
本实施例设置两组子实验,组别一、二旨在说明算法在VAD任务及SE任务上的改进效果。
组别一:本发明将提出的方法表示为使用mSI-SDR损失的联合模型(Multi-mSS)。为了与Multi-mSS进行比较,训练了一个使用SI-SDR损失的联合模型(Multi-SS)和一个只有VAD功能的模型,表示为单VAD模型。Multi-SS具有与Multi-mSS完全相同的网络结构。其SE解码器的目标设置为SI-SDR。单VAD模型去除了SE解码器,并只使用VAD损失函数vad作为优化目标。使用接收器工作特性(ROC)曲线,ROC曲线下的面积(AUC)和相等错误率(EER)作为VAD的评估指标。以每10ms的信号作为计算AUC和EER的值。
组别二:除了上述Multi-mSS模型和Multi-SS模型外,训练了一个只有语音增强功能的模型,表示为单SE模型。使用语音质量的感知评估(PESQ),短时客观可懂度度(STOI)和尺度不变的信号失真比(SI-SDR)作为语音增强的评估指标对上述三个模型进行测试。
(1)数据准备:
如图2所示,干净语音采用华尔街日报(WSJ0)数据集。其包含来自101位演讲者的12776语音训练,来自10位发言人的1206语音验证,以及来自8位发言人的651语言评估。录音中只有20%是静音。为减轻分类不平衡的问题,分别在每个音频记录的开头和结尾添加了0.5和1秒的静音段。
用于训练和校准的噪声源为一大型噪声库,其中包含超过20000个噪声段。测试的噪声源是五种不可观噪声,其中公共汽车,咖啡厅,行人和街道的噪声来自CHiME-3数据集,而babble噪声来自NOISEX-92噪声语料库。从[-5,5]dB的范围内随机选择训练和开发集中每个嘈杂语音并记录的SNR级别。测试器的SNR级别分别设置为-5dB,0dB和5dB,训练集、开发集、测试集之间的噪音源不重叠。将所有信号重新采样到16kHz。通过将Ramirez VAD与人为定义的平滑规则应用于干净的语音,可以获得真实的VAD标签。如图3为合噪后的语音波形图。
(2)网络参数设置
对于模型训练,每个训练音频记录都被裁剪为几个4秒的片段。训练时每批数据的容量设置为8。使用Adam优化器。初始学习速率设置为1e-3,若验证集中的性能在3个连续的时间段内都没有改善,则将减半。最低学习率设置为1e-8,权重衰减设置为1e-5。如果训练效果没有提升,即在连续6个训练周期中发生错乱时训练就会停止。编码帧长L=32,其他超参数设置同Conv-TasNet。
(3)实验结果
表1组别一:Multi-mSS、Multi-SS和单VAD模型的语音检测指标比较
Figure BDA0002982746930000071
表1为本发明的Multi-mSS与单VAD模型之间的比较结果。可看出,在所有噪声环境和SNR条件下,Multi-mSS均优于单VAD模型(AUC及EER指标)。当信噪比降低时,相对性能提高更为显著。例如,在-5dB的babble噪声(人声干扰噪声)下,Multi-mSS相比单VAD的模型有73.77%的相对AUC提升和59.83%的相对EER提升。当信噪比增加到5dB时,两种相对提升分别降低到50.00%和37.23%。
在声学环境复杂的嘈杂环境中,Multi-mSS的优势显而易见。具体而言,在人声、咖啡厅和行人环境中,相对EER提升分别为55.38%,38.02%和35.11%。相比之下,公共汽车和街道环境中的相对EER提升仅为21.12%和26.13%。
表2组别二:Multi-mSS、Multi-SS和单SE模型的语音增强指标比较
Figure BDA0002982746930000072
如图4为Multi-mSS模型增强结果波形图,图5为单SE模型增强结果波形图,组别二列出了Multi-mSS、Multi-SS和单SE模型在语音增强上的性能表现。表2中的结果表明,Multi-mSS模型的性能在指标上有略微下降,但通过实际的时频谱图比较可以看出,相比单SE模型,Multi-mSS模型对背景噪声的抑制更为显著,说明本发明所提出的联合工作的效用是明显的。

Claims (1)

1.一种联合语音增强的语音活动检测方法,其特征在于,包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:SE解码器和VAD解码器均以去噪特征图D作为输入;
SE解码器生成纯净语音信号s的估计值
Figure FDA0002982746920000011
VAD解码器生成VAD分数,在VAD解码器后面增加Sigmoid函数,将VAD解码器的输出限制在0和1之间,输出为
Figure FDA0002982746920000012
Figure FDA0002982746920000013
表示语音活动检测VAD软预测评分;
步骤3:构建联合损失函数;
定义联合损失:
Figure FDA0002982746920000014
其中
Figure FDA0002982746920000015
Figure FDA0002982746920000016
分别是语音活动检测和语音增强的损失函数,λ∈(0,1)是平衡两个损失函数的超参数;
Figure FDA0002982746920000017
为交叉熵损失函数;
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
Figure FDA0002982746920000021
Figure FDA0002982746920000022
其中
Figure FDA0002982746920000023
y=[y1,...,yT]为语音活动检测VAD的预测标签;
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
CN202110292283.1A 2021-03-18 2021-03-18 一种联合语音增强的语音活动检测方法 Pending CN113113049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110292283.1A CN113113049A (zh) 2021-03-18 2021-03-18 一种联合语音增强的语音活动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110292283.1A CN113113049A (zh) 2021-03-18 2021-03-18 一种联合语音增强的语音活动检测方法

Publications (1)

Publication Number Publication Date
CN113113049A true CN113113049A (zh) 2021-07-13

Family

ID=76711761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110292283.1A Pending CN113113049A (zh) 2021-03-18 2021-03-18 一种联合语音增强的语音活动检测方法

Country Status (1)

Country Link
CN (1) CN113113049A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101647059A (zh) * 2007-02-26 2010-02-10 杜比实验室特许公司 娱乐音频中的语音增强
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101647059A (zh) * 2007-02-26 2010-02-10 杜比实验室特许公司 娱乐音频中的语音增强
CN105611477A (zh) * 2015-12-27 2016-05-25 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XU TAN, XIAO-LEI ZHANG: "Speech Enhancement Aided End-To-End Multi-Task Learning For Voice Activity Detection", 《ARXIV》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN114023316B (zh) * 2021-11-04 2023-07-21 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法

Similar Documents

Publication Publication Date Title
Zhao et al. Perceptually guided speech enhancement using deep neural networks
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
JP3591068B2 (ja) 音声信号の雑音低減方法
JP5127754B2 (ja) 信号処理装置
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
CN110085249A (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN112992121B (zh) 基于注意力残差学习的语音增强方法
Yuliani et al. Speech enhancement using deep learning methods: A review
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN113936681A (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
Nian et al. A progressive learning approach to adaptive noise and speech estimation for speech enhancement and noisy speech recognition
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition
Nian et al. A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition
JP5443547B2 (ja) 信号処理装置
CN113113049A (zh) 一种联合语音增强的语音活动检测方法
US20150162014A1 (en) Systems and methods for enhancing an audio signal
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Nuthakki et al. Speech Enhancement based on Deep Convolutional Neural Network
CN114283835A (zh) 一种适用于实际通信条件下的语音增强与检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210713

WD01 Invention patent application deemed withdrawn after publication