CN113113049A - 一种联合语音增强的语音活动检测方法 - Google Patents
一种联合语音增强的语音活动检测方法 Download PDFInfo
- Publication number
- CN113113049A CN113113049A CN202110292283.1A CN202110292283A CN113113049A CN 113113049 A CN113113049 A CN 113113049A CN 202110292283 A CN202110292283 A CN 202110292283A CN 113113049 A CN113113049 A CN 113113049A
- Authority
- CN
- China
- Prior art keywords
- voice
- vad
- decoder
- network
- activity detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 230000000694 effects Effects 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 22
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 21
- 238000000926 separation method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种联合语音增强的语音活动检测方法,首先在Conv‑TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI‑SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种语音活动检测方法。
背景技术
语音活动检测(voice activity detection,VAD)旨在区分音频记录中的语音段和噪声段。对于许多与语音相关的应用(例如语音识别和说话者识别)是重要的前端。近年来,基于深度学习的VAD带来了显着的性能提升。特别是将时域信号直接带入深度网络的端到端VAD是最近的研究趋势。
尽管基于深度学习的VAD已显示出其效果,但如何在低信噪比(signal-to-noiseratio,SNR)环境中进一步提高其性能却是长期利益。单个VAD很难满足要求。一个自然的想法是将语音增强(speech enhancement,SE)引入VAD。最早的方法使用基于深度学习的方法间语音增强网络初始化VAD。也有方法使用语音增强网络首先对语音进行降噪,然后使用降噪后的语音作为VAD的输入,对增强网络和VAD进行联合微调。但当SE模块的性能很差时,使用增强结果作为VAD的输入可能会对VAD造成损害。针对此问题的现有解决方法有:使用先进的语音增强方法来提取VAD的去噪特征;使用U-Net同时估计干净的语音频谱和噪声频谱,然后使用增强的语音频谱图通过阈值直接进行VAD;使用基于降噪变分自编码器的SE模块的输出和潜在变量作为VAD的输入;将基于卷积循环网络的SE提取的嘈杂声特征和增强的声学特征串联起来,作为基于残差卷积神经网络的VAD的输入等。此外,还有方法提出了多目标网络来联合训练SE和VAD以提高它们的性能,其中VAD和SE共享相同的网络,并且具有不同的损失函数。但是以上方法对VAD的性能提升有限。
发明内容
为了克服现有技术的不足,本发明提供了一种联合语音增强的语音活动检测方法,首先在Conv-TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI-SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:SE解码器和VAD解码器均以去噪特征图D作为输入;
步骤3:构建联合损失函数;
定义联合损失:
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
本发明的有益效果如下:
1、本发明同时进行语音增强和语音端点检测,提高了工作效率。
2、本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
附图说明
图1为本发明方法联合网络模型结构示意图。
图2为本发明实施例参考干净语音波形图。
图3为本发明实施例含噪语音波形图。
图4为本发明实施例Multi-mSS模型增强结果波形图。
图5为本发明实施例单SE模型增强结果波形图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明采用了基于Conv-TasNet的全卷积网络,使语音增强(SE)任务和语音活动检测(VAD)任务共享相同的编码器和分离模块,最后使用两个解码器分别生成增强的语音和语音似然比。
如图1所示,一种联合语音增强的语音活动检测方法,包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器主要是一维卷积层,编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:解码器是两个独立的一维转置卷积层,每个都对编码器执行相反的尺寸变换。SE解码器和VAD解码器均以去噪特征图D作为输入;
步骤3:构建联合损失函数;
定义联合损失:
因为语音增强损失SI-SDR经常被用作端到端语音分离的优化目标,所以联合学习的传统思想是共同优化语音增强损失SI-SDR和交叉熵损失函数但此策略中的两个解码器为独立优化,无法同时优化VAD和语音增强,而VAD和语音增强具有许多共同的特性。例如,最早的基于理想二进制掩蔽的语音增强功能可以看作是应用于每个频段的VAD。
为了同时受益于VAD和语音增强的优势,本发明提出了一种新的语音增强损失,称为mSI-SDR,作为联合训练的增强。mSI-SDR是对常规SI-SDR的修订。SI-SDR旨在解决信噪比中与比有关的问题:
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
具体实施例:
本实施例设置两组子实验,组别一、二旨在说明算法在VAD任务及SE任务上的改进效果。
组别一:本发明将提出的方法表示为使用mSI-SDR损失的联合模型(Multi-mSS)。为了与Multi-mSS进行比较,训练了一个使用SI-SDR损失的联合模型(Multi-SS)和一个只有VAD功能的模型,表示为单VAD模型。Multi-SS具有与Multi-mSS完全相同的网络结构。其SE解码器的目标设置为SI-SDR。单VAD模型去除了SE解码器,并只使用VAD损失函数vad作为优化目标。使用接收器工作特性(ROC)曲线,ROC曲线下的面积(AUC)和相等错误率(EER)作为VAD的评估指标。以每10ms的信号作为计算AUC和EER的值。
组别二:除了上述Multi-mSS模型和Multi-SS模型外,训练了一个只有语音增强功能的模型,表示为单SE模型。使用语音质量的感知评估(PESQ),短时客观可懂度度(STOI)和尺度不变的信号失真比(SI-SDR)作为语音增强的评估指标对上述三个模型进行测试。
(1)数据准备:
如图2所示,干净语音采用华尔街日报(WSJ0)数据集。其包含来自101位演讲者的12776语音训练,来自10位发言人的1206语音验证,以及来自8位发言人的651语言评估。录音中只有20%是静音。为减轻分类不平衡的问题,分别在每个音频记录的开头和结尾添加了0.5和1秒的静音段。
用于训练和校准的噪声源为一大型噪声库,其中包含超过20000个噪声段。测试的噪声源是五种不可观噪声,其中公共汽车,咖啡厅,行人和街道的噪声来自CHiME-3数据集,而babble噪声来自NOISEX-92噪声语料库。从[-5,5]dB的范围内随机选择训练和开发集中每个嘈杂语音并记录的SNR级别。测试器的SNR级别分别设置为-5dB,0dB和5dB,训练集、开发集、测试集之间的噪音源不重叠。将所有信号重新采样到16kHz。通过将Ramirez VAD与人为定义的平滑规则应用于干净的语音,可以获得真实的VAD标签。如图3为合噪后的语音波形图。
(2)网络参数设置
对于模型训练,每个训练音频记录都被裁剪为几个4秒的片段。训练时每批数据的容量设置为8。使用Adam优化器。初始学习速率设置为1e-3,若验证集中的性能在3个连续的时间段内都没有改善,则将减半。最低学习率设置为1e-8,权重衰减设置为1e-5。如果训练效果没有提升,即在连续6个训练周期中发生错乱时训练就会停止。编码帧长L=32,其他超参数设置同Conv-TasNet。
(3)实验结果
表1组别一:Multi-mSS、Multi-SS和单VAD模型的语音检测指标比较
表1为本发明的Multi-mSS与单VAD模型之间的比较结果。可看出,在所有噪声环境和SNR条件下,Multi-mSS均优于单VAD模型(AUC及EER指标)。当信噪比降低时,相对性能提高更为显著。例如,在-5dB的babble噪声(人声干扰噪声)下,Multi-mSS相比单VAD的模型有73.77%的相对AUC提升和59.83%的相对EER提升。当信噪比增加到5dB时,两种相对提升分别降低到50.00%和37.23%。
在声学环境复杂的嘈杂环境中,Multi-mSS的优势显而易见。具体而言,在人声、咖啡厅和行人环境中,相对EER提升分别为55.38%,38.02%和35.11%。相比之下,公共汽车和街道环境中的相对EER提升仅为21.12%和26.13%。
表2组别二:Multi-mSS、Multi-SS和单SE模型的语音增强指标比较
如图4为Multi-mSS模型增强结果波形图,图5为单SE模型增强结果波形图,组别二列出了Multi-mSS、Multi-SS和单SE模型在语音增强上的性能表现。表2中的结果表明,Multi-mSS模型的性能在指标上有略微下降,但通过实际的时频谱图比较可以看出,相比单SE模型,Multi-mSS模型对背景噪声的抑制更为显著,说明本发明所提出的联合工作的效用是明显的。
Claims (1)
1.一种联合语音增强的语音活动检测方法,其特征在于,包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
步骤2-2:编码器内核大小为L,步幅为L/2;将音频数据x输入编码器,编码器将音频数据x转换为特征图W∈RN×K,其中K是特征向量的数量;
再将特征图W输入分离网络TCN,分离网络TCN输出掩码M∈RN×K;再将特征图W和掩码M进行逐元素乘法,得到去噪特征图D∈RN×K,表示如下:
D=M⊙W
其中⊙表示逐元素乘法;
步骤2-3:SE解码器和VAD解码器均以去噪特征图D作为输入;
步骤3:构建联合损失函数;
定义联合损失:
在语音增强损失SI-SDR的基础上引入语音活动检测VAD标签及软预测评分,构造新的语音增强损失mSI-SDR:
步骤4:采用Adam优化器对联合网络模型进行训练,训练完成后得到最终的联合网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292283.1A CN113113049A (zh) | 2021-03-18 | 2021-03-18 | 一种联合语音增强的语音活动检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292283.1A CN113113049A (zh) | 2021-03-18 | 2021-03-18 | 一种联合语音增强的语音活动检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113113049A true CN113113049A (zh) | 2021-07-13 |
Family
ID=76711761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110292283.1A Pending CN113113049A (zh) | 2021-03-18 | 2021-03-18 | 一种联合语音增强的语音活动检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113049A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101647059A (zh) * | 2007-02-26 | 2010-02-10 | 杜比实验室特许公司 | 娱乐音频中的语音增强 |
CN105611477A (zh) * | 2015-12-27 | 2016-05-25 | 北京工业大学 | 数字助听器中深度和广度神经网络相结合的语音增强算法 |
-
2021
- 2021-03-18 CN CN202110292283.1A patent/CN113113049A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101647059A (zh) * | 2007-02-26 | 2010-02-10 | 杜比实验室特许公司 | 娱乐音频中的语音增强 |
CN105611477A (zh) * | 2015-12-27 | 2016-05-25 | 北京工业大学 | 数字助听器中深度和广度神经网络相结合的语音增强算法 |
Non-Patent Citations (1)
Title |
---|
XU TAN, XIAO-LEI ZHANG: "Speech Enhancement Aided End-To-End Multi-Task Learning For Voice Activity Detection", 《ARXIV》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN114023316B (zh) * | 2021-11-04 | 2023-07-21 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Perceptually guided speech enhancement using deep neural networks | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
JP3591068B2 (ja) | 音声信号の雑音低減方法 | |
JP5127754B2 (ja) | 信号処理装置 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN110085249A (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
JP5153886B2 (ja) | 雑音抑圧装置および音声復号化装置 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及系统 | |
CN113936681A (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
Nian et al. | A progressive learning approach to adaptive noise and speech estimation for speech enhancement and noisy speech recognition | |
Tu et al. | DNN training based on classic gain function for single-channel speech enhancement and recognition | |
Nian et al. | A time domain progressive learning approach with snr constriction for single-channel speech enhancement and recognition | |
JP5443547B2 (ja) | 信号処理装置 | |
CN113113049A (zh) | 一种联合语音增强的语音活动检测方法 | |
US20150162014A1 (en) | Systems and methods for enhancing an audio signal | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
Nuthakki et al. | Speech Enhancement based on Deep Convolutional Neural Network | |
CN114283835A (zh) | 一种适用于实际通信条件下的语音增强与检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210713 |
|
WD01 | Invention patent application deemed withdrawn after publication |