CN112509593B - 一种语音增强网络模型、单通道的语音增强方法及系统 - Google Patents

一种语音增强网络模型、单通道的语音增强方法及系统 Download PDF

Info

Publication number
CN112509593B
CN112509593B CN202011283692.7A CN202011283692A CN112509593B CN 112509593 B CN112509593 B CN 112509593B CN 202011283692 A CN202011283692 A CN 202011283692A CN 112509593 B CN112509593 B CN 112509593B
Authority
CN
China
Prior art keywords
layer
convolution
encoder
weight value
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011283692.7A
Other languages
English (en)
Other versions
CN112509593A (zh
Inventor
康洪涛
欧阳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingwei Intelligent Technology Co ltd
Original Assignee
Beijing Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingwei Intelligent Technology Co ltd filed Critical Beijing Qingwei Intelligent Technology Co ltd
Priority to CN202011283692.7A priority Critical patent/CN112509593B/zh
Publication of CN112509593A publication Critical patent/CN112509593A/zh
Application granted granted Critical
Publication of CN112509593B publication Critical patent/CN112509593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)

Abstract

本发明提供一种单通道的语音增强方法,该方法通过语音增强网络模型实现。语音增强网络模型包括:一个分析层、一个编码器、一个时间卷积模块、一个解码器和一个合成层。本发明中一种单通道的语音增强方法,通过加入了基于卷积层设计的准短时加窗傅里叶变换的分析层和准逆短时加窗傅里叶变换的合成层,进而在变换域内更好地挖掘语音的特性。此外,采用门控卷积层搭建编码器和解码器以扩大感受野,更好地控制信息在层级结构中的传递,在编码器和解码器中间加入时间卷积模块以更好地学习语音的长时记忆特性,从而提高语音增强效果。同时,本发明提供了一种单通道的语音增强系统及一种语音增强网络模型。

Description

一种语音增强网络模型、单通道的语音增强方法及系统
技术领域
本发明涉及语音信号处理技术领域,特别是涉及一种单通道的语音增强方法、一种单通道的语音增强系统及一种语音增强网络模型。
背景技术
语音增强是指利用音频信号处理技术及各种算法提高失真语音信号的可懂度或整体感知质量,从而进一步在语音识别、语音通话、听力辅助以及声纹识别等场景中改善应用效果。传统的单通道语音增强算法包括谱减法、基于统计模型的算法和子空间算法等。但这类算法通常需要对语音信号和噪声各自的特性以及彼此是否相关等方面做出一定的前提假设,使其增强性能受到了限制。基于深度学习的语音增强算法目前大多采用的都是频域特征,如短时傅里叶变换幅度谱或者是对数功率谱,而增强语音的相位则由带噪语音的相位来代替,使得增强语音中相位和幅度存在一定的不匹配,导致“不一致语谱”问题。
发明内容
本发明的目的是提供一种单通道的语音增强方法,其通过加入了基于卷积层设计的准短时加窗傅里叶变换的分析层和准逆短时加窗傅里叶变换的合成层,进而在变换域内更好地挖掘语音的特性。此外,采用门控卷积层搭建编码器和解码器以扩大感受野,更好地控制信息在层级结构中的传递,在编码器和解码器中间加入时间卷积模块以更好地学习语音的长时记忆特性,从而提高语音增强效果。
本发明一方面提供了一种单通道的语音增强方法,该方法通过语音增强网络模型实现。语音增强网络模型包括:一个分析层、一个编码器、一个时间卷积模块、一个解码器和一个合成层。
分析层配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征。
编码器设置于分析层的输出端且从分析层接收初始维度的采样语音时域特征。编码器具有多层的门控卷积层。编码器通过多层的门控卷积层识别初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值。
编码器的门控卷积层具有两个数据流。两个数据流对应两个残差连接。两个残差连接分别为门控残差连接和非门控残差连接。
时间卷积模块设置于编码器的输出端且能够从编码器接收第一识别权重值。时间卷积模块通过空洞卷积第一识别权重值获取第二识别权重值。
解码器设置于时间卷积模块的输出端且接收第二识别权重值。解码器具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。以及
合成层设置于解码器的输出端且从解码器获取增强后语音时域特征。合成层根据增强后语音时域特征获取增强后的语音数据。
本发明的第二方面,提供了一种语音增强网络模型,其包括:一个分析层、一个编码器、一个时间卷积模块、一个解码器和一个合成层。
分析层配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征。
编码器设置于分析层的输出端且从分析层接收初始维度的采样语音时域特征。编码器具有多层的门控卷积层。编码器通过多层的门控卷积层识别初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值。
编码器的门控卷积层具有两个数据流。两个数据流对应两个残差连接。两个残差连接分别为门控残差连接和非门控残差连接。
时间卷积模块设置于编码器的输出端且能够从编码器接收第一识别权重值。时间卷积模块通过空洞卷积第一识别权重值获取第二识别权重值。
解码器设置于时间卷积模块的输出端且接收第二识别权重值。解码器具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。
合成层设置于解码器的输出端且从解码器获取增强后语音时域特征。合成层根据增强后语音时域特征获取增强后的语音数据。
本发明的第三方面提供了一种单通道的语音增强系统,该系统包括:本发明中的语音增强网络模型。一个噪音语音信号输入单元和一个增强语音信号输出单元。
噪音语音信号输入单元,其配置于接收或采集多个采样点的带噪音采样数据且将采样点的带噪音采样数据输入语音增强网络模型。
语音增强网络模型,配置为根据带噪音采样数据获取增强后的语音数据。增强语音信号输出单元,配置为输出增强后的语音数据。
下文将以明确易懂的方式,结合附图对一种单通道的语音增强方法、一种单通道的语音增强系统及一种语音增强网络模型的特性、技术特征、优点及其实现方式予以进一步说明。
附图说明
图1是用于说明在本发明一种实施方式中,单通道的语音增强方法中的语音增强网络模型的组成及处理示意图。
图2是用于说明在本发明另一种实施方式中单通道的语音增强系统的组成示意图。
图3是用于说明在本发明再一种实施方式中,时间卷积模块中的残差块结构示意图。
图4是用于说明在本发明又一种实施方式中,基于门控线性单元的门控卷积结构框示意图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示结构相同或结构相似但功能相同的部件。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中只示意性地表示出了与本示例性实施例相关的部分,它们并不代表其作为产品的实际结构及真实比例。
本发明一方面,提供了一种单通道的语音增强方法,该方法通过语音增强网络模型实现。如图1所示,语音增强网络模型包括:一个分析层101、一个编码器102、一个时间卷积模块103、一个解码器104和一个合成层105。
分析层101配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征。
编码器102设置于分析层101的输出端且从分析层101接收初始维度的采样语音时域特征。编码器102具有多层的门控卷积层。编码器102通过多层的门控卷积层识别初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值。
编码器102的门控卷积层具有两个数据流。两个数据流对应两个残差连接。两个残差连接分别为门控残差连接和非门控残差连接。
时间卷积模块103设置于编码器102的输出端且能够从解码器104接收第一识别权重值。时间卷积模块103通过空洞卷积第一识别权重值获取第二识别权重值。
解码器104设置于时间卷积模块103的输出端且接收第二识别权重值。解码器104具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器104反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。以及
合成层105设置于解码器104的输出端且从解码器104获取增强后语音时域特征。合成层105根据增强后语音时域特征获取增强后的语音数据。
在本发明单通道的语音增强方法的一种实施方式中,分析层101为一维卷积层。分析层101通过一维卷积层实现准短时加窗傅里叶变换。一维卷积层的初始权重值根据准短时加窗傅里叶变换的实部和虚部初始化。
分析层101通过一维卷积层卷积带噪音采样数据,获取初始维度的采样语音时域特征。
在本发明单通道的语音增强方法的另一种实施方式中,合成层105为一维反卷积层。合成层105通过一维反卷积层实现准逆短时加窗傅里叶变换。一维反卷积层的初始权重值根据准逆短时加窗傅里叶变换的实部和虚部初始化。
合成层105通过一维反卷积层卷积增强后语音时域特征,获取增强后的语音数据。
在本发明单通道的语音增强方法的再一种实施方式中,编码器102中多层的门控卷积层为二维的门控卷积层。在每层门控卷积层间包括依次处理的批量归一化层和激活函数层。
解码器104中多层的门控反卷积层为二维的门控反卷积层。在每两层门控反卷积层间设置一个随机失活层。在每层门控反卷积层间包括依次处理的批量归一化层和激活函数层。
在本发明单通道的语音增强方法的又一种实施方式中,时间卷积模块103采用一维卷积层。
时间卷积模块103由3个空洞模块组成。每个空洞模块由6个残差块依次连接组成。残差块的深度卷积层采用了空洞卷积。6个残差块的深度卷积层的扩张率依次为1,2,4,8,16,32。
时间卷积模块103通过3个空洞模块空洞卷积第一识别权重值获取第二识别权重值。
在本发明单通道的语音增强方法的又一种实施方式中,6个残差块中的每个残差块包括:输入卷积层、深度卷积层和输出卷积层。在输入卷积层和深度卷积层后加入依次处理的批量归一化层和激活函数层。
本发明的第二方面,提供了一种语音增强网络模型,如图1所示,其包括:一个分析层101、一个编码器102、一个时间卷积模块103、一个解码器104和一个合成层105。
分析层101配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征。
编码器102设置于分析层101的输出端且从分析层101接收初始维度的采样语音时域特征。编码器102具有多层的门控卷积层。编码器102通过多层的门控卷积层识别初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值。
编码器102的门控卷积层具有两个数据流。两个数据流对应两个残差连接。两个残差连接分别为门控残差连接和非门控残差连接。
时间卷积模块103设置于编码器102的输出端且能够从解码器104接收第一识别权重值。时间卷积模块103通过空洞卷积第一识别权重值获取第二识别权重值。
解码器104设置于时间卷积模块103的输出端且接收第二识别权重值。解码器104具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器104反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。
合成层105设置于解码器104的输出端且从解码器104获取增强后语音时域特征。合成层105根据增强后语音时域特征获取增强后的语音数据。
在本发明语音增强网络模型的一种实施方式中,分析层101为一维卷积层。分析层101通过一维卷积层实现准短时加窗傅里叶变换。一维卷积层的初始权重值根据准短时加窗傅里叶变换的实部和虚部初始化。
分析层101通过一维卷积层卷积带噪音采样数据,获取初始维度的采样语音时域特征。
在本发明语音增强网络模型的另一种实施方式中,合成层105为一维反卷积层。合成层105通过一维反卷积层实现准逆短时加窗傅里叶变换。一维反卷积层的初始权重值根据准逆短时加窗傅里叶变换的实部和虚部初始化。
合成层105通过一维反卷积层卷积增强后语音时域特征,获取增强后的语音数据。
本发明的第三方面提供了一种单通道的语音增强系统,如图2所示,该系统包括:本发明中的语音增强网络模型202。一个噪音语音信号输入单元201和一个增强语音信号输出单元301。
噪音语音信号输入单元201,其配置于接收或采集多个采样点的带噪音采样数据且将采样点的带噪音采样数据输入语音增强网络模型。语音增强网络模型202配置为根据带噪音采样数据获取增强后的语音数据。增强语音信号输出单元301配置为输出增强后的语音数据。
本发明是一种针对单通道的基于全卷积神经网络的端到端语音增强方法。网络模型主要由编码器和解码器构成,并且在编码器的输入端和解码器的输出端分别加入了基于卷积层设计的准短时加窗傅里叶变换的分析层和准逆短时加窗傅里叶变换的合成层,进而在变换域内更好地挖掘语音的特性。此外,采用门控卷积层搭建编码器和解码器以扩大感受野,更好地控制信息在层级结构中的传递,在编码器和解码器中间加入时间卷积模块以更好地学习语音的长时记忆特性。整个模型的输入和输出都是时域信号。整个模型的网络框图如图1所示。
在本发明的一种实施方式中,本发明的具体内容包括:
首先,包含L个采样点的带噪语音数据被输入到模型中,经过分析层得到维度为2×T×257的特征作为编码器的输入特征,其中T表示帧的数目,采样率为16kHz。编码器由7层的门控卷积层组成,它的第一层将特征的通道数由2增加到16,因此第一层的输出特征维度为64×T×257。紧接着的6层都是不断进行特征压缩,同时扩大通道数,最后编码器的输出特征维度为64×T×4,在编码器中每一层的卷积层后都衔接着BN处理和PReLU函数。
其次,时间卷积模块位于编码器与解码器的中间,它采用一维卷积层,编码器的输出特征的维度由64×T×4改为256×T。时间卷积模块由3个空洞模块组成,每个空洞模块由6个如图3所示的残差块组成,这里的残差块的深度卷积层采用了空洞卷积,6个残差块的深度卷积层的扩张率依次为1,2,4,8,16,32。
最后,解码器与编码器相对应,它由7层的门控反卷积层组成。不同于简单的卷积层,门控卷积有2个数据流,因此也带来了2个残差连接分别为非门控残差连接和门控残差连接,如图1中所示。在训练阶段,解码器每两层会设置一个随机失活(Dropout)层,失活率为0.2。与编码器相同,解码器的每层卷积层后都会衔接BN处理和PReLU函数。
本发明中的单通道的语音增强方法在实验时,采用DNS数据集,验证了所提出算法的有效性。语音增强之前STOI和PESQ分别是0.9147和2.4498,经过本算法增强之后的STOI和PESQ分别是0.9520和3.0844。可见,语音质量和可懂度大大提升。
在本发明的一种实施方式中:
分析层ConvSTFT是由1层一维卷积层Conv1d组成。其权重由STFT的变换系数的实部和虚部来初始化。合成层ConvISTFT是由1层一维反卷积层DConv1d组成。其权重由ISTFT的变换系数的实部和虚部来初始化。
基于门控线性单元(Gated Linear Units,GLUs)的门控卷积层的框图如图3所示。我们分别采用二维的门控卷积层(GConv2d)和门控反卷积层(GDConv2d)来搭建编码器Encoder和解码器Decoder。这里在每一层卷积层和反卷积层之后都紧接着批量归一化层(Batch Normalization,BN)和激活函数PRelu层。
时间卷积模块(Temporal Convolutional Module,TCM)由3个因果空洞卷积块堆叠在一起,每个因果空洞卷积块由6个残差块组成。每个残差块包含3层卷积层:输入1×1卷积(Pointwise Convolution)层,深度卷积(Depthwise Convolution)层和输出1×1卷积(Pointwise Convolution)层,其结构图如图4所示。这里的深度卷积层采用了空洞卷积设计。6个残差块的深度卷积层的扩张率依次为1,2,4,8,16,32。在输入1×1卷积(PointwiseConvolution)层和深度卷积层之后紧接着激活函数PRelu层和批量归一化(BatchNormalization,BN)层。
其中,模型的结构和具体参数,如下表1所示:表1:模型的结构与具体参数。
分析层ConvSTFT/合成层ConvISTFT和时间卷积模块TCM中的参数格式对应为:
“filterHeight,dilatioRate,outputChannels”,每个小括号代表一个模块。
编码器/解码器层中的参数格式对应为:
“filterHeight,filterWidth,(stride along frame,stride alongfrequency)”。
表1
应当理解,虽然本说明书是按照各个实施方式中描述的,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种单通道的语音增强方法,其特征在于,该方法通过语音增强网络模型实现;
所述语音增强网络模型包括:
一个分析层,其配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征;
一个编码器,其设置于所述分析层的输出端且从所述分析层接收所述初始维度的采样语音时域特征;所述编码器具有多层的门控卷积层;所述编码器通过多层的门控卷积层识别所述初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值;
所述编码器的门控卷积层具有两个数据流;所述两个数据流对应两个残差连接;所述两个残差连接分别为门控残差连接和非门控残差连接;
一个时间卷积模块,其设置于所述编码器的输出端且能够从所述编码器接收所述第一识别权重值;所述时间卷积模块通过空洞卷积所述第一识别权重值获取第二识别权重值;
一个解码器,其设置于所述时间卷积模块的输出端且接收所述第二识别权重值;所述解码器具有多层的门控反卷积层;所述多层的门控反卷积层连接所述门控残差连接和非门控残差连接;所述解码器反卷积所述第二识别权重值获取具有所述初始维度的增强后语音时域特征;以及
一个合成层,其设置于所述解码器的输出端且从所述解码器获取增强后语音时域特征;所述合成层根据所述增强后语音时域特征获取增强后的语音数据。
2.根据权利要求1所述的语音增强方法,其特征在于,所述分析层为一维卷积层;所述分析层通过所述一维卷积层实现准短时加窗傅里叶变换;所述一维卷积层的初始权重值根据所述准短时加窗傅里叶变换的实部和虚部初始化;
所述分析层通过所述一维卷积层卷积所述带噪音采样数据,获取初始维度的采样语音时域特征。
3.根据权利要求2所述的语音增强方法,其特征在于,所述合成层为一维反卷积层;所述合成层通过所述一维反卷积层实现准逆短时加窗傅里叶变换;所述一维反卷积层的初始权重值根据所述准逆短时加窗傅里叶变换的实部和虚部初始化;
所述合成层通过所述一维反卷积层卷积所述增强后语音时域特征,获取增强后的语音数据。
4.根据权利要求2所述的语音增强方法,其特征在于,所述编码器中多层的门控卷积层为二维的门控卷积层;在每层门控卷积层间包括依次处理的批量归一化层和激活函数层;
所述解码器中多层的门控反卷积层为二维的门控反卷积层;在每两层门控反卷积层间设置一个随机失活层;在每层门控反卷积层间包括依次处理的批量归一化层和激活函数层。
5.根据权利要求1所述的语音增强方法,其特征在于,所述时间卷积模块采用一维卷积层;所述时间卷积模块由3个空洞模块组成;每个空洞模块由6个残差块依次连接组成;所述残差块的深度卷积层采用了空洞卷积;6个残差块的深度卷积层的扩张率依次为1,2,4,8,16,32;
所述时间卷积模块通过所述3个空洞模块空洞卷积所述第一识别权重值获取第二识别权重值。
6.根据权利要求5所述的语音增强方法,其特征在于,所述6个残差块中的每个残差块包括:输入卷积层、深度卷积层和输出卷积层;在输入卷积层和深度卷积层后加入依次处理的批量归一化层和激活函数层。
7.语音增强网络模型,其特征在于,包括:
一个分析层,其配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征;
一个编码器,其设置于所述分析层的输出端且从所述分析层接收所述初始维度的采样语音时域特征;所述编码器具有多层的门控卷积层;所述编码器通过多层的门控卷积层识别所述初始维度的采样语音时域特征,获取采样语音时域特征的第一识别权重值;
所述编码器的门控卷积层具有两个数据流;所述两个数据流对应两个残差连接;所述两个残差连接分别为门控残差连接和非门控残差连接;
一个时间卷积模块,其设置于所述编码器的输出端且能够从所述编码器接收所述第一识别权重值;所述时间卷积模块通过空洞卷积所述第一识别权重值获取第二识别权重值;
一个解码器,其设置于所述时间卷积模块的输出端且接收所述第二识别权重值;所述解码器具有多层的门控反卷积层;所述多层的门控反卷积层连接所述门控残差连接和非门控残差连接;所述解码器反卷积所述第二识别权重值获取具有所述初始维度的增强后语音时域特征;
一个合成层,其设置于所述解码器的输出端且从所述解码器获取增强后语音时域特征;所述合成层根据所述增强后语音时域特征获取增强后的语音数据。
8.根据权利要求7所述的语音增强网络模型,其特征在于,所述分析层为一维卷积层;所述分析层通过所述一维卷积层实现准短时加窗傅里叶变换;所述一维卷积层的初始权重值根据所述准短时加窗傅里叶变换的实部和虚部初始化;
所述分析层通过所述一维卷积层卷积所述带噪音采样数据,获取初始维度的采样语音时域特征。
9.根据权利要求8所述的语音增强网络模型,其特征在于,所述合成层为一维反卷积层;所述合成层通过所述一维反卷积层实现准逆短时加窗傅里叶变换;所述一维反卷积层的初始权重值根据所述准逆短时加窗傅里叶变换的实部和虚部初始化;
所述合成层通过所述一维反卷积层卷积所述增强后语音时域特征,获取增强后的语音数据。
10.一种单通道的语音增强系统,其特征在于,该系统包括:权利要求7~9中任一项的语音增强网络模型;一个噪音语音信号输入单元和一个增强语音信号输出单元;
所述噪音语音信号输入单元,其配置于接收或采集多个采样点的带噪音采样数据且将所述采样点的带噪音采样数据输入所述语音增强网络模型;
所述语音增强网络模型,配置为根据所述带噪音采样数据获取增强后的语音数据;
所述增强语音信号输出单元,配置为输出增强后的语音数据。
CN202011283692.7A 2020-11-17 2020-11-17 一种语音增强网络模型、单通道的语音增强方法及系统 Active CN112509593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011283692.7A CN112509593B (zh) 2020-11-17 2020-11-17 一种语音增强网络模型、单通道的语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011283692.7A CN112509593B (zh) 2020-11-17 2020-11-17 一种语音增强网络模型、单通道的语音增强方法及系统

Publications (2)

Publication Number Publication Date
CN112509593A CN112509593A (zh) 2021-03-16
CN112509593B true CN112509593B (zh) 2024-03-08

Family

ID=74956490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011283692.7A Active CN112509593B (zh) 2020-11-17 2020-11-17 一种语音增强网络模型、单通道的语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN112509593B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160839B (zh) * 2021-04-16 2022-10-14 电子科技大学 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法
CN113506581B (zh) * 2021-07-08 2024-04-05 京东科技控股股份有限公司 一种语音增强方法和装置
CN113674753B (zh) * 2021-08-11 2023-08-01 河南理工大学 一种语音增强方法
CN113903352A (zh) * 2021-09-28 2022-01-07 阿里云计算有限公司 一种单通道语音增强方法及装置
CN114283829B (zh) * 2021-12-13 2023-06-16 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法
CN114898766A (zh) * 2022-07-12 2022-08-12 四川高速公路建设开发集团有限公司 基于gan网络的分布式光纤语音增强方法及隧道救援系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587712A (zh) * 2008-05-21 2009-11-25 中国科学院声学研究所 一种基于小型麦克风阵列的定向语音增强方法
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110120227A (zh) * 2019-04-26 2019-08-13 天津大学 一种深度堆叠残差网络的语音分离方法
CN110164472A (zh) * 2019-04-19 2019-08-23 天津大学 基于卷积神经网络的噪声分类方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110534123A (zh) * 2019-07-22 2019-12-03 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法
JP2020149044A (ja) * 2019-03-13 2020-09-17 富士通株式会社 音声分離装置、方法及び記憶媒体
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920545B (zh) * 2017-03-21 2020-07-28 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法和装置
EP3596666A1 (en) * 2017-05-19 2020-01-22 Google LLC Multi-task multi-modal machine learning model

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587712A (zh) * 2008-05-21 2009-11-25 中国科学院声学研究所 一种基于小型麦克风阵列的定向语音增强方法
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
JP2020149044A (ja) * 2019-03-13 2020-09-17 富士通株式会社 音声分離装置、方法及び記憶媒体
CN110164472A (zh) * 2019-04-19 2019-08-23 天津大学 基于卷积神经网络的噪声分类方法
CN110120227A (zh) * 2019-04-26 2019-08-13 天津大学 一种深度堆叠残差网络的语音分离方法
CN110085249A (zh) * 2019-05-09 2019-08-02 南京工程学院 基于注意力门控的循环神经网络的单通道语音增强方法
CN110534123A (zh) * 2019-07-22 2019-12-03 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111081268A (zh) * 2019-12-18 2020-04-28 浙江大学 一种相位相关的共享深度卷积神经网络语音增强方法
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法
CN111899757A (zh) * 2020-09-29 2020-11-06 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全卷积神经网络的语音增强算法;张明亮;陈雨;;计算机应用研究(第S1期);全文 *

Also Published As

Publication number Publication date
CN112509593A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112509593B (zh) 一种语音增强网络模型、单通道的语音增强方法及系统
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
Lv et al. S-dccrn: Super wide band dccrn with learnable complex feature for speech enhancement
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
CN110473567A (zh) 基于深度神经网络的音频处理方法、装置及存储介质
CN110085245B (zh) 一种基于声学特征转换的语音清晰度增强方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN112786064B (zh) 一种端到端的骨气导语音联合增强方法
Ju et al. Tea-pse: Tencent-ethereal-audio-lab personalized speech enhancement system for icassp 2022 dns challenge
CN110491406B (zh) 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN112634926B (zh) 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN111986660A (zh) 一种神经网络子带建模的单通道语音增强方法、系统及存储介质
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
EP3726529A1 (en) Method and apparatus for determining a deep filter
CN113539297A (zh) 一种用于声音分类的联合注意力机制模型、方法及应用
Watcharasupat et al. End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression
Dendani et al. Self-Supervised Speech Enhancement for Arabic Speech Recognition in Real-World Environments.
CN110970044A (zh) 一种面向语音识别的语音增强方法
Sheeja et al. Speech dereverberation and source separation using DNN-WPE and LWPR-PCA
CN110931034B (zh) 一种送话拾音麦克风内置型耳机的拾音降噪方法
CN112634927A (zh) 一种短波信道语音增强方法
US11404055B2 (en) Simultaneous dereverberation and denoising via low latency deep learning
Wang et al. Two-stage enhancement of noisy and reverberant microphone array speech for automatic speech recognition systems trained with only clean speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant