CN110070887A - 一种语音特征重建方法及装置 - Google Patents

一种语音特征重建方法及装置 Download PDF

Info

Publication number
CN110070887A
CN110070887A CN201810065070.3A CN201810065070A CN110070887A CN 110070887 A CN110070887 A CN 110070887A CN 201810065070 A CN201810065070 A CN 201810065070A CN 110070887 A CN110070887 A CN 110070887A
Authority
CN
China
Prior art keywords
frequency domain
time
speech signal
neural network
domain characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810065070.3A
Other languages
English (en)
Other versions
CN110070887B (zh
Inventor
张鹏远
战鸽
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201810065070.3A priority Critical patent/CN110070887B/zh
Publication of CN110070887A publication Critical patent/CN110070887A/zh
Application granted granted Critical
Publication of CN110070887B publication Critical patent/CN110070887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。

Description

一种语音特征重建方法及装置
技术领域
本发明涉及信号处理技术领域,特别涉及一种语音特征重建方法及装置。
背景技术
针对受到噪声干扰的单通道语音信号,以借助于理想二值掩蔽的语音分离进行语音增强是较为有效的处理方法。通过理想二值掩蔽,可以将时频域内带噪声的语音信号成分进行分类,区分开被噪声遮蔽的成分,保留语音信号能量较强的成分。分离出的语音信号成分带有重要的语音信息,常常被用于后续的语音识别和语音感知处理。但是,被噪声遮蔽的语音成分,同样带有语音信息,缺少了这些成分的语音信号不可避免地表现出感知质量的下降和识别正确率的降低,严重阻碍了对语音信的分析和利用。因而,针对语音分离信号的语音特征重建方法,在研究和应用层面都具有独到的重要性。
现阶段的语音信号语音特征重建技术,主要依据对纯净语音信号的时频域特征进行统计,根据统计量来估计缺失的特征。这样的统计量是在用于统计的语音信号的平均化结果,虽然在统计意义上可以表达语音信号成分的分布,但是在局部意义上缺少特异性。同时,基于统计量的语音特征重建,需要选取参照特征,依据待重建成分周围的参照特征进行重建,因而受到参照范围的限制。这些属性导致经过重建得到的语音信号质量提升有限。
深度神经网络适用于图像、语音信号处理,通常被用来构建复杂的、高度非线性的相关关系。同时,深度神经网络可以扩大参考范围,在更大的时频空间上建立从参考成分到待重建成分的映射关系。不过,由于深度神经网络对输入特征不加区分,因而无法充分利用分离语音信号的掩蔽信息。从而导致语音特征重建带来更大的难度,从而导致语音信号质量的提升更加成为比较困难的问题。
发明内容
本发明的目的在于,克服现阶段语音信号语音特征重建技术所存在的缺陷,包括语音信号缺少特异性,以及语音信号质量提升有限的问题,提供一种语音特征重建方法及装置。
为解决上述技术问题,本发明的技术方案所提供的一种语音特征重建方法,该方法包括:
基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
将第一有效语音信号转换为第一时频域特征;
根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;
将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;
将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
本发明提供的一种语音特征重建方法,优点在于:通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
作为上述方法的一种改进,将第一有效语音信号转换为第一时频域特征,具体包括:
对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱;
对功率谱取对数,获取第一时频域特征。
采用上述进一步方案的有益效果是:通过对有效信号进行分帧和加窗处理,获取处理后的语音信号,然后对处理后的语音信号进行傅里叶变换,进而获取功率谱,对功率谱对对数,从而可以获取第一时频域特征。
作为上述方法的又一种改进,第一时频域特征为第一对数功率谱,预设的第一掩模矩阵的长度和宽度,均与第一时频域特征的长度和宽度相同,根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,具体包括:
利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中滑动窗的宽度与第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素;
当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0;
当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
采用上述进一步方案的有益效果是:通过上述方式,可以通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,即通过分离出的语音信号推测出掩蔽信息。
作为上述方法的再一种改进,将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征之前,方法还包括:
基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征;
根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同,且预设的第二掩模矩阵中所有元素值均为0;
将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
采用上述进一步方案的有益效果是:为了将具有噪音的原始语音信号的所有语音特征提取成功,则需要利用最优深度神经网络模型,因此需要事先利用大量的样本数据对深度神经网络模型进行训练,继而获取最优深度神经网络模型。
作为上述方法的还一种改进,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,具体包括:
设置深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
采用上述进一步方案的有益效果是:通过对样本信号的权重系数进行不断重复的训练,最终获取最优权重系数。根据该最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值,确定当前深度神经网络模型为最优深度神经网络模型。
本发明的技术方案还提供了一种语音特征重建装置,该装置包括:
分离单元,用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
转换单元,用于将第一有效语音信号转换为第一时频域特征;
处理单元,用于根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;
语音特征构建单元,用于将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
本发明提供的一种语音特征重建装置,优点在于:通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
作为上述方法进一步的改进,转换单元具体用于,对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱;
对功率谱取对数,获取第一时频域特征。
采用上述进一步方案的有益效果是:通过对有效信号进行分帧和加窗处理,获取处理后的语音信号,然后对处理后的语音信号进行傅里叶变换,进而获取功率谱,对功率谱对对数,从而可以获取第一时频域特征。
作为上述方法的又一种改进,第一时频域特征为第一对数功率谱,预设的第一掩模矩阵的长度和宽度,均与第一时频域特征的长度和宽度相同,处理单元具体用于,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中滑动窗的宽度与第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素;
当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0;
当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
采用上述进一步方案的有益效果是:通过上述方式,可以通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,即通过分离出的语音信号推测出掩蔽信息。
作为上述方法的再一种改进,分离单元还用于,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;
转换单元还用于,将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征;
处理单元还用于,根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同,且预设的第二掩模矩阵中所有元素值均为0;
将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征;
语音特征构建单元还用于,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
采用上述进一步方案的有益效果是:为了将具有噪音的原始语音信号的所有语音特征提取成功,则需要利用最优深度神经网络模型,因此需要事先利用大量的样本数据对深度神经网络模型进行训练,继而获取最优深度神经网络模型。
作为上述方法的还一种改进,语音特征构建单元具体用于,设置深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
采用上述进一步方案的有益效果是:通过对样本信号的权重系数进行不断重复的训练,最终获取最优权重系数。根据该最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值,确定当前深度神经网络模型为最优深度神经网络模型。
附图说明
图1为本发明实施例提供的一种语音特征重建方法流程示意图;
图2为本发明实施例提供的另一种语音特征重建方法流程示意图;
图3将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征的示意图;
图4为具体的预训练和调优示意图;
图5为本发明实施例提供的一种语音特征重建装置结构示意图。
具体实施方式
以下结合实施例进一步说明本发明所提供的技术方案。
如图1所示,图1为本发明实施提供的一种语音特征重建方法流程示意图,该方法包括:
步骤110,基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号。
根据二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号的方式为现有技术,这两不做过多介绍。
步骤120,将第一有效语音信号转换为第一时频域特征。
步骤130,根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。
具体的,预设的第一掩模矩阵的长度和第一时频域特征的长度相同。
步骤140,将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征。
步骤150,将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
本发明实施例提供的一种语音特征重建方法,通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
为进一步说明本发明实施例的技术方案,本发明实施例还提供了另一种语音特征重建方法,具体如图2所示,该方法包括:
步骤110,基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号。
根据二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号的方式为现有技术,这两不做过多介绍。
步骤120,将第一有效语音信号转换为第一时频域特征。
将第一有效语音信号转换为第一时频域特征时可以采用功率谱。可选的,可以采用如下步骤,利用功率谱,实现将第一有效语音信号转换为第一时频域特征。具体如下:
步骤1201,对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号。
实际而言,有效语音信号时序的数字信号。即,本步骤为对时序的数字信号进行分帧和加窗处理,或聘请处理后的语音信号(数值信号)。
步骤1202,将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱。
具体的,对加窗后的信号进行快速傅里叶变换,对每个元素取平方,得到与处理后的信号对应的功率谱。
步骤1203,对功率谱取对数,获取第一时频域特征。
具体的,对功率谱取对数压缩动态范围,得到第一对数功率谱X,其中X为长为T,宽为F的矩阵。而这个对数功率谱实际就是第一时频域特征。
需要说明的是,这里采用的快速傅里叶变换为标准的数字信号处理技术,对数可以以10为底,也可以以其他自然数为底,不同的对数操作改变的是对数功率谱的动态范围,在后续步骤中有相应的处理,因此将不会影响整体效果。
步骤130,根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。
可选的,步骤130可以包括如下执行步骤:
步骤1301,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时。
如步骤1203中所介绍的,第一对数功率谱X长为T,宽为F的矩阵。而预先设定的第一掩模矩阵M的长度和宽度,均与第一对数功率谱X的长度和宽度相同。即预先设定的掩模矩阵M的长度为T,宽度为F。而且,预先设定的第一掩模矩阵M中的所有元素初始值均为0。
首先利用预设长度的滑动窗按照第一对数功率谱的长度轨迹,逐点滑动,这里的逐点实际可以理解为逐个元素滑动,并且从0时刻开始计时,滑动窗的宽度是与第一对数功率谱的宽度相同。
步骤1302,当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素。
具体的,可以设定滑动窗的长度为W,沿着矩阵X的长边逐点滑动滑动窗。当达到预设时刻t0时,则统计窗内的功率谱总和。具体功率谱总和公式如下所示:
其中,Et0为t0时刻滑动窗内的功率谱总和,t的取值范围为[t0,T-W+1],t0取值范围为[1,T-W+1],f为滑动窗的宽度,f的取值范围为[1,F]。
如设定门限因子α,则门限值为ρt0=αEt0
步骤1303,当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0。
具体的,当根据步骤1302遍历滑动窗内的每一个元素值时,其中的一个元素值大于预设阈值,也即是门限值ρt0,则设定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0。即:
当然,因为滑动窗时逐点滑动,那么,X中的元素必然有很多都是重复出现在滑动窗内的。而重复的元素在和其他不同元素组成滑动窗内的元素时,所计算出的功率总和必然是不同的,那么对于M矩阵中的对应位置元素的设定也会受到影响。为了去除这种影响,则可以按照如下方式计算:
步骤1304,当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值。其中,h为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
例如,X中某一位置元素重复出现3次,第一次出现时,M矩阵中对应位置元素设定值为1,第二次出现时,M矩阵中对应位置元素设定值为0,第三次出现时,M矩阵中对应位置元素设定值为1,那么,M矩阵中对应位置元素设定元素最终值为1/3。
通过上述方式,则可以推测出第一掩蔽信息的具体表达矩阵式。
需要说明的是,门限因子α取值在0到1之间,起到调节掩蔽比例的作用,由于输入是经过分离得到的语音信号,因而需要保留大部分能量,宜将α设置为较小值。
步骤140,将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征。
即将M与X拼接成长为T,宽为2F的矩阵,作为复合特征。图3为具体的拼接示意图。
步骤150,将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
进一步可选的,为了建立最优的深度神经网络模型,必然需要通过大量的样本数据对深度神经网络模型进行训练。
因此,该方法步骤150之前,该方法还可以包括步骤160至步骤190。
步骤160,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征。
步骤170,根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵。
步骤180,将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征。
步骤190,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型。
其中,i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
实际上而言,步骤160到步骤180与上文所介绍的方法步骤相类似,因此这里不再赘述。
可选的,步骤190可以通过如下步骤实现:
步骤1901,设置深度神经网络的第一初始权重。
步骤1902,根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
步骤1903,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
步骤1904,根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
实际上,以上步骤可以分为预训练和调优两大步骤。
预训练:
按照高斯分布产生随机数作为深度神经网络的初始权重。然后利用训练数据的复合特征,由输入层向输出层,采用受限玻尔兹曼机的训练方式,对每一层的权重系数进行训练。具体地,当输入层与第一个隐含层之间的权重首先训练完成后,由输入特征和第一层权重得到输出值,作为第二个隐含层的输入特征,采用受限玻尔兹曼机的训练方式训练第一个隐含层与第二个隐含层之间的权重。如此重复下去,直到倒数第二个隐含层与最后一个隐含层之间的权重训练完成为止。
调优:
经过预训练得到的权重作为神经网络的初始权重,为神经网络增加一层作为最终的输出,相应增加最后一层隐藏层与输出层之间的权重系数,利用训练数据的复合特征以及对应的监督信息,采用误差反向传播算法,对所有的权重进行优化训练。具体地,首先根据当前权重值,计算出深度神经网络的输出与监督信息之间的误差,然后计算出误差对权重的梯度,最后根据梯度下降算法对权重进行更新。如此重复下去,直到深度神经网络的输出与监督信息之间的误差满足精度要求为止。
该过程为深度神经网络的常用训练流程,受限玻尔兹曼机已有标准操作步骤,按照高斯分布的随机初始化以及梯度下降算法都是通用的方法。针对本发明的实践,只需要安排输入的复合特征和相应的监督信息,不需要创造性劳动即可实现,因而不再详述深度神经网络的具体训练过程。图4为具体的预训练和调优示意图。
本发明实施例提供的一种语音特征重建方法,通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
与上述方法相对应的,本发明实施例还提供了一种语音特征重建装置,该装置可以包括:分离单元501、转换单元502、处理单元503以及语音特征构建单元504。
其中,分离单元501,用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
转换单元502,用于将第一有效语音信号转换为第一时频域特征;
处理单元503,用于根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;
语音特征构建单元504,用于将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
可选的,转换单元502具体用于,对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱;
对功率谱取对数,获取第一时频域特征。
进一步可选的,述第一时频域特征为第一对数功率谱,预设的第一掩模矩阵的长度和宽度,均与第一时频域特征的长度和宽度相同,处理单元503具体用于,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中滑动窗的宽度与第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素;
当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0;
当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
可选的,分离单元501还用于,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;
转换单元502还用于,将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征;
处理单元503还用于,根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同,且预设的第二掩模矩阵中所有元素值均为0;
将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征;
语音特征构建单元504还用于,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
进一步可选的,语音特征构建单元504具体用于,设置深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
本发明实施例提供的语音特征重建装置中各功能单元所执行的功能均已在上述两个实施例所提供的语音特征重建方法中做了详细介绍,这里不做赘述。
本发明实施例提供的一种语音特征重建装置,通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种语音特征重建方法,其特征在于,所述方法包括:
基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
将所述第一有效语音信号转换为第一时频域特征;
根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;
将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接,构成第一复合特征;
将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征。
2.如权利要求1所述的语音特征重建方法,其特征在于,所述将所述第一有效语音信号转换为第一时频域特征,具体包括:
对所述第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将所述处理后的语音信号进行傅里叶变换,获取与所述处理后的语音信号对应的功率谱;
对所述功率谱取对数,获取所述第一时频域特征。
3.如权利要求2所述的语音特征重建方法,其特征在于,所述第一时频域特征为第一对数功率谱,所述预设的第一掩模矩阵的长度和宽度,均与所述第一时频域特征的长度和宽度相同,所述根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,具体包括:
利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在所述预设时刻时的所述滑动窗内的第二对数功率谱的每个元素;
当确定所述滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为1,否则,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为0;
当所述第一对数功率谱中第h个元素重复出现在所述滑动窗内时,获取所述第h个元素每一次出现在滑动窗时,M矩阵中与所述第h个元素对应位置的元素的设定值,并计算所有所述M矩阵中与所述第h个元素对应位置的元素的设定值的平均值,作为所述M矩阵中与所述第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于所述滑动窗内的所述第二对数功率谱的元素总个数的正整数,所述第二对数功率谱为所述第一对数功率谱的一部分。
4.如权利要求1-3任一项所述的语音特征重建方法,其特征在于,所述将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征之前,所述方法还包括:
基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将所述第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将所述第i个样本语音信号转换为第三时频域特征;
根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵;
将所述第i个样本语音信号对应的处理后的第二掩模矩阵与所述第i个样本语音信号对应的第二时频域特征进行拼接,构成与所述第i个样本语音信号对应的第二复合特征;
根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
5.如权利要求4所述的语音特征重建方法,其特征在于,根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,具体包括:
设置所述深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对所述神经网络每一层的权重系数进行训练,并获取所述神经网络每一层的权重系数;
根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,分别对所述神经网络每一层的权重系数进行优化训练,获取所述神经网络每一层的最优权重系数;
根据所述神经网络每一层的最优权重系数,计算所述深度神经网络的输出值与所述第三时频域特征之间的误差,且所述误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
6.一种语音特征重建装置,其特征在于,所述装置包括:
分离单元,用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
转换单元,用于将所述第一有效语音信号转换为第一时频域特征;
处理单元,用于根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接,构成第一复合特征;
语音特征构建单元,用于将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征。
7.如权利要求6所述的语音特征重建装置,其特征在于,所述转换单元具体用于,对所述第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将所述处理后的语音信号进行傅里叶变换,获取与所述处理后的语音信号对应的功率谱;
对所述功率谱取对数,获取所述第一时频域特征。
8.如权利要求7所述的语音特征重建装置,其特征在于,所述第一时频域特征为第一对数功率谱,所述预设的第一掩模矩阵的长度和宽度,均与所述第一时频域特征的长度和宽度相同,所述处理单元具体用于,利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在所述预设时刻时的所述滑动窗内的第二对数功率谱的每个元素;
当确定所述滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为1,否则,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为0;
当所述第一对数功率谱中第h个元素重复出现在所述滑动窗内时,获取所述第h个元素每一次出现在滑动窗时,M矩阵中与所述第h个元素对应位置的元素的设定值,并计算所有所述M矩阵中与所述第h个元素对应位置的元素的设定值的平均值,作为所述M矩阵中与所述第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于所述滑动窗内的所述第二对数功率谱的元素总个数的正整数,所述第二对数功率谱为所述第一对数功率谱的一部分。
9.如权利要求6-8任一项所述的语音特征重建装置,其特征在于,所述分离单元还用于,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;
所述转换单元还用于,将所述第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将所述第i个样本语音信号转换为第三时频域特征;
所述处理单元还用于,根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中所述预设的第二掩模矩阵的长度和所述第i个样本语音信号对应的第二时频域特征的长度相同,且所述预设的第二掩模矩阵中所有元素值均为0;
将所述第i个样本语音信号对应的处理后的第二掩模矩阵与所述第i个样本语音信号对应的第二时频域特征进行拼接,构成与所述第i个样本语音信号对应的第二复合特征;
所述语音特征构建单元还用于,根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
10.如权利要求9所述的语音特征重建装置,其特征在于,语音特征构建单元具体用于,设置所述深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对所述神经网络每一层的权重系数进行训练,并获取所述神经网络每一层的权重系数;
根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,分别对所述神经网络每一层的权重系数进行优化训练,获取所述神经网络每一层的最优权重系数;
根据所述神经网络每一层的最优权重系数,计算所述深度神经网络的输出值与所述第三时频域特征之间的误差,且所述误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
CN201810065070.3A 2018-01-23 2018-01-23 一种语音特征重建方法及装置 Active CN110070887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810065070.3A CN110070887B (zh) 2018-01-23 2018-01-23 一种语音特征重建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810065070.3A CN110070887B (zh) 2018-01-23 2018-01-23 一种语音特征重建方法及装置

Publications (2)

Publication Number Publication Date
CN110070887A true CN110070887A (zh) 2019-07-30
CN110070887B CN110070887B (zh) 2021-04-09

Family

ID=67365408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810065070.3A Active CN110070887B (zh) 2018-01-23 2018-01-23 一种语音特征重建方法及装置

Country Status (1)

Country Link
CN (1) CN110070887B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN111257589A (zh) * 2020-01-20 2020-06-09 太原理工大学 一种基于crfid标签的风速测量方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法
WO2017196929A1 (en) * 2016-05-10 2017-11-16 Google Llc Audio processing with neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
WO2017196929A1 (en) * 2016-05-10 2017-11-16 Google Llc Audio processing with neural networks
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GE ZHAN ET AL.: "《Improvement of mask-based speech source separation using DNN》", 《ISCSLP 2016》 *
贾晓立等: "《利用结构特征的语音压缩感知 重建算法》", 《上海交通大学学报》 *
魏维等: "《一种丢失语音信包重建的新算法》", 《2005年通信理论与信号处理年会》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN110634502B (zh) * 2019-09-06 2022-02-11 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN111257589A (zh) * 2020-01-20 2020-06-09 太原理工大学 一种基于crfid标签的风速测量方法
CN111257589B (zh) * 2020-01-20 2021-10-01 太原理工大学 一种基于crfid标签的风速测量方法

Also Published As

Publication number Publication date
CN110070887B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
US11238877B2 (en) Generative adversarial network-based speech bandwidth extender and extension method
CN107358966B (zh) 基于深度学习语音增强的无参考语音质量客观评估方法
CN111429938B (zh) 一种单通道语音分离方法、装置及电子设备
CN112820315B (zh) 音频信号处理方法、装置、计算机设备及存储介质
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN111429931B (zh) 一种基于数据增强的降噪模型压缩方法及装置
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
CN107240136A (zh) 一种基于深度学习模型的静态图像压缩方法
CN115602165B (zh) 基于金融系统的数字员工智能系统
CN110070887A (zh) 一种语音特征重建方法及装置
CN111724806A (zh) 一种基于深度神经网络的双视角单通道语音分离方法
TW201939485A (zh) 於分散式語音辨識中基於小波轉換之語音特徵壓縮系統與方法
CN114495973A (zh) 一种基于双路径自注意力机制的特定人语音分离方法
CN104240717B (zh) 基于稀疏编码和理想二进制掩膜相结合的语音增强方法
CN113268924B (zh) 基于时频特征的变压器有载分接开关故障识别方法
CN114283829A (zh) 一种基于动态门控卷积循环网络的语音增强方法
CN107039042A (zh) 一种基于低一致性词典和稀疏表示的音频修复方法和系统
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
Koutras et al. Improving simultaneous speech recognition in real room environments using overdetermined blind source separation.
EP4275206A1 (en) Determining dialog quality metrics of a mixed audio signal
Heymans et al. Multi-style training for South African call centre audio
Strake et al. Self-attention with restricted time context and resolution in DNN speech enhancement
Záviška et al. Audio declipping with (weighted) analysis social sparsity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241010

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region after: China

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region before: China

Patentee before: BEIJING KEXIN TECHNOLOGY Co.,Ltd.