CN109559755A - 一种基于dnn噪声分类的语音增强方法 - Google Patents

一种基于dnn噪声分类的语音增强方法 Download PDF

Info

Publication number
CN109559755A
CN109559755A CN201811587392.0A CN201811587392A CN109559755A CN 109559755 A CN109559755 A CN 109559755A CN 201811587392 A CN201811587392 A CN 201811587392A CN 109559755 A CN109559755 A CN 109559755A
Authority
CN
China
Prior art keywords
meier
voice
frame
neural network
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811587392.0A
Other languages
English (en)
Inventor
高天寒
陈爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Pin Shang Technology Co Ltd
Original Assignee
Shenyang Pin Shang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Pin Shang Technology Co Ltd filed Critical Shenyang Pin Shang Technology Co Ltd
Priority to CN201811587392.0A priority Critical patent/CN109559755A/zh
Publication of CN109559755A publication Critical patent/CN109559755A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于DNN噪声分类的语音增强方法,涉及语音识别技术领域。该方法首先对噪声信号进行预处理,确定非语音段信号;然后对每帧语音信号进行快速傅里叶变换并计算谱线能量;使语音信号的频谱通过梅尔滤波器组,用频谱能量乘以梅尔滤波器的频率响应来获得梅尔滤波能量;然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换,得到梅尔倒谱参数,将其作为语音每帧的梅尔滤波的特征向量;将每帧的梅尔滤波的特征向量作为一个24维的向量,并作为深度神经网络的输入;利用深度神经网络模型对噪声进行训练与分类;本发明的基于DNN噪声分类的语音增强方法,通过对噪声的分类使得后续的语音增强质量在主观/客观测试中得到了显著的提高。

Description

一种基于DNN噪声分类的语音增强方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于DNN噪声分类的语音增强方法。
背景技术
语音增强是一种从背景噪声中提取有用语音信号的技术,在语音信号被各种噪声干扰后,抑制和减少噪声干扰。语音增强是解决语音信号噪声污染的有效方法。它也是语音信号处理的关键环节和步骤,广泛应用于人们的生产和生活。背景噪声的干扰使语音信号处理的性能,如语音编码、语音合成、语音识别等效果恶化。例如,语音识别是使用语音信号进行人机交互的关键步骤,现有语音识别系统在安静环境中具有很高的识别率,但在强噪声环境下,识别率将迅速下降,无法满足实际应用的需要。对于各种语言控制系统,其实现的根源是对语音的正确认识和理解:而且它对语音的质量也有更高的要求。强烈的背景噪音会导致系统对语音产生错误的识别和理解,然后执行错误的操作。因此,应将语音增强模块添加到这些系统中,以抑制背景噪声,提高语音信号的质量,从而提高语音信号处理系统的性能。对于实际应用的语音处理系统,语音增强通常被用作前端处理,在各种形式的语音信号处理前过滤噪声语音,如图1所示。通过引入语音增强技术,可以提高语音信号处理系统的鲁棒性,在噪声环境下的应用也可以进一步扩展。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于DNN噪声分类的语音增强方法,去除语音中的噪声。
为解决上述技术问题,本发明所采取的技术方案是:一种基于DNN噪声分类的语音增强方法,包括以下步骤:
步骤1、通过均值、标准化和预加重,分帧加窗这些方法对噪声信号进行预处理,在语音处理系统的语音活动检测模块中加窗确定非语音段信号;然后对每帧语音信号进行快速傅里叶变换并计算谱线能量;使语音信号的频谱通过梅尔滤波器组,用频谱能量乘以梅尔滤波器的频率响应Hm(k)来获得梅尔滤波能量,如下公式所示:
其中,s(m)为梅尔滤波能量,Xa(k)为输入语音离散余弦变换值,k为滤波器个数,N表示傅里叶变换点数,m表示当前帧,M表示该语音中包含的所有帧数;
然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换,得到梅尔倒谱参数,将其作为语音每帧的梅尔滤波的特征向量,如下公式所示:
其中,C(n)为每帧信号的梅尔倒谱参数,n表示进行离散余弦变换的每帧信号,L表示该语音中包含的进行离线变换的所有帧数;
步骤2、将每帧的梅尔滤波的特征向量作为一个24维的向量,并作为深度神经网络的输入;
所述深度神经网络采用具有3个反向神经网络的学习向量量化神经网络系列的深度神经网络模型,该模型分为输入层,输出层和竞争层,并且3个反向神经网络处于并行模式;
步骤3、利用步骤2所述的深度神经网络模型对噪声进行训练与分类,具体方法为:
步骤3.1、由学习向量量化神经网络将N种噪声信号分为3大类,然后由反向传播神经网络再细分为15个类,设定输出层的每一类的值为z,如下公式所示:
其中,Ok为每一个噪声对应的分量;
步骤3.2、初始化深度神经网络的输入层和竞争层之间的权重和学习效率;
步骤3.3、定义深度神经网络输入向量和竞争神经元之间的距离,如下公式所示:
其中,R为输入向量个数,为权值矩阵W中的元素,I为单位矩阵;
步骤3.4根据步骤3.3得到的距离,随机调整神经元权值,使得深度神经网络输出层结果与设定的z矩阵相同,若与z矩阵不同,则反向调整神经元权值,使得输出结果与z矩阵相同。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于DNN噪声分类的语音增强方法,由梅尔频率倒谱系数组成的24维矢量作为训练和建模的DNN的输入,利用反向传播神经网络对24维特征向量进行训练与分类,通过对噪声的分类使得后续的语音增强质量在主观/客观测试中得到了显著的提高。
附图说明
图1为本发明提供的语音处理系统进行语音增强过程的示意图;
图2为本发明实施例提供的一种基于DNN噪声分类的语音增强方法的流程图;
图3为本发明实施例提供的具有3个反向神经网络的深度神经网络模型的网络拓扑结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步祥细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于DNN噪声分类的语音增强方法,如图2所示,包括以下步骤:
步骤1、通过均值、标准化和预加重,分帧加窗这些方法对噪声信号进行预处理,在语音处理系统的语音活动检测模块中加窗确定非语音段信号;然后对每帧语音信号进行快速傅里叶变换并计算谱线能量;使语音信号的频谱通过梅尔滤波器组,用频谱能量乘以梅尔滤波器的频率响应Hm(k)来获得梅尔滤波能量,如下公式所示:
其中,s(m)为梅尔滤波能量,Xa(k)为输入语音离散余弦变换值,k为滤波器个数,N表示傅里叶变换点数,m表示当前帧,M表示该语音中包含的所有帧数;
然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换,得到梅尔倒谱参数,将其作为语音每帧的梅尔滤波的特征向量,如下公式所示:
其中,C(n)为每帧信号的梅尔倒谱参数,n表示进行离散余弦变换的每帧信号,L表示该语音中包含的进行离线变换的所有帧数;
步骤2、将每帧的梅尔滤波的特征向量作为一个24维的向量,并作为深度神经网络DNN的输入;
所述深度神经网络采用具有3个反向神经网络的学习向量量化神经网络系列的深度神经网络模型,该模型分为输入层,输出层和竞争层,并且3个反向神经网络处于并行模式;
本实施例中,所述深度神经网络的网络拓扑结构如图3所示,其中,x为R维的输入模式;S1为竞争层神经元个数;IW1,1为输入层与竞争层之间的连接权重系数矩阵;n1为竞争层神经元的输入;a1为竞争层神经元的输出;LW2,1为竞争层与线性输出层之间的连接权重系数矩阵;n2为线性输出层神经元的输入;a2为线性输出层神经元的输出。
步骤3、利用步骤2所述的深度神经网络模型对噪声进行训练与分类,具体方法为:
步骤3.1、由学习向量量化神经网络将N种噪声信号分为3大类,然后由反向传播神经网络再细分为15个类,设定输出层的每一类的值为z,如下公式所示:
其中,Ok为每一个噪声对应的分量;
步骤3.2、初始化深度神经网络的输入层和竞争层之间的权重和学习效率;
步骤3.3、定义深度神经网络输入向量和竞争神经元之间的距离,如下公式所示:
其中,R为输入向量个数,为权值矩阵W中的元素,I为单位矩阵;
步骤3.4、根据步骤3.3得到的距离,随机调整神经元权值,使得深度神经网络输出层结果与设定的z矩阵相同,若与z矩阵不同,则反向调整神经元权值,使得输出结果与z矩阵相同。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换:而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (2)

1.一种基于DNN噪声分类的语音增强方法,其特征在于:包括以下步骤:
步骤1、通过均值、标准化和预加重,分帧加窗这些方法对噪声信号进行预处理,在语音处理系统的语音活动检测模块中加窗确定非语音段信号;然后对每帧语音信号进行快速傅里叶变换并计算谱线能量;使语音信号的频谱通过梅尔滤波器组,用频谱能量乘以梅尔滤波器的频率响应Hm(k)来获得梅尔滤波能量,如下公式所示:
其中,s(m)为梅尔滤波能量,Xa(k)为输入语音离散余弦变换值,k为滤波器个数,N表示傅里叶变换点数,m表示当前帧,M表示该语音中包含的所有帧数;
然后对每帧信号的梅尔滤波能量的对数进行离散余弦变换,得到梅尔倒谱参数,将其作为语音每帧的梅尔滤波的特征向量,如下公式所示:
其中,C(n)为每帧信号的梅尔倒谱参数,n表示进行离散余弦变换的每帧信号,L表示该语音中包含的进行离线变换的所有帧数;
步骤2、将每帧的梅尔滤波的特征向量作为一个24维的向量,并作为深度神经网络的输入;
所述深度神经网络采用具有3个反向神经网络的学习向量量化神经网络系列的深度神经网络模型,该模型分为输入层,输出层和竞争层,并且3个反向神经网络处于并行模式;
步骤3、利用步骤2所述的深度神经网络模型对噪声进行训练与分类。
2.根据权利要求1所述的一种基于DNN噪声分类的语音增强方法,其特征在于:所述步骤3的具体方法为:
步骤3.1、由学习向量量化神经网络将N种噪声信号分为3大类,然后由反向传播神经网络再细分为15个类,设定输出层的每一类的值为z,如下公式所示:
其中,Ok为每一个噪声对应的分量;
步骤3.2、初始化深度神经网络的输入层和竞争层之间的权重和学习效率;
步骤3.3、定义深度神经网络输入向量和竞争神经元之间的距离,如下公式所示:
其中,R为输入向量个数,为权值矩阵W中的元素,I为单位矩阵;
步骤3.4根据步骤3.3得到的距离,随机调整神经元权值,使得深度神经网络输出层结果与设定的z矩阵相同,若与z矩阵不同,则反向调整神经元权值,使得输出结果与z矩阵相同。
CN201811587392.0A 2018-12-25 2018-12-25 一种基于dnn噪声分类的语音增强方法 Pending CN109559755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811587392.0A CN109559755A (zh) 2018-12-25 2018-12-25 一种基于dnn噪声分类的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811587392.0A CN109559755A (zh) 2018-12-25 2018-12-25 一种基于dnn噪声分类的语音增强方法

Publications (1)

Publication Number Publication Date
CN109559755A true CN109559755A (zh) 2019-04-02

Family

ID=65871029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811587392.0A Pending CN109559755A (zh) 2018-12-25 2018-12-25 一种基于dnn噪声分类的语音增强方法

Country Status (1)

Country Link
CN (1) CN109559755A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110827844A (zh) * 2019-10-10 2020-02-21 天津大学 一种基于bp网络的噪声分类方法
CN111796790A (zh) * 2019-04-09 2020-10-20 深圳市冠旭电子股份有限公司 一种音效调节方法、装置、可读存储介质及终端设备
CN112562653A (zh) * 2020-11-26 2021-03-26 睿云联(厦门)网络通讯技术有限公司 一种基于人类行为经验的离线语音识别学习方法
CN113205803A (zh) * 2021-04-22 2021-08-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置
CN113555026A (zh) * 2021-07-23 2021-10-26 平安科技(深圳)有限公司 语音转换方法、装置、电子设备及介质
CN115985331A (zh) * 2023-02-27 2023-04-18 百鸟数据科技(北京)有限责任公司 一种用于野外观测的音频自动分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682418A (zh) * 2018-06-26 2018-10-19 北京理工大学 一种基于预训练和双向lstm的语音识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682418A (zh) * 2018-06-26 2018-10-19 北京理工大学 一种基于预训练和双向lstm的语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时勇强: "基于深度神经网络的语音增强算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796790A (zh) * 2019-04-09 2020-10-20 深圳市冠旭电子股份有限公司 一种音效调节方法、装置、可读存储介质及终端设备
CN111796790B (zh) * 2019-04-09 2023-09-08 深圳市冠旭电子股份有限公司 一种音效调节方法、装置、可读存储介质及终端设备
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110444202B (zh) * 2019-07-04 2023-05-26 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110827844A (zh) * 2019-10-10 2020-02-21 天津大学 一种基于bp网络的噪声分类方法
CN112562653A (zh) * 2020-11-26 2021-03-26 睿云联(厦门)网络通讯技术有限公司 一种基于人类行为经验的离线语音识别学习方法
CN112562653B (zh) * 2020-11-26 2023-05-26 睿云联(厦门)网络通讯技术有限公司 一种基于人类行为经验的离线语音识别学习方法
CN113205803A (zh) * 2021-04-22 2021-08-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置
CN113205803B (zh) * 2021-04-22 2024-05-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置
CN113555026A (zh) * 2021-07-23 2021-10-26 平安科技(深圳)有限公司 语音转换方法、装置、电子设备及介质
CN113555026B (zh) * 2021-07-23 2024-04-19 平安科技(深圳)有限公司 语音转换方法、装置、电子设备及介质
CN115985331A (zh) * 2023-02-27 2023-04-18 百鸟数据科技(北京)有限责任公司 一种用于野外观测的音频自动分析方法

Similar Documents

Publication Publication Date Title
CN109559755A (zh) 一种基于dnn噪声分类的语音增强方法
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
Dewa Suitable CNN weight initialization and activation function for Javanese vowels classification
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN107068167A (zh) 融合多种端到端神经网络结构的说话人感冒症状识别方法
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
Adam et al. Spoken english alphabet recognition with mel frequency cepstral coefficients and back propagation neural networks
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
Lei et al. Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Alsulaiman et al. Comparison of voice features for Arabic speech recognition
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
Gaafar et al. An improved method for speech/speaker recognition
CN116524962A (zh) 一种基于Conformer结构与多任务学习框架的语音情感识别方法
WO2023070874A1 (zh) 一种声纹识别方法
Wang et al. Robust speech recognition from ratio masks
Aggarwal et al. Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC
Li et al. Learnable frequency filters for speech feature extraction in speaker verification
Fukuda et al. Convolutional neural network pre-trained with projection matrices on linear discriminant analysis
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Hu et al. Research on raw speech isolated word recognition based on Sincnet-CNN model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190402