CN113724720B - 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 - Google Patents

一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 Download PDF

Info

Publication number
CN113724720B
CN113724720B CN202110813330.2A CN202110813330A CN113724720B CN 113724720 B CN113724720 B CN 113724720B CN 202110813330 A CN202110813330 A CN 202110813330A CN 113724720 B CN113724720 B CN 113724720B
Authority
CN
China
Prior art keywords
mfcc
voice
neural network
noisy environment
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110813330.2A
Other languages
English (en)
Other versions
CN113724720A (zh
Inventor
韩皓天
余安东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fifth Research Institute Of Telecommunications Technology Co ltd
Original Assignee
Fifth Research Institute Of Telecommunications Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fifth Research Institute Of Telecommunications Technology Co ltd filed Critical Fifth Research Institute Of Telecommunications Technology Co ltd
Priority to CN202110813330.2A priority Critical patent/CN113724720B/zh
Publication of CN113724720A publication Critical patent/CN113724720A/zh
Application granted granted Critical
Publication of CN113724720B publication Critical patent/CN113724720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明提供一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,包括获取不包含人声和包含人声的语音信号,并切分和补齐MFCC特征及其Delta信息、Delta‑Delta信息、RMSE,再训练神经网络得到训练好的预测模型;实时的待过滤语音信号接入后,由预测模型根据该信号的MFCC融合特征对每个切片存在人声的可能性进行打分,最后按照阈值实现对非人声语音进行过滤。本发明将基于MFCC的多维特征进行融合、补全,以及神经网络对每个语音切片的概率评分,解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题,能够在嘈杂环境下对非人声语音进行快速过滤。

Description

一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法
技术领域
本发明涉及语音信号处理及计算机软件技术领域,具体而言,涉及一种基于神经网络和MFCC(Mel Frequency Cepstrum Coefficient)的嘈杂环境下非人声语音过滤方法。
背景技术
近年来,人工智能技术飞速发展且日趋成熟,一方面计算机产业的迅速发展,软、硬件环境的改善为复杂算法的实现提供了良好的环境;另一方面,数字信号处理的理论和算法已有大量积累,如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等诸多算法的出现,使得识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。
语音识别和分类技术已广泛应用于各项领域中,但现有的语音识别系统都有一个共同的问题,即在噪音环境下,识别率会大幅下降。在语音分类中由于噪声导致的误吸收最为显著,因此语音分类系统就必须考虑在面对嘈杂环境时的准确率。在将特征输入至神经网络前需确保其维度一致,现有的通用补全策略是对末尾进行补0,但在面对仅在信号末尾处有人声且需进行补齐的极端情况时,这种补全策略不能满足对准确率有高需求的过滤系统。
发明内容
本发明旨在提供一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,以解决上述存在的问题。
本发明提供的一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,包括如下步骤:
步骤S1,训练神经网络:
(11)获取不包含人声和包含人声的语音信号;
(12)提取该语音信号的MFCC融合特征;所述MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;
(13)对该语音信号的MFCC融合特征进行特征处理;所述特征处理包括切分和补齐;
(14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练,得到训练好的预测模型;
步骤S2,非人声语音过滤:
(21)获取待预测语音信号;
(22)提取该待预测语音信号的MFCC融合特征;
(23)对该待预测语音信号的MFCC融合特征进行特征处理;
(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型,实现对待预测语音信号的非人声语音过滤。
进一步的,步骤(12)和步骤(22)中提取MFCC融合特征的方法为:
对语音信号进行预校验和添加标记;
将进行预校验和添加标记后的语音信号,通过N阶滤波器并剔除第零分量后,得到N-1维的MFCC特征;
对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波,得到Delta信息;
对N-1维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波,得到Delta-Delta信息;
根据原始的语音信号的梅尔频谱计算RMSE;
将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3(N-1)+1维的MFCC融合特征。
进一步的,所述对语音信号进行预校验和添加标记的方法为:遍历所有语音信号,若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算,并给予不一致标记;否则仅将语音信号中的一个声道参与后续计算,并给予一致标记。
进一步的,步骤(13)和步骤(23)中对MFCC融合特征进行特征处理的方法为:按预设窗口大小M将3(N-1)+1维的MFCC融合特征进行切分,得到K个切片;并对K个切片进行自动补齐,获得K个N-1*M维的特征矩阵。
进一步的,所述对K个切片进行自动补齐的方法为:
若K>1,则通过向前平移进行补齐;
若K=1,则通过迭代自身进行补齐。
进一步的,步骤(24)的方法为:将K个N-1*M维的特征矩阵输入训练好的预测模型,最终输出一个代表每一个切片是否需要过滤的K维矩阵,若某个切片的K维矩阵中各值均不大于阈值S,则将该切片标记为过滤。
作为优选,S=0.5。
进一步的,所述神经网络包括:
卷积核分别为3*3、2*2的最大池化层;
以LeakyRELU为激活函数的CNN;
一层隐藏单元为128的BiLSTM层;
以及两层隐藏单元分别为256和1的全连接层。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明将基于MFCC的多维特征进行融合、补全,以及神经网络对每个语音切片的概率评分,解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题,能够在嘈杂环境下对非人声语音进行快速过滤。具体地:
1、本发明在计算MFCC特征时分析各分量对噪声的敏感程度,通过对MFCC特征去除对噪声敏感的第零分量,能够有效提升特征在嘈杂环境下的鲁棒性。结合Delta、Delta-Delta、RMSE特征,将多个特征融合作为预测模型的输入特征,能够显著提升嘈杂环境下对非人声语音信号的识别准确率。
2、本发明引入了自动补齐的机制,可以有效提升仅在信号末尾处有人声且需进行补齐的极端情况的识别准确率。
3、本发明中实现了基于CNN和BiLSTM的语音信号二分类神经网络模型,结合自动补齐的机制将会更加充分的挖掘语音信号的上下文关系,最终得出更加准确地识别结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的运行环境业务关系图。
图2为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的流程图。
图3a为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的自动补齐机制中向前平移补齐与传统补零补齐的对比示意图。
图3b为本发明实施例的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法的自动补齐机制中自身迭代补齐与传统补零补齐的对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1、图2所示,本实施例提出一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,所述嘈杂环境下非人声语音过滤方法包括如下步骤:
步骤S1,训练神经网络:
(11)获取不包含人声和包含人声的语音信号;
(12)提取该语音信号的MFCC融合特征;所述MFCC融合特征均包括MFCC特征、Delta信息(MFCC特征的一阶差分)、Delta-Delta信息(MFCC特征的二阶差分)以及RMSE;
其中,提取MFCC融合特征的方法为:
对语音信号进行预校验和添加标记:遍历所有语音信号,若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算,并给予不一致标记;否则仅将语音信号中的一个声道参与后续计算,并给予一致标记,以此来避免在后续MFCC特征提取时的大量冗余计算。
将进行预校验和添加标记后的语音信号,通过N阶滤波器并剔除第零分量后,得到N-1维的MFCC特征。如选择N=21阶的滤波器,由此得到的是除第零分量以外的20维MFCC特征。
对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波,得到Delta信息;
对N-1维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波,得到Delta-Delta信息;
根据原始的语音信号的梅尔频谱计算RMSE(均方根误差);
将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3(N-1)+1维的MFCC融合特征。
(13)对该语音信号的MFCC融合特征进行特征处理;所述特征处理包括切分和补齐;具体地:按预设窗口大小M(即步长,本实施例取M=200)将3(N-1)+1维的MFCC融合特征进行切分,得到K个切片;并对K个切片进行自动补齐,获得K个N-1*M维的特征矩阵。所述对K个切片进行自动补齐的方法为:
若K>1,则通过向前平移进行补齐;
若K=1,则通过迭代自身进行补齐。
需要说明的是,通用的采取补零来维持输入特征维度的方法会影响识别效果,补零越多对最终识别结果影响越大。本发明的自动补齐的方法中,向前平移进行补齐带来了更多的上下文关系,如图3a所示,无法向前平移进行补齐则采取了迭代自身进行补齐的方法,如图3b所示,这种方法相当于增加了原始语音信号中短暂人声的权重。因此,该自动补齐的方法可以有效提升仅在信号末尾处有人声且需进行补齐的极端情况的识别准确率。
(14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练,得到训练好的预测模型;本实施例中的所述神经网络包括:
卷积核分别为3*3、2*2的最大池化层;
以LeakyRELU为激活函数的CNN,用于学习MFCC融合特征的局部特征;
一层隐藏单元为128的BiLSTM层,用于学习MFCC融合特征中的长短期依赖关系;
以及两层隐藏单元分别为256和1的全连接层。
步骤S2,非人声语音过滤:
(21)获取待预测语音信号;
(22)提取该待预测语音信号的MFCC融合特征;该步骤提取MFCC融合特征的方法与步骤(12)一致,在此不再赘述。
(23)对该待预测语音信号的MFCC融合特征进行特征处理;该步骤进行特征处理的方法与步骤(23)一致,在此不再赘述。
(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型,实现对待预测语音信号的非人声语音过滤。具体地:将K个N-1*M维的特征矩阵输入训练好的预测模型,最终输出一个代表每一个切片是否需要过滤的K维矩阵,若某个切片的K维矩阵中各值均不大于阈值S(优选取S=0.5),则将该切片标记为过滤。
至此,本发明将基于MFCC的多维特征进行融合、补全,以及神经网络对每个语音切片的概率评分,解决了现有技术中嘈杂环境下识别准确率低、信号末尾人声无法检测的问题,能够在嘈杂环境下对非人声语音进行快速过滤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,所述嘈杂环境下非人声语音过滤方法包括如下步骤:
步骤S1,训练神经网络:
(11)获取不包含人声和包含人声的语音信号;
(12)提取该语音信号的MFCC融合特征;所述MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;
(13)对该语音信号的MFCC融合特征进行特征处理;所述特征处理包括切分和补齐;
(14)利用特征处理后的该语音信号的MFCC融合特征对神经网络进行训练,得到训练好的预测模型;
步骤S2,非人声语音过滤:
(21)获取待预测语音信号;
(22)提取该待预测语音信号的MFCC融合特征;
(23)对该待预测语音信号的MFCC融合特征进行特征处理;
(24)将特征处理后的该待预测语音信号的MFCC融合特征输入训练好的预测模型,实现对待预测语音信号的非人声语音过滤;
步骤(12)和步骤(22)中提取MFCC融合特征的方法为:
对语音信号进行预校验和添加标记;
将进行预校验和添加标记后的语音信号,通过N阶滤波器并剔除第零分量后,得到N-1维的MFCC特征;
对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波,得到Delta信息;
对N-1维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波,得到Delta-Delta信息;
根据原始的语音信号的梅尔频谱计算RMSE;
将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3(N-1)+1维的MFCC融合特征。
2.根据权利要求1所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,所述对语音信号进行预校验和添加标记的方法为:遍历所有语音信号,若存在语音信号不一致的声道则拼接不一致的声道形成新的语音信号序列参与后续计算,并给予不一致标记;否则仅将语音信号中的一个声道参与后续计算,并给予一致标记。
3.根据权利要求2所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,步骤(13)和步骤(23)中对MFCC融合特征进行特征处理的方法为:按预设窗口大小M将3(N-1)+1维的MFCC融合特征进行切分,得到K个切片;并对K个切片进行自动补齐,获得K个N-1*M维的特征矩阵。
4.根据权利要求3所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,所述对K个切片进行自动补齐的方法为:
若K>1,则通过向前平移进行补齐;
若K=1,则通过迭代自身进行补齐。
5.根据权利要求3或4所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,步骤(24)的方法为:将K个N-1*M维的特征矩阵输入训练好的预测模型,最终输出一个代表每一个切片是否需要过滤的K维矩阵,若某个切片的K维矩阵中各值均不大于阈值S,则将该切片标记为过滤。
6.根据权利要求5所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,S=0.5。
7.根据权利要求1所述的基于神经网络和MFCC的嘈杂环境下非人声语音过滤方法,其特征在于,所述神经网络包括:
卷积核分别为3*3、2*2的最大池化层;
以LeakyRELU为激活函数的CNN;
一层隐藏单元为128的BiLSTM层;
以及两层隐藏单元分别为256和1的全连接层。
CN202110813330.2A 2021-07-19 2021-07-19 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 Active CN113724720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110813330.2A CN113724720B (zh) 2021-07-19 2021-07-19 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110813330.2A CN113724720B (zh) 2021-07-19 2021-07-19 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法

Publications (2)

Publication Number Publication Date
CN113724720A CN113724720A (zh) 2021-11-30
CN113724720B true CN113724720B (zh) 2023-07-11

Family

ID=78673437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110813330.2A Active CN113724720B (zh) 2021-07-19 2021-07-19 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法

Country Status (1)

Country Link
CN (1) CN113724720B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065912B (zh) * 2022-06-22 2023-04-25 广东帝比电子科技有限公司 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048119A (ja) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN109997186A (zh) * 2016-09-09 2019-07-09 华为技术有限公司 一种用于分类声环境的设备和方法
CN110085251A (zh) * 2019-04-26 2019-08-02 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
CN110827844A (zh) * 2019-10-10 2020-02-21 天津大学 一种基于bp网络的噪声分类方法
CN111179975A (zh) * 2020-04-14 2020-05-19 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN111816218A (zh) * 2020-07-31 2020-10-23 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
CN112951259A (zh) * 2021-03-01 2021-06-11 杭州网易云音乐科技有限公司 音频降噪方法、装置、电子设备及计算机可读存储介质
CN115065912A (zh) * 2022-06-22 2022-09-16 广州市迪声音响有限公司 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置
CN115240699A (zh) * 2022-07-21 2022-10-25 电信科学技术第五研究所有限公司 一种基于深度学习的噪声估计和语音降噪方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN111867672A (zh) * 2018-02-16 2020-10-30 西北大学 无线医疗传感器和方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048119A (ja) * 2010-08-30 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
CN109997186A (zh) * 2016-09-09 2019-07-09 华为技术有限公司 一种用于分类声环境的设备和方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN110085251A (zh) * 2019-04-26 2019-08-02 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
CN110827844A (zh) * 2019-10-10 2020-02-21 天津大学 一种基于bp网络的噪声分类方法
CN111179975A (zh) * 2020-04-14 2020-05-19 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN111816218A (zh) * 2020-07-31 2020-10-23 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
CN112951259A (zh) * 2021-03-01 2021-06-11 杭州网易云音乐科技有限公司 音频降噪方法、装置、电子设备及计算机可读存储介质
CN115065912A (zh) * 2022-06-22 2022-09-16 广州市迪声音响有限公司 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置
CN115240699A (zh) * 2022-07-21 2022-10-25 电信科学技术第五研究所有限公司 一种基于深度学习的噪声估计和语音降噪方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Voice Activity Aegment Audio Deduction Method Using MobieNet";Hae-Jun Lee;《The Journal of Korean Institute of Information Technology》;全文 *
Espl M."Acoustic Event Detection in Speech Overlapping Scenarios Based on High-Resolution Spectral Input and Deep Learning".《IEICE Transactions on Information and Systems》.2015,全文. *
刘晶." 基于盲源分离和噪声抑制的语音信号识别".《计算机测量与控制》.2018,全文. *
王鸣天."基于文本和声学特征的语音情感识别研究".《中国优秀硕士学位论文全文数据库(信息科技辑)》.2023,全文. *

Also Published As

Publication number Publication date
CN113724720A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN115081437B (zh) 基于语言学特征对比学习的机器生成文本检测方法及系统
CN111986699A (zh) 基于全卷积网络的声音事件检测方法
CN113724720B (zh) 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
CN116110405A (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN112527959B (zh) 基于无池化卷积嵌入和注意分布神经网络的新闻分类方法
CN114428860A (zh) 院前急救病例文本的识别方法、装置、终端及存储介质
CN113806528A (zh) 一种基于bert模型的话题检测方法、设备及存储介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN112905793A (zh) 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN110134852B (zh) 一种文档的去重方法、设备及可读介质
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN112685374A (zh) 日志分类方法、装置及电子设备
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
Stadelmann et al. Fast and robust speaker clustering using the earth mover's distance and Mixmax models
CN115019773A (zh) 语音识别方法及相关装置、电子设备、存储介质
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
Sethu et al. GMM based speaker variability compensated system for interspeech 2013 compare emotion challenge.
CN115730064A (zh) 一种关键词处理方法、装置、电子设备和存储介质
CN113178189A (zh) 一种信息分类方法及装置、信息分类模型训练方法及装置
CN112270185A (zh) 一种基于主题模型的文本表示方法
Thasleema et al. Time–domain non-linear feature parameter for consonant classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant