CN110827844B - 一种基于bp网络的噪声分类方法 - Google Patents

一种基于bp网络的噪声分类方法 Download PDF

Info

Publication number
CN110827844B
CN110827844B CN201910960086.5A CN201910960086A CN110827844B CN 110827844 B CN110827844 B CN 110827844B CN 201910960086 A CN201910960086 A CN 201910960086A CN 110827844 B CN110827844 B CN 110827844B
Authority
CN
China
Prior art keywords
network
frame
noise
mel
frequency cepstrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910960086.5A
Other languages
English (en)
Other versions
CN110827844A (zh
Inventor
张涛
耿彦章
邵洋洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910960086.5A priority Critical patent/CN110827844B/zh
Publication of CN110827844A publication Critical patent/CN110827844A/zh
Application granted granted Critical
Publication of CN110827844B publication Critical patent/CN110827844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于BP网络的噪声分类方法:对输入的噪声信号进行预处理;对预处理后的每一帧噪声信号分别进行傅里叶变换得到噪声信号功率谱;利用每一帧噪声信号功率谱分别计算每一帧噪声信号的梅尔频率倒谱系数及梅尔频率倒谱系数的一阶差分;计算每一帧噪声信号的伽玛通频率倒谱系数;将每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数组合作为该帧噪声信号的联合特征,将全部帧噪声信号的联合特征中的一部分作为训练数据,另一部分作为测试数据;分别训练一级BP网络和二级BP网络;将一级BP网络和二级BP网络联合进行测试,得到最终的噪声信号分类结果。本发明有着更高的噪声分类准确率。

Description

一种基于BP网络的噪声分类方法
技术领域
本发明涉及一种噪声分类方法。特别是涉及一种基于BP网络的噪声分类方法。
背景技术
在语音信号的处理过程中,噪声污染的问题不可避免。随着数字语音信号在科研和生活中的广泛应用,噪声对数字语音信号的影响愈发明显,如何有效地抑制噪声,提高语音信号的质量和可懂度成为众多学者研究的热点。而在语音增强技术中,一大研究难点则是噪声的来源众多。不同噪声的统计特性不尽相同,因此在实际应用中,为了达到更好的信号处理效果,需根据应用场合,对不同噪声特性的噪声进行区别处理。
一般来说,解决噪声分类问题的关键技术点主要有两个,一是要提取何种特征用于噪声类型的区分;二是对提取的特征运用何种分类技术。对于第一个关键技术点,目前常用的噪声特征有自适应子波特征、短时自相关函数(Short Auto-correlation Function,SACF)、bark域能量分布、梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、一阶差分梅尔倒谱系数(first-order MFCC,ΔMFCC)、离散傅里叶系数、线性预测编码系数以及伽马通滤波器系数等。对于噪声分类方法,目前常用的技术包括基于隐马尔科夫模型(Hidden Markov Model,HMM)的噪声分类算法、基于混合高斯模型(Gaussian MixtureModel,GMM)的噪声分类算法、基于支持向量机(Support Vector Machine,SVM)的噪声分类算法以及基于神经网络的噪声分类算法等。
然而目前所提出噪声分类方法存在分类准确低的情况。由于噪声分类的准确性能会直接影响信号处理的性能,那么提出一种高准确的噪声分类方法则成为了信号处理领域的一个新挑战。
发明内容
本发明所要解决的技术问题是,提供一种具有更高分类准确率的基于BP网络的噪声分类方法。
本发明所采用的技术方案是:一种基于BP网络的噪声分类方法,包括如下步骤:
1)对输入的噪声信号进行预处理,包括分帧以及加窗处理;
2)对预处理后的每一帧噪声信号分别进行傅里叶变换得到噪声信号功率谱;
3)利用所述的每一帧噪声信号功率谱分别计算每一帧噪声信号的梅尔频率倒谱系数及梅尔频率倒谱系数的一阶差分;
4)计算每一帧噪声信号的伽玛通频率倒谱系数;
5)将每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数组合作为该帧噪声信号的联合特征,将全部帧噪声信号的联合特征中的一部分作为训练数据,另一部分作为测试数据;
6)训练一级BP网络;
7)训练二级BP网络;
8)将一级BP网络和二级BP网络联合进行测试,得到最终的噪声信号分类结果。
步骤2)是采用如下公式对每一帧噪声信号进行傅里叶变换:
X(i,k)=FFT[xi(n)]
其中,X(i,k)是第i帧信号在第k条谱线处的功率谱,FFT表示傅里叶变换,xi(n)表示第i帧信号,n表示序列索引号。
步骤3)包括:
(3.1)对每一帧噪声信号的功率谱计算谱线能量:
E(i,k)=[X(i,k)]2
其中,E(i,k)表示第i帧数据在第k条谱线的谱线能量;X(i,k)是第i帧信号在第k条谱线处的功率谱;
(3.2)计算每一帧噪声信号通过梅尔滤波器的能量
Figure BDA0002228629710000021
其中,S(i,m)表示第i帧信号通过第m个梅尔滤波器的能量,M是梅尔滤波器的总数,Hm(k)表示第m个梅尔滤波器在第k条谱线处的频域响应,N是谱线的总数;
(3.3)计算梅尔频率倒谱系数:
Figure BDA0002228629710000022
其中,mfcc(i,n)为第i帧噪声信号在第k条谱线处的梅尔频率倒谱系数;
(3.4)计算梅尔频率倒谱系数的一阶差分:
Δmfcc(i,k)=2mfcc(i-2,k)-mfcc(i-1,k)+mfcc(i+1,k)+2mfcc(i+2,k)
其中,Δmfcc(i,k)表示第i帧信号在第k条谱线处的梅尔频率倒谱系数的一阶差分,mfcc(i-2,k)、mfcc(i-1,k)、mfcc(i+1,k)和mfcc(i+2,k)分别表示第i-2帧信号、i-1帧信号、i+1帧信号和i+2帧信号在第k条谱线处的梅尔频率倒谱系数。
步骤4)包括:
(4.1)通过所得到的谱线能量,计算通过伽玛通滤波器的能量:
Figure BDA0002228629710000023
其中,R(i,p)表示第i帧噪声信号通过第p个伽玛通滤波器的能量,P是伽玛通滤波器的总数,Hp(k)表示第p个伽玛通滤波器在第k条谱线的频域响应,N是谱线的总数,e(f)表示指数压缩值;
(4.2)计算伽玛通频率倒谱系数:
Figure BDA0002228629710000024
其中,gfcc(i,k)表示第i帧信号在第k条谱线处的伽玛通频率倒谱系数。
步骤6)所述的训练一级BP网络,是将所述的训练数据输入到一级BP网络中进行网络训练,经一级BP网络训练后得到每一帧噪声信号所属的大类类别,并保存已训练好的一级BP网络的网络权重。
步骤7)所述的训练二级BP网络,是将经一级BP网络训练得到的每一大类中的每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数进行组合输入到相应类别的二级BP网络中进行网络训练,经二级BP网络训练后得到每一大类中的每一帧噪声信号的识别结果,并保存已训练好的二级BP网络的网络权重。
步骤8)是根据保存的一级BP网络的网络权重和二级BP网络的网络权重,将所述的测试数据输入到由一级BP网络和二级BP网络相串联构成的联合网络中进行测试,得到对测试数据中每一帧噪声信号的识别结果。
本发明的一种基于BP网络的噪声分类方法,采用两级BP网络的形式对对噪声信号的噪声类别进行识别,采用该种网络结构的噪声分类方法相比于只采用单级BP网络的噪声分类方法来说有着更高的噪声分类准确率。同时,本发明提出的方案适用性广,可实验性较强,对于噪声分类有一定的借鉴意义。
附图说明
图1是本发明一种基于BP网络的噪声分类方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种基于BP网络的噪声分类方法做出详细说明。
如图1所示,本发明的一种基于BP网络的噪声分类方法,包括如下步骤:
1)对输入的噪声信号进行预处理,包括分帧以及加窗处理;
2)对预处理后的每一帧噪声信号分别进行傅里叶变换得到噪声信号功率谱;具体是采用如下公式对每一帧噪声信号进行傅里叶变换:
X(i,k)=FFT[xi(n)]
其中,X(i,k)是第i帧信号在第k条谱线处的功率谱,FFT表示傅里叶变换,xi(n)表示第i帧信号,n表示序列索引号。
3)利用所述的每一帧噪声信号功率谱分别计算每一帧噪声信号的梅尔频率倒谱系数(MFCC)及梅尔频率倒谱系数的一阶差分(ΔMFCC);具体包括:
(3.1)对每一帧噪声信号的功率谱计算谱线能量:
E(i,k)=[X(i,k)]2
其中,E(i,k)表示第i帧数据在第k条谱线的谱线能量;X(i,k)是第i帧信号在第k条谱线处的功率谱;
(3.2)计算每一帧噪声信号通过梅尔滤波器的能量
Figure BDA0002228629710000031
其中,S(i,m)表示第i帧信号通过第m个梅尔滤波器的能量,M是梅尔滤波器的总数,Hm(k)表示第m个梅尔滤波器在第k条谱线处的频域响应,N是谱线的总数;
(3.3)计算梅尔频率倒谱系数:
Figure BDA0002228629710000041
其中,mfcc(i,n)为第i帧噪声信号在第k条谱线处的梅尔频率倒谱系数;
(3.4)计算梅尔频率倒谱系数的一阶差分(ΔMFCC)
Δmfcc(i,k)=2mfcc(i-2,k)-mfcc(i-1,k)+mfcc(i+1,k)+2mfcc(i+2,k)
其中,△mfcc(i,k)表示第i帧信号在第k条谱线处的梅尔频率倒谱系数的一阶差分,mfcc(i-2,k)、mfcc(i-1,k)、mfcc(i+1,k)和mfcc(i+2,k)分别表示第i-2帧信号、i-1帧信号、i+1帧信号和i+2帧信号在第k条谱线处的梅尔频率倒谱系数。
4)计算每一帧噪声信号的伽玛通频率倒谱系数(GFCC);具体包括:
(4.1)通过所得到的谱线能量,计算通过伽玛通(Gammatone)滤波器的能量:
Figure BDA0002228629710000042
其中,R(i,p)表示第i帧噪声信号通过第p个伽玛通滤波器的能量,P是伽玛通滤波器的总数,Hp(k)表示第p个伽玛通滤波器在第k条谱线的频域响应,N是谱线的总数,e(f)表示指数压缩值;
(4.2)计算伽玛通频率倒谱系数:
Figure BDA0002228629710000043
其中,gfcc(i,k)表示第i帧信号在第k条谱线处的伽玛通频率倒谱系数。
5)将每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数组合作为该帧噪声信号的联合特征,将全部帧噪声信号的联合特征中的一部分作为训练数据,另一部分作为测试数据;
6)训练一级BP网络,是将所述的训练数据输入到一级BP网络中进行网络训练,经一级BP网络训练后得到每一帧噪声信号所属的大类类别,并保存已训练好的一级BP网络的网络权重。
7)训练二级BP网络,是将经一级BP网络训练得到的每一大类中的每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数进行组合输入到相应类别的二级BP网络中进行网络训练,经二级BP网络训练后得到每一大类中的每一帧噪声信号的识别结果,并保存已训练好的二级BP网络的网络权重。
8)将一级BP网络和二级BP网络联合进行测试,得到最终的噪声信号分类结果,是根据保存的一级BP网络的网络权重和二级BP网络的网络权重,将所述的测试数据输入到由一级BP网络和二级BP网络相串联构成的联合网络中进行测试,得到对测试数据中每一帧噪声信号的识别结果。
下面给出具体实例:
(一)对输入的噪声信号进行预处理:
1、选取数据:
从Noisex-92标准噪声库中选取Pink,Factory1,F16,Destoryerengine,Buccaneer1;Babble,White,Hfchannel,Factory2,Buccaneer2;Volvo,Machinegun,M109,Leopard,Destoryerops共15种噪声作为样本,采样频率为16KHz,分为三大类作为第一级BP网络的分类依据,分别为:A1类:Pink,Factory1,F16,Destoryerengine,Buccaneer1;A2类:Babble,White,Hfchannel,Factory2,Buccaneer2;A3类:Volvo,Machinegun,M109,Leopard,Destoryerops.
2、分帧及加窗
(1)分帧:帧长为256点,帧移为128点;
(2)窗函数为汉明窗;
(二)预处理后,每一类噪声有36713帧数据,15类噪声共550695帧数据。对每帧数据进行傅里叶变换得到信号功率谱:
(三)计算550695帧数据中的每帧数据的24维MFCC和ΔMFCC系数;
(四)计算550695帧数据中的每帧数据的24维GFCC系数;
(五)将每帧数据的24维MFCC和ΔMFCC系数以及24维GFCC系数联合组成48维联合特征,从550695帧数据中选取500000帧数据作为训练数据,其余数据作为测试数据;
(六)将(五)中的训练数据输入到第一级BP网络(BP0)中进行训练,其中BP0网络的参数设置为:输入层为48个节点,隐含层49个节点,输出层3个节点。训练成功后保存已训练好的网络权重;
(七)将A1、A2和A3每一大类中的5种噪声的48维联合特征分别输入到三个二级BP网络(BP1、BP2和BP3)中进行训练,其中BP1、BP2和BP3网络的参数设置为:输入层为48个节点,隐含层49个节点,输出层5个节点。训练成功后保存已训练好的网络权重。
(八)将训练好的一级BP网络和二级BP网络进行组合测试,组合后的网络的输入数据为(五)中所获得的测试数据。
(九)组合网络的测试输出结果为该组合网络对15类噪声中每一类噪声的分类类别并通过计算得出本发明方法对每一类噪声的分类准确率,具体结果如表1所示。其中,BP0表示第一级BP网络对三大类噪声的分类准确率,BP表示三个二级分类网络分别对每一大类中各个噪声的分类准确率,BP0+BP表示最终的组合网络对15类噪声的分类准确率。
表1BP网络对15类噪声的分类准确率
Figure BDA0002228629710000051
Figure BDA0002228629710000061

Claims (6)

1.一种基于BP网络的噪声分类方法,其特征在于,包括如下步骤:
1)对输入的噪声信号进行预处理,包括分帧以及加窗处理;
2)对预处理后的每一帧噪声信号分别进行傅里叶变换得到噪声信号功率谱;
3)利用所述的每一帧噪声信号的功率谱分别计算每一帧噪声信号的梅尔频率倒谱系数及梅尔频率倒谱系数的一阶差分;
4)计算每一帧噪声信号的伽玛通频率倒谱系数;
5)将每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数组合作为该帧噪声信号的联合特征,将全部帧噪声信号的联合特征中的一部分作为训练数据,另一部分作为测试数据;
6)训练一级BP网络;
7)训练二级BP网络;所述的训练二级BP网络,是将经一级BP网络训练得到的每一大类中的每一帧噪声信号的梅尔频率倒谱系数、梅尔频率倒谱系数的一阶差分和伽玛通频率倒谱系数进行组合输入到相应类别的二级BP网络中进行网络训练,经二级BP网络训练后得到每一大类中的每一帧噪声信号的识别结果,并保存已训练好的二级BP网络的网络权重;
8)将一级BP网络和二级BP网络联合进行测试,得到最终的噪声信号分类结果。
2.根据权利要求1所述的一种基于BP网络的噪声分类方法,其特征在于,步骤2)是采用如下公式对每一帧噪声信号进行傅里叶变换:
X(i,k)=FFT[xi(n)]
其中,X(i,k)是第i帧信号在第k条谱线处的功率谱,FFT表示傅里叶变换,xi(n)表示第i帧信号,n表示序列索引号。
3.根据权利要求1所述的一种基于BP网络的噪声分类方法,其特征在于,步骤3)包括:
(3.1)对每一帧噪声信号的功率谱计算谱线能量:
E(i,k)=[X(i,k)]2
其中,E(i,k)表示第i帧数据在第k条谱线的谱线能量;X(i,k)是第i帧信号在第k条谱线处的功率谱;
(3.2)计算每一帧噪声信号通过梅尔滤波器的能量
Figure FDA0003461754610000011
其中,S(i,m)表示第i帧信号通过第m个梅尔滤波器的能量,M是梅尔滤波器的总数,Hm(k)表示第m个梅尔滤波器在第k条谱线处的频域响应,N是谱线的总数;
(3.3)计算梅尔频率倒谱系数:
Figure FDA0003461754610000012
其中,mfcc(i,k)为第i帧噪声信号在第k条谱线处的梅尔频率倒谱系数;
(3.4)计算梅尔频率倒谱系数的一阶差分:
Vmfcc(i,k)=2mfcc(i-2,k)-mfcc(i-1,k)+mfcc(i+1,k)+2mfcc(i+2,k)
其中,Vmfcc(i,k)表示第i帧信号在第k条谱线处的梅尔频率倒谱系数的一阶差分,mfcc(i-2,k)、mfcc(i-1,k)、mfcc(i+1,k)和mfcc(i+2,k)分别表示第i-2帧信号、i-1帧信号、i+1帧信号和i+2帧信号在第k条谱线处的梅尔频率倒谱系数。
4.根据权利要求1所述的一种基于BP网络的噪声分类方法,其特征在于,步骤4)包括:
(4.1)通过所得到的谱线能量,计算通过伽玛通滤波器的能量:
Figure FDA0003461754610000021
其中,R(i,p)表示第i帧噪声信号通过第p个伽玛通滤波器的能量,P是伽玛通滤波器的总数,Hp(k)表示第p个伽玛通滤波器在第k条谱线的频域响应,N是谱线的总数,e(f)表示指数压缩值;E(i,k)表示第i帧数据在第k条谱线的谱线能量;
(4.2)计算伽玛通频率倒谱系数:
Figure FDA0003461754610000022
其中,gfcc(i,k)表示第i帧信号在第k条谱线处的伽玛通频率倒谱系数。
5.根据权利要求1所述的一种基于BP网络的噪声分类方法,其特征在于,步骤6)所述的训练一级BP网络,是将所述的训练数据输入到一级BP网络中进行网络训练,经一级BP网络训练后得到每一帧噪声信号所属的大类类别,并保存已训练好的一级BP网络的网络权重。
6.根据权利要求1所述的一种基于BP网络的噪声分类方法,其特征在于,步骤8)是根据保存的一级BP网络的网络权重和二级BP网络的网络权重,将所述的测试数据输入到由一级BP网络和二级BP网络相串联构成的联合网络中进行测试,得到对测试数据中每一帧噪声信号的识别结果。
CN201910960086.5A 2019-10-10 2019-10-10 一种基于bp网络的噪声分类方法 Active CN110827844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910960086.5A CN110827844B (zh) 2019-10-10 2019-10-10 一种基于bp网络的噪声分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910960086.5A CN110827844B (zh) 2019-10-10 2019-10-10 一种基于bp网络的噪声分类方法

Publications (2)

Publication Number Publication Date
CN110827844A CN110827844A (zh) 2020-02-21
CN110827844B true CN110827844B (zh) 2022-04-05

Family

ID=69549100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910960086.5A Active CN110827844B (zh) 2019-10-10 2019-10-10 一种基于bp网络的噪声分类方法

Country Status (1)

Country Link
CN (1) CN110827844B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112198556A (zh) * 2020-09-16 2021-01-08 南方科技大学 信号处理方法、装置、终端设备及存储介质
CN113724720B (zh) * 2021-07-19 2023-07-11 电信科学技术第五研究所有限公司 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法
CN113793620B (zh) * 2021-11-17 2022-03-08 深圳市北科瑞声科技股份有限公司 基于场景分类的语音降噪方法、装置、设备及存储介质
CN115472147A (zh) * 2022-09-15 2022-12-13 北京大学深圳医院 一种语言识别方法及装置
CN118364430A (zh) * 2024-06-19 2024-07-19 山东广瑞电力科技有限公司 一种利用数据融合的电力设备状态巡检判别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609488B (zh) * 2017-08-21 2020-11-03 哈尔滨工程大学 一种基于深度卷积网络的舰船噪声识别分类方法
CN109559755A (zh) * 2018-12-25 2019-04-02 沈阳品尚科技有限公司 一种基于dnn噪声分类的语音增强方法
CN110164472A (zh) * 2019-04-19 2019-08-23 天津大学 基于卷积神经网络的噪声分类方法
KR20190087363A (ko) * 2019-07-15 2019-07-24 인하대학교 산학협력단 실질 잡음 환경에서 mfcc 기법을 이용한 hmm 기반 무인 항공기 음향 인식 방법 및 시스템

Also Published As

Publication number Publication date
CN110827844A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110827844B (zh) 一种基于bp网络的噪声分类方法
Mao et al. Revisiting hidden Markov models for speech emotion recognition
Song et al. Noise invariant frame selection: a simple method to address the background noise problem for text-independent speaker verification
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN102789779A (zh) 一种语音识别系统及其识别方法
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition.
Yuan et al. Binary quantization of feature vectors for robust text-independent speaker identification
Dumpala et al. Improved speaker recognition system for stressed speech using deep neural networks
Bhardwaj et al. Deep neural network trained Punjabi children speech recognition system using Kaldi toolkit
Sarikaya et al. Analysis of the root-cepstrum for acoustic modeling and fast decoding in speech recognition.
Maganti et al. Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Reshma et al. A survey on speech emotion recognition
Dong et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion
Othmane et al. Enhancement of esophageal speech using voice conversion techniques
Wang et al. Differential mfcc and vector quantization used for real-time speaker recognition system
Syed et al. Concatenative Resynthesis with Improved Training Signals for Speech Enhancement.
JPH10254473A (ja) 音声変換方法及び音声変換装置
Gupta et al. Improved utterance rejection using length dependent thresholds.
Morales et al. Adding noise to improve noise robustness in speech recognition.
Gowda et al. Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ
CN108986794B (zh) 一种基于幂函数频率变换的说话人补偿方法
Kulkarni et al. Comparison between SVM and other classifiers for SER
Qin et al. Learning device-invariant and location-invariant embedding for speaker verification using adversarial multi-task training
Ramesh et al. Hybrid artificial neural network and hidden Markov model (ANN/HMM) for speech and speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant