CN110164472A - 基于卷积神经网络的噪声分类方法 - Google Patents
基于卷积神经网络的噪声分类方法 Download PDFInfo
- Publication number
- CN110164472A CN110164472A CN201910320417.9A CN201910320417A CN110164472A CN 110164472 A CN110164472 A CN 110164472A CN 201910320417 A CN201910320417 A CN 201910320417A CN 110164472 A CN110164472 A CN 110164472A
- Authority
- CN
- China
- Prior art keywords
- neural networks
- convolutional neural
- layer
- noise
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000002123 temporal effect Effects 0.000 claims abstract description 22
- 238000009432 framing Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 abstract description 58
- 239000011229 interlayer Substances 0.000 abstract description 2
- 238000007635 classification algorithm Methods 0.000 description 7
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282373 Panthera pardus Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
Abstract
一种基于卷积神经网络的噪声分类方法,包括:对输入的噪声信号进行分帧加窗,窗长为10ms~30ms;对分帧加窗后的每一帧噪声信号分别提取频域特征和时域特征,构成大小为12*24的二维矩阵;搭建卷积神经网络,所述卷积神经网络由输入层、隐藏层、全连接层和输出层构成,其中,所述的隐藏层是由1个以上的卷积层和1个以上的池化层间隔设置构成;对卷积神经网络进行训练;将每一帧噪声信号的频域特征和时域特征分别输入到训练后的卷积神经网络,得到分类结果。本发明能够有效提高噪声分类的准确率,本发明所提出的基于卷积神经网络的噪声分类方法的输入特征大小仅为12*24,有效降低了卷积神经网络的计算复杂度。
Description
技术领域
本发明涉及一种噪声分类方法。特别是涉及一种基于卷积神经网络的噪声分类方法。
背景技术
噪声的类型众多,其特性也各不相同,根据噪声的特性,可以将噪声分为以下几类:冲 激噪声、周期噪声、宽带噪声、语音干扰、背景噪声以及传输噪声。研究表明,要得到更好 的语音增强、识别、编码效果,首先要区分语音信号被哪一类噪声所污染,进而采取不同的 解决方案。因此,噪声分类算法是必不可少的。
目前,噪声分类算法众多,提升分类准确率的关键就技术有两点:一是提取噪声的何种 特征,二是采用何种分类技术。
目前常用的特征包括:自适应子波特征、短时自相关函数(Short Auto-correlation Function, SACF)、bark域能量分布、梅尔倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)、一阶 差分梅尔倒谱系数(first-order MFCC,ΔMFCC)、离散傅里叶系数、线性预测编码系数等。
目前常用的噪声分类技术众多,包括基于隐马尔科夫模型(Hidden MarkovModel,HMM) 的噪声分类算法、基于混合高斯模型(Gaussian Mixture Model,GMM)的噪声分类算法、基 于支持向量机(Support Vector Machine,SVM)的噪声分类算法以及基于神经网络的噪声分类 算法等。但目前提出的噪声分类算法对噪声分类的准确率不高,特别是对非平稳噪声,这类 统计特性较差的噪声识别准确率较低。
发明内容
本发明所要解决的技术问题是,提供一种能够有效提升噪声分类算法的准确率和鲁棒性 的基于卷积神经网络的噪声分类方法。
本发明所采用的技术方案是:一种基于卷积神经网络的噪声分类方法,包括如下步骤:
1)对输入的噪声信号进行分帧加窗,窗长为10ms~30ms;
2)对分帧加窗后的每一帧噪声信号分别提取频域特征和时域特征,构成大小为12*24的 二维矩阵;
3)搭建卷积神经网络,所述卷积神经网络由输入层、隐藏层、全连接层和输出层构成, 其中,所述的隐藏层是由1个以上的卷积层和1个以上的池化层间隔设置构成;
4)对卷积神经网络进行训练;
5)将每一帧噪声信号的频域特征和时域特征分别输入到训练后的卷积神经网络,得到分 类结果。
步骤2)所述的频域特征是梅尔倒谱系数和一阶差分梅尔倒谱系数,所述的时域特征为 多帧串联的长时特征。
步骤2)包括:
提取频域特征:
对噪声信号进行快速傅里叶变换,表示为X(k),k表示频率点,则梅尔滤波器能量S(m)表 示为:
式中Hm(k)表示第m个梅尔滤波器的频率响应,M为梅尔滤波器的个数,N表示每一帧长 度;
将梅尔滤波器能量取对数后计算离散余弦变换得到第n维梅尔倒谱系数mfcc(n):
式中L为梅尔倒谱系数的维度;
一阶差分梅尔倒谱系数是对梅尔倒谱系数进行一阶差分得到;
提取时域特征:
时域特征由当前帧信号的频域特征与当前帧信号之前6帧和之后5帧共12帧信号的频域 特征组成;
最终的频域特征和时域特征共同构成一个大小为12*24的二维矩阵。
步骤3)中所述的输入层用于输入每一帧噪声信号的频域特征和时域特征;所述的卷积 层是卷积神经网络的核心,每个卷积层由一组可学习的滤波器组成,不同卷积层中的滤波器 个数不同,在前馈期间,用于对输入进行卷积,计算滤波器和输入之间的点积,并产生该滤 波器的二维激活图;所述的池化层的作用是减小数据处理量同时保留有用信息;所述的全连 接层的作用是对经过多个卷积层和多个池化层后所得出来的高级特征进行全连接,算出最后 的预测值;所述的输出层用于输出噪声分类结果。
步骤4)包括:
(1)对卷积神经网络进行权值的初始化;
(2)将每一帧噪声信号经输入层依次进入隐藏层、全连接层和输出层得到输出值;
(3)求出卷积神经网络的输出值与设定的目标值之间的误差;
(4)根据第(3)步所述的误差分别求各卷积层、各池化层和全连接层的误差,根据求 得的该误差进行权值更新;
(5)当达到预设的最大训练次数时,结束训练;否则返回第(2)步继续训练。
本发明的基于卷积神经网络的噪声分类方法,能够有效提高噪声分类的准确率,不论是 对white噪声等平稳噪声,还是对machinegun噪声和babble噪声等非平稳噪声本发明所提出 的方法均能有限提高分类的准确率,对于除了Factory1噪声外的14类噪声,本发明提出的方 法可达到90%以上的识别准确率,对F16、Hfchannel、Factory2以及machingun噪声的分类 准确率可以达到100%,对Factory1噪声也可以达到89%的分类准确率;依靠卷积神经网络 的泛化能力,有效提高了本发明提出方法的鲁棒性;本发明所提出的基于卷积神经网络的噪 声分类方法的输入特征大小仅为12*24,有效降低了卷积神经网络的计算复杂度。
附图说明
图1是本发明的基于卷积神经网络的噪声分类方法构成框图;
图2是本发明中卷积神经网络的结构示意图。
具体实施方式
下面结合实施例和附图对本发明的基于卷积神经网络的噪声分类方法做出详细说明。
如图1所示,本发明的基于卷积神经网络的噪声分类方法,包括如下步骤:
1)混合语音中语音信号是短时平稳信号,因此需要对语音信号作分帧加窗处理,而噪声 信号也需要进行分帧加窗处理。本发明对输入的噪声信号进行分帧加窗,窗长为10ms~30ms;
2)由于卷积神经网络的输入是二维向量,将噪声作为二维信号输入时,要对分帧加窗后 的每一帧噪声信号分别提取频域特征和时域特征,构成大小为12*24的二维矩阵;所述的频 域特征是梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和一阶差分梅尔倒谱系 数(first-order MFCC,ΔMFCC),所述的时域特征为多帧串联的长时特征。该步骤包括:
提取频域特征:
对噪声信号进行快速傅里叶变换(Fast Fourier Transform,FFT),表示为X(k),k表示频率 点,则梅尔滤波器能量S(m)表示为:
式中Hm(k)表示第m个梅尔滤波器的频率响应,M为梅尔滤波器的个数,N表示每一帧长 度;
将梅尔滤波器能量取对数后计算离散余弦变换(Discerte Cosine Transform,DCT)得到 梅尔倒谱系数mfcc(n):
一阶差分梅尔倒谱系数是对梅尔倒谱系数进行一阶差分得到;
提取时域特征:
时域特征由当前帧信号的频域特征与当前帧信号之前6帧和之后5帧共12帧信号的频域 特征组成;
最终的频域特征和时域特征共同构成一个大小为12*24的二维矩阵。
3)搭建卷积神经网络,如图2所示,所述卷积神经网络由输入层1、隐藏层2、全连接层3和输出层4构成,其中,所述的隐藏层是由1个以上的卷积层2.1和1个以上的池化层 2.2间隔设置构成;其中
所述的输入层1用于输入每一帧噪声信号的频域特征和时域特征;所述的卷积层2.1是 卷积神经网络的核心,每个卷积层2.1由一组可学习的滤波器组成,不同卷积层2.1中的滤波 器个数不同,在前馈期间,用于对输入进行卷积,计算滤波器和输入之间的点积,并产生该 滤波器的二维激活图,简单来说,卷积层是用来对输入层进行卷积,提取更高层次的特征; 所述的池化层2.2的作用是减小数据处理量同时保留有用信息;所述的全连接层3的作用是 对经过多个卷积层2.1和多个池化层2.2后所得出来的高级特征进行全连接,算出最后的预测 值;所述的输出层4用于输出噪声分类结果。
4)对卷积神经网络进行训练;包括:
(1)对卷积神经网络进行权值的初始化;
(2)将每一帧噪声信号经输入层1依次进入隐藏层2、全连接层3和输出层4得到输出 值;
(3)求出卷积神经网络的输出值与设定的目标值之间的误差;
(4)根据第(3)步所述的误差分别求各卷积层2.1、各池化层2.2和全连接层3的误差, 根据求得的该误差进行权值更新;
(5)当达到预设的最大训练次数时,结束训练;否则返回第(2)步继续训练。
5)将每一帧噪声信号的频域特征和时域特征分别输入到训练后的卷积神经网络,得到分 类结果。
采用本发明的基于卷积神经网络的噪声分类方法,对噪声进行分类的准确率如表1示。
表1
噪声类型 | Pink | Factory1 | F16 | Destroyerengine | Buccaneer1 |
准确率 | 98.4% | 89% | 100% | 99% | 99% |
噪声类型 | Babble | White | Hfchannel | Factory2 | Buccaneer2 |
准确率 | 96.7% | 96.6% | 100% | 100% | 96.5% |
噪声类型 | Volvo | Machinegun | M109 | Leopard | Destroyerops |
准确率 | 99.9% | 100% | 99.7% | 99.3% | 98.4% |
下面给出具体实例:
第一步:预处理
对Noisex-92噪声库中的15类噪声信号进行分帧加窗,每一帧信号的帧长为512个采样 点,窗函数选用汉明窗。将每一个连续的12帧信号作为一个噪声样本,从中选取60000个样 本作为训练集,10000个样本作为测试集。
第二步:提取特征
将样本中的每一帧信号提取24维的MFCC和ΔMFCC特征,将每一个样本中共12帧信号 的特征值组合为一个大小为12*24的二维矩阵作为每一个样本的时频特征。
第三步:搭建CNN结构
CNN网络由输入层1,第一个卷积层2.1,第一个池化层2.2,第二个卷积层2.1,第二个 池化层2.2,全连接层3和输出层4构成。如图1所示。
输入层是一个大小为12*24的二维矩阵;第一卷积层有6个滤波器,每个滤波器的大小 为5*5;第一池化层的降采样比例为2:1;第二卷积层有12个滤波器,每个滤波器的大小为 3*3;第二个池化层的降采样比例为2:1;输出层有15个节点。
第四步:CNN网络的训练
利用CNN网络进行噪声分类的任务主要分为两个阶段:训练阶段和工作阶段。
先使用训练集对CNN网络进行训练,得到噪声分类准确率最高的网络,训练迭代次数设 置为50次,批训练样本数量为50。
得到训练完成后的CNN网络,并使用训练完成后的CNN网络对测试集进行分类。
Claims (5)
1.一种基于卷积神经网络的噪声分类方法,其特征在于,包括如下步骤:
1)对输入的噪声信号进行分帧加窗,窗长为10ms~30ms;
2)对分帧加窗后的每一帧噪声信号分别提取频域特征和时域特征,构成大小为12*24的二维矩阵;
3)搭建卷积神经网络,所述卷积神经网络由输入层(1)、隐藏层(2)、全连接层(3)和输出层(4)构成,其中,所述的隐藏层是由1个以上的卷积层(2.1)和1个以上的池化层(2.2)间隔设置构成;
4)对卷积神经网络进行训练;
5)将每一帧噪声信号的频域特征和时域特征分别输入到训练后的卷积神经网络,得到分类结果。
2.根据权利要求1所述的基于卷积神经网络的噪声分类方法,其特征在于,步骤2)所述的频域特征是梅尔倒谱系数和一阶差分梅尔倒谱系数,所述的时域特征为多帧串联的长时特征。
3.根据权利要求1所述的基于卷积神经网络的噪声分类方法,其特征在于,步骤2)包括:
提取频域特征:
对噪声信号进行快速傅里叶变换,表示为X(k),k表示频率点,则梅尔滤波器能量S(m)表示为:
式中Hm(k)表示第m个梅尔滤波器的频率响应,M为梅尔滤波器的个数,N表示每一帧长度;
将梅尔滤波器能量取对数后计算离散余弦变换得到第n维梅尔倒谱系数mfcc(n):
式中L为梅尔倒谱系数的维度;
一阶差分梅尔倒谱系数是对梅尔倒谱系数进行一阶差分得到;
提取时域特征:
时域特征由当前帧信号的频域特征与当前帧信号之前6帧和之后5帧共12帧信号的频域特征组成;
最终的频域特征和时域特征共同构成一个大小为12*24的二维矩阵。
4.根据权利要求1所述的基于卷积神经网络的噪声分类方法,其特征在于,步骤3)中所述的输入层(1)用于输入每一帧噪声信号的频域特征和时域特征;所述的卷积层(2.1)是卷积神经网络的核心,每个卷积层(2.1)由一组可学习的滤波器组成,不同卷积层(2.1)中的滤波器个数不同,在前馈期间,用于对输入进行卷积,计算滤波器和输入之间的点积,并产生该滤波器的二维激活图;所述的池化层(2.2)的作用是减小数据处理量同时保留有用信息;所述的全连接层(3)的作用是对经过多个卷积层(2.1)和多个池化层(2.2)后所得出来的高级特征进行全连接,算出最后的预测值;所述的输出层(4)用于输出噪声分类结果。
5.根据权利要求1所述的基于卷积神经网络的噪声分类方法,其特征在于,步骤4)包括:
(1)对卷积神经网络进行权值的初始化;
(2)将每一帧噪声信号经输入层(1)依次进入隐藏层(2)、全连接层(3)和输出层(4)得到输出值;
(3)求出卷积神经网络的输出值与设定的目标值之间的误差;
(4)根据第(3)步所述的误差分别求各卷积层(2.1)、各池化层(2.2)和全连接层(3)的误差,根据求得的该误差进行权值更新;
(5)当达到预设的最大训练次数时,结束训练;否则返回第(2)步继续训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910320417.9A CN110164472A (zh) | 2019-04-19 | 2019-04-19 | 基于卷积神经网络的噪声分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910320417.9A CN110164472A (zh) | 2019-04-19 | 2019-04-19 | 基于卷积神经网络的噪声分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110164472A true CN110164472A (zh) | 2019-08-23 |
Family
ID=67639794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910320417.9A Pending CN110164472A (zh) | 2019-04-19 | 2019-04-19 | 基于卷积神经网络的噪声分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110164472A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827844A (zh) * | 2019-10-10 | 2020-02-21 | 天津大学 | 一种基于bp网络的噪声分类方法 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声去除方法 |
CN110956197A (zh) * | 2019-10-28 | 2020-04-03 | 新绎健康科技有限公司 | 一种基于卷积神经网络建立脉波噪声信号识别模型的方法及系统 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
CN111090758A (zh) * | 2019-12-10 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111402922A (zh) * | 2020-03-06 | 2020-07-10 | 武汉轻工大学 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
CN111491245A (zh) * | 2020-03-13 | 2020-08-04 | 天津大学 | 基于循环神经网络的数字助听器声场识别算法及硬件实现方法 |
CN111625763A (zh) * | 2020-05-27 | 2020-09-04 | 郑州航空工业管理学院 | 一种基于数学模型的运行风险预测方法和预测系统 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112509593A (zh) * | 2020-11-17 | 2021-03-16 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112712060A (zh) * | 2021-01-15 | 2021-04-27 | 国网浙江省电力有限公司电力科学研究院 | 一种高压支柱瓷绝缘子声信号自动识别方法 |
CN113160844A (zh) * | 2021-04-27 | 2021-07-23 | 山东省计算中心(国家超级计算济南中心) | 基于噪声背景分类的语音增强方法及系统 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113283331A (zh) * | 2021-05-20 | 2021-08-20 | 长沙融创智胜电子科技有限公司 | 用于无人值守传感器系统的多类别目标识别方法及系统 |
CN117238320A (zh) * | 2023-11-16 | 2023-12-15 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097101A (ja) * | 2015-11-20 | 2017-06-01 | 富士通株式会社 | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
CN108073856A (zh) * | 2016-11-14 | 2018-05-25 | 华为技术有限公司 | 噪音信号的识别方法及装置 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109087655A (zh) * | 2018-07-30 | 2018-12-25 | 桂林电子科技大学 | 一种交通道路声音监测与异常声音识别系统 |
CN109523993A (zh) * | 2018-11-02 | 2019-03-26 | 成都三零凯天通信实业有限公司 | 一种基于cnn与gru融合深度神经网络的语音语种分类方法 |
-
2019
- 2019-04-19 CN CN201910320417.9A patent/CN110164472A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017097101A (ja) * | 2015-11-20 | 2017-06-01 | 富士通株式会社 | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
CN108073856A (zh) * | 2016-11-14 | 2018-05-25 | 华为技术有限公司 | 噪音信号的识别方法及装置 |
CN108172238A (zh) * | 2018-01-06 | 2018-06-15 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
CN109087655A (zh) * | 2018-07-30 | 2018-12-25 | 桂林电子科技大学 | 一种交通道路声音监测与异常声音识别系统 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
CN109523993A (zh) * | 2018-11-02 | 2019-03-26 | 成都三零凯天通信实业有限公司 | 一种基于cnn与gru融合深度神经网络的语音语种分类方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827844A (zh) * | 2019-10-10 | 2020-02-21 | 天津大学 | 一种基于bp网络的噪声分类方法 |
CN110956197A (zh) * | 2019-10-28 | 2020-04-03 | 新绎健康科技有限公司 | 一种基于卷积神经网络建立脉波噪声信号识别模型的方法及系统 |
CN110933235B (zh) * | 2019-11-06 | 2021-07-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声识别方法 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声去除方法 |
CN111028852A (zh) * | 2019-11-06 | 2020-04-17 | 杭州哲信信息技术有限公司 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
CN111090758A (zh) * | 2019-12-10 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111090758B (zh) * | 2019-12-10 | 2023-08-18 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111402922A (zh) * | 2020-03-06 | 2020-07-10 | 武汉轻工大学 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
CN111491245B (zh) * | 2020-03-13 | 2022-03-04 | 天津大学 | 基于循环神经网络的数字助听器声场识别算法及实现方法 |
CN111491245A (zh) * | 2020-03-13 | 2020-08-04 | 天津大学 | 基于循环神经网络的数字助听器声场识别算法及硬件实现方法 |
CN111625763A (zh) * | 2020-05-27 | 2020-09-04 | 郑州航空工业管理学院 | 一种基于数学模型的运行风险预测方法和预测系统 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112509593A (zh) * | 2020-11-17 | 2021-03-16 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112509593B (zh) * | 2020-11-17 | 2024-03-08 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及系统 |
CN112712060A (zh) * | 2021-01-15 | 2021-04-27 | 国网浙江省电力有限公司电力科学研究院 | 一种高压支柱瓷绝缘子声信号自动识别方法 |
CN113205803A (zh) * | 2021-04-22 | 2021-08-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113205803B (zh) * | 2021-04-22 | 2024-05-03 | 上海顺久电子科技有限公司 | 一种具有自适应降噪能力的语音识别方法及装置 |
CN113160844A (zh) * | 2021-04-27 | 2021-07-23 | 山东省计算中心(国家超级计算济南中心) | 基于噪声背景分类的语音增强方法及系统 |
CN113283331A (zh) * | 2021-05-20 | 2021-08-20 | 长沙融创智胜电子科技有限公司 | 用于无人值守传感器系统的多类别目标识别方法及系统 |
CN113283331B (zh) * | 2021-05-20 | 2023-11-14 | 长沙融创智胜电子科技有限公司 | 用于无人值守传感器系统的多类别目标识别方法及系统 |
CN117238320A (zh) * | 2023-11-16 | 2023-12-15 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
CN117238320B (zh) * | 2023-11-16 | 2024-01-09 | 天津大学 | 一种基于多特征融合卷积神经网络的噪声分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164472A (zh) | 基于卷积神经网络的噪声分类方法 | |
Braun et al. | A curriculum learning method for improved noise robustness in automatic speech recognition | |
CN107146601B (zh) | 一种用于说话人识别系统的后端i-vector增强方法 | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
CN105023580B (zh) | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
CN108847244A (zh) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 | |
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
CN103456302B (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
CN111276125A (zh) | 一种面向边缘计算的轻量级语音关键词识别方法 | |
CN102968990A (zh) | 说话人识别方法和系统 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
CN110827844B (zh) | 一种基于bp网络的噪声分类方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
Riazati Seresht et al. | Spectro-temporal power spectrum features for noise robust ASR | |
CN115171712A (zh) | 适用于瞬态噪声抑制的语音增强方法 | |
Wang et al. | Automatic Morse code recognition under low SNR | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
Dusan | Estimation of speaker's height and vocal tract length from speech signal. | |
CN104392719A (zh) | 一种用于语音识别系统的中心子带模型自适应方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190823 |