CN111028852A - 一种基于cnn的智能呼叫系统中的噪声去除方法 - Google Patents
一种基于cnn的智能呼叫系统中的噪声去除方法 Download PDFInfo
- Publication number
- CN111028852A CN111028852A CN201911077575.2A CN201911077575A CN111028852A CN 111028852 A CN111028852 A CN 111028852A CN 201911077575 A CN201911077575 A CN 201911077575A CN 111028852 A CN111028852 A CN 111028852A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- cnn
- slice
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 42
- 238000013145 classification model Methods 0.000 claims abstract description 30
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 238000009432 framing Methods 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims 3
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种基于CNN的智能呼叫系统中的噪声去除方法,包括:将电话信号切片处理,归一化和分帧预处理;截取分帧后的切片信号;对截取的信号提取其Mel频谱;将提取的Mel频谱后输入神经网络模型进行模型训练,训练好的分类模型作为噪声分类模型;将新增的电话信号切片处理并分成奇数段;对切片信号归一化和分帧预处理;对分帧后的各段切片信号分别截取;对每段截取到的信号提取其Mel频谱;将提取的Mel频谱噪声分类模型。本发明的有益效果:通过基于CNN的分类模型识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,减少信号被送往ASR翻译为文字的错误率,避免过度衰减导致的音频失真。
Description
技术领域
本发明涉及音频处理技术领域,具体而言,涉及一种基于CNN的智能呼叫系统中的噪声去除方法。
背景技术
在现有的智能呼叫系统中,电话信号会经过VAD截取,然后送往ASR转换成文字。由于背景的复杂,存在大量的噪声片段。通常的处理方法是在信号截取前使用噪声抑制方法对信号进行过滤,主要基于信号的频率分布,对噪声进行估计,常用的算法有自适应滤波器,谱减法,维纳滤波法等。自适应滤波器利用前一刻获得的滤波器参数,自动调节当前滤波器参数,以适应信号和噪声随机变化的统计特性,从而实现过滤噪声;谱减法主要是在频域对噪声的频谱进行去除,然后通过逆傅里叶变换将频域信号恢复成时域信号;维纳滤波法主要通过设计数字滤波器来去除噪声。这些噪声抑制方法,只能过滤一部分噪声,而不能将截取的噪声片段完全去除,并且随着电话信号中信噪比的减小,降噪效果随之变差,还会出现某些时段由于过度衰减导致得音频失真。
发明内容
为解决上述问题,本发明的目的在于提供一种基于CNN的智能呼叫系统中的噪声去除方法,通过基于CNN的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往ASR翻译为文字的错误率,也能避免过度衰减导致的音频失真。
本发明提供了一种基于CNN的智能呼叫系统中的噪声去除方法,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:
步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;
步骤102,对分帧后的切片信号进行截取;
步骤103,对截取的信号提取其Mel频谱;
步骤104,将提取出的Mel频谱输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;
步骤202,并对切片信号进行归一化和分帧的预处理;步骤203,对分帧后的各段切片信号分别进行截取;
步骤204,对每段截取的信号提取其Mel频谱;
步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。
作为本发明进一步的改进,在预处理时,采用式(1)进行归一化处理,将切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
作为本发明进一步的改进,切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
作为本发明进一步的改进,截取切片信号中间的20帧。
作为本发明进一步的改进,Mel频谱特征的维度为40。
作为本发明进一步的改进,步骤104中,所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。
作为本发明进一步的改进,两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。
作为本发明进一步的改进,两个CNN卷积层均使用relu作为激活函数,权重使用L1范式进行衰减,两个连接层过后经过softmax层输出信号为人声和噪声的概率值。
作为本发明进一步的改进,步骤205中,对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。
作为本发明进一步的改进,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。
本发明的有益效果为:
1、本发明的噪声去除方法通过基于CNN的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往ASR翻译为文字的错误率,也能避免过度衰减导致的音频失真;
2、本发明的噪声去除方法在噪声识别过程中,提取Mel特征频谱供神经网络模型使用,具有高相关性,避免了非线性成份的丢失,更加适用于神经网络模型,提高了分类模型的精准度;
3、本发明的神经网络模型采用Relu激活函数,减少了计算量,也避免了过拟合。
4、本发明的噪声去除方法在噪声识别过程中,采用了将信号分奇数段进行测试,识别结果取众数的方法,能有效提高切片信号的识别准确率,并避免误删除人声。
附图说明
图1为本发明实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法的流程示意图;
图2为本发明所采用的神经网络模型的示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型。所述步骤1具体包括:
步骤101,将电话信号进行切片处理即VAD切片,并对切片信号进行归一化和分帧的预处理。
由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于做傅里叶变换到频域,提取频域特征。本发明的切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
步骤102,对分帧后的切片信号进行截取。
由于切片信号长短不一,得到的帧数量不同,考虑到有些切片信号两端会出现少量静音部分,本发明截取切片信号中间的20帧,用于提取特征图片。
步骤103,对截取到的20帧信号提取其Mel频谱。
本发明提取Mel频谱,是利用其高度相关性,相较于MFCC特征来说,Mel无需DCT线性变换,不会导致非线性成份丢失,更加适用于神经网络模型使用,提高分类模型的精准度。本发明中,Mel频谱特征的维度为40,从而对于一个切片信号,可以得到一张(20,40)大小的特征图像。
步骤104,将提取出的Mel频谱输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型。
本发明基于CNN,CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低,从而有助于识别性能的提高。
如图2所示,神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。在CNN卷积层之后跟上一个池化层,池化层的作用是提取局部均值与最大值。
具体的参数设置为:两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。其中,两个CNN卷积层均使用relu作为激活函数,增加神经网络模型的非线性。sigmoid等函数,由于需要算激活函数时(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相对大,而本发明采用Relu激活函数,整个过程的计算量节省很多。另外,sigmoid函数在反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失,从而无法完成深层网络的训练。加之,Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生,配合使用更易优化求解的L1范式权重进行衰减,进一步防止训练过拟合。两个连接层过后经过softmax层输出信号为人声和噪声的概率值,训练好后的分类模型可以用于噪声分类。
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果。所述步骤2具体包括:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段。。
本发明将较长的切片信号先分成奇数段,再进行后续特征提取,其中每段时长1s,段移为0.5s。
步骤202,对各段切片信号进行归一化和分帧的预处理。
由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于提取频域特征。本发明的切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
步骤203,对分帧后的各段切片信号分别进行截取。
由于切片信号长短不一,得到的帧数量不同,考虑到有些切片信号两端会出现少量静音部分,本发明截取切片信号中间的20帧,用于提取特征图片。
步骤204,对每段截取到的信号提取其Mel频谱。
本发明提取Mel频谱,是利用其高度相关性,相较于MFCC特征来说,Mel无需DCT线性变换,不会导致非线性成份丢失,更加适用于神经网络模型使用,提高分类模型的精准度。本发明中,Mel频谱特征的维度为40,从而对于每段切片信号,可以得到一张(20,40)大小的特征图像。
步骤205,将提取出的Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。
由于切片信号里面既有人声也有噪声,通过步骤205的处理,能有效提高信号的识别准确率。
进一步的,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。该方法能将人声召回率提高到99%,避免误删除人声。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:
步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;
步骤102,对分帧后的切片信号进行截取;
步骤103,对截取到的信号提取其Mel频谱;
步骤104,将提取出的Mel频谱后输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;
步骤202,对切片信号进行归一化和分帧的预处理;
步骤203,对分帧后的各段切片信号分别进行截取;
步骤204,对每段截取到的信号提取其Mel频谱;
步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。
3.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
4.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,截取切片信号中间的20帧。
5.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,Mel频谱特征的维度为40。
6.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,步骤104中,所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。
7.根据权利要求6所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。
8.根据权利要求6所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,两个CNN卷积层均使用relu作为激活函数,权重使用L1范式进行衰减,两个连接层过后经过softmax层输出信号为人声和噪声的概率值。
9.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,步骤205中,对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。
10.根据权利要求9所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077575.2A CN111028852A (zh) | 2019-11-06 | 2019-11-06 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077575.2A CN111028852A (zh) | 2019-11-06 | 2019-11-06 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111028852A true CN111028852A (zh) | 2020-04-17 |
Family
ID=70204940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911077575.2A Pending CN111028852A (zh) | 2019-11-06 | 2019-11-06 | 一种基于cnn的智能呼叫系统中的噪声去除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028852A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112885350A (zh) * | 2021-02-25 | 2021-06-01 | 北京百度网讯科技有限公司 | 网络会议的控制方法、装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118522A (zh) * | 2015-08-27 | 2015-12-02 | 广州市百果园网络科技有限公司 | 噪声检测方法及装置 |
CN105654964A (zh) * | 2016-01-20 | 2016-06-08 | 司法部司法鉴定科学技术研究所 | 录音音频设备源认定方法和装置 |
JP2016143043A (ja) * | 2015-02-05 | 2016-08-08 | 日本電信電話株式会社 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CN106920544A (zh) * | 2017-03-17 | 2017-07-04 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络特征训练的语音识别方法 |
CN109087634A (zh) * | 2018-10-30 | 2018-12-25 | 四川长虹电器股份有限公司 | 一种基于音频分类的音质设置方法 |
CN109431470A (zh) * | 2018-12-20 | 2019-03-08 | 西安交通大学医学院第二附属医院 | 睡眠呼吸监测方法及装置 |
CN109697989A (zh) * | 2018-12-26 | 2019-04-30 | 深圳创维数字技术有限公司 | 音频数据处理方法、服务器及可读存储介质 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110047512A (zh) * | 2019-04-25 | 2019-07-23 | 广东工业大学 | 一种环境声音分类方法、系统及相关装置 |
CN110164472A (zh) * | 2019-04-19 | 2019-08-23 | 天津大学 | 基于卷积神经网络的噪声分类方法 |
CN110277087A (zh) * | 2019-07-03 | 2019-09-24 | 四川大学 | 一种广播信号预判预处理方法 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声去除方法 |
-
2019
- 2019-11-06 CN CN201911077575.2A patent/CN111028852A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016143043A (ja) * | 2015-02-05 | 2016-08-08 | 日本電信電話株式会社 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
CN105118522A (zh) * | 2015-08-27 | 2015-12-02 | 广州市百果园网络科技有限公司 | 噪声检测方法及装置 |
CN105654964A (zh) * | 2016-01-20 | 2016-06-08 | 司法部司法鉴定科学技术研究所 | 录音音频设备源认定方法和装置 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CN106920544A (zh) * | 2017-03-17 | 2017-07-04 | 深圳市唯特视科技有限公司 | 一种基于深度神经网络特征训练的语音识别方法 |
CN109087634A (zh) * | 2018-10-30 | 2018-12-25 | 四川长虹电器股份有限公司 | 一种基于音频分类的音质设置方法 |
CN109431470A (zh) * | 2018-12-20 | 2019-03-08 | 西安交通大学医学院第二附属医院 | 睡眠呼吸监测方法及装置 |
CN109697989A (zh) * | 2018-12-26 | 2019-04-30 | 深圳创维数字技术有限公司 | 音频数据处理方法、服务器及可读存储介质 |
CN109767785A (zh) * | 2019-03-06 | 2019-05-17 | 河北工业大学 | 基于卷积神经网络的环境噪声识别分类方法 |
CN110164472A (zh) * | 2019-04-19 | 2019-08-23 | 天津大学 | 基于卷积神经网络的噪声分类方法 |
CN110047512A (zh) * | 2019-04-25 | 2019-07-23 | 广东工业大学 | 一种环境声音分类方法、系统及相关装置 |
CN110277087A (zh) * | 2019-07-03 | 2019-09-24 | 四川大学 | 一种广播信号预判预处理方法 |
CN110933235A (zh) * | 2019-11-06 | 2020-03-27 | 杭州哲信信息技术有限公司 | 一种基于机器学习的智能呼叫系统中的噪声去除方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112885350A (zh) * | 2021-02-25 | 2021-06-01 | 北京百度网讯科技有限公司 | 网络会议的控制方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109788400B (zh) | 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质 | |
US12073828B2 (en) | Method and apparatus for speech source separation based on a convolutional neural network | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN113191178B (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
CN112309411A (zh) | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 | |
CN112037809A (zh) | 基于多特征流结构深度神经网络的残留回声抑制方法 | |
CN110211596B (zh) | 一种基于Mel子带谱熵鲸目动物哨声信号检测方法 | |
CN111028852A (zh) | 一种基于cnn的智能呼叫系统中的噪声去除方法 | |
CN115884032B (zh) | 一种后馈式耳机的智慧通话降噪方法及系统 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN113053400B (zh) | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN116504259A (zh) | 一种基于自然语言处理的语义识别方法 | |
CN114822578A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Ali et al. | Speech enhancement using dilated wave-u-net: an experimental analysis | |
CN113593590A (zh) | 一种语音中瞬态噪声的抑制方法 | |
CN110933235B (zh) | 一种基于机器学习的智能呼叫系统中的噪声识别方法 | |
CN110070887B (zh) | 一种语音特征重建方法及装置 | |
CN113808604B (zh) | 基于伽马通频谱分离的声场景分类方法 | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200417 |