CN111028852A - 一种基于cnn的智能呼叫系统中的噪声去除方法 - Google Patents

一种基于cnn的智能呼叫系统中的噪声去除方法 Download PDF

Info

Publication number
CN111028852A
CN111028852A CN201911077575.2A CN201911077575A CN111028852A CN 111028852 A CN111028852 A CN 111028852A CN 201911077575 A CN201911077575 A CN 201911077575A CN 111028852 A CN111028852 A CN 111028852A
Authority
CN
China
Prior art keywords
signal
noise
cnn
slice
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911077575.2A
Other languages
English (en)
Inventor
伍林
尹朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhexin Information Technology Co ltd
Original Assignee
Hangzhou Zhexin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhexin Information Technology Co ltd filed Critical Hangzhou Zhexin Information Technology Co ltd
Priority to CN201911077575.2A priority Critical patent/CN111028852A/zh
Publication of CN111028852A publication Critical patent/CN111028852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种基于CNN的智能呼叫系统中的噪声去除方法,包括:将电话信号切片处理,归一化和分帧预处理;截取分帧后的切片信号;对截取的信号提取其Mel频谱;将提取的Mel频谱后输入神经网络模型进行模型训练,训练好的分类模型作为噪声分类模型;将新增的电话信号切片处理并分成奇数段;对切片信号归一化和分帧预处理;对分帧后的各段切片信号分别截取;对每段截取到的信号提取其Mel频谱;将提取的Mel频谱噪声分类模型。本发明的有益效果:通过基于CNN的分类模型识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,减少信号被送往ASR翻译为文字的错误率,避免过度衰减导致的音频失真。

Description

一种基于CNN的智能呼叫系统中的噪声去除方法
技术领域
本发明涉及音频处理技术领域,具体而言,涉及一种基于CNN的智能呼叫系统中的噪声去除方法。
背景技术
在现有的智能呼叫系统中,电话信号会经过VAD截取,然后送往ASR转换成文字。由于背景的复杂,存在大量的噪声片段。通常的处理方法是在信号截取前使用噪声抑制方法对信号进行过滤,主要基于信号的频率分布,对噪声进行估计,常用的算法有自适应滤波器,谱减法,维纳滤波法等。自适应滤波器利用前一刻获得的滤波器参数,自动调节当前滤波器参数,以适应信号和噪声随机变化的统计特性,从而实现过滤噪声;谱减法主要是在频域对噪声的频谱进行去除,然后通过逆傅里叶变换将频域信号恢复成时域信号;维纳滤波法主要通过设计数字滤波器来去除噪声。这些噪声抑制方法,只能过滤一部分噪声,而不能将截取的噪声片段完全去除,并且随着电话信号中信噪比的减小,降噪效果随之变差,还会出现某些时段由于过度衰减导致得音频失真。
发明内容
为解决上述问题,本发明的目的在于提供一种基于CNN的智能呼叫系统中的噪声去除方法,通过基于CNN的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往ASR翻译为文字的错误率,也能避免过度衰减导致的音频失真。
本发明提供了一种基于CNN的智能呼叫系统中的噪声去除方法,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:
步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;
步骤102,对分帧后的切片信号进行截取;
步骤103,对截取的信号提取其Mel频谱;
步骤104,将提取出的Mel频谱输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;
步骤202,并对切片信号进行归一化和分帧的预处理;步骤203,对分帧后的各段切片信号分别进行截取;
步骤204,对每段截取的信号提取其Mel频谱;
步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。
作为本发明进一步的改进,在预处理时,采用式(1)进行归一化处理,将切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
Figure BDA0002262962490000021
式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,
Figure BDA0002262962490000022
为归一化后的切片信号。
作为本发明进一步的改进,切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
作为本发明进一步的改进,截取切片信号中间的20帧。
作为本发明进一步的改进,Mel频谱特征的维度为40。
作为本发明进一步的改进,步骤104中,所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。
作为本发明进一步的改进,两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。
作为本发明进一步的改进,两个CNN卷积层均使用relu作为激活函数,权重使用L1范式进行衰减,两个连接层过后经过softmax层输出信号为人声和噪声的概率值。
作为本发明进一步的改进,步骤205中,对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。
作为本发明进一步的改进,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。
本发明的有益效果为:
1、本发明的噪声去除方法通过基于CNN的分类模型来识别信号为人声还是噪声,可以去除电话信号中的大量噪声信号,从而减少信号被送往ASR翻译为文字的错误率,也能避免过度衰减导致的音频失真;
2、本发明的噪声去除方法在噪声识别过程中,提取Mel特征频谱供神经网络模型使用,具有高相关性,避免了非线性成份的丢失,更加适用于神经网络模型,提高了分类模型的精准度;
3、本发明的神经网络模型采用Relu激活函数,减少了计算量,也避免了过拟合。
4、本发明的噪声去除方法在噪声识别过程中,采用了将信号分奇数段进行测试,识别结果取众数的方法,能有效提高切片信号的识别准确率,并避免误删除人声。
附图说明
图1为本发明实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法的流程示意图;
图2为本发明所采用的神经网络模型的示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例所述的一种基于CNN的智能呼叫系统中的噪声去除方法,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型。所述步骤1具体包括:
步骤101,将电话信号进行切片处理即VAD切片,并对切片信号进行归一化和分帧的预处理。
由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
Figure BDA0002262962490000041
式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,
Figure BDA0002262962490000042
为归一化后的切片信号。
归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于做傅里叶变换到频域,提取频域特征。本发明的切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
步骤102,对分帧后的切片信号进行截取。
由于切片信号长短不一,得到的帧数量不同,考虑到有些切片信号两端会出现少量静音部分,本发明截取切片信号中间的20帧,用于提取特征图片。
步骤103,对截取到的20帧信号提取其Mel频谱。
本发明提取Mel频谱,是利用其高度相关性,相较于MFCC特征来说,Mel无需DCT线性变换,不会导致非线性成份丢失,更加适用于神经网络模型使用,提高分类模型的精准度。本发明中,Mel频谱特征的维度为40,从而对于一个切片信号,可以得到一张(20,40)大小的特征图像。
步骤104,将提取出的Mel频谱输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型。
本发明基于CNN,CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部区域的特征;较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低,从而有助于识别性能的提高。
如图2所示,神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。在CNN卷积层之后跟上一个池化层,池化层的作用是提取局部均值与最大值。
具体的参数设置为:两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。其中,两个CNN卷积层均使用relu作为激活函数,增加神经网络模型的非线性。sigmoid等函数,由于需要算激活函数时(指数运算),计算量大,反向传播求误差梯度时,求导涉及除法,计算量相对大,而本发明采用Relu激活函数,整个过程的计算量节省很多。另外,sigmoid函数在反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失,从而无法完成深层网络的训练。加之,Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生,配合使用更易优化求解的L1范式权重进行衰减,进一步防止训练过拟合。两个连接层过后经过softmax层输出信号为人声和噪声的概率值,训练好后的分类模型可以用于噪声分类。
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果。所述步骤2具体包括:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段。。
本发明将较长的切片信号先分成奇数段,再进行后续特征提取,其中每段时长1s,段移为0.5s。
步骤202,对各段切片信号进行归一化和分帧的预处理。
由于切片信号的音量高低各有不同,有些信号音量较大,有些信号声音较轻,对电话信号进行归一化处理有助于识别率的提高。在预处理时,采用式(1)来进行归一化处理,切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
Figure BDA0002262962490000051
式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,
Figure BDA0002262962490000052
为归一化后的切片信号。
归一化处理切片信号后,因为切片信号的频率轮廓会随着时间的推移而丢失,因此还需要对切片信号进行分帧处理,得到的每帧信号可以作为平稳信号,用于提取频域特征。本发明的切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
步骤203,对分帧后的各段切片信号分别进行截取。
由于切片信号长短不一,得到的帧数量不同,考虑到有些切片信号两端会出现少量静音部分,本发明截取切片信号中间的20帧,用于提取特征图片。
步骤204,对每段截取到的信号提取其Mel频谱。
本发明提取Mel频谱,是利用其高度相关性,相较于MFCC特征来说,Mel无需DCT线性变换,不会导致非线性成份丢失,更加适用于神经网络模型使用,提高分类模型的精准度。本发明中,Mel频谱特征的维度为40,从而对于每段切片信号,可以得到一张(20,40)大小的特征图像。
步骤205,将提取出的Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。
由于切片信号里面既有人声也有噪声,通过步骤205的处理,能有效提高信号的识别准确率。
进一步的,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。该方法能将人声召回率提高到99%,避免误删除人声。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,包括:
步骤1,将采样好的电话信号作为训练数据,基于机器学习建立噪声分类模型:
步骤101,将电话信号进行切片处理,并对切片信号进行归一化和分帧的预处理;
步骤102,对分帧后的切片信号进行截取;
步骤103,对截取到的信号提取其Mel频谱;
步骤104,将提取出的Mel频谱后输入神经网络模型,进行模型训练,训练好的分类模型作为噪声分类模型;
步骤2,利用建立好的噪声分类模型,把新增的电话信号输入到具体的噪声分类模型中,得出噪声识别结果:
步骤201,将新增的电话信号进行切片处理,并将切片信号分成奇数段;
步骤202,对切片信号进行归一化和分帧的预处理;
步骤203,对分帧后的各段切片信号分别进行截取;
步骤204,对每段截取到的信号提取其Mel频谱;
步骤205,将提取出Mel频谱输入训练好的噪声分类模型,识别出切片信号中的噪声。
2.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,在预处理时,采用式(1)进行归一化处理,将切片信号统一经过16位量化,取值范围在-65535到65535之间,通过除以信号绝对值的最大值将信号归一化到-1到1之间;
Figure FDA0002262962480000011
式中,x为需要处理的切片信号,|x|为该切片信号的绝对值,
Figure FDA0002262962480000012
为归一化后的切片信号。
3.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,切片信号在分帧处理时,帧长取为50ms,帧移取为12.5ms。
4.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,截取切片信号中间的20帧。
5.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,Mel频谱特征的维度为40。
6.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,步骤104中,所述神经网络模型由两个CNN卷积层、两个池化层和两个全连接层组成,从输入到输出依次是CNN卷积层1、池化层1、CNN卷积层2、池化层2、全连接层f1和全连接层f2。
7.根据权利要求6所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,两个CNN卷积层的卷积核大小均为3x3,CNN卷积层1和CNN卷积层2核的个数分别为32和64;两个池化层的窗口大小均为2x2;两个全连接层滤波器的个数分别为128和2。
8.根据权利要求6所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,两个CNN卷积层均使用relu作为激活函数,权重使用L1范式进行衰减,两个连接层过后经过softmax层输出信号为人声和噪声的概率值。
9.根据权利要求1所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,步骤205中,对各段切片信号的识别结果取众数,若识别为噪声的比例高,则认定该输入的切片信号为噪声,反之则为人声。
10.根据权利要求9所述的基于CNN的智能呼叫系统中的噪声去除方法,其特征在于,切片信号分为人声信号和噪声信号,将人声信号阈值设定为threshold=0.2,步骤205中,当需要识别的切片信号通过分类模型后的概率大于该阈值,则认定该切片信号为人声信号。
CN201911077575.2A 2019-11-06 2019-11-06 一种基于cnn的智能呼叫系统中的噪声去除方法 Pending CN111028852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911077575.2A CN111028852A (zh) 2019-11-06 2019-11-06 一种基于cnn的智能呼叫系统中的噪声去除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911077575.2A CN111028852A (zh) 2019-11-06 2019-11-06 一种基于cnn的智能呼叫系统中的噪声去除方法

Publications (1)

Publication Number Publication Date
CN111028852A true CN111028852A (zh) 2020-04-17

Family

ID=70204940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911077575.2A Pending CN111028852A (zh) 2019-11-06 2019-11-06 一种基于cnn的智能呼叫系统中的噪声去除方法

Country Status (1)

Country Link
CN (1) CN111028852A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133322A (zh) * 2020-10-19 2020-12-25 南通赛洋电子有限公司 一种基于噪声分类优化imcra算法的语音增强方法
CN112885350A (zh) * 2021-02-25 2021-06-01 北京百度网讯科技有限公司 网络会议的控制方法、装置、电子设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118522A (zh) * 2015-08-27 2015-12-02 广州市百果园网络科技有限公司 噪声检测方法及装置
CN105654964A (zh) * 2016-01-20 2016-06-08 司法部司法鉴定科学技术研究所 录音音频设备源认定方法和装置
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN106920544A (zh) * 2017-03-17 2017-07-04 深圳市唯特视科技有限公司 一种基于深度神经网络特征训练的语音识别方法
CN109087634A (zh) * 2018-10-30 2018-12-25 四川长虹电器股份有限公司 一种基于音频分类的音质设置方法
CN109431470A (zh) * 2018-12-20 2019-03-08 西安交通大学医学院第二附属医院 睡眠呼吸监测方法及装置
CN109697989A (zh) * 2018-12-26 2019-04-30 深圳创维数字技术有限公司 音频数据处理方法、服务器及可读存储介质
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110164472A (zh) * 2019-04-19 2019-08-23 天津大学 基于卷积神经网络的噪声分类方法
CN110277087A (zh) * 2019-07-03 2019-09-24 四川大学 一种广播信号预判预处理方法
CN110933235A (zh) * 2019-11-06 2020-03-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声去除方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN105118522A (zh) * 2015-08-27 2015-12-02 广州市百果园网络科技有限公司 噪声检测方法及装置
CN105654964A (zh) * 2016-01-20 2016-06-08 司法部司法鉴定科学技术研究所 录音音频设备源认定方法和装置
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
CN106920544A (zh) * 2017-03-17 2017-07-04 深圳市唯特视科技有限公司 一种基于深度神经网络特征训练的语音识别方法
CN109087634A (zh) * 2018-10-30 2018-12-25 四川长虹电器股份有限公司 一种基于音频分类的音质设置方法
CN109431470A (zh) * 2018-12-20 2019-03-08 西安交通大学医学院第二附属医院 睡眠呼吸监测方法及装置
CN109697989A (zh) * 2018-12-26 2019-04-30 深圳创维数字技术有限公司 音频数据处理方法、服务器及可读存储介质
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
CN110164472A (zh) * 2019-04-19 2019-08-23 天津大学 基于卷积神经网络的噪声分类方法
CN110047512A (zh) * 2019-04-25 2019-07-23 广东工业大学 一种环境声音分类方法、系统及相关装置
CN110277087A (zh) * 2019-07-03 2019-09-24 四川大学 一种广播信号预判预处理方法
CN110933235A (zh) * 2019-11-06 2020-03-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声去除方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133322A (zh) * 2020-10-19 2020-12-25 南通赛洋电子有限公司 一种基于噪声分类优化imcra算法的语音增强方法
CN112885350A (zh) * 2021-02-25 2021-06-01 北京百度网讯科技有限公司 网络会议的控制方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109788400B (zh) 一种用于数字助听器的神经网络啸叫抑制方法、系统及存储介质
US12073828B2 (en) Method and apparatus for speech source separation based on a convolutional neural network
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN106504768B (zh) 基于人工智能的电话拨测音频分类方法及装置
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
CN113191178B (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
JP7486266B2 (ja) 深層フィルタを決定するための方法および装置
CN112309411A (zh) 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
CN110211596B (zh) 一种基于Mel子带谱熵鲸目动物哨声信号检测方法
CN111028852A (zh) 一种基于cnn的智能呼叫系统中的噪声去除方法
CN115884032B (zh) 一种后馈式耳机的智慧通话降噪方法及系统
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN113053400B (zh) 音频信号降噪模型的训练方法、音频信号降噪方法及设备
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN116504259A (zh) 一种基于自然语言处理的语义识别方法
CN114822578A (zh) 语音降噪方法、装置、设备及存储介质
Ali et al. Speech enhancement using dilated wave-u-net: an experimental analysis
CN113593590A (zh) 一种语音中瞬态噪声的抑制方法
CN110933235B (zh) 一种基于机器学习的智能呼叫系统中的噪声识别方法
CN110070887B (zh) 一种语音特征重建方法及装置
CN113808604B (zh) 基于伽马通频谱分离的声场景分类方法
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417