CN109658943A - 一种音频噪声的检测方法、装置、存储介质和移动终端 - Google Patents

一种音频噪声的检测方法、装置、存储介质和移动终端 Download PDF

Info

Publication number
CN109658943A
CN109658943A CN201910064238.3A CN201910064238A CN109658943A CN 109658943 A CN109658943 A CN 109658943A CN 201910064238 A CN201910064238 A CN 201910064238A CN 109658943 A CN109658943 A CN 109658943A
Authority
CN
China
Prior art keywords
voice signal
layer
convolutional layer
noise
noise measuring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910064238.3A
Other languages
English (en)
Other versions
CN109658943B (zh
Inventor
庞烨
周新宇
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910064238.3A priority Critical patent/CN109658943B/zh
Publication of CN109658943A publication Critical patent/CN109658943A/zh
Priority to PCT/CN2019/118544 priority patent/WO2020151338A1/zh
Application granted granted Critical
Publication of CN109658943B publication Critical patent/CN109658943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及计算机技术领域,提出一种音频噪声的检测方法、装置、存储介质和移动终端。该音频噪声的检测方法包括:获取输入的语音信号;对所述语音信号进行分帧;分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。该CNN网络结构为一种简化结构,不含池化层,且卷积层的数量较少,能够极大地减小计算量,从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算,不必连接服务器,因此即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。

Description

一种音频噪声的检测方法、装置、存储介质和移动终端
技术领域
本发明涉及计算机技术领域,尤其涉及一种音频噪声的检测方法、装置、存储介质和移动终端。
背景技术
语音助手是一款智能型的手机应用,通过即时问答的智能交互,能够帮助用户解决很多问题。在使用语音助手时,移动终端在获得用户发出的语音后,需要检测语音信号中的噪声,目前通常采用分类器(SVM,随机森林等),或者使用神经网络利用MFCC等声学特征来检测音频噪声。然而,由于采用这些方式的计算量十分巨大,移动终端在采集到语音信号之后,需要将语音信号通过网络发送至计算能力更强大的服务器进行计算,这就导致语音识别的反应时间较长,而且若移动终端处于离线状态,也无法执行。
发明内容
有鉴于此,本发明实施例提供了一种音频噪声的检测方法、装置、存储介质和移动终端,即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。
本发明实施例的第一方面,提供了一种音频噪声的检测方法,包括:
获取输入的语音信号;
对所述语音信号进行分帧;
分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。
本发明实施例的第二方面,提供了一种音频噪声的检测装置,包括:
语音信号获取模块,用于获取输入的语音信号;
分帧模块,用于对所述语音信号进行分帧;
语音特征提取模块,用于分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
噪声检测模块,用于将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的音频噪声的检测方法的步骤。
本发明实施例的第四方面,提供了一种移动终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如本发明实施例的第一方面提出的音频噪声的检测方法的步骤。
本发明提出的音频噪声的检测方法包括:获取输入的语音信号;对所述语音信号进行分帧;分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。该CNN网络结构为一种简化结构,不含池化层,且卷积层的数量较少,能够极大地减小计算量,从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算,不必连接服务器,因此即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种音频噪声的检测方法的第一个实施例的流程图;
图2是本发明实施例提供的一种音频噪声的检测方法的第二个实施例的流程图;
图3是本发明实施例提供的一种音频噪声的检测方法的第三个实施例的流程图;
图4是本发明实施例提供的一种音频噪声的检测装置的一个实施例的结构图;
图5是本发明实施例提供的一种移动终端的示意图。
具体实施方式
本发明实施例提供了一种音频噪声的检测方法、装置、存储介质和移动终端,即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种音频噪声的检测方法的第一个实施例包括:
101、获取输入的语音信号;
本发明应用于移动终端,首先获取输入的语音信号,该语音信号可以由用户实时输入,也可以是预先录制好的一段语音信号。
102、对所述语音信号进行分帧;
在获取到输入的语音信号之后,对该语音信号进行分帧。分帧是语音信号的加窗及分段处理,随着窗口的往右(假设向右代表时间向前)推移,对加窗后的信号逐步展开处理。由于语音信号不是完整的一段稳态信号,故需要将信号分帧,使得每帧信号的长度在20ms至40ms之间,能够在不丢失信息的情况下满足GFCC和Gabor特征提取的要求。
103、分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
本发明实施例优选将语音信号分帧为25ms的信号,然后分别提取该信号的GFCC特征和Gabor特征。
GFCC是基于FFT的特征提取技术,类似于MFCC,但采用Gammatone滤波器组和等效的矩形带宽(ERB)比例而不是梅尔滤波器组。由于Gammatone滤波器组是最接近人体耳蜗的滤波器响应,GFCC也称为听觉特征,作为一种新的听觉倒谱系数,与LPCC和MFCC相比,具有更好的识别率和噪声鲁棒性。GFCC特征的提取步骤属于现有技术,具体可以包括:将分帧后的语音信号依次执行信号预加重、信号加窗、DFT、Gammatone滤波、立方根压缩、DCT变换等处理,从而输出GFCC倒谱系数特征。
Gabor是一个用于边缘提取的线性滤波器,能够提供良好的方向选择和尺度选择特性,用于提高噪声识别的鲁棒性。Gabor特征的提取步骤同样属于现有技术,具体可以包括:将分帧后的语音信号预加重,加窗处理,然后输入二维的Gabor滤波器,从而得到Gabor特征。在空间域,一个二维的Gabor滤波器是一个正弦平面波和高斯核函数的乘积,前者是调谐函数,后者是窗口函数。
104、将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果。
在提取到语音信号的GFCC特征和Gabor特征之后,将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果。具体的,输入的GFCC特征和Gabor特征为矩阵的形式,CNN网络输出的是语音信号包含噪声的概率值,若该概率值超过一定的阈值,则表明待检测的语音信号带有噪声。
另外,所述CNN神经网络模型不含池化层,且卷积层的数量为N(3≤N≤5),某个优选的CNN网络结构如以下的表1所示:
表1
核数目 核宽度
卷积层1 40 5*5
卷积层2 20 5*5
卷积层3 10 5*5
全连接层 100
Softmax层 2
上述CNN网络结构为一种简化结构,不含池化层,且卷积层的数量较少,能够极大地减小计算量,从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算,不必连接服务器,因此即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。另外,通过实验数据的证明,提取GFCC特征和Gabor特征,将这两类音频特征输入该简化的CNN网络(无池化层,且卷积层的数量为3至5),能够获得较为理想的噪声检测效果。
以表1结构的CNN网络模型为例,具体的计算过程可以包括:
(1)将GFCC特征和Gabor特征输入该CNN网络的第一层卷积层,GFCC特征和Gabor特征都是维度相同的矩阵形式(比如可以为5*8矩阵),通过卷积计算,第一层卷积层输出第一中间结果,该第一中间结果为符合下一层(第二层卷积层)要求的矩阵形式;
(2)将第一层卷积层输出的中间结果输入第二层卷积层,通过卷积计算,输出第二中间结果,该第二中间结果为符合下一层(第三层卷积层)要求的矩阵形式;
(3)以此类推,上一层卷积层的输出结果作为下一层卷积层的输入,最后得到最后一层卷积层的输出结果,该输出结果为符合下一层(全连接层)要求的矩阵形式;
(4)将最后一层卷积层的输出结果输入全连接层,进行全连接层的计算,得到全连接层的输出结果,该全连接层的输出结果为符合下一层(softmax层)要求的矩阵形式;
(5)将全连接层的输出结果输入softmax层,输出结果为一个概率值,用于表示语音信号包含噪声的概率大小。
卷积层,全连接层和softmax的底层计算过程均属于现有技术,一般的CNN网络包含多个卷积层和池化层,本申请通过简化网络的层级结构,从而实现减少计算量的目的。
本发明实施例提出的音频噪声的检测方法包括:获取输入的语音信号;对所述语音信号进行分帧;分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。该CNN网络结构为一种简化结构,不含池化层,且卷积层的数量较少,能够极大地减小计算量,从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算,不必连接服务器,因此即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。
请参阅图2,本发明实施例中一种音频噪声的检测方法的第二个实施例包括:
201、获取输入的语音信号;
202、当获取输入的语音信号时,记录当前的系统时间作为噪声检测的起始时间;
203、对所述语音信号进行分帧;
204、分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
205、将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果;
步骤201-205的具体说明可参照本发明的第一个实施例。
206、在得到所述语音信号的噪声检测结果时,记录当前的系统时间作为噪声检测的结束时间;
207、根据所述起始时间和所述结束时间计算得到噪声检测时间;
208、根据所述噪声检测时间调整所述卷积层的数量N的大小。
在本发明实施例中,当获取到输入的语音信号时,记录当前的时间,作为噪音检测的起始时间;当得到所述语音信号的噪声检测结果时,可以记录当前的时间,作为噪音检测的结束时间;然后,计算该结束时间和起始时间的差值,可以得到噪音检测的时间;最后可根据该噪声检测时间调整该CNN网络的卷积层的数量,从而保证噪声检测时间处于一个可接受的范围之内,提升用户体验。
进一步的,步骤208可以包括:
(1)判断所述噪声检测时间是否超过预设的第一阈值;
(2)若所述噪声检测时间超过所述第一阈值,则进一步判断所述卷积层的数量N是否大于3;
(3)若所述卷积层的数量N大于3,则将所述卷积层的数量N调整为N-1。
比如,在获取到输入的语音信息时,记录当前的时间点t1作为起始时间,在通过CNN网络得到噪声检测结果后,记录当前的时间点t2作为结束时间,则t1-t2即为噪音检测的处理时间;若该处理时间超过一定的阈值,表明语音识别的实时性较差,而若CNN网络的卷积层超过下限值3,则可以通过减少卷积层的方式减少计算量,以降低处理时间,提高语音识别的实时性。
本发明实施例提出的音频噪声的检测方法包括:当获取输入的语音信号时,记录当前的系统时间作为噪声检测的起始时间;对所述语音信号进行分帧;分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5;在得到所述语音信号的噪声检测结果时,记录当前的系统时间作为噪声检测的结束时间;根据所述起始时间和所述结束时间计算得到噪声检测时间;根据所述噪声检测时间调整所述卷积层的数量N的大小。该CNN网络结构为一种简化结构,不含池化层,且卷积层的数量较少,能够极大地减小计算量,从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算,不必连接服务器,因此即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。与本发明的第一个实施例相比,本实施例可以根据噪声检测时间调整CNN神经网络的卷积层的数量大小,从而减少计算量,以降低处理时间,提高语音识别的实时性。
请参阅图3,本发明实施例中一种音频噪声的检测方法的第三个实施例包括:
301、获取输入的语音信号;
302、对所述语音信号进行分帧;
303、分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
304、将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果;
步骤301-304与步骤101-104相同,具体可参照步骤101-104的相关说明。
305、监测系统的CPU使用率和内存使用率;
306、根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
本发明实施例在语音识别的过程中,会实时监测移动终端的CPU使用率和内存使用率,并根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。具体的,若CPU使用率或内存使用率超过一定的阈值,表明移动终端的硬件设备计算负荷过重,会造成应用卡顿等不良影响,则可以适当地降低CNN网络的卷积层的数量N的大小,以减小系统的计算负荷。
进一步的,步骤306可以包括:
(1)判断所述CPU使用率或内存使用率是否超过预设的第二阈值;
(2)若所述CPU使用率或内存使用率超过所述第二阈值,则进一步判断所述卷积层的数量N是否大于3;
(3)若所述卷积层的数量N大于3,则将所述卷积层的数量N调整为N-1。
若CNN网络的卷积层超过下限值3,则可以通过减少卷积层的方式减少计算量,以降低硬件设备的计算负荷,避免产生卡顿的现象。
本发明提出的音频噪声的检测方法包括:获获取输入的语音信号;对所述语音信号进行分帧;分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5;监测系统的CPU使用率和内存使用率;根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。该CNN网络结构为一种简化结构,不含池化层,且卷积层的数量较少,能够极大地减小计算量,从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算,不必连接服务器,因此即使移动终端处于离线状态,也很够检测语音信号中的噪声,且实时性好。与本发明的第一个实施例相比,本实施例可以根据移动终端的CPU使用率和内存使用率调整CNN网络的卷积层的数量大小,从而减少计算量,降低硬件设备的计算负荷,避免产生卡顿的现象。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种音频噪声的检测方法,下面将对一种音频噪声的检测装置进行详细描述。
请参阅图4,本发明实施例中一种音频噪声的检测装置的一个实施例包括:
语音信号获取模块401,用于获取输入的语音信号;
分帧模块402,用于对所述语音信号进行分帧;
语音特征提取模块403,用于分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
噪声检测模块404,用于将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。
进一步的,所述音频噪声的检测装置还可以包括:
起始时间记录模块,用于当获取输入的语音信号时,记录当前的系统时间作为噪声检测的起始时间;
结束时间记录模块,用于在得到所述语音信号的噪声检测结果时,记录当前的系统时间作为噪声检测的结束时间;
噪声检测时间计算模块,用于根据所述起始时间和所述结束时间计算得到噪声检测时间;
第一卷积层调整模块,用于根据所述噪声检测时间调整所述卷积层的数量N的大小。
更进一步的,所述第一卷积层调整模块可以包括:
第一判断单元,用于判断所述噪声检测时间是否超过预设的第一阈值;
第二判断单元,用于若所述噪声检测时间超过所述第一阈值,则进一步判断所述卷积层的数量N是否大于3;
第一卷积层调整单元,用于若所述卷积层的数量N大于3,则将所述卷积层的数量N调整为N-1。
进一步的,所述音频噪声的检测装置还可以包括:
系统性能监测模块,用于监测系统的CPU使用率和内存使用率;
第二卷积层调整模块,用于根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
更进一步的,所述第二卷积层调整模块可以包括:
第三判断单元,用于判断所述CPU使用率或内存使用率是否超过预设的第二阈值;
第四判断单元,用于若所述CPU使用率或内存使用率超过所述第二阈值,则进一步判断所述卷积层的数量N是否大于3;
第二卷积层调整单元,用于若所述卷积层的数量N大于3,则将所述卷积层的数量N调整为N-1。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如图1至图3表示的任意一种音频噪声的检测方法的步骤。
本发明实施例还提供一种移动终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如图1至图3表示的任意一种音频噪声的检测方法的步骤。
图5是本发明一实施例提供的移动终端的示意图。如图5所示,该实施例的移动终端5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个音频噪声的检测方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至404的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述移动终端5中的执行过程。
所述移动终端5可以是智能手机、笔记本、掌上电脑及云端移动终端等计算设备。所述移动终端5可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是移动终端5的示例,并不构成对移动终端5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述移动终端5还可以包括输入输出设备、网络接入设备、总线等。
所述处理器50可以是中央处理单元(CentraL Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述移动终端5的内部存储单元,例如移动终端5的硬盘或内存。所述存储器51也可以是所述移动终端4的外部存储设备,例如所述移动终端5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure DigitaL,SD)卡,闪存卡(FLash Card)等。进一步地,所述存储器51还可以既包括所述移动终端5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述移动终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnLyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种音频噪声的检测方法,其特征在于,包括:
获取输入的语音信号;
对所述语音信号进行分帧;
分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。
2.根据权利要求1所述的音频噪声的检测方法,其特征在于,还包括:
当获取输入的语音信号时,记录当前的系统时间作为噪声检测的起始时间;
在得到所述语音信号的噪声检测结果时,记录当前的系统时间作为噪声检测的结束时间;
根据所述起始时间和所述结束时间计算得到噪声检测时间;
根据所述噪声检测时间调整所述卷积层的数量N的大小。
3.根据权利要求2所述的音频噪声的检测方法,其特征在于,所述根据所述噪声检测时间调整所述卷积层的数量N的大小包括:
判断所述噪声检测时间是否超过预设的第一阈值;
若所述噪声检测时间超过所述第一阈值,则进一步判断所述卷积层的数量N是否大于3;
若所述卷积层的数量N大于3,则将所述卷积层的数量N调整为N-1。
4.根据权利要求1至3中任一项所述的音频噪声的检测方法,其特征在于,还包括:
监测系统的CPU使用率和内存使用率;
根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
5.根据权利要求4所述的音频噪声的检测方法,其特征在于,所述根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小包括:
判断所述CPU使用率或内存使用率是否超过预设的第二阈值;
若所述CPU使用率或内存使用率超过所述第二阈值,则进一步判断所述卷积层的数量N是否大于3;
若所述卷积层的数量N大于3,则将所述卷积层的数量N调整为N-1。
6.一种音频噪声的检测装置,其特征在于,包括:
语音信号获取模块,用于获取输入的语音信号;
分帧模块,用于对所述语音信号进行分帧;
语音特征提取模块,用于分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
噪声检测模块,用于将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的音频噪声的检测方法的步骤。
8.一种移动终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
获取输入的语音信号;
对所述语音信号进行分帧;
分别提取分帧后的所述语音信号的GFCC特征和Gabor特征;
将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层,得到所述语音信号的噪声检测结果,3≤N≤5。
9.根据权利要求8所述的移动终端,其特征在于,所述处理器执行所述计算机可读指令时实现的步骤还包括:
当获取输入的语音信号时,记录当前的系统时间作为噪声检测的起始时间;
在得到所述语音信号的噪声检测结果时,记录当前的系统时间作为噪声检测的结束时间;
根据所述起始时间和所述结束时间计算得到噪声检测时间;
根据所述噪声检测时间调整所述卷积层的数量N的大小。
10.根据权利要求8或9所述的移动终端,其特征在于,所述处理器执行所述计算机可读指令时实现的步骤还包括:
监测系统的CPU使用率和内存使用率;
根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
CN201910064238.3A 2019-01-23 2019-01-23 一种音频噪声的检测方法、装置、存储介质和移动终端 Active CN109658943B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910064238.3A CN109658943B (zh) 2019-01-23 2019-01-23 一种音频噪声的检测方法、装置、存储介质和移动终端
PCT/CN2019/118544 WO2020151338A1 (zh) 2019-01-23 2019-11-14 一种音频噪声的检测方法、装置、存储介质和移动终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064238.3A CN109658943B (zh) 2019-01-23 2019-01-23 一种音频噪声的检测方法、装置、存储介质和移动终端

Publications (2)

Publication Number Publication Date
CN109658943A true CN109658943A (zh) 2019-04-19
CN109658943B CN109658943B (zh) 2023-04-14

Family

ID=66119349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064238.3A Active CN109658943B (zh) 2019-01-23 2019-01-23 一种音频噪声的检测方法、装置、存储介质和移动终端

Country Status (2)

Country Link
CN (1) CN109658943B (zh)
WO (1) WO2020151338A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600054A (zh) * 2019-09-06 2019-12-20 南京工程学院 基于网络模型融合的声场景分类方法
CN111192600A (zh) * 2019-12-27 2020-05-22 北京网众共创科技有限公司 声音数据的处理方法及装置、存储介质和电子装置
WO2020151338A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 一种音频噪声的检测方法、装置、存储介质和移动终端

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863548A (zh) * 2021-01-22 2021-05-28 北京百度网讯科技有限公司 训练音频检测模型的方法、音频检测方法及其装置
CN113408718B (zh) * 2021-06-07 2024-05-31 厦门美图之家科技有限公司 设备处理器选择方法、系统、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531174A (zh) * 2016-11-27 2017-03-22 福州大学 基于小波包分解和声谱图特征的动物声音识别方法
CN108073856A (zh) * 2016-11-14 2018-05-25 华为技术有限公司 噪音信号的识别方法及装置
EP3346423A1 (en) * 2017-01-04 2018-07-11 STMicroelectronics Srl Deep convolutional network heterogeneous architecture system and device
US20180204110A1 (en) * 2017-01-16 2018-07-19 Electronics And Telecommunications Research Institute Compressed neural network system using sparse parameters and design method thereof
CN109087655A (zh) * 2018-07-30 2018-12-25 桂林电子科技大学 一种交通道路声音监测与异常声音识别系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US9728182B2 (en) * 2013-03-15 2017-08-08 Setem Technologies, Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN108877775B (zh) * 2018-06-04 2023-03-31 平安科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN109658943B (zh) * 2019-01-23 2023-04-14 平安科技(深圳)有限公司 一种音频噪声的检测方法、装置、存储介质和移动终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073856A (zh) * 2016-11-14 2018-05-25 华为技术有限公司 噪音信号的识别方法及装置
CN106531174A (zh) * 2016-11-27 2017-03-22 福州大学 基于小波包分解和声谱图特征的动物声音识别方法
EP3346423A1 (en) * 2017-01-04 2018-07-11 STMicroelectronics Srl Deep convolutional network heterogeneous architecture system and device
US20180204110A1 (en) * 2017-01-16 2018-07-19 Electronics And Telecommunications Research Institute Compressed neural network system using sparse parameters and design method thereof
CN109087655A (zh) * 2018-07-30 2018-12-25 桂林电子科技大学 一种交通道路声音监测与异常声音识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WISSAM A. JASSIM等: "《Voice Activity Detection Using Neurograms》", 《IEEE XPLORE》 *
王扬: "《汉语语音关键词识别算法的研究与实现》", 《万方学位论文》 *
雷杰等: "深度网络模型压缩综述", 《软件学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020151338A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 一种音频噪声的检测方法、装置、存储介质和移动终端
CN110600054A (zh) * 2019-09-06 2019-12-20 南京工程学院 基于网络模型融合的声场景分类方法
CN110600054B (zh) * 2019-09-06 2021-09-21 南京工程学院 基于网络模型融合的声场景分类方法
CN111192600A (zh) * 2019-12-27 2020-05-22 北京网众共创科技有限公司 声音数据的处理方法及装置、存储介质和电子装置

Also Published As

Publication number Publication date
WO2020151338A1 (zh) 2020-07-30
CN109658943B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN109658943A (zh) 一种音频噪声的检测方法、装置、存储介质和移动终端
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN107610707A (zh) 一种声纹识别方法及装置
WO2017218465A1 (en) Neural network-based voiceprint information extraction method and apparatus
CN106847292A (zh) 声纹识别方法及装置
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN102800316A (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN104538035B (zh) 一种基于Fisher超向量的说话人识别方法及系统
WO2019136909A1 (zh) 基于深度学习的语音活体检测方法、服务器及存储介质
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN109256138A (zh) 身份验证方法、终端设备及计算机可读存储介质
CN110211599A (zh) 应用唤醒方法、装置、存储介质及电子设备
CN111508524B (zh) 语音来源设备的识别方法和系统
CN112037822A (zh) 基于ICNN与Bi-LSTM的语音情感识别方法
WO2021127982A1 (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN109147146A (zh) 语音取号的方法及终端设备
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
CN117496998A (zh) 一种音频分类方法、装置、存储介质
CN112735466A (zh) 一种音频检测方法及装置
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant