CN111782860A - 一种音频检测方法及装置、存储介质 - Google Patents
一种音频检测方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111782860A CN111782860A CN202010514720.5A CN202010514720A CN111782860A CN 111782860 A CN111782860 A CN 111782860A CN 202010514720 A CN202010514720 A CN 202010514720A CN 111782860 A CN111782860 A CN 111782860A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- neural network
- classification
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims abstract description 131
- 238000000034 method Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000013145 classification model Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 84
- 238000000605 extraction Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000010008 shearing Methods 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011031 large-scale manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本申请实施例提供了一种音频检测方法及装置、存储介质,包括:获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用神经网络分类器中的神经网络对待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用神经网络分类器中的分类模型对一组分类结果数据进行处理,得到一组分类结果数据对应的一组概率值,并从一组概率值中确定出概率值最大的第一概率值;查找并输出第一概率值对应的第一音频分类标签,以完成对待检测音频数据的音频检测过程。
Description
技术领域
本申请涉及音频测试领域,尤其涉及一种音频检测方法及装置、存储介质。
背景技术
如今,手机等移动智能终端已经成为人们日常生活的必需品。终端内部一般都装有扬声器、受话器、麦克风等电声器件,在终端大规模的生产过程中,为了保证这些器件的音频性能,会对电声器件进行音频测试。
杂音是一个比较常见的音频测试项目。杂音是指一个电子设备或者电子系统中存在的蜂鸣等干扰。杂音通常是由于电子器件本身的缺陷或者装配过程中产生的。杂音由于种类繁多的特点,使得测试难度大,进而导致音频测试的测试精度低的问题。
发明内容
本申请实施例提供一种音频检测方法及装置、存储介质,能够提高音频测试的测试精度。
本申请的技术方案是这样实现的:
本申请实施例提供一种音频检测方法,所述方法包括:
获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;
利用所述神经网络分类器中的分类模型对所述一组分类结果数据进行处理,得到所述一组分类结果数据对应的一组概率值,并从所述一组概率值中确定出概率值最大的第一概率值;
查找并输出所述第一概率值对应的第一音频分类标签,以完成对所述待检测音频数据的音频检测过程。
本申请实施例提供一种音频检测装置,所述装置包括:
获取单元,用于获取待检测音频数据;
输入单元,用于将待检测音频数据输入神经网络分类器中;
数据处理单元,用于利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用所述神经网络分类器中的分类模型对所述一组分类结果数据进行处理,得到所述一组分类结果数据对应的一组概率值,并从所述一组概率值中确定出概率值最大的第一概率值;查找所述第一概率值对应的第一音频分类标签;
输出单元,用于输出所述第一概率值对应的第一音频分类标签,以完成对所述待检测音频数据的音频检测过程。
本申请实施例提供一种音频检测装置,所述装置包括:处理器、存储器及通信总线;所述处理器执行存储器存储的运行程序时实现如上述任一项所述的方法。
本申请实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一项所述的方法。
本申请实施例提供了一种音频检测方法及装置、存储介质,该方法包括:获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用神经网络分类器中的神经网络对待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用神经网络分类器中的分类模型对一组分类结果数据进行处理,得到一组分类结果数据对应的一组概率值,并从一组概率值中确定出概率值最大的第一概率值;查找并输出第一概率值对应的第一音频分类标签,以完成对待检测音频数据的音频检测过程。采用上述实现方案,音频检测装置利用神经网络分类器中的神经网络,将待检测音频数据处理成预设音频分类标签对应的一组分类结果数据,并利用神经网络分类器中的分类模型,确定出一组分类结果数据对应的一组概率值,并将一组概率值中概率值最高的第一概率值对应的第一音频分类标签作为待检测音频数据的音频检测结果输出,由此,本申请的音频检测过程可以识别出音频的类型,进而提高音频测试的测试精度。
附图说明
图1为本申请实施例提供的一种音频检测方法的流程图;
图2为本申请实施例提供的一种示例性的上行通路检测对应的检测装置的结构示意图;
图3为本申请实施例提供的一种示例性的下行通路检测对应的检测装置的结构示意图;
图4为本申请实施例提供的一种音频检测装置训练方法的流程图;
图5为本申请实施例提供的一种示例性的利用MFCC对上行音频数据进行特征提取的结构框图;
图6为本申请实施例提供的一种示例性的利用LPCC对下行音频数据进行特征提取的结构框图;
图7为本申请实施例提供的一种示例性的音频检测装置对待检测音频进行处理的结构框图;
图8为本申请实施例提供的一种音频检测装置的结构示意图一;
图9为本申请实施例提供的一种音频检测装置的结构示意图二。
具体实施方式
应当理解,此处描述的具体实施例仅仅用以解释本申请。并不用于限定本申请。
本申请实施例提供一种音频检测方法,如图1所示,该方法可以包括:
S101、获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用神经网络分类器中的神经网络对待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据。
本申请实施例提供的一种音频检测方法适用于对待测设备播放或者收音的音频进行测试的场景下。
本申请实施例中,音频检测装置从待测设备获取上行音频数据,其中,上行音频数据为待测设备通过收音端进行录音产生的音频数据;和/或音频检测装置从待测设备获取下行音频数据,其中,下行音频数据为待测设备通过发音端播放的音频数据;音频检测装置将上行音频数据和/或下行音频数据确定为待检测音频数据。
本申请实施例中,待测设备可以为任何具备录音和/或音频播放功能的设备,例如:平板电脑、手机、个人计算机(Personal Computer,PC)、笔记本电脑、可穿戴设备等设备。
可选的,收音端可以为待测设备上的麦克风、也可以是外接麦克风,具体的根据实际情况进行选择,本申请实施例不做具体的限定。
可选的,发音端可以为待测设备上的扬声器,也可以是外接扬声器,具体的根据实际情况进行选择,本申请实施例不做具体的限定。
本申请实施例中,当音频检测装置对待测设备进行上行通路检测时,从待测设备获取上行音频数据;当音频检测装置对待测设备进行下行通路检测时,从待测设备获取下行音频数据,具体的音频检测装置获取待检测音频数据的数据类型可以根据实际检测场景确定,本申请实施例不做具体的限定。
在一种可选的实施例中,音频检测装置对待测设备进行上行通路检测的检测装置如图2所示,将待测设备1和扬声器2部署在静音箱3中,控制扬声器2播放一个固定的标准音频数据,之后,待测设备1通过麦克风进行录音,并通过待测设备的音频上行处理通路进行处理,得到上行音频数据,待测设备将上行音频数据传输至音频检测装置4,音频检测装置4对上行音频数据进行音频检测。
在另一种可选的实施例中,音频检测装置对待测设备进行下行通路检测的检测装置如图3所示,将待测设备1和录音麦5部署在静音箱3中,待测设备读取预先存储的标准音频数据,标准音频数据经待测设备1的音频下行处理通路处理后,通过自带扬声器播放,利用录音麦5对扬声器播放的音频数据进行录音,产生下行音频数据,将下行音频数据传输至音频检测装置4中,音频检测装置4对下行音频数据进行音频检测。
本申请实施例中,在获取到待检测音频数据之后,对待检测音频数据进行特征提取,得到待检测特征数据,之后,将待检测特征数据输入神经网络分类器中,利用神经网络分类器中的神经网络对待检测特征数据进行处理,得到预设音频分类标签对应的一组分类结果数据。
本申请实施例中,神经网络分类器包括神经网络和分类模型两个部分,将待检测特征数据输入神经网络分类器之后,待检测特征数据先输入神经网络,得到预设音频分类标签对应的一组分类结果数据,该一组分类结果数据即为待检测特征数据在不同预设音频分类标签下的出现概率数据,该一组分类结果数据为一个K维的向量,用于表示每一种分类结果数据出现的概率,其中,分类结果数据的标签数量为K。
进一步地,在音频检测装置将待检测音频数据输入神经网络分类器中,利用神经网络分类器中的神经网络对待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据之前,音频检测装置还进行神经网络分类器的训练过程,如图4所示,具体的:
S201、获取预设音频分类标签对应的训练分类音频数据。
本申请实施例中,预先为不同的声音数据设置预设音频分类标签,其中,预设音频分类标签可以包括正常音、1类杂音、2类杂音、3类杂音等,杂音的等级可以根据声音强度、音质等参数进行划分,具体的根据实际情况进行选择,本申请实施例不做具体的限定。
本申请实施例中,在接收到训练音频数据之后,按照预设音频分类标签,将训练音频数据进行分类,得到多组训练音频数据,多组训练音频数据的组别数量与预设音频分类标签的标签数量相同;按照预设数据增量策略,对多组训练音频数据的数据量进行调整,得到多组增量训练音频数据;利用声道特征提取模型,从多组增量训练音频数据中提取数据特征;根据数据特征和预设音频分类标签,得到训练分类音频数据。
可选的,预设数据增量策略包括:数据延时、数据缩小、数据放大、数据剪切、数据移位、声音均衡处理中的至少一种。具体的根据实际情况进行选择,本申请实施例不做具体的限定。
可选的,声道特征提取模型包括:线性预测倒谱系数(Linear PredictiveCepstral Coefficient,LPCC)、梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)、频谱图中的任一种。具体的根据实际情况进行选择,本申请实施例不做具体的限定。
在一种可选的实施例中,利用MFCC对上行音频数据进行特征提取,其中,MCFF的框图如图5所示,MCFF包括预加重模块、汉明窗、快速傅里叶变换(Fast Fourier Transform,FFT)模块、梅尔频率滤波器组、Log对数能量模块和DCT求倒谱模块,将上行音频数据输入上述MCFF中,依次经过预加重模块、汉明窗、FFT模块、梅尔频率滤波器组、Log对数能量模块和DCT求倒谱模块的处理,输出上行音频数据的数据特征。
在另一种可选的实施例中,利用LPCC对下行音频数据进行特征提取,其中,LPCC进行特征值提取的框图如图6所示,LPCC包括帧遮挡模块、窗口化模块、自相关分析模块、线性预测编码(Linear Predictive Coding,LPC)分析模块和LPC参数转换模块,将下行音频数据输入上述LPCC中,依次经过帧遮挡模块、窗口化模块、自相关分析模块、LPC分析模块和LPC参数转换模块的处理,输出下行音频数据的数据特征。
示例性的,训练分类音频数据的数据类型可以为{(x1,y1),(x2,y2),(x3,y3)...(xi,yi)...(xt,yt)},其中,xi为提取的数据特征,yi为预设音频分类标签,yi∈{1,2,3...k},其中k表示预设音频分类标签的标签数量。
S202、利用训练分类音频数据,对初始神经网络分类器进行训练,得到神经网络分类器。
本申请实施例中,将训练分类音频数据输入初始神经网络分类器中,利用初始神经网络分类器中的初始神经网络对训练分类音频数据进行处理,得到预设音频分类标签对应的训练分类结果数据,预设音频分类标签的标签数量和训练分类结果数据的结果数量相同;利用初始神经网络分类器中的初始分类模型对训练分类结果数据进行处理,得到输出分类标签;根据预设音频分类标签和输出分类标签,对初始神经网络和初始分类模型进行训练,得到神经网络分类器。
可以理解的是,采用数据增量的方法对训练音频数据进行扩充进而训练神经网络分类器,可以利用数据量较小的训练数据完成对神经网络分类器的训练。
本申请实施例中,神经网络为:深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-TermMemory,LSTM)、门控循环神经网络(Gated Recurrent Unit,GRU)或者上述神经网络的变形网络中的任一种。具体的根据实际情况进行选择,本申请实施例不做具体的限定。
示例性的,将样本音频数据(xi,yi)输入初始神经网络,得到一个K维的结果向量来表征每一种分类结果数据出现的概率p(y=i|x),之后,将输出的结果向量输入初始分类模型中,将输入的结果向量映射为一组0-1之间的实数概率值,并将概率值最高的分类结果数据输出,此时,概率值最高的分类结果数据即为样本音频数据对应的输出分类标签,利用样本音频数据对应的预设音频分类标签和输出分类标签,对初始神经网络和初始分类模型进行训练,得到神经网络分类器。
S102、利用神经网络分类器中的分类模型对一组分类结果数据进行处理,得到预设音频分类标签对应的一组分类结果数据对应的一组概率值,并从一组概率值中确定出概率值最大的第一概率值。
当音频检测装置利用神经网络分类器中的神经网络对待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据之后,音频检测装置利用神经网络分类器中的分类模型,对一组分类结果数据进行处理,得到预设音频分类标签对应的一组分类结果数据对应的一组概率值,音频检测装置从一组概率值中确定出概率值最大的第一概率值。
本申请实施例中,一组分类结果数据输入神经网络分类器的分类模型中,得到预设音频分类标签对应的一组分类结果数据对应的一组概率值,该一组概率值即为待检测音频数据在不同预设音频分类标签下的概率值,之后,从一组概率值中确定出概率值最高的第一概率值。
本申请实施例中,分类模型为softmax分类器。
S103、查找并输出第一概率值对应的第一音频分类标签,以完成对待检测音频数据的音频检测过程。
当音频检测装置从一组概率值中确定出概率值最大的第一概率值之后,音频检测装置查找第一概率值对应的第一音频分类标签,并将第一音频分类标签作为待检测音频数据的音频检测结果输出。
本申请实施例中,确定第一概率值对应的第一音频分类标签,该第一音频分类标签即为待检测音频数据对应的检测结果,输出第一音频分类标签,此时完成了对待检测音频数据的音频检测过程。
示例性的,音频检测装置对待检测音频进行处理的过程如图7所示,首先对训练音频数据进行数据集增量处理,得到多组增量训练音频数据,对多组增量训练音频数据进行特征提取,得到数据特征,之后利用数据特征进行网络模型训练,得到神经网络分类器,此时完成了神经网络分类器的训练过程。在接收到待检测音频数据之后,对待检测音频数据进行特征提取,得到待检测特征数据,将待检测特征数据输入训练完成的神经网络分类器中,输出待检测特征数据对应的音频分类标签。
可以理解的是,音频检测装置利用神经网络分类器中的神经网络,将待检测音频数据处理成预设音频分类标签对应的一组分类结果数据,并利用神经网络分类器中的分类模型,确定出一组分类结果数据对应的一组概率值,并将一组概率值中概率值最高的第一概率值对应的第一音频分类标签作为待检测音频数据的音频检测结果输出,由此,本申请的音频检测过程可以识别出音频的类型,进而提高音频测试的测试精度。
本申请实施例提供一种音频检测装置1。如图8所示,该装置1包括:
获取单元10,用于获取待检测音频数据;
输入单元11,用于将待检测音频数据输入神经网络分类器中;
数据处理单元12,用于利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用所述神经网络分类器中的分类模型对所述一组分类结果数据进行处理,得到所述一组分类结果数据对应的一组概率值,并从所述一组概率值中确定出概率值最大的第一概率值;查找所述第一概率值对应的第一音频分类标签;
输出单元13,用于输出所述第一概率值对应的第一音频分类标签,以完成对所述待检测音频数据的音频检测过程。
可选的,所述装置还包括:训练单元;
所述获取单元10,还用于获取所述预设音频分类标签对应的训练分类音频数据;
所述训练单元,用于利用所述训练分类音频数据,对初始神经网络分类器进行训练,得到所述神经网络分类器。
可选的,所述装置还包括:分类单元、数据增量单元和提取单元;
所述分类单元,用于按照所述预设音频分类标签,将训练音频数据进行分类,得到多组训练音频数据,所述多组训练音频数据的组别数量与所述预设音频分类标签的标签数量相同;
所述数据增量单元,用于按照预设数据增量策略,对所述多组训练音频数据的数据量进行调整,得到多组增量训练音频数据;
所述提取单元,用于利用声道特征提取模型,从所述多组增量训练音频数据中提取数据特征;
所述获取单元10,还用于根据所述数据特征和所述预设音频分类标签,得到所述训练分类音频数据。
可选的,所述输入单元11,还用于将所述训练分类音频数据输入初始神经网络分类器中;
所述数据处理单元12,还用于利用所述初始神经网络分类器中的初始神经网络对所述训练分类音频数据进行处理,得到所述预设音频分类标签对应的训练分类结果数据,所述预设音频分类标签的标签数量和所述训练分类结果数据的结果数量相同;利用所述初始神经网络分类器中的初始分类模型对所述训练分类结果数据进行处理,得到输出分类标签;
所述训练单元,还用于根据所述预设音频分类标签和所述输出分类标签,对所述初始神经网络和初始分类模型进行训练,得到所述神经网络分类器。
可选的,所述预设数据增量策略包括:数据延时、数据缩小、数据放大、数据剪切、数据移位、声音均衡处理中的至少一种。
可选的,所述神经网络为:深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU中的任一种。
可选的,所述声道特征提取模型包括:线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC、频谱图中的任一种。
可选的,所述获取单元10,还用于从待测设备获取上行音频数据,所述上行音频数据为所述待测设备通过收音端进行录音产生的音频数据;和/或从所述待测设备获取下行音频数据,所述下行音频数据为所述待测设备通过发音端播放的音频数据;将所述上行音频数据和/或所述下行音频数据确定为所述待检测音频数据。
可选的,所述特征提取单元,还用于对所述待检测音频数据进行特征提取,得到待检测特征数据;
所述输入单元11,还用于将所述待检测特征数据输入神经网络分类器中;
所述数据处理单元12,还用于利用所述神经网络对所述待检测特征数据进行处理,得到所述一组分类结果数据。
本申请实施例提供的一种音频检测装置,获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用神经网络分类器中的神经网络对待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用神经网络分类器中的分类模型对一组分类结果数据进行处理,得到一组分类结果数据对应的一组概率值,并从一组概率值中确定出概率值最大的第一概率值;查找并输出第一概率值对应的第一音频分类标签,以完成对待检测音频数据的音频检测过程。由此可见,本实施例提出的音频检测装置,音频检测装置利用神经网络分类器中的神经网络,将待检测音频数据处理成预设音频分类标签对应的一组分类结果数据,并利用神经网络分类器中的分类模型,确定出一组分类结果数据对应的一组概率值,并将一组概率值中概率值最高的第一概率值对应的第一音频分类标签作为待检测音频数据的音频检测结果输出,由此,本申请的音频检测过程可以识别出音频的类型,进而提高音频测试的测试精度。
图9为本申请实施例提供的一种音频检测装置1的组成结构示意图二,在实际应用中,基于上述实施例的同一公开构思下,如图9所示,本实施例的音频检测装置1包括:处理器14、存储器15及通信总线16。
在具体的实施例的过程中,上述获取单元10、输入单元11、数据处理单元12、输出单元13、训练单元、分类单元、数据增量单元和提取单元可由位于装置1上的处理器14实现,上述处理器14可以为特定用途集成电路(ASIC,Application Specific IntegratedCircuit)、数字信号处理器(DSP,Digital Signal Processor)、数字信号处理图像处理装置(DSPD,Digital Signal Processing Device)、可编程逻辑图像处理装置(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,Field Programmable GateArray)、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本实施例不作具体限定。
在本申请实施例中,上述通信总线16用于实现处理器14和存储器15之间的连接通信;上述处理器14执行存储器15中存储的运行程序时实现如下的音频检测方法:
获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用所述神经网络分类器中的分类模型对所述一组分类结果数据进行处理,得到所述一组分类结果数据对应的一组概率值,并从所述一组概率值中确定出概率值最大的第一概率值;查找并输出所述第一概率值对应的第一音频分类标签,以完成对所述待检测音频数据的音频检测过程。
在本申请实施例中,上述处理器14,还用于获取所述预设音频分类标签对应的训练分类音频数据;利用所述训练分类音频数据,对初始神经网络分类器进行训练,得到所述神经网络分类器。
在本申请实施例中,上述处理器14,还用于按照所述预设音频分类标签,将训练音频数据进行分类,得到多组训练音频数据,所述多组训练音频数据的组别数量与所述预设音频分类标签的标签数量相同;按照预设数据增量策略,对所述多组训练音频数据的数据量进行调整,得到多组增量训练音频数据;利用声道特征提取模型,从所述多组增量训练音频数据中提取数据特征;根据所述数据特征和所述预设音频分类标签,得到所述训练分类音频数据。
在本申请实施例中,上述处理器14,还用于将所述训练分类音频数据输入初始神经网络分类器中,利用所述初始神经网络分类器中的初始神经网络对所述训练分类音频数据进行处理,得到所述预设音频分类标签对应的训练分类结果数据,所述预设音频分类标签的标签数量和所述训练分类结果数据的结果数量相同;利用所述初始神经网络分类器中的初始分类模型对所述训练分类结果数据进行处理,得到输出分类标签;根据所述预设音频分类标签和所述输出分类标签,对所述初始神经网络和初始分类模型进行训练,得到所述神经网络分类器。
在本申请实施例中,所述预设数据增量策略包括:数据延时、数据缩小、数据放大、数据剪切、数据移位、声音均衡处理中的至少一种。
在本申请实施例中,所述神经网络为:深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU中的任一种。
在本申请实施例中,所述声道特征提取模型包括:线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC、频谱图中的任一种。
在本申请实施例中,上述处理器14,还用于从待测设备获取上行音频数据,所述上行音频数据为所述待测设备通过收音端进行录音产生的音频数据;和/或从所述待测设备获取下行音频数据,所述下行音频数据为所述待测设备通过发音端播放的音频数据;将所述上行音频数据和/或所述下行音频数据确定为所述待检测音频数据。
在本申请实施例中,上述处理器14,还用于对所述待检测音频数据进行特征提取,得到待检测特征数据;将所述待检测特征数据输入神经网络分类器中,利用所述神经网络对所述待检测特征数据进行处理,得到所述一组分类结果数据。
本申请实施例提供一种存储介质,其上存储有计算机程序,上述计算机可读存储介质存储有一个或者多个程序,上述一个或者多个程序可被一个或者多个处理器执行,应用于音频检测装置中,该计算机程序实现如上述的音频检测方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台图像显示设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。
Claims (12)
1.一种音频检测方法,其特征在于,所述方法包括:
获取待检测音频数据,并将待检测音频数据输入神经网络分类器中,利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;
利用所述神经网络分类器中的分类模型对所述一组分类结果数据进行处理,得到所述一组分类结果数据对应的一组概率值,并从所述一组概率值中确定出概率值最大的第一概率值;
查找并输出所述第一概率值对应的第一音频分类标签,以完成对所述待检测音频数据的音频检测过程。
2.根据权利要求1所述的方法,其特征在于,所述将待检测音频数据输入神经网络中,利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据之前,所述方法还包括:
获取所述预设音频分类标签对应的训练分类音频数据;
利用所述训练分类音频数据,对初始神经网络分类器进行训练,得到所述神经网络分类器。
3.根据权利要求2所述的方法,其特征在于,所述获取所述预设音频分类标签对应的训练分类音频数据,包括:
按照所述预设音频分类标签,将训练音频数据进行分类,得到多组训练音频数据,所述多组训练音频数据的组别数量与所述预设音频分类标签的标签数量相同;
按照预设数据增量策略,对所述多组训练音频数据的数据量进行调整,得到多组增量训练音频数据;
利用声道特征提取模型,从所述多组增量训练音频数据中提取数据特征;
根据所述数据特征和所述预设音频分类标签,得到所述训练分类音频数据。
4.根据权利要求2所述的方法,其特征在于,所述利用所述训练分类音频数据,对初始神经网络分类器进行训练,得到所述神经网络分类器,包括:
将所述训练分类音频数据输入初始神经网络分类器中,利用所述初始神经网络分类器中的初始神经网络对所述训练分类音频数据进行处理,得到所述预设音频分类标签对应的训练分类结果数据,所述预设音频分类标签的标签数量和所述训练分类结果数据的结果数量相同;
利用所述初始神经网络分类器中的初始分类模型对所述训练分类结果数据进行处理,得到输出分类标签;
根据所述预设音频分类标签和所述输出分类标签,对所述初始神经网络和初始分类模型进行训练,得到所述神经网络分类器。
5.根据权利要求2所述的方法,其特征在于,所述预设数据增量策略包括:数据延时、数据缩小、数据放大、数据剪切、数据移位、声音均衡处理中的至少一种。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述神经网络为:深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU中的任一种。
7.根据权利要求3所述的方法,其特征在于,所述声道特征提取模型包括:线性预测倒谱系数LPCC、梅尔频率倒谱系数MFCC、频谱图中的任一种。
8.根据权利要求1所述的方法,其特征在于,所述获取待检测音频数据,包括:
从待测设备获取上行音频数据,所述上行音频数据为所述待测设备通过收音端进行录音产生的音频数据;
和/或从所述待测设备获取下行音频数据,所述下行音频数据为所述待测设备通过发音端播放的音频数据;
将所述上行音频数据和/或所述下行音频数据确定为所述待检测音频数据。
9.根据权利要求1或8所述的方法,其特征在于,所述获取待检测音频数据之后,所述将待检测音频数据输入神经网络分类器中之前,所述方法还包括:
对所述待检测音频数据进行特征提取,得到待检测特征数据;
相应的,所述将待检测音频数据输入神经网络分类器中,利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据,包括:
将所述待检测特征数据输入神经网络分类器中,利用所述神经网络对所述待检测特征数据进行处理,得到所述一组分类结果数据。
10.一种音频检测装置,其特征在于,所述装置包括:
获取单元,用于获取待检测音频数据;
输入单元,用于将待检测音频数据输入神经网络分类器中;
数据处理单元,用于利用所述神经网络分类器中的神经网络对所述待检测音频数据进行处理,得到预设音频分类标签对应的一组分类结果数据;利用所述神经网络分类器中的分类模型对所述一组分类结果数据进行处理,得到所述一组分类结果数据对应的一组概率值,并从所述一组概率值中确定出概率值最大的第一概率值;查找所述第一概率值对应的第一音频分类标签;
输出单元,用于输出所述第一概率值对应的第一音频分类标签,以完成对所述待检测音频数据的音频检测过程。
11.一种音频检测装置,其特征在于,所述装置包括:处理器、存储器及通信总线;所述处理器执行存储器存储的运行程序时实现如权利要求1-9任一项所述的方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010514720.5A CN111782860A (zh) | 2020-06-08 | 2020-06-08 | 一种音频检测方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010514720.5A CN111782860A (zh) | 2020-06-08 | 2020-06-08 | 一种音频检测方法及装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111782860A true CN111782860A (zh) | 2020-10-16 |
Family
ID=72753430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010514720.5A Pending CN111782860A (zh) | 2020-06-08 | 2020-06-08 | 一种音频检测方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782860A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110718235A (zh) * | 2019-09-20 | 2020-01-21 | 精锐视觉智能科技(深圳)有限公司 | 异常声音检测的方法、电子设备及存储介质 |
-
2020
- 2020-06-08 CN CN202010514720.5A patent/CN111782860A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473120A (zh) * | 2018-11-14 | 2019-03-15 | 辽宁工程技术大学 | 一种基于卷积神经网络的异常声音信号识别方法 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110718235A (zh) * | 2019-09-20 | 2020-01-21 | 精锐视觉智能科技(深圳)有限公司 | 异常声音检测的方法、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
KR102450993B1 (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
US20200227071A1 (en) | Analysing speech signals | |
CN110782920B (zh) | 音频识别方法、装置及数据处理设备 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN110853617B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
CN110837758B (zh) | 一种关键词输入方法、装置及电子设备 | |
US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
CN111868823A (zh) | 一种声源分离方法、装置及设备 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN111785294A (zh) | 音频检测方法及装置、终端、存储介质 | |
CN110827853A (zh) | 语音特征信息提取方法、终端及可读存储介质 | |
CN112185425A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN111782860A (zh) | 一种音频检测方法及装置、存储介质 | |
CN110070891B (zh) | 一种歌曲识别方法、装置以及存储介质 | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
CN115132197B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN113724694B (zh) | 语音转换模型训练方法、装置、电子设备及存储介质 | |
Hajihashemi et al. | Novel time-frequency based scheme for detecting sound events from sound background in audio segments | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN110322894B (zh) | 一种基于声音的波形图生成及大熊猫检测方法 | |
CN108573712B (zh) | 语音活性检测模型生成方法、系统及语音活性检测方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |