CN112541533A - 一种基于神经网络与特征融合的改装车识别方法 - Google Patents
一种基于神经网络与特征融合的改装车识别方法 Download PDFInfo
- Publication number
- CN112541533A CN112541533A CN202011417935.1A CN202011417935A CN112541533A CN 112541533 A CN112541533 A CN 112541533A CN 202011417935 A CN202011417935 A CN 202011417935A CN 112541533 A CN112541533 A CN 112541533A
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- frame
- feature fusion
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000009432 framing Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 210000002364 input neuron Anatomy 0.000 claims 1
- 210000004205 output neuron Anatomy 0.000 claims 1
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000002159 abnormal effect Effects 0.000 abstract description 8
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 230000035945 sensitivity Effects 0.000 abstract description 3
- 238000005520 cutting process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000005237 high-frequency sound signal Effects 0.000 description 1
- 230000005238 low-frequency sound signal Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明属于改装车识别技术领域,具体涉及一种基于神经网络与特征融合的改装车识别方法,包括以下步骤:步骤一,语音输入;步骤二,对输入语音进行预处理/取帧;步骤三,特征提取;步骤四,特征融合;步骤五,BP神经网络训练;步骤六,输出识别结果,将短时能量和帧与帧的动态信息一并融入MFCC中,形成的新特征提高了环境异常声音的识别,用bp神经网络对于这种复杂问题进行识别,轻量化了模型,使模型小型化,对输入样本做了剪裁以及归一化,在尽量保持bp神经元高敏感度的情况下,得到更高的准确率,使模型的训练在小样本的情况下可行,解决了,复杂问题识别对样本量的需求。
Description
技术领域
本发明属于改装车识别技术领域,具体涉及一种基于神经网络与特征融合的改装车识别方法。
背景技术
传统的声音识别方法首先对采集到的声音信号数据进行预处理,然后提取声音信号的特征参数,最后将特征参数输入分类器进行分类识别。在以往研究中,通常选择和提取的特征有Mel频率倒谱参数(Mel Frequency Cepstrum Coefficient,MFCC)、短时能量(Short-TermEnergy,STE)、线性预测倒谱系数(LinearPrediction CepstrumCoefficient,LPCC)过零率(Zero-Crossing Rate,ZCR)和自相关函数(AutocorrelationFunction,ACF)等,其中最常用的是MFCC。均提取MFCC特征参数作为异常声音信号特征。但是MFCC是根据人耳听觉特写那个和语音的发生贴点提出的,所以对改装车这种在复杂的交通环境下的环境声音事件,仍需要对特征提取深入研究。本发明从交通环境声音的特点出发在这里针对改装车这种异常声音,采用特征融合的方法将短时能量作为指标加入特征。并且引入升降器以及改进的的一阶和二阶差分的算法。
改装车的样本数据在实际路况的抓取中,样本量数据较少,对于提取后的特征使用DNN训练的话网络欠拟合,所以本发明采用改进的bp神经网络进行训练,为防止训练欠拟合,分别对正负样本进行截取,去除大量无用信息,同时引入dropout层,防止由于样本过少导致的欠拟合现象。
综上所述:本发明针对户外在声学环境复杂的情况下,对样本量较小的改装车声优化识别,提高了模型精度,以及泛化能力。
发明内容
针对现有技术中的问题,本发明的目的为了解决户外在声学环境复杂的情况下,对样本量较小的改装车声的识别,采用了改进的MFCC特征与bp算法,提供一种基于神经网络与特征融合的改装车识别方法。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种基于神经网络与特征融合的改装车识别方法,包括以下步骤:
S1:信号获取,采用麦克风阵列对声音信号进行拾取,再将其转换成模拟信号以二进制txt格式储存;以方便数据读取与存储。
S2:样本预处理,将所得的txt文件转换成wav文件,与相应的视频文件结合,人工区分正负样本,并按时间节点将txt样本中无用信息截掉;尽量去除样本中的无用信息,以减少训练会带给神经网络的干扰。
S3:特征提取,将样本先分帧再分别计算每帧的MFCC,防止样本之间数据合并,对训练产生影响,再分别按每帧提取能量构成新的MFCC特征;
S4:特征融合:对整体采用补齐的方式进行差分,保护信息不被丢失;再将新构成的MFCC特征与得到的差分特征融合,最后归一化,将样本的训练集和验证集各帧MFCC参数进行归一化;以消除个别异常样本对于训练带来的影响,并且可以加快样本的收敛速度,提升训练效率。
S5:训练bp神经网络模型,由于样本量较小,本发明使用bp神经网络,为防止由于数据并行带来模型复杂程度上升,采用单帧输入,并建立,一层输入层,三层隐藏层,以及一层输出层的神经网络,并在最后一层的隐藏层后面加入dropout层以防止过拟合,用Adam法更新优化器取代原来的梯度下降法。
S6:使用训练好的模型,对于输入的样本进行识别,输出为两类,一类判断为改装车,另一类判别为非改装车。对于多个已知标签样本进行特征提取,并按训练集数据进行归一化,后输入模型判断,模型对每一帧都做了判别,然而实际情况,以及误识别的出现,本文对于时间的判别做了设定,需要在一个事件中出现14帧联合判别为改装车,才将时间判定为改装车,否则判定为非改装车,后使用测试集验证单帧识别准确率在87%左右。如果使用14帧联合的判别方法,准确率可以达到100%。
与现有技术相比,本发明具有以下技术效果:
利用声音的梅尔倒谱系数,将短时能量和时序信息整合到系统中;短时能量的特征融合提高了系统对异常声音注意力;通过BP神经网络算法对机器进行静态训练,进而令识别参数不断逼近最佳状态,提高识别率。在户外复杂环境中,对改装车声进行精准识别。
对于模型小型化,以及在样本量较少识别环境比较复杂的情况下提供了一种可行方法,克服了类似于DNN等对样本量有较高要求的条件,针对改装车等异常声音的识别提供了一种改进的MFCC特征。具体来说:
1)本发明将短时能量和帧与帧的动态信息一并融入MFCC中,形成的新特征提高了环境异常声音的识别
2)本发明用bp神经网络对于这种复杂问题进行识别,轻量化了模型,使模型小型化,对输入样本做了剪裁以及归一化,在尽量保持bp神经元高敏感度的情况下,得到更高的准确率,使模型的训练在小样本的情况下可行。解决了,复杂问题识别对样本量的需求
3)本发明针对最后事件的评估采用多帧联合的评估方式,提升了事件判别的准确率。
附图说明
图1为算法流程图;
图2为BP网络模型;
图3为特征融合算法流程图;
图4为实验改装车单帧准确率图;
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体附图,进一步阐明本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
S1信号采集:
由30路麦克风阵列采集30路音频信号,采样频率为32k,转成数字信号以二进制形式保存为txt文本格式,计算30路信号的均值,取方差最小的一路作为样本,消除由于硬件原因所带来的干扰。
S2样本的预处理:
S2-01预加重处理,声音信号因为其具有特殊性以及其传播过程中出现损耗,还造成低频段声音信号能量大,高频段声音信号的能量小,这回倒是低频信号和高频信号之间出现较大的能量差,也就是说低频的信噪比与高频的信噪比之间存在着较大的差距。因此我们要对高频信号进行加强,在工业上称之为预加重,其实现方式在原信号中加一个一阶高通滤波器,设n时刻的声音信号采样值为x(n)公式如下:其中a为预加重系数,本发明a取值为0.97。y(n)为预加重之后的声音采样值。
y(n)=x(n)-ax(n-1)
S2-02信号分帧:对声音的分析实际上是一个“短时分析”过程,这是由于声音信号是时变的,但是在短时范围内特征变化较小,所以作为稳态来处理,但是超出这个短时范围语音信号就有变化了。所以当信号读入时将其分帧,为了保证其特征的连续性。采用重叠采样的方式,即在相邻两帧之间采集重叠部分。这里把分帧的长度称为“帧长”,后一帧对于前一帧的位移量就是“帧移”,本发明中采用帧长为1024个采样点,帧移为512个采样点。为了对原始信息的保留这里不进行加窗操作,这里信号y(n)经过分帧后变为yi(m),其中下标i表示分帧后的第i帧。
S3特征提取
S3-01 FFT傅里叶变换:对每一帧信号进行FFT变换,从时域数据转变为频域数据:
Y(i,k)=FFT[yi(m)]
S3-02计算能量谱线
对每一帧FFT后的数据计算谱线能量:
E(i,k)=|Y(i,k)|2
S3-03计算短时能量
依据每帧的能量谱线计算短时能量
S3-04梅尔滤波器的设计
Mel频率倒谱系数的分析是基于人的听觉激励,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性,由于人耳对不同的声波频率有着不同的敏感度,人耳感知的频率和实际的频率关系可以用下面的公式表示:
式中fmel为感知频率,单位是Mel;为实际频率,单位是Hz。在语音的频谱范围设置若干带通滤波器Hm(k),0≤m<M,M为滤波器个数,每个滤波器具有三角滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为:
f(m)可以用下面的方法加以定义:
本发明选取滤波器个数为M=26,依据香农采样定理,取fl=0,fh=fs/2=16000
S3-05计算通过Mel滤波器的能量
计算通过Mel滤波器的能量相当于把每帧的能量谱E(i,k)与Mel滤波器的频率响应Hm(k)相乘并相加:
S3-06计算DCT倒谱
倒谱计算把MEL滤波器的能量取对数后计算DCT:
式中S(i,m)为滤波器能量;m指第m个滤波器;i指第i帧;n是DCT之后的谱线
S3-07升降器
添加升降器有助于提升DCT后的高频系数,升降器公式
经过升降器的MFCC参数为:
mfccL(i,n)=L·mfcc(i,n)
S4特征融合
mfccE(i,1)=Eni
mfccE(i,(2,3,4…n))=mfccL(i,(2,3,4…n))
S401差分的求取
一阶差分,本发明为了防止第一帧后最后一帧信息的丢失,第一帧和最一帧各自分别复制一帧插入到第一帧和最尾帧,这样新的帧数为i+2
二阶差分,与一阶差分类似,第一帧和最一帧各自分别复制两帧插入到第一帧和最尾帧,这样新的帧数为i+4
最后将mfccE(i,n),Δd(i,n)1,Δd(i,n)2三者特征列并列融合得到新的39维的特征Fe(i,d),这里i表示第i帧,d为特征维度
S402数据归一化的处理
将训练集数据归一化,有利于消除异常样本,并加速模型收敛
S5bp神经网络的训练:
S5-01本发明选用的激活函数为rule激活函数,其特点是克服梯度消失的问题并且加快训练速度,并且给定学习率为0.00005,与迭代步数为7600
激活函数的公式为
S5-02:给定第一层为输入层共有39个节点,节点数等于特征数;第二层为隐藏层共有78个节点,节点数等于特征数的两倍,初始化权重和阈值(只在第一次的时候执行),选取Feminmax作为样本输入神经网络,从第一层到第二层的过程中其传播公式为
S5-03第三层为隐藏层共有39个节点,初始化权重和阈值(只在第一次的时候执行)第二层到第三层的传播公式为
S5-04第四层为隐藏层共有19个节点,初始化权重和阈值(只在第一次的时候执行)第三层到第四层的传播公式为
S5-05第五层为隐藏层共有2个节点,这层不再加激活函数,初始化权重和阈值(只在第一次的时候执行)第四层到第五层的传播公式为
S5-06Softmax层:又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。以L4为其输入,其公式为
公式中j为第j类,L4(j)为第j类的网络输出,预测的标签结果就是softmax中概率值最大的一类
S5-07本发明选取交叉熵作为损失函数,交叉熵可在神经网络(机器学习)中作为损失函数,假设p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。交叉熵的计算公式
公式中P(j)表示样本在j类上的真实预测
S5-08优化器的选择:
本发明选用Adam优化器对权重和阈值进行迭代,Adam优化器具有
(1)计算高效率
(2)梯度平滑、稳定的过渡,可以适应不稳定的目标函数
(3)调参相对简单,默认参数就可以处理绝大部分的问题
Adam优化器的公式为
mt=β1mt-1+(1-β1)gt
公式中t表示此时刻,mt和υt分别为一阶动量项和二阶动量项。β1,β2为动力值大小(通常分别取0.9和0.999);分别为各自的修正值。wt表示t时刻即第t迭代模型的参数;gt表示t次迭代代价函数关于权重的梯度大小;∈是一个取值很小的数(一般为1e-8,为了避免分母为0);
优化过程公式:
而后将得到的gt带入Adam优化器,完成神经网络的反向传播。迭代更新权值
S509判断算法迭代是否结束,若没有结束,返回步骤S502。
算法迭代完成后,即得到所建改装车识别系统的模型。训练完成后,用测试测试样本对所建模型进行验证,验证该模型的准确性。实验证明该模型具有评估精度较高。在输入特征为MFCC,MFCC+能量,以及最后融合特征的情况下该模型相比于传统的BP都增加2%-3%的准确率,另一方面在相同的模型情况下,融合特征相比于传统MFCC在改装车的识别上有着更大优势,最后在融合特征以及改进BP算法下,对与改装车的单帧识别率提升了17%。
以上显示和描述了本发明的基本原理、主要特征和本发明的特点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种基于神经网络与特征融合的改装车识别方法,其特征在于,包括以下步骤:
步骤一,语音输入;
步骤二,对输入语音进行预处理/取帧;
步骤三,特征提取;
步骤四,特征融合;
步骤五,BP神经网络训练;
步骤六,输出识别结果。
2.根据权利要求1所述的基于神经网络与特征融合的改装车识别方法,其特征在于:所述步骤三特征提取具体包括:语音输入即把语音输入设备采集的语音进行原始输入,通过上位机将未知声音转化为模拟信号输入识别系统,进行预处理;预处理包括采样语音信号、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响,并且每隔一定时间间隔取出部分信号处理,确定帧的尺寸以及计算重叠率;根据取帧划分的语音信号的每帧中提取出梅尔倒谱系数以及短时能量,并计算声音帧与帧之间的动态信息。
3.根据权利要求1所述的基于神经网络与特征融合的改装车识别方法,其特征在于:所述步骤四特征融合算法;特征融合算法包括:将梅尔倒谱系数的第一维替换为短时能量,为了获取帧与帧间的动态信息,这里采用复制补帧的方法计算差分,保护第一帧和最后一帧的差分信息不丢失。
4.根据权利要求1所述的基于神经网络与特征融合的改装车识别方法,其特征在于:所述步骤五BP神经网络训练包括:采用输入层、三层隐藏层、dropout层、输出层五层结构作为改装车识别的框架;输入神经元的数量=特征数量;隐藏层1神经元数量=特征数量*2;隐藏层2神经元数量=特征数量;隐藏层3神经元数量=特征数量//2;输出神经元数量=2;采用softmax进行二分类,并且引入dropout层,使用Adam算法作为优化器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011417935.1A CN112541533A (zh) | 2020-12-07 | 2020-12-07 | 一种基于神经网络与特征融合的改装车识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011417935.1A CN112541533A (zh) | 2020-12-07 | 2020-12-07 | 一种基于神经网络与特征融合的改装车识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541533A true CN112541533A (zh) | 2021-03-23 |
Family
ID=75016255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011417935.1A Pending CN112541533A (zh) | 2020-12-07 | 2020-12-07 | 一种基于神经网络与特征融合的改装车识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541533A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN114114194A (zh) * | 2021-12-14 | 2022-03-01 | 哈尔滨工业大学 | 一种相控阵雷达主瓣干扰识别方法 |
CN116501444A (zh) * | 2023-04-28 | 2023-07-28 | 重庆大学 | 智能网联汽车域控制器虚拟机异常云边协同监测和恢复系统及方法 |
-
2020
- 2020-12-07 CN CN202011417935.1A patent/CN112541533A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN114114194A (zh) * | 2021-12-14 | 2022-03-01 | 哈尔滨工业大学 | 一种相控阵雷达主瓣干扰识别方法 |
CN116501444A (zh) * | 2023-04-28 | 2023-07-28 | 重庆大学 | 智能网联汽车域控制器虚拟机异常云边协同监测和恢复系统及方法 |
CN116501444B (zh) * | 2023-04-28 | 2024-02-27 | 重庆大学 | 智能网联汽车域控制器虚拟机异常云边协同监测和恢复系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541533A (zh) | 一种基于神经网络与特征融合的改装车识别方法 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN111653289B (zh) | 一种回放语音检测方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN109300470B (zh) | 混音分离方法和混音分离装置 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
WO1996008005A1 (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
CN113488073A (zh) | 一种基于多特征融合的伪造语音检测方法及装置 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
Al-Hattab et al. | Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction | |
Roy et al. | Pathological voice classification using deep learning | |
CN112735477B (zh) | 语音情感分析方法和装置 | |
CN117312548A (zh) | 一种多源异构灾情数据融合理解方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN115064175A (zh) | 一种说话人识别方法 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN112259107A (zh) | 一种会议场景小样本条件下的声纹识别方法 | |
CN113506583B (zh) | 利用残差网络的伪装语音检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |