CN111028859A - 一种基于音频特征融合的杂交神经网络车型识别方法 - Google Patents
一种基于音频特征融合的杂交神经网络车型识别方法 Download PDFInfo
- Publication number
- CN111028859A CN111028859A CN201911288016.6A CN201911288016A CN111028859A CN 111028859 A CN111028859 A CN 111028859A CN 201911288016 A CN201911288016 A CN 201911288016A CN 111028859 A CN111028859 A CN 111028859A
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- vehicle type
- follows
- hybrid neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims abstract description 37
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000005286 illumination Methods 0.000 abstract description 5
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/017—Detecting movement of traffic to be counted or controlled identifying vehicles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明涉及车型识别技术,具体是一种基于音频特征融合的杂交神经网络车型识别方法。本发明解决了传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题。一种基于音频特征融合的杂交神经网络车型识别方法,该方法是采用如下步骤实现的:步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;步骤二:构建杂交神经网络;步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练;步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中。本发明适用于车型识别。
Description
技术领域
本发明涉及车型识别技术,具体是一种基于音频特征融合的杂交神经网络车型识别方法。
背景技术
车型识别是智能交通领域的重要研究方向。传统的车型识别技术主要通过采集车辆图片信息来实现车型识别。然而实践表明,传统的车型识别技术在应用于复杂的照明和天气环境下时,往往难以清晰准确地获取车辆图片信息,由此导致识别准确率低。基于此,有必要发明一种基于音频特征融合的杂交神经网络车型识别方法,以解决传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题。
发明内容
本发明为了解决传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题,提供了一种基于音频特征融合的杂交神经网络车型识别方法。
本发明是采用如下技术方案实现的:
一种基于音频特征融合的杂交神经网络车型识别方法,该方法是采用如下步骤实现的:
步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
与传统的车型识别技术相比,本发明所述的一种基于音频特征融合的杂交神经网络车型识别方法无需采集车辆图片信息,而是通过对车辆音频信号进行特征提取和融合及通过融合后的特征对杂交神经网络进行训练,实现了车型识别,由此彻底避免了照明和天气环境对识别结果的影响,从而大幅提高了识别准确率。
本发明有效解决了传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题,适用于车型识别。
附图说明
图1是本发明中步骤一的流程示意图。
具体实施方式
一种基于音频特征融合的杂交神经网络车型识别方法,该方法是采用如下步骤实现的:
步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
所述步骤一中,所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的;所述预处理步骤包括:分帧、加窗;
所述梅尔倒谱系数特征的维数为40维,其提取步骤如下:对预处理后的车辆音频信号进行快速傅里叶变换,并将变换得到的频谱输入到梅尔滤波器组,然后对梅尔滤波器组的输出信号依次进行对数运算、离散余弦变换,由此得到40维的梅尔倒谱系数特征;
所述音级轮廓特征的维数、一阶差分系数的维数均为12维,其提取步骤如下:对预处理后的车辆音频信号进行常数Q变换,并将变换得到的频谱映射到12个不同的半音级上,然后将所有与某一特定音级相对应的频率值分量进行累加,由此得到12维的音级轮廓特征和12维的一阶差分系数;
所述短时能量特征的维数为1维,其提取步骤如下:对预处理后的车辆音频信号进行平方运算,由此得到1维的短时能量特征;
所述融合特征的维数为65维。
所述步骤二中,所述杂交神经网络按照数据流向依次包括:卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层;
所述卷积层I的参数如下:卷积窗口的长度为16,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述卷积层II的参数如下:卷积窗口的长度为8,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述批量标准化层I的参数如下:移动均值和移动方差的动量为0.99;
所述一维最大池化层I的参数如下:池化窗口大小为3,池化步长为3;
所述卷积层III的参数如下:卷积窗口的长度为2,步长为1,通道数为128,输出保持与输入相同尺寸,激活函数采用ReLU;
所述一维最大池化层II的参数如下:池化窗口大小为3,池化步长为3;
所述丢失层I的参数如下:输入丢失比例为0.5;
所述长短时神经网络层的参数如下:输出维数为32;
所述批量标准化层II的参数如下:移动均值和移动方差的动量为0.99;
所述丢失层II的参数如下:输入丢失比例为0.5;
所述批量标准化层III的参数如下:移动均值和移动方差的动量为0.99;
所述分类层的参数如下:输出维数为分类种类个数,采用softmax回归分类器进行分类。
所述步骤三中,所述有监督训练是采用小批量梯度下降方法进行的;在一个训练周期中,样本数为100,迭代次数为150;在训练过程中,学习率衰减是采用牛顿动量下降法进行的:学习率的初始值设为0.001,每次参数更新后学习率的衰减值为0.0001,动量参数为1。
分帧时,帧长为128,帧移为64;加窗时,窗长为128。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式作出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (5)
1.一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:该方法是采用如下步骤实现的:
步骤一:对待训练车型的音频信号进行随机破坏:从破坏后的车辆音频信号中随机选取80%的车辆音频信号,然后在选取的车辆音频信号上叠加环境噪声;然后,对叠加环境噪声后的车辆音频信号进行预处理,并对预处理后的车辆音频信号进行特征提取,然后将提取的特征首尾拼接为带有标签的融合特征;所述提取的特征包括:梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征;
步骤二:构建杂交神经网络;
步骤三:将带有标签的融合特征输入到杂交神经网络中进行有监督训练,并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置,由此完成杂交神经网络的训练;
步骤四:将待识别车型的车辆音频信号输入到训练好的杂交神经网络中,由此输出车辆音频信号对应的车型类别标签,从而实现车型识别。
2.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤一中,所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的;所述预处理步骤包括:分帧、加窗;
所述梅尔倒谱系数特征的维数为40维,其提取步骤如下:对预处理后的车辆音频信号进行快速傅里叶变换,并将变换得到的频谱输入到梅尔滤波器组,然后对梅尔滤波器组的输出信号依次进行对数运算、离散余弦变换,由此得到40维的梅尔倒谱系数特征;
所述音级轮廓特征的维数、一阶差分系数的维数均为12维,其提取步骤如下:对预处理后的车辆音频信号进行常数Q变换,并将变换得到的频谱映射到12个不同的半音级上,然后将所有与某一特定音级相对应的频率值分量进行累加,由此得到12维的音级轮廓特征和12维的一阶差分系数;
所述短时能量特征的维数为1维,其提取步骤如下:对预处理后的车辆音频信号进行平方运算,由此得到1维的短时能量特征;
所述融合特征的维数为65维。
3.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤二中,所述杂交神经网络按照数据流向依次包括:卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层;
所述卷积层I的参数如下:卷积窗口的长度为16,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述卷积层II的参数如下:卷积窗口的长度为8,步长为1,通道数为64,输出保持与输入相同尺寸,激活函数采用ReLU;
所述批量标准化层I的参数如下:移动均值和移动方差的动量为0.99;
所述一维最大池化层I的参数如下:池化窗口大小为3,池化步长为3;
所述卷积层III的参数如下:卷积窗口的长度为2,步长为1,通道数为128,输出保持与输入相同尺寸,激活函数采用ReLU;
所述一维最大池化层II的参数如下:池化窗口大小为3,池化步长为3;
所述丢失层I的参数如下:输入丢失比例为0.5;
所述长短时神经网络层的参数如下:输出维数为32;
所述批量标准化层II的参数如下:移动均值和移动方差的动量为0.99;
所述丢失层II的参数如下:输入丢失比例为0.5;
所述批量标准化层III的参数如下:移动均值和移动方差的动量为0.99;
所述分类层的参数如下:输出维数为分类种类个数,采用softmax回归分类器进行分类。
4.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:所述步骤三中,所述有监督训练是采用小批量梯度下降方法进行的;在一个训练周期中,样本数为100,迭代次数为150;在训练过程中,学习率衰减是采用牛顿动量下降法进行的:学习率的初始值设为0.001,每次参数更新后学习率的衰减值为0.0001,动量参数为1。
5.根据权利要求2所述的一种基于音频特征融合的杂交神经网络车型识别方法,其特征在于:分帧时,帧长为128,帧移为64;加窗时,窗长为128。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911288016.6A CN111028859A (zh) | 2019-12-15 | 2019-12-15 | 一种基于音频特征融合的杂交神经网络车型识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911288016.6A CN111028859A (zh) | 2019-12-15 | 2019-12-15 | 一种基于音频特征融合的杂交神经网络车型识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111028859A true CN111028859A (zh) | 2020-04-17 |
Family
ID=70209364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911288016.6A Pending CN111028859A (zh) | 2019-12-15 | 2019-12-15 | 一种基于音频特征融合的杂交神经网络车型识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028859A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643551A (zh) * | 2021-10-15 | 2021-11-12 | 广州万城万充新能源科技有限公司 | 一种新能源汽车识别系统、滤波系统及方法 |
CN116935278A (zh) * | 2023-07-25 | 2023-10-24 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107633684A (zh) * | 2017-11-22 | 2018-01-26 | 河南大学 | 一种用于无人驾驶车的特种车辆识别方法 |
CN110120218A (zh) * | 2019-04-29 | 2019-08-13 | 东北大学 | 基于gmm-hmm的高速公路大型车辆识别方法 |
-
2019
- 2019-12-15 CN CN201911288016.6A patent/CN111028859A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107068167A (zh) * | 2017-03-13 | 2017-08-18 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 融合多种端到端神经网络结构的说话人感冒症状识别方法 |
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN107633684A (zh) * | 2017-11-22 | 2018-01-26 | 河南大学 | 一种用于无人驾驶车的特种车辆识别方法 |
CN110120218A (zh) * | 2019-04-29 | 2019-08-13 | 东北大学 | 基于gmm-hmm的高速公路大型车辆识别方法 |
Non-Patent Citations (3)
Title |
---|
T. N. SAINATH 等: ""Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks"", 《2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 2015》 * |
赵宏旭 等: ""基于短时能量和梅尔倒谱系数的车型音频识别"", 《科学技术与工程》 * |
陈超学: ""基于循环神经网络的声学车型识别研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643551A (zh) * | 2021-10-15 | 2021-11-12 | 广州万城万充新能源科技有限公司 | 一种新能源汽车识别系统、滤波系统及方法 |
CN113643551B (zh) * | 2021-10-15 | 2022-03-08 | 广州万城万充新能源科技有限公司 | 一种新能源汽车识别系统、滤波系统 |
CN116935278A (zh) * | 2023-07-25 | 2023-10-24 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
CN116935278B (zh) * | 2023-07-25 | 2024-02-13 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030998B2 (en) | Acoustic model training method, speech recognition method, apparatus, device and medium | |
US7457749B2 (en) | Noise-robust feature extraction using multi-layer principal component analysis | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN110751044B (zh) | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 | |
CN112257521B (zh) | 基于数据增强和时频分离的cnn水声信号目标识别方法 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN103474072B (zh) | 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN111028859A (zh) | 一种基于音频特征融合的杂交神经网络车型识别方法 | |
CN114863937A (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN107103913B (zh) | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 | |
Al-Hattab et al. | Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109903749B (zh) | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 | |
CN116013276A (zh) | 一种基于轻量化ecapa-tdnn神经网络的室内环境音自动分类方法 | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
CN113111786A (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
KR102241364B1 (ko) | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 | |
CN116741159A (zh) | 音频分类及模型的训练方法、装置、电子设备和存储介质 | |
CN113160823B (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
CN112908344A (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200417 |
|
RJ01 | Rejection of invention patent application after publication |