CN115587337A - 车门异响识别方法、设备和存储介质 - Google Patents
车门异响识别方法、设备和存储介质 Download PDFInfo
- Publication number
- CN115587337A CN115587337A CN202211597489.6A CN202211597489A CN115587337A CN 115587337 A CN115587337 A CN 115587337A CN 202211597489 A CN202211597489 A CN 202211597489A CN 115587337 A CN115587337 A CN 115587337A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- convolution
- judged
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000010586 diagram Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000011176 pooling Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 16
- 238000012360 testing method Methods 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 9
- 238000013526 transfer learning Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000011800 void material Substances 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及数据处理技术领域,公开了一种车门异响识别方法、设备和存储介质。该方法通过训练后的车门异响识别模型中包括各下层卷积模块、上层卷积模块以及特征堆叠层的第一支网络,确定待判断车门声音信号对应的待判断时频图的第一目标特征图,以实现不同尺度特征的叠加,并通过包括各普通卷积模块以及各并联卷积模块确定第二目标特征图,在保证模型轻量化的同时增加网络深度,实现不同尺度特征的提取,获取更丰富的空间特征,最后通过合并层和输出模块得到待判断车门声音信号对应的异响识别结果,以通过多尺度特征合并后的结果对待判断车门声音信号进行异响识别,提高了模型收敛速度以及识别准确率,可以有效识别车门开关有无异响。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种车门异响识别方法、设备和存储介质。
背景技术
随着社会经济发展,人们对汽车的需求量逐渐增加,对汽车的质量也提出了更高的要求。整车NVH(Noise、Vibration、Harshness,噪声、振动、声振粗糙度)性能成为消费者的主要考虑因素之一,其中,汽车车门的开关异响问题是影响汽车NVH性能的一个重要因素。
消费者购买汽车时常通过车门的开关声判断整车质量。高质量的汽车开关门声应该是低沉厚重的,但实际情况中常混有持续振颤、泄压阀拍击声等异响,因此准确识别此类异响可以帮助解决整车噪声问题,提高异响控制水平。
传统的车门异响识别方法主要依靠检测实验人员的主客观评价,过分依赖检测员的能力和个人经验,由于主观性较强,识别效果不佳。因此对异响的识别与检测的自动化、智能化、标准化成为了汽车行业的共识。
有鉴于此,特提出本发明。
发明内容
为了解决上述技术问题,本发明提供了一种车门异响识别方法、设备和存储介质,以解决现有技术中异响识别准确率低的问题。
本发明实施例提供了一种车门异响识别方法,该方法包括:
获取训练后的车门异响识别模型,其中,所述车门异响识别模型包括第一支网络、第二支网络、合并层以及输出模块,所述第一支网络由各下层卷积模块、上层卷积模块以及特征堆叠层构建,所述上层卷积模块中的每一个卷积层与所述特征堆叠层之间形成捷径连接,所述第二支网络由各普通卷积模块以及各并联卷积模块构建,所述并联卷积模块中的各卷积层的卷积核尺寸不完全相同;
获取待判断车门声音信号,确定所述待判断车门声音信号对应的待判断时频图;
将所述待判断时频图输入至所述第一支网络得到第一目标特征图,将所述待判断时频图输入至所述第二支网络得到第二目标特征向量,将所述第一目标特征图与所述第二目标特征图输入至所述合并层得到目标特征向量,将所述目标特征向量输入至所述输出模块得到所述待判断车门声音信号对应的异响识别结果。
本发明实施例提供了一种电子设备,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行任一实施例所述的车门异响识别方法的步骤。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行任一实施例所述的车门异响识别方法的步骤。
本发明实施例具有以下技术效果:
获取训练后的车门异响识别模型,并确定待判断车门声音信号对应的待判断时频图,进而通过车门异响识别模型中包括各下层卷积模块、上层卷积模块以及特征堆叠层的第一支网络,确定第一目标特征图,以实现不同尺度特征的叠加,并通过车门异响识别模型中包括各普通卷积模块以及各并联卷积模块确定第二目标特征图,以在保证模型轻量化的同时增加网络深度,实现不同尺度特征的提取,获取更丰富的空间特征,最后通过合并层和输出模块得到待判断车门声音信号对应的异响识别结果,以通过多尺度特征合并后的结果对待判断车门声音信号进行异响识别,该方法通过获取丰富的空间特征,解决了模型参数较大导致的收敛速度慢的问题,提高了模型收敛速度以及识别准确率,可以有效识别车门开关有无异响。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种车门异响识别方法的流程图;
图2是本发明实施例提供的一种上层卷积模块的示意图;
图3是本发明实施例提供的第一普通卷积模块之后的并联卷积模块的示意图;
图4是本发明实施例提供的第二普通卷积模块之后的并联卷积模块的示意图;
图5是本发明实施例提供的一种车门异响识别模型的示意图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明实施例提供的车门异响识别方法,主要适用于构建车门异响识别模型,并使用训练样本数据库对构建的车门异响识别模型进行训练,使得训练后的车门异响识别模型可以用于识别待判断的车门声音信号的情况。本发明实施例提供的车门异响识别方法可以由集成在计算机、智能手机、平板电脑或服务器中的电子设备执行。
在对本发明实施例提供的车门异响识别方法进行详细介绍之前,先对该车门异响识别方法所解决的技术问题进行具体说明。
在现有技术中,通常采用迁移学习的方式,利用已有的卷积神经网络模型进行车门异常识别。然而,已有的卷积神经网络模型的源域任务与车门异常识别任务可能存在较大区别,或者,源域数据集与车门异常识别的目标域数据集可能存在较大区别,因此,这使得神经网络模型对于车门异常识别来说不具备针对性,导致了迁移学习中模型参数较大且收敛较慢,进而导致了模型的识别准确率较低。
为了解决上述问题,本发明实施例提供了一种车门异响识别方法,该方法针对车门异响识别任务,通过训练后的车门异响识别模型对待判断车门声音信号进行异响识别,该模型可以实现不同尺度特征的叠加和提取,获取更丰富的空间特征,解决了模型参数较大导致的收敛速度慢的问题,在保持模型轻量化的同时,提高了模型收敛速度以及识别准确率,可以有效识别车门开关有无异响。
图1是本发明实施例提供的一种车门异响识别方法的流程图。参见图1,该车门异响识别方法具体包括:
S110、获取训练后的车门异响识别模型。
其中,车门异响识别模型包括第一支网络、第二支网络、合并层以及输出模块,第一支网络由各下层卷积模块、上层卷积模块以及特征堆叠层构建,上层卷积模块中的每一个卷积层与特征堆叠层之间形成捷径连接,第二支网络由各普通卷积模块以及各并联卷积模块构建,并联卷积模块中的各卷积层的卷积核尺寸不完全相同。
在本实施例中,下层卷积模块可以理解为由卷积层组成的原始特征编码器。下层卷积模块的数量可以为多个;示例性的,第一支网络可以包括三个下层卷积模块。在本实施例中,各个下层卷积模块依次连接,即每一个下层卷积模块输出的特征图作为与其连接的下层卷积模块的输入。
具体的,下层卷积模块可以包括两个卷积层以及一个最大池化层。可选的,针对每一个下层卷积模块,可以在两个卷积层后连接批量归一化层和激活函数。连接批量归一化层和激活函数的目的在于:通过批量归一化层和激活函数可以加速模型的训练,提高模型训练效率。
在下层卷积模块中,两个卷积层依次连接,上层的卷积层与最大池化层连接。其中,卷积层可以对输入的数据进行特征提取,例如,采用3*3的卷积核,步长为1;最大池化层可以对输入的特征图进行压缩降维,例如,采用2*2的池化核,步长为1,最大池化层具体是保留区域内的最大值代表该区域。
在本实施例中,上层卷积模块的数量为一个。各个下层卷积模块依次连接后,最上层的下层卷积模块连接上层卷积模块。
示例性的,以下层卷积模块的数量为3个为例,下层卷积模块1连接下层卷积模块2,下层卷积模块1的输出作为下层卷积模块2的输入,下层卷积模块2连接下层卷积模块3,下层卷积模块2的输出作为下层卷积模块3的输入,下层卷积模块3连接上层卷积模块,下层卷积模块3的输出作为上层卷积模块的输入。下层卷积模块1为第一支网络中最底层的结构,其输入为车门声音样本数据或待判断车门声音信号。
其中,上层卷积模块可以包括多个卷积层和一个特征堆叠层。需要说明的是,上层卷积模块中的每一个卷积层分别与特征堆叠层之间形成捷径连接;在上层卷积模块中,最下层卷积层与最上层卷积层连接,即最下层卷积层的输出作为最上层卷积层的输入。
其中,捷径连接可以用于将卷积层的输出添加至特征堆叠层。即,上层卷积模块中与特征堆叠层形成捷径连接的每个卷积层的输出作为特征堆叠层的输入。
示例性的,以上层卷积模块包括3个卷积层为例:下层卷积模块3的输出,作为上层卷积模块中最下层的卷积层1以及中间的卷积层2的输入,最下层的卷积层1与最上层的卷积层3连接,卷积层1的输出作为卷积层3的输入;卷积层1、卷积层2以及卷积层3的输出均作为特征堆叠层的输入,即与特征堆叠层构成捷径连接。
需要说明的是,在上层卷积模块中,各个卷积层可以采用空洞卷积对输入的特征图进行处理。示例性的,在上层卷积模块中,卷积层1、卷积层2或卷积层3可以使用d=1或d=2的空洞卷积核代替普通卷积核。
采用空洞卷积的目的在于:例如,在空洞卷积核的扩张率d=2时,可以在3*3的卷积核中添加零填充,使得感受野增加至5*5。使用d=2的3*3的空洞卷积核可以代替原本的5*5的卷积核,在感受野相同的前提下,d=2的3*3的空洞卷积核仅使用9个参数,使得模型中卷积核的整体参数减少四分之一,进而使得模型更加轻量化。因此,通过使用空洞卷积,可以在不丢失分辨率的情况下扩大感受野,获得多尺度信息,并且,降低模型中卷积核的整体参数。
在上层卷积模块中,特征堆叠层可以用于将形成捷径连接的各卷积层输出的特征图进行叠加。在特征堆叠层对捷径连接的各卷积层输出的特征图进行叠加之前,还可以对上层卷积模块中各卷积层输出的特征图进行零填充,使得各卷积层输出的特征图的尺寸与各卷积层输出输入的特征图的尺寸相同,进而使得上层卷积模块中各卷积层输出的特征图的尺寸相同。
进一步的,特征堆叠层可以对上层卷积模块中各卷积层输出的特征图进行叠加,特征堆叠层的输出可以作为合并层的输入。需要说明的是,特征堆叠层是对每一个通道下的特征图进行叠加,不改变通道的数量。
例如,上层卷积模块的每个卷积层,输出24*24*256的特征图,其中24*24为特征图大小,256为特征图的通道数,特征图的通道数与卷积层中卷积核的数量相同,特征堆叠层进行叠加后,输出24*24*256的特征图。
其中,普通卷积模块可以是采用一般的卷积核进行卷积处理的模块;普通卷积模块可以包括多个卷积层和一个最大池化层。在本实施例中,普通卷积模块的数量可以等于并联卷积模块的数量。
具体的,每一个普通卷积模块后可以连接一个并联卷积模块。示例性的,普通卷积模块、并联卷积模块的数量均为2个,普通卷积模块1连接并联卷积模块1,普通卷积模块1的输出作为并联卷积模块1的输入,并联卷积模块1连接普通卷积模块2,并联卷积模块1的输出作为普通卷积模块2的输入,普通卷积模块2连接并联卷积模块3,普通卷积模块2的输出作为并联卷积模块3的输入。其中,普通卷积模块1为第二支网络的最底层的结构,其输入可以是车门声音样本数据或待判断车门声音信号。
在本实施例中,并联卷积模块可以是改进的Inception模块。其中,并联卷积模块可以包括多个并联的卷积分支,每一个卷积分支都可以对输入的特征图进行卷积处理,且所有卷积分支所使用的卷积核不完全相同。并联卷积模块中所有并联的卷积分支输出的特征图,可以全部输入至并联卷积模块中的拼接层,由拼接层对所有并联的卷积分支输出的特征图进行拼接。
在并联卷积模块中,各个卷积分支通过使用不同尺寸的卷积核,得到不同尺度的特征图,进而可以对各个卷积分支输出的特征图进行零填充,使得各个卷积分支输出的特征图的尺寸等于输入的特征图的尺寸,进一步的,在通过拼接层对多个不同尺度的特征图进行拼接。
可选的,并联卷积模块中的卷积分支还可以使用d=2的3*3空洞卷积核代替原本的5*5卷积核,实现特征通道的降维并减少模型参数。
需要说明的是,本实施例采用多个并联卷积模块一并构建第二支网络的目的在于:提高深度神经网络性能的最直接的方法就是增加其规模,然而,网络参数的数量随着网络规模的大小逐渐增加,并且,当训练集数量有限时,扩大的网络容易发生过拟合。考虑到采集到的车门声音样本数据的数量有限时,可能会出现由于网络深度过大或网络结构过于复杂产生过拟合的问题,也可能出现网络结构简单而导致性能差的问题。因此,为了避免上述问题,可以在第二支网络中引入多个并联卷积模块,各个并联卷积模块的结构可以是相同的,但输入到各个并联卷积模块的特征图的大小不同,因此各个并联卷积模块中可以设置不同的参数,以处理对应大小的特征图。
并且,通过使用多个并联卷积模块,可以实现对不同尺寸的特征图进行多尺度特征提取,以提取出不同层次的语义信息,获取更丰富的空间特征,进而解决现有技术采用迁移学习模型参数大、收敛速度慢、准确率低的问题。
还需说明的是,在第二支网络中,在较低层使用传统的卷积模块,在较高层使用并联卷积模块的好处在于:考虑到计算效率和实用性,该结构可以允许在每一阶段逐渐增加特征通道,而不会造成计算复杂性的不受控制的激增。
在本实施例中,车门异响识别模型由第一支网络、第二支网络、合并层以及输出模块构成。其中,第一支网络中最顶层的结构、第二支网络中最顶层的结构连接合并层,将输出作为合并层的输入。合并层连接输出模块,合并层的输出作为输出模块的输入。
具体的,合并层可以是Concatenate层。合并层可以用于拼接融合第一支网络和第二支网络输出的特征张量。需要说明的是,合并层对第一支网络和第二支网络输出的特征张量进行拼接融合,可以理解为通道数的合并,即通道数增加,每一个通道下的信息没有增加。
合并层可以将拼接融合后的目标特征向量发送至输出模块,以使输出模块得到对应的预测结果,即预测识别标签。其中,预测识别标签可以是有异响或无异响;或者,也可以是无异响、车门撞击声、玻璃震颤声、门锁撞击声或泄压阀拍击声。
在本实施例中,输出模块可以由全连接层(Dense层)以及Softmax函数组成。其中,全连接层可以根据输入层每一个神经元的输入值以及权重,确定出输出层各个神经元的输入值;Softmax函数可以根据输出层每一个神经元的输入值以及神经元数量,确定出输出层每一个神经元的输出值。示例性的,Softmax函数可以表示为:
在一种具体的实施方式中,获取训练后的车门异响识别模型,包括如下步骤:
步骤1101、获取训练样本数据库,其中,训练样本数据库包括各车门声音样本数据以及各所述车门声音样本数据对应的样本识别标签;
步骤1102、基于各下层卷积模块、上层卷积模块以及特征堆叠层,构建第一支网络,其中,上层卷积模块中的每一个卷积层与特征堆叠层之间形成捷径连接;
步骤1103、基于各普通卷积模块以及各并联卷积模块,构建第二支网络,其中,并联卷积模块中的各卷积层的卷积核尺寸不完全相同;
步骤1104、根据第一支网络、所述第二支网络、合并层以及输出模块,构建车门异响识别模型;
步骤1105、将各车门声音样本数据输入至车门异响识别模型,得到车门异响识别模型输出的预测识别标签;
步骤1106、基于各车门声音样本数据对应的预测识别标签以及样本识别标签,确定模型损失以及模型准确率;
步骤1107、根据模型损失以及所述模型准确率,对车门异响识别模型中的参数进行调整。
其中,训练样本数据库用于对车门异响识别模型进行训练,以调整车门异响识别模型中的超参数,得到最优的车门异响识别模型。
需要说明的是,在本实施例中,不对构建车门异响识别模型的执行顺序,与获取训练样本数据库的执行顺序进行限定,可以是先获取训练样本数据库,再构建车门异响识别模型,也可以是同时获取训练样本数据库并构建车门异响识别模型。
在本实施例中,可以获取批量车门声音样本数据,并确定对应的样本识别标签,构建数据库,进而将数据库划分为训练样本数据库和测试样本数据库。
具体的,训练样本数据库可以包括各车门声音样本数据以及各车门声音样本数据对应的样本识别标签。其中,样本识别标签可以由工程师反复对声音回放后确定,包括有异响以及无异响2个类别;或者,也可以包括无异响、车门撞击声、玻璃震颤声、门锁撞击声以及泄压阀拍击声5个类别。
其中,车门声音样本数据可以是车门声音样本信号对应的时域特征数据,如短时平均能力、平均幅度函数;或者,也可以是车门声音样本信号对应的频域特征数据,如经过傅里叶变换后的数据。车门声音样本信号可以是预先采集的车门关门的声音信号,如以手动关门或自动关门的方式、关门速度为1.2m/s、关门速度误差控制在0.02m/s的声音信号。
考虑到车门声音样本信号是一种非稳态的信号,利用时域特征数据或频域特征数据可能会使得模型识别效果差,为了进一步的提高模型识别效果,本实施例还可以将车门声音样本信号对应的时频特征数据作为车门声音样本数据。
针对上述步骤1101,可选的,获取训练样本数据库,包括:获取各车门声音样本信号以及各车门声音样本信号对应的样本识别标签;对各车门声音样本信号进行小波变换处理,得到各车门声音样本信号对应的车门声音时频图,将各车门声音时频图作为各车门声音样本数据;根据各车门声音样本数据以及各车门声音样本数据对应的样本识别标签,构建训练样本数据库。
其中,车门声音样本信号可以的采集过程可以是:采用HEAD公司的专业人工头设备在半消声室中,采集来自50辆车的1000组声音信号,每辆车的四个车门分别需要采集5组声音信号背景噪声25dB(A),截止频率80Hz。
进一步的,可以通过对车门声音样本信号进行小波变换处理,得到对应的时频特征数据,即车门声音时频图,将其作为车门声音样本数据。进一步的,根据各车门声音样本数据以及对应的样本识别标签构建训练样本数据库。
通过小波变换得到各个车门声音样本信号对应的车门声音时频图,实现了基于时频分析的车门异响识别,进一步的提高了模型的识别准确性。
进一步的,基于上述步骤1102-1104,可以实现对车门异响识别模型的构建。在获取到训练样本数据库,并构建车门异响识别模型后,可以使用训练样本数据库对车门异响识别模型进行训练,以调整车门异响识别模型中的超参数,直至满足训练迭代终止条件。其中,训练迭代终止条件可以是迭代次数达到预设次数、损失收敛或模型准确率达到预设阈值。
具体的,可以将训练样本数据库中的各车门声音样本数据输入至车门异响识别模型,得到车门异响识别模型输出的预测识别标签,进而根据各车门声音样本数据的预测识别标签以及样本识别标签,计算损失函数,根据损失函数的计算值对参数权重和偏置进行调整。
可选的,在将各车门声音样本数据输入至车门异响识别模型之前,还可以通过Keras图像预处理工具ImageDataGenerator,对各车门声音样本数据进行数据增强处理。
示例性的,在车门异响识别模型的训练过程中,可以使用Adam优化算法进行优化。Adam算法在整个优化过程中,学习率会随着训练过程的前进不断更新,前期学习率较大,每次更新的步长也比较大,随着训练开始步长逐渐减少,有利于模型快速收敛。
如,学习率可以设置为0.001,轮数epoch设置为100,每轮训练传递的车门声音样本数据的个数batch_size设置为6。
其中,模型损失用于描述样本识别标签与预测识别标签之间的差距程度,模型损失越小,表示模型鲁棒性越好。模型损失可以根据平方损失函数、指数损失函数、Hinge损失函数或交叉熵损失函数计算得到。
模型准确率用于描述模型正确识别的样本的比例,模型准确率越大,表示车门异响识别模型的识别效果越好。
针对上述步骤1106,可选的,基于各车门声音样本数据对应的预测识别标签以及样本识别标签,确定模型损失以及模型准确率,包括:
基于各车门声音样本数据对应的预测识别标签以及样本识别标签,对交叉熵损失函数进行计算,将计算结果作为模型损失;
根据各车门声音样本数据对应的预测识别标签以及样本识别标签,确定车门异响识别模型正确识别有异响的第一样本数量、正确识别无异响的第二样本数量、错误识别有异响的第三样本数量以及错误识别无异响的第四样本数量;
基于第一样本数量、第二样本数量、第三样本数量以及第四样本数量,确定模型准确率。
其中,示例性的,交叉熵损失函数可以用下式表示:
其中,表示交叉熵损失函数的计算结果,表示车门异响识别模型输出的第i个
预测识别标签是否正确,当预测识别标签与样本识别标签一致时为1,其余为0,表示
车门异响识别模型输出第i个预测识别标签的概率,表示车门异响识别模型输出预测识
别标签的数量。
在本实施例中,车门异响识别模型正确识别有异响的第一样本数量,以及正确识别无异响的第二样本数量,构成模型正确识别的样本总数量;错误识别有异响的第三样本数量,以及错误识别无异响的第四样本数量,构成模型错误识别的样本总数量。
具体的,可以模型正确识别的样本总数量与模型错误识别的样本总数量的和作为总样本数,将模型正确识别的样本总数量与总样本数的比值作为模型准确率。示例性的,参见如下公式:
通过上述方式,实现了模型损失和模型准确率的准确确定,便于进行模型参数的调整。与仅通过损失值对模型参数进行调整的方式相比,通过模型损失和模型准确率对模型参数进行调整,可以进一步提高模型收敛速度。
在训练完成后,可以使用测试样本数据库对车门异响识别模型进行测试。示例性的,表1展示了一种测试结果,使用测试样本数据库(200张车门声音时频图)进行测试,每一类型的测试结果如表1所示。
表1 一种测试结果
根据表1可知,车门异响识别模型在测试样本数据库的准确率为94.5%,验证了车门异响识别模型的预测稳定性和预测准确率。
参见表2,表2展示了一种模型性能对比结果。使用相同的测试样本数据库分别对VGG16-迁移学习模型,Retnet50-迁移学习模型、InceptionV3-迁移学习模型进行测试,得到各个迁移学习模型的准确率。
表2 一种模型性能对比结果
VGG16-迁移学习模型 | Retnet50-迁移学习模型 | InceptionV3-迁移学习模型 | 本实施例车门异响识别模型 | |
准确率 | 91% | 90% | 90.5% | 94.5% |
对比结果表明,本实施例提供的车门异响识别模型的模型准确率最高。
在本实施例中,训练能完成后的车门异响识别模型,可以用于对待判断车门声音信号进行识别,得到待判断车门声音信号对应的识别结果。其中,识别结果可以是有异响或无异响;或者,识别结果可以是无异响、车门撞击声、玻璃震颤声、门锁撞击声或泄压阀拍击声。
S120、获取待判断车门声音信号,确定待判断车门声音信号对应的待判断时频图。
其中,待判断车门声音信号可以是当前需要进行异响识别的车门声音信号,如,识别是否存在异响,或在识别是否存在异响的同时,识别异响的类型。
具体的,可以对待判断车门声音信号进行小波变化处理,得到对应的待判断时频图。
在一种可选的实施方式中,确定待判断车门声音信号对应的待判断时频图,可以包括:对待判断车门声音信号进行小波变换处理,得到车门声音样本信号对应的待判断时频图;对待判断时频图进行归一化处理、预加重处理以及分帧加窗处理中的至少一项,基于处理结果更新待判断时频图。
由于车门声音样本信号属于非平稳连续时变的信号,在对其进行信号分析时需要将其转变为离散的数字信号,如果数字信号中出现某些数值非常大的情况,会造成数据值差距较大,不在同一个数量级,因此,可以对车门声音样本信号进行归一化处理,避免因数值分布不均衡影响识别准确率。
具体的,对车门声音样本信号进行归一化处理,可以是将所有车门声音样本信号映射到设定的数值范围内。如,标准归一化,将车门声音样本信号映射到[0,1]范围内;或者,对数函数归一化。
由于车门声音样本信号的采集过程中,采集装置与车门有一定的距离,车门声音样本信号在传播的过程中可能存在能量损耗,部分高频信号会有所衰弱,造成高频信噪比降低。为了步长车门声音样本信号中高频能量的损失,可以对采集到的车门声音样本信号进行预加重处理。示例性的,可以采用一阶无限长冲击响应高通卷积核对各车门声音样本信号进行处理,以增强高频成分,提高高频信噪比。
由于车门声音样本信号是一种非平稳信号,其波形不具有周期性,频率和幅值都在不断变化,因此,不能直接使用处理平稳信号的方法对车门声音样本信号进行处理。声音信号在10ms~30ms的时间内,可以作为平稳信号进行处理,所以对非平稳信号需要进行短时分析,通过分帧处理将车门声音样本信号划分成若干个10ms~30ms的连续时间段,每一个小段称为“帧”,为了确保相邻帧之间信号处理的平滑过渡,相邻帧之间可以具备重叠的部分,一般重叠部分为帧长的0.2~0.5倍,重叠部分称为帧移。示例性的,帧长取30ms,帧移位15ms,对所有车门声音样本信号进行分帧加窗处理。
通过上述归一化处理、预加重处理或分帧加窗处理,可以进一步提高车门异响识别模型的识别准确性。当然,也可以在车门异响识别模型训练之前,对训练样本数据库中的各车门声音样本数据进行归一化处理、预加重处理或分帧加窗处理,以提高模型预测精度。
S130、将待判断时频图输入至第一支网络得到第一目标特征图,将待判断时频图输入至第二支网络得到第二目标特征向量,将第一目标特征图与第二目标特征图输入至合并层得到目标特征向量,将目标特征向量输入至输出模块得到待判断车门声音信号对应的异响识别结果。
具体的,车门异响识别模型中的第一支网络和第二支网络作为并行的特征提取网络。即,待判断车门声音信号可以同时输入至第一支网络中最底层的结构以及第二支网络中最底层的结构。
在本实施例中,待判断时频图会同时进入第一支网络和第二支网络,得到第一支网络输出的第一目标特征图,以及第二支网络输出的第二目标特征图。
在一种具体的实施方式中,将待判断时频图输入至第一支网络得到第一目标特征图,可以包括如下步骤:
步骤11、通过第一支网络的各下层卷积模块,得到待判断时频图的下层特征图,将下层特征图分别输入至上层卷积模块中的第一空洞卷积层以及第二空洞卷积层,得到上层第一特征图以及上层第二特征图;
步骤12、将上层第一特征图输入至上层卷积模块中的第三空洞卷积层,得到上层第三特征图;
步骤13、将上层第一特征图、上层第二特征图以及上层第三特征图通过捷径连接输入至特征堆叠层,得到特征堆叠层输出的第一目标特征图。
即,可以将待判断时频图输入至第一支网络中最底层的下层卷积模块,进而依次通过各个下层卷积模块,得到最后一个下层卷积模块输出的下层特征图。将下层特征图同时输入至第一空洞卷积层以及第二空洞卷积层。其中,第一空洞卷积层可以采用d=1的3*3空洞卷积核,第二空洞卷积层可以采用d=2的3*3空洞卷积核。
进一步的,将第一空洞卷积层输出的上层第一特征图输入至第三空洞卷积层,得到上层第三特征图。其中,第三空洞卷积层可以采用d=2的3*3空洞卷积核。进一步的,将上层第一特征图、上层第二特征图以及上层第三特征图通过捷径连接输入至特征堆叠层。
示例性的,图2是本发明实施例提供的一种上层卷积模块的示意图。参见图2,上层卷积模块的三个空洞卷积层后均可接入批量归一化层(Batch Normalization,BN)和激活函数(ReLU),最后一个下层卷积模块输出的下层特征图同时输入至第一空洞卷积层以及第二空洞卷积层,第一空洞卷积层输出的上层第一特征图输入至第三空洞卷积层,上层第一特征图、上层第二特征图以及第三空洞卷积层输出的上层第三特征图一并输入至特征堆叠层。其中,特征堆叠层可以是Add层,与三个空洞卷积层构成捷径连接。
通过上述捷径连接将上层卷积模块中各个空洞卷积层的特征图输入至特征堆叠层,进而通过特征堆叠层实现对不同尺度的特征的叠加,进一步的丰富了模型获取到的空间特征,进而提高了模型的识别准确率。并且,通过在上层卷积模块中引入空洞卷积,得到更大的感受野,进而获取更大范围的特征,改善下采样过程中特征信息丢失的问题,且引入空洞卷积可以使模型的整体参数减少四分之一,使模型更加轻量化。
在一种具体的实施方式中,各普通卷积模块包括第一普通卷积模块和第二普通卷积模块,将待判断时频图输入至第二支网络得到第二目标特征向量,可以包括如下步骤:
步骤21、将待判断时频图输入至第一普通卷积模块,得到待判断时频图对应的第一普通特征图;
步骤22、将第一普通特征图输入至第一普通卷积模块之后的并联卷积模块,得到待判断时频图对应的第一多尺度特征融合图;
步骤23、将第一多尺度特征融合图输入至第二普通卷积模块,得到待判断时频图对应的第二普通特征图;
步骤24、将第二普通特征图输入至第二普通卷积模块之后的并联卷积模块,得到待判断时频图对应的第二多尺度特征融合图,将第二多尺度特征融合图作为待判断时频图对应的第二目标特征图。
其中,第一普通卷积模块为第二支网络中最底层的结构。第一普通卷积模块连接一个并联卷积模块,该并联卷积模块连接第二普通卷积模块,第二普通卷积模块连接另一个并联卷积模块。
具体的,待判断时频图在第二支网络中的处理过程为:先由第一普通卷积模块提取对应的第一普通特征图,再由位于第一普通卷积模块之后并联卷积模块提取对应的第一多尺度特征融合图,进而再由第二普通卷积模块提取对应的第二普通特征图,最后再由第二普通卷积模块之后的并联卷积模块提取对应的第二多尺度特征融合图。
需要说明的是,在本实施例中采用多个并联卷积模块得到多尺度特征融合图的好处在于:可以实现对不同尺寸的特征图分别进行多尺度特征提取,使模型获取到更加丰富的空间特征,进而提高模型识别准确率。
具体的,两个并联卷积模块的结构可以是相同,均包括多个并联的卷积分支。以第一普通卷积模块之后的并联卷积模块为例,针对上述步骤22,可选的,将第一普通特征图输入至第一普通卷积模块之后的并联卷积模块,得到待判断时频图对应的第一多尺度特征融合图,包括:
将第一普通特征图分别输入至第一普通卷积模块之后的并联卷积模块中的第一分支、第二分支、第三分支以及第四分支,其中,第一分支、第二分支、第三分支以及第四分支使用的卷积核的尺寸不完全相同,第四分支包括空洞卷积层;
将第一分支、第二分支、第三分支以及第四分支输出的特征图,输入至第一普通卷积模块之后的并联卷积模块中的拼接层,得到待判断时频图对应的第一多尺度特征融合图。
其中,并联卷积模块中的第一分支、第二分支、第三分支以及第四分支均可以对第一普通特征图进行特征提取,进而并联卷积模块中的拼接层可以对四个分支输出的特征图进行拼接。具体的,每一个分支可以包括至少一个卷积层;第四分支包括使用空洞卷积核的空洞卷积层,如,使用d=2的3*3空洞卷积核。
通过将普通卷积模块输出的普通特征图同时输入至并联卷积模块中的各个分支,以通过各个分支实现多尺度的特征提取,进而实现多尺度的特征融合,进一步的提高了语音信息的获取量。并且,通过在并联卷积模块设置包括空洞卷积层的第四分支,可以在保持模型轻量化的同时可以增加网络深度获取更丰富的空间特征。
可以理解的是,第二多尺度特征融合图的确定过程可以参见上述第一多尺度特征融合图的确定过程,在此不再赘述。
示例性的,图3是本发明实施例提供的第一普通卷积模块之后的并联卷积模块的示意图,图4是本发明实施例提供的第二普通卷积模块之后的并联卷积模块的示意图。参见图3-4,第一分支可以包括一个使用1*1卷积核的卷积层(conv),第二分支可以包括使用1*1卷积核的卷积层以及使用3*3卷积核的卷积层,第三分支可以包括使用1*1池化核的最大池化层(maxpooling)和使用1*1卷积核的卷积层,第四分支可以包括使用1*1卷积核的卷积层和使用d=2的3*3空洞卷积核的卷积层。两个并联卷积模块的结构相同,但由于输入的不同,其中各分支所设置的卷积核的数量,即通道数不同。
需要说明的是,在并联卷积模块中,各个分支输出的特征图还可以进行零填充,使得各个分支输出的特征图的尺寸等于其输入的特征图的尺寸,进而通过拼接层对各个分支输出的不同尺度的特征图进行特征拼接。
可选的,第一支网络还包括第一最大池化层,第一最大池化层位于特征堆叠层之后,第二支网络还包括第二最大池化层,第二最大池化层位于最上层的并联卷积模块之后。其中,第一最大池化层和第二最大池化层可以使用2*2的池化核。
示例性的,第一支网络的特征堆叠层输出的第一目标特征图可以再输入至第一最大池化层,将第一最大池化层的输出作为最终的第一目标特征图;第二支网络中最上层的并联卷积模块输出的第二目标特征图可以再输入至第二最大池化层,将第二最大池化层的输出作为最终的第二目标特征图。
在得到第一目标特征图以及第二目标特征图后,可以通过合并层对第一目标特征图和第二目标特征图进行合并,得到目标特征向量。
示例性的,在合并层对第一目标特征图和第二目标特征图进行合并之前,还可以先将第一目标特征图以及第二目标特征图转化为一维数组,进而合并层对两个一维数组进行合并。
在一种具体的实施方式中,第一支网络还包括第一特征平铺层以及第一全连接层,第二支网络还包括第二特征平铺层以及第二全连接层,将第一目标特征图与第二目标特征图输入至合并层得到目标特征向量,可以包括如下步骤:
步骤31、将第一目标特征图输入至第一特征平铺层,得到待判断时频图对应的第一特征数组,将第一特征数组输入至第一全连接层,得到待判断时频图对应的第一特征张量;
步骤32、将第二目标特征图输入至第二特征平铺层,得到待判断时频图对应的第二特征数组,将第二特征数组输入至第二全连接层,得到待判断时频图对应的第二特征张量;
步骤33、通过合并层对第一特征张量以及第二特征张量进行特征合并,得到待判断时频图对应的目标特征向量。
其中,第一特征平铺层可以是位于特征堆叠层之后的Flatten层,第一全连接层可以是位于第一特征平铺层之后的Dense层;第二特征平铺层可以是位于最上层的并联卷积模块之后的Flatten层,第二全连接层可以是位于第二特征平铺层之后的Dense层。
具体的,第一特征平铺层、第二特征平铺层可以分别将第一目标特征图、第二目标特征图转化为一维数组,得到第一特征数组、第二特征数组,作为第一全连接层、第二全连接层的输入。
进一步的,第一全连接层、第二全连接层可以分别根据全连接层节点的数量,将第一特征数组、第二特征数组转化为与全连接层节点的数量对应的第一特征张量、第二特征张量。如,第一全连接层的节点的数量为128,第二全连接层的节点的数量为256。
最后,合并层对第一特征张量以及第二特征张量进行特征合并,得到目标特征向量。其中,合并层可以是Concatenate层,用于实现并行的第一支网络和第二支网络输出特征的拼接融合。
通过上述步骤31-步骤33,实现了对第一支网络和第二支网络输出的特征图的合并,实现了并行网络输出特征的拼接融合,确保了模型识别准确率。
进一步的,输出模块可以包括全连接层和Softmax函数。具体的,合并层融合后的目标特征向量输入至全连接层,进而通过Softmax函数得到异响识别结果。
本实施例具有以下技术效果:获取训练后的车门异响识别模型,并确定待判断车门声音信号对应的待判断时频图,进而通过车门异响识别模型中包括各下层卷积模块、上层卷积模块以及特征堆叠层的第一支网络,确定第一目标特征图,以实现不同尺度特征的叠加,并通过车门异响识别模型中包括各普通卷积模块以及各并联卷积模块确定第二目标特征图,以在保证模型轻量化的同时增加网络深度,实现不同尺度特征的提取,获取更丰富的空间特征,最后通过合并层和输出模块得到待判断车门声音信号对应的异响识别结果,以通过多尺度特征合并后的结果对待判断车门声音信号进行异响识别,该方法通过获取丰富的空间特征,解决了模型参数较大导致的收敛速度慢的问题,提高了模型收敛速度以及识别准确率,可以有效识别车门开关有无异响。
示例性的,图5是本发明实施例提供的一种车门异响识别模型的示意图。其中,左半边为第一支网络,右半边为第二支网络。输入的车门声音样本数据或待判断车门声音信号的尺寸为224*224*3。
在第一支网络中,前三个下层卷积模块中各卷积层使用3*3的卷积核,步长为1,填充方式为不填充,卷积核数量依次为32,64,128;池化层使用尺寸为2*2的池化核,步长为1,池化核数量依次为32,64,128。224*224*3的输入经过三个下层卷积模块的下采样处理,得到24*24*128的特征图。
进一步的,上层卷积模块中使用d=1和d=2的空洞卷积(dilated convolution)替代传统标准卷积,卷积核尺寸为3*3,步长为1,卷积核数量均为256,对经过上层卷积模块中三个卷积层的特征图进行零填充,使输出特征图尺寸等于输入特征图尺寸。三个特征图在特征堆叠层(Add层)通过捷径连接方式拼接。第一特征平铺层(Flatten层)可以将12*12*256 的三维数组转换为一维数组作为第一全连接层(Dense层)的输入,第一全连接层节点数目为128。
在第二支网络中,包括两个普通卷积模块和两个并联卷积模块。均包括两个卷积层和一个最大池化层,两个并联卷积模块均包括四个分支,前层的普通卷积模块输出的特征图经过四个分支后拼接融合再输出。
在第二支网络中,最下层的普通卷积模块包括两个卷积层和一个最大池化层,卷积核尺寸均为3*3,卷积核数量均为32,卷积层1的步长为1,卷积层2的步长为2,尺寸为224*224*3的图像经过模块1的下采样处理,得到55*55*32的特征图。
在并联卷积模块中,使用1*1的卷积核,可以实现特征通道的升维和降维并减少卷积核参数,并且,使用d=2的3*3空洞卷积核代替原本的5*5卷积核,实现特征通道的降维并减少参数。通过使用不同尺寸的卷积核,得到不同尺度的特征,并对特征图进行零填充,使输入特征图尺寸等于输出特征图尺寸,再通过特征拼接将四个不同尺度的特征拼接。最下层的普通卷积模块之后的并联卷积模块,可以输出55*55*64的特征图。
进一步的,经过上层的普通卷积模块,该普通卷积模块包括两个卷积层和一个最大池化层,卷积核尺寸均为3*3,卷积核数量均为128,步长都为1,55*55*64的特征图经过该普通卷积模块的下采样处理,得到25*25*128的特征图。进一步的,经过上层的并联卷积模块,输出25*25*256的特征图。经过池化层和第二特征平铺层,可以将25*25*256 的三维数组转换为一维数组作为第二全连接层的输入,第二全连接层节点数目为128。
最后,经过合并层,拼接融合两个支网络的特征张量并输入到全连接层,得到一个256维的向量,再通过Softmax函数得到识别结果,判断有无异响,或者,判断有无异响的同时判断异响类别。
在全连接层中,还可以增加Dropout(随机丢弃法)操作,让神经元以一定的概率失活从而不参与传播,隐藏层之间的单元节点不完全连接;Dropout定义的舍去概率固定为0.5。通过在全连接层中引入随机丢弃操作,减少模型中不同隐藏节点间相互影响,减少了模型参数,抑制了模型过拟合,进一步提升模型的泛化能力,避免模型在参数过多时可能产生过拟合现象导致的模型在训练时误差较小,在验证时误差较大。
本实施例提供的车门异响识别方法,模型中的捷径连接可以实现不同尺度特征的叠加,第二支网络中的并联卷积模块可以在保证模型轻量化的同时增加网络深度,获取更丰富的空间特征,解决了模型参数较大导致的收敛速度慢的问题,提高了模型收敛速度以及识别准确率,可以有效识别车门开关有无异响。
并且,第一支网络和第二支网络所使用的卷积核不完全相同,使得第一支网络和第二支网络可以得到的不同尺度的特征,即不同层次的特征,通过融合不同层级的特征丰富特征空间。此外,考虑到诸如颜色、纹理和轮廓等浅层次的特征,在任何数据集上不会存在较大差异的,而深层次的特征会因为数据的不同而存在一定的差异性,因此,本发明在第一支网络和第二支网络中均设置多个卷积层,以通过多个卷积层,提取待判断时频图的深层次特征,以提高模型在车门异响识别的精度。
图6是本发明实施例提供的一种电子设备的结构示意图。如图6所示,电子设备700包括一个或多个处理器701和存储器702。
处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备700中的其他组件以执行期望的功能。
存储器702可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器701可以运行所述程序指令,以实现上文所说明的本发明任意实施例的车门异响识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。
在一个示例中,电子设备700还可以包括:输入装置703和输出装置704,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。该输入装置703可以包括例如键盘、鼠标等等。该输出装置704可以向外部输出各种信息,包括预警提示信息、制动力度等。该输出装置704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图6中仅示出了该电子设备700中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备700还可以包括任何其他适当的组件。
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的车门异响识别方法的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本发明任意实施例所提供的车门异响识别方法的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,本发明所用术语仅为了描述特定实施例,而非限制本申请范围。如本发明说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
还需说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”等应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案。
Claims (10)
1.一种车门异响识别方法,其特征在于,包括:
获取训练后的车门异响识别模型,其中,所述车门异响识别模型包括第一支网络、第二支网络、合并层以及输出模块,所述第一支网络由各下层卷积模块、上层卷积模块以及特征堆叠层构建,所述上层卷积模块中的每一个卷积层与所述特征堆叠层之间形成捷径连接,所述第二支网络由各普通卷积模块以及各并联卷积模块构建,所述并联卷积模块中的各卷积层的卷积核尺寸不完全相同;
获取待判断车门声音信号,确定所述待判断车门声音信号对应的待判断时频图;
将所述待判断时频图输入至所述第一支网络得到第一目标特征图,将所述待判断时频图输入至所述第二支网络得到第二目标特征向量,将所述第一目标特征图与所述第二目标特征图输入至所述合并层得到目标特征向量,将所述目标特征向量输入至所述输出模块得到所述待判断车门声音信号对应的异响识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待判断时频图输入至所述第一支网络得到第一目标特征图,包括:
通过所述第一支网络的各所述下层卷积模块,得到所述待判断时频图的下层特征图,将所述下层特征图分别输入至所述上层卷积模块中的第一空洞卷积层以及第二空洞卷积层,得到上层第一特征图以及上层第二特征图;
将所述上层第一特征图输入至所述上层卷积模块中的第三空洞卷积层,得到上层第三特征图;
将所述上层第一特征图、所述上层第二特征图以及所述上层第三特征图通过所述捷径连接输入至所述特征堆叠层,得到所述特征堆叠层输出的第一目标特征图。
3.根据权利要求1所述的方法,其特征在于,各所述普通卷积模块包括第一普通卷积模块和第二普通卷积模块,所述将所述待判断时频图输入至所述第二支网络得到第二目标特征向量,包括:
将所述待判断时频图输入至所述第一普通卷积模块,得到所述待判断时频图对应的第一普通特征图;
将所述第一普通特征图输入至所述第一普通卷积模块之后的并联卷积模块,得到所述待判断时频图对应的第一多尺度特征融合图;
将所述第一多尺度特征融合图输入至所述第二普通卷积模块,得到所述待判断时频图对应的第二普通特征图;
将所述第二普通特征图输入至所述第二普通卷积模块之后的并联卷积模块,得到所述待判断时频图对应的第二多尺度特征融合图,将所述第二多尺度特征融合图作为所述待判断时频图对应的第二目标特征图。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一普通特征图输入至所述第一普通卷积模块之后的并联卷积模块,得到所述待判断时频图对应的第一多尺度特征融合图,包括:
将所述第一普通特征图分别输入至所述第一普通卷积模块之后的并联卷积模块中的第一分支、第二分支、第三分支以及第四分支,其中,所述第一分支、所述第二分支、所述第三分支以及所述第四分支使用的卷积核的尺寸不完全相同,所述第四分支包括空洞卷积层;
将所述第一分支、所述第二分支、所述第三分支以及所述第四分支输出的特征图,输入至所述第一普通卷积模块之后的并联卷积模块中的拼接层,得到所述待判断时频图对应的第一多尺度特征融合图。
5.根据权利要求1所述的方法,其特征在于,所述第一支网络还包括第一特征平铺层以及第一全连接层,所述第二支网络还包括第二特征平铺层以及第二全连接层,所述将所述第一目标特征图与所述第二目标特征图输入至所述合并层得到目标特征向量,包括:
将所述第一目标特征图输入至所述第一特征平铺层,得到所述待判断时频图对应的第一特征数组,将所述第一特征数组输入至所述第一全连接层,得到所述待判断时频图对应的第一特征张量;
将所述第二目标特征图输入至所述第二特征平铺层,得到所述待判断时频图对应的第二特征数组,将所述第二特征数组输入至所述第二全连接层,得到所述待判断时频图对应的第二特征张量;
通过所述合并层对所述第一特征张量以及所述第二特征张量进行特征合并,得到所述待判断时频图对应的目标特征向量。
6.根据权利要求1所述的方法,其特征在于,所述获取训练后的车门异响识别模型,包括:
获取训练样本数据库,其中,所述训练样本数据库包括各车门声音样本数据以及各所述车门声音样本数据对应的样本识别标签;
基于各下层卷积模块、上层卷积模块以及特征堆叠层,构建第一支网络,其中,所述上层卷积模块中的每一个卷积层与所述特征堆叠层之间形成捷径连接;
基于各普通卷积模块以及各并联卷积模块,构建第二支网络,其中,所述并联卷积模块中的各卷积层的卷积核尺寸不完全相同;
根据所述第一支网络、所述第二支网络、合并层以及输出模块,构建车门异响识别模型;
将各所述车门声音样本数据输入至所述车门异响识别模型,得到所述车门异响识别模型输出的预测识别标签;
基于各所述车门声音样本数据对应的预测识别标签以及样本识别标签,确定模型损失以及模型准确率;
根据所述模型损失以及所述模型准确率,对所述车门异响识别模型中的参数进行调整。
7.根据权利要求6所述的方法,其特征在于,所述基于各所述车门声音样本数据对应的预测识别标签以及样本识别标签,确定模型损失以及模型准确率,包括:
基于各所述车门声音样本数据对应的预测识别标签以及样本识别标签,对交叉熵损失函数进行计算,将计算结果作为模型损失;
根据各所述车门声音样本数据对应的预测识别标签以及样本识别标签,确定所述车门异响识别模型正确识别有异响的第一样本数量、正确识别无异响的第二样本数量、错误识别有异响的第三样本数量以及错误识别无异响的第四样本数量;
基于所述第一样本数量、所述第二样本数量、所述第三样本数量以及所述第四样本数量,确定所述模型准确率。
8.根据权利要求1所述的方法,其特征在于,所述确定所述待判断车门声音信号对应的待判断时频图,包括:
对所述待判断车门声音信号进行小波变换处理,得到所述车门声音样本信号对应的待判断时频图;
对所述待判断时频图进行归一化处理、预加重处理以及分帧加窗处理中的至少一项,基于处理结果更新所述待判断时频图。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至8任一项所述的车门异响识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至8任一项所述的车门异响识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211597489.6A CN115587337B (zh) | 2022-12-14 | 2022-12-14 | 车门异响识别方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211597489.6A CN115587337B (zh) | 2022-12-14 | 2022-12-14 | 车门异响识别方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115587337A true CN115587337A (zh) | 2023-01-10 |
CN115587337B CN115587337B (zh) | 2023-06-23 |
Family
ID=84783371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211597489.6A Active CN115587337B (zh) | 2022-12-14 | 2022-12-14 | 车门异响识别方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115587337B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758212A (zh) * | 2022-11-10 | 2023-03-07 | 四川轻化工大学 | 一种基于并行网络和迁移学习的机械设备故障诊断方法 |
CN117091848A (zh) * | 2023-10-20 | 2023-11-21 | 潍柴动力股份有限公司 | 一种基于声信号的发动机异响识别方法、装置及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580915A (zh) * | 2019-09-17 | 2019-12-17 | 中北大学 | 基于可穿戴式设备的声源目标识别系统 |
CN111291715A (zh) * | 2020-02-28 | 2020-06-16 | 安徽大学 | 基于多尺度卷积神经网络的车型识别方法、电子设备及存储介质 |
CN111968168A (zh) * | 2020-08-05 | 2020-11-20 | 东南大学 | 多分支可调节瓶颈卷积模块以及端对端的立体匹配网络 |
CN113239782A (zh) * | 2021-05-11 | 2021-08-10 | 广西科学院 | 一种融合多尺度gan和标签学习的行人重识别系统及方法 |
CN113609970A (zh) * | 2021-08-03 | 2021-11-05 | 西北工业大学 | 基于分组卷积深度U_Net的水下目标识别方法 |
CN114821069A (zh) * | 2022-05-27 | 2022-07-29 | 昆明理工大学 | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 |
CN114882911A (zh) * | 2022-05-31 | 2022-08-09 | 平安科技(深圳)有限公司 | 声音事件检测方法、装置、设备及存储介质 |
-
2022
- 2022-12-14 CN CN202211597489.6A patent/CN115587337B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580915A (zh) * | 2019-09-17 | 2019-12-17 | 中北大学 | 基于可穿戴式设备的声源目标识别系统 |
CN111291715A (zh) * | 2020-02-28 | 2020-06-16 | 安徽大学 | 基于多尺度卷积神经网络的车型识别方法、电子设备及存储介质 |
CN111968168A (zh) * | 2020-08-05 | 2020-11-20 | 东南大学 | 多分支可调节瓶颈卷积模块以及端对端的立体匹配网络 |
CN113239782A (zh) * | 2021-05-11 | 2021-08-10 | 广西科学院 | 一种融合多尺度gan和标签学习的行人重识别系统及方法 |
CN113609970A (zh) * | 2021-08-03 | 2021-11-05 | 西北工业大学 | 基于分组卷积深度U_Net的水下目标识别方法 |
CN114821069A (zh) * | 2022-05-27 | 2022-07-29 | 昆明理工大学 | 融合富尺度特征的双分支网络遥感图像建筑语义分割方法 |
CN114882911A (zh) * | 2022-05-31 | 2022-08-09 | 平安科技(深圳)有限公司 | 声音事件检测方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115758212A (zh) * | 2022-11-10 | 2023-03-07 | 四川轻化工大学 | 一种基于并行网络和迁移学习的机械设备故障诊断方法 |
CN115758212B (zh) * | 2022-11-10 | 2023-04-21 | 四川轻化工大学 | 一种基于并行网络和迁移学习的机械设备故障诊断方法 |
CN117091848A (zh) * | 2023-10-20 | 2023-11-21 | 潍柴动力股份有限公司 | 一种基于声信号的发动机异响识别方法、装置及系统 |
CN117091848B (zh) * | 2023-10-20 | 2024-02-20 | 潍柴动力股份有限公司 | 一种基于声信号的发动机异响识别方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115587337B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784798B (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN111582225B (zh) | 一种遥感图像场景分类方法及装置 | |
CN115587337B (zh) | 车门异响识别方法、设备和存储介质 | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
CN110491416A (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN110289003A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN107331384A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN110675881B (zh) | 一种语音校验方法和装置 | |
CN104538035B (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN110969073B (zh) | 一种基于特征融合与bp神经网络的人脸表情识别方法 | |
CN111048097B (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN111986699A (zh) | 基于全卷积网络的声音事件检测方法 | |
CN115393968A (zh) | 一种融合自监督多模态特征的视听事件定位方法 | |
CN114220458A (zh) | 基于阵列水听器的声音识别方法和装置 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN114020897A (zh) | 一种对话情感识别方法及相关装置 | |
CN113326868B (zh) | 一种用于多模态情感分类的决策层融合方法 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN108831487A (zh) | 声纹识别方法、电子装置及计算机可读存储介质 | |
CN115171878A (zh) | 基于BiGRU和BiLSTM的抑郁症检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |