CN116935278A

CN116935278A - 基于同步信号的车型识别方法、装置、电子设备及介质

Info

Publication number: CN116935278A
Application number: CN202310917087.8A
Authority: CN
Inventors: 李锋; 蔡煜邦; 赵有婷
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-24
Anticipated expiration: 2043-07-25
Also published as: CN116935278B

Abstract

本发明公开了基于同步信号的车型识别方法、装置、电子设备及介质，方法包括：获取待识别的车辆行驶视频，对车辆行驶视频进行图音分离，获得车辆图片和车辆音频；将车辆音频转化为梅尔频谱图，对车辆图片和梅尔频谱图进行拼接，获得合成图像；利用车型识别模型，对合成图像进行分析，获得车型识别结果；其中，车型识别模型基于卷积神经网络对已标注车型标签的合成图像所提取的音频特征和视觉特征进行联合学习训练得到。本发明实施例通过两种基于不同采集原理的输入信号互为补充，有效提高了综合识别准确率，防止了因单一信号特征模糊而导致的对特定场景不适应而失能的情况。本发明实施例能够准确进行车型识别，可广泛应用于数据处理技术领域。

Description

基于同步信号的车型识别方法、装置、电子设备及介质

技术领域

本发明涉及数据处理技术领域，尤其是一种基于同步信号的车型识别方法、装置、电子设备及介质。

背景技术

传统的车型主要依靠图像识别，相关技术中，在基于图像信号的车型识别方面，Joseph Redmon等人于2015年提出YOLO算法后，一些学者将其应用于车辆的车型识别、车牌识别、车辆颜色识别等领域。并且，现有的基于卷积神经网络的车型识别技术在针对如光线条件不佳的夜晚等场景下，通常采取两种较为常见的方式提高其识别的准确率，一种是对模型底层结构进行优化或者修改，另一种则是在模型训练时，在训练集中增加更多的在光线条件不佳场景下的车辆样本，在本质上仍是在图像方面通过增加该特定场景下的车辆特征学习，优化模型结构来适应这些场景的识别条件。然而这种单纯基于图像的优化方式存在先天的不足，因为在特定的光线条件不佳场景中，例如无照明的高速公路、乡村道路，所提取到的训练样本只有极少的车型特征，这样的车型样本质量低下，在训练中并不能起到优化模型的作用；同时，在特定的光线条件不佳场景中，图像识别模型由于捕捉不到特征，往往无法意识到当前图像出现识别目标，因此没有做出响应，这种模型的失能往往无法体现在模型自身的识别准确性计算中，但在实际的识别过程中却影响很大。

发明内容

有鉴于此，本发明实施例提供一种基于同步信号的车型识别方法、装置、电子设备及介质，能够准确进行车型识别。

一方面，本发明的实施例提供了一种基于同步信号的车型识别方法，包括：

获取待识别的车辆行驶视频，对车辆行驶视频进行图音分离，获得车辆图片和车辆音频；

将车辆音频转化为梅尔频谱图，对车辆图片和梅尔频谱图进行拼接，获得合成图像；

利用车型识别模型，对合成图像进行分析，获得车型识别结果；

其中，车型识别模型基于卷积神经网络对已标注车型标签的合成图像所提取的音频特征和视觉特征进行联合学习训练得到；车型识别模型包括输入层、卷积层、激励层、池化层和全连接层。

可选地，车辆图片的格式为3通道RGB图，对车辆图片和梅尔频谱图进行拼接这一步骤前，方法还包括：

将梅尔频谱图的格式转换为3通道RGB图。

可选地，将车辆音频转化为梅尔频谱图，包括：

利用librosa对车辆音频进行音频信号处理，转化获得梅尔频谱图。

可选地，方法还包括：

基于已标注车型标签的合成图像，通过梅尔频率倒谱系数提取合成图像中梅尔频谱图的音频特征，并提取合成图像中车辆图片的视觉特征，联合音频特征和视频特征确定训练样本；

设置卷积神经网络，通过卷积神经网络对训练样本进行学习训练，并基于训练结果，对卷积神经网络进行调整，获得车型识别模型。

可选地，通过梅尔频率倒谱系数提取合成图像中梅尔频谱图的音频特征，包括：

依次对梅尔频谱图进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组变换和倒谱分析，获得音频特征；

其中，梅尔滤波器组变换包括基于梅尔频率刻度对梅尔频谱图进行滤波；倒谱分析包括离散余弦变换。

可选地，利用车型识别模型，对合成图像进行分析，获得车型识别结果，包括：

对合成图像进行规范化处理；其中，规范化处理包括取均值处理和归一化处理；

通过输入层对规范化处理后的合成图像进行预处理；

通过卷积层对预处理后的合成图像进行特征提取，获得第一车型特征；

通过激励层对第一车型特征进行非线性映射，获得第二车型特征；

通过池化层对第二车型特征进行特征降维，获得第三车型特征；

通过全连接层将第三车型特征展开成一维特征向量，进而分类获得车型识别结果。

可选地，通过卷积层对预处理后的合成图像进行特征提取，获得第一车型特征，包括：

对预处理后的合成图像进行局部关联操作，获得局部相关特征；

其中，局部关联操作包括对预处理后的合成图像中每个像素点与附近像素点的卷积操作；

通过窗口滑动操作对局部相关特征进行汇总，获得第一车型特征。

另一方面，本发明的实施例提供了一种基于同步信号的车型识别装置，包括：

第一模块，用于获取待识别的车辆行驶视频，对车辆行驶视频进行图音分离，获得车辆图片和车辆音频；

第二模块，用于将车辆音频转化为梅尔频谱图，对车辆图片和梅尔频谱图进行拼接，获得合成图像；

第三模块，用于利用车型识别模型，对合成图像进行分析，获得车型识别结果；

可选地，装置还包括：

第四模块，用于将梅尔频谱图的格式转换为3通道RGB图；其中，车辆图片的格式为3通道RGB图；

第五模块，用于基于已标注车型标签的合成图像，通过梅尔频率倒谱系数提取合成图像中梅尔频谱图的音频特征，并提取合成图像中车辆图片的视觉特征，联合音频特征和视频特征确定训练样本；

第六模块，用于设置卷积神经网络，通过卷积神经网络对训练样本进行学习训练，并基于训练结果，对卷积神经网络进行调整，获得车型识别模型。

另一方面，本发明的实施例提供了一种电子设备，包括处理器以及存储器；

存储器用于存储程序；

处理器执行程序实现如前面的方法。

另一方面，本发明的实施例提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明实施例首先获取待识别的车辆行驶视频，对车辆行驶视频进行图音分离，获得车辆图片和车辆音频；将车辆音频转化为梅尔频谱图，对车辆图片和梅尔频谱图进行拼接，获得合成图像；利用车型识别模型，对合成图像进行分析，获得车型识别结果；其中，车型识别模型基于卷积神经网络对已标注车型标签的合成图像所提取的音频特征和视觉特征进行联合学习训练得到；车型识别模型包括输入层、卷积层、激励层、池化层和全连接层。本发明实施例通过将音频信号转化为梅尔频谱图与车型图像结合进行联合学习训练，能够较好地克服因光线条件对图像识别造成的影响，两种基于不同采集原理的输入信号互为补充，有效提高了综合识别准确率，防止了因单一信号特征模糊而导致的对特定场景不适应而失能的情况。本发明实施例能够准确进行车型识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于同步信号的车型识别方法的流程示意图；

图2为本发明实施例提供的梅尔频谱图的示意图；

图3为本发明实施例提供的拼接的合成图像的结构示意图；

图4为本发明实施例提供的基于同步信号的车型识别模型训练的整体流程示意图；

图5为本发明实施例提供的MFCC特征提取的流程示意图；

图6为本发明实施例提供的基于同步信号的车型识别装置的结构示意图；

图7为本发明实施例提供的一种电子设备的框架示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一方面，如图1所示，本发明的实施例提供了一种基于同步信号的车型识别方法，包括：

S100、获取待识别的车辆行驶视频，对车辆行驶视频进行图音分离，获得车辆图片和车辆音频；

一些具体实施例中，通过视频图像和音频素材的采集和处理获得同一车辆对应关联的车辆图片和车辆音频，可以通过如下步骤实现：

可以在路旁架设拍摄设备，录制车辆经过视频。使用框选工具对视频中各帧的车辆进行框选，突出车型特征；对该车辆经过时的音频片段进行图音分离剪辑，对应好车辆图像与车辆经过的音频。

S200、将车辆音频转化为梅尔频谱图，对车辆图片和梅尔频谱图进行拼接，获得合成图像；

需要说明的是，车辆图片的格式为3通道RGB图，一些实施例中，对车辆图片和梅尔频谱图进行拼接这一步骤前，方法还可以包括：将梅尔频谱图的格式转换为3通道RGB图。

其中，一些实施例中，为满足梅尔频谱图与车辆图像(图片)联合输入的要求，需将梅尔频谱图(灰度图)转为3通道RGB图，这样可以保证合成图像的输入维度都为3。

一些实施例中，将车辆音频转化为梅尔频谱图，可以包括：利用librosa对车辆音频进行音频信号处理，转化获得梅尔频谱图。

一些具体实施例中，将音频信号转化为梅尔频谱图可以通过如下步骤实现：

可以使用librosa进行音频信号处理，将一维的音频信号转成梅尔频谱图(MelSpectrogram)，提取的音频信号梅尔频谱图如图2所示，在音频信号特征的识别中，通常将音频信号看作是由一系列不同频率和振幅的波形组成的，而这些波形可以通过梅尔变换将其转换为梅尔频谱图，这是一种基于人耳听感知的尺度，可以更好地模拟人耳对声音频率的敏感度。

一些具有实施例中，对车辆图片和梅尔频谱图进行拼接，获得合成图像，可以通过如下步骤实现：

拼接好同一车辆的图像和梅尔频谱图，拼接图如图3所示，为了在模型识别/训练时能对车型的图像和音频信号特征进行同时提取，本发明将同一车辆的图像与转化好的梅尔频谱图拼接到一起，尽量在一幅图中能够体现较多的特征信息。

S300、利用车型识别模型，对合成图像进行分析，获得车型识别结果。

其中，车型识别模型基于卷积神经网络对已标注车型标签的合成图像所提取的音频特征和视觉特征进行联合学习训练得到；车型识别模型包括输入层、卷积层、激励层、池化层和全连接层；

需要说明的是，一些实施例中，方法还包括：基于已标注车型标签的合成图像，通过梅尔频率倒谱系数提取合成图像中梅尔频谱图的音频特征，并提取合成图像中车辆图片的视觉特征，联合音频特征和视频特征确定训练样本；设置卷积神经网络，通过卷积神经网络对训练样本进行学习训练，并基于训练结果，对卷积神经网络进行调整，获得车型识别模型。

一些具体实施例中，如图4所示，基于已标注车型标签的合成图像，进而使用卷积神经网络进行学习训练以获得车型识别模型可以通过如下流程实现：

首先拍摄多个车辆经过的视频图像，进而针对各个车辆的视频图像进行车型打标签(可以通过人工经验法打标签)；

针对各个车辆的视频图像，分离出视频图像截取各种车型图像，并分离出音频截取车型图像对应的音频片段；

使用librosa将音频转为梅尔频谱(Mel Spectrogram)；

将同一车辆的图像和对应音频转成频谱图拼接成一副图；

最终使用卷积神经网络对拼接后图像进行训练。其中，前面针对视频图像的相关分离以及拼接等处理过程与步骤S100至S200及其具体实施例的流程步骤相同。而卷积神经网络训练针对的是拼接后图像提取的相关视觉特征和音频特征进行的。

其中，一些实施例中，通过梅尔频率倒谱系数提取合成图像中梅尔频谱图的音频特征，可以包括：依次对梅尔频谱图进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组变换和倒谱分析，获得音频特征；其中，梅尔滤波器组变换包括基于梅尔频率刻度对梅尔频谱图进行滤波；倒谱分析包括离散余弦变换。

一些具体实施例中，可以使用MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)从梅尔频谱图中提取特征，实现步骤如下：

MFCC是一种用于提取语音信号特征的技术，它是通过模拟人耳对声音频率的敏感度来实现的。在将音频信号转换为梅尔频谱图之后，MFCC会对其进行对数变换，并应用离散余弦变换(DCT)，以从梅尔频谱图中提取出与语音轮廓信息相关的特征，以此来描述语音信号。由于梅尔频谱图与语音信号相比，具有更低的维度和更强的判别性能，因此，MFCC成为了一种广泛应用于音频识别、音频合成等领域的有效技术。在MFCC的经典处理中，通常选择在梅尔频谱图中选择前13个低频的系数，这些系数通常包含了大部分与语音轮廓相关的信息。当然，根据具体应用场景和需求，也可以选择更多或更少的系数。

MFCC特征提取过程如图5所示，MFCC的特征提取过程包括几个关键步骤：预加重、分帧和加窗、FFT(快速傅里叶)变换、梅尔滤波器组变换和倒谱分析。首先是预加重，它可以强调高频部分，减少低频部分的影响。然后进行分帧和加窗，将语音信号分成多个短时段，以便进行后续处理。接下来是FFT变换，将时域信号转换为频域信号，从而得到语音信号的频率谱信息。其中，一些具体实施例中，还可以对FFT处理后的信号数据进行取绝对值或平方值，进行数据规范化。梅尔滤波器组变换是MFCC中的关键步骤之一，它基于梅尔频率刻度对语音信号进行滤波，以模拟人类听觉系统对声音频率的敏感度。梅尔滤波器可以在对数刻度上对频域进行划分，并且在关键的频率上放置滤波器，以提取与语音轮廓相关的特征。最后，倒谱分析是另一个重要的步骤，它可以减少特征维度，以更好地描述语音信号。在倒谱分析中，可以使用DCT(离散余弦变换)将滤波后的频率系数转换为倒谱系数，从而有效地压缩信号信息。

一些实施例中，步骤S300可以包括：对合成图像进行规范化处理；其中，规范化处理包括取均值处理和归一化处理；通过输入层对规范化处理后的合成图像进行预处理；通过卷积层对预处理后的合成图像进行特征提取，获得第一车型特征；通过激励层对第一车型特征进行非线性映射，获得第二车型特征；通过池化层对第二车型特征进行特征降维，获得第三车型特征；通过全连接层将第三车型特征展开成一维特征向量，进而分类获得车型识别结果。

其中，一些实施例中，通过卷积层对预处理后的合成图像进行特征提取，获得第一车型特征，包括：对预处理后的合成图像进行局部关联操作，获得局部相关特征；其中，局部关联操作包括对预处理后的合成图像中每个像素点与附近像素点的卷积操作；通过窗口滑动操作对局部相关特征进行汇总，获得第一车型特征。

一些具体实施例中，可以利用特征训练模型，使用卷积神经网络对图像和音频特征信息进行学习。其中，此前的MFCC过程可以为本步的内置步骤，本发明利用MFCC将梅尔频谱图中的特征进行提取后，与车型的图像实现联合输入，模型在进行机器学习时，同时对车辆图像中的视觉特征和频谱图转化后的音频特征进行学习，实现本技术对图像音频同步信号进行学习的效果。本发明使用的模型为传统图像CNN分类模型。该模型按数据处理层级顺序流程如下：

1、数据输入层(即输入层)：

数据输入层的作用是对目标图像进行预处理，有助于提高神经网络的性能和泛化能力。在进行预处理之前，数据的幅值通常具有较大的差异性，其中的一些因素可能会对模型的性能产生不利影响。因此，在进行输入层的预处理之前，我们需要对原始数据进行规范化处理。本技术采用去均值和归一化这两种规范化方法。去均值的目的是通过将原始数据中心化为0，将数据的中心位置与神经元的激活函数相吻合，从而减少在整个CNN架构中出现的计算复杂度和计算速度，同时使得每个神经元能够提取更加明显的特征。而归一化则是将数据取值范围限制在一个相对稳定的范围内，其主要目的是为了避免数据的幅值差异带来的不利影响，从而提高模型的泛化性能。除了去均值和归一化操作外，我们还采用PCA/白化操作，对数据进行降维和幅度归一化的处理。在卷积神经网络中，图像数据通常具有高维特征，借助于PCA降维可以减少计算量，并提高特征表达的效率。而白化操作则将特征值进行均值为0，方差为1的幅度归一化处理，其目的是为了减少特征分布间的冗余信息，从而提高特征提取的效率和泛化性能。综上，数据输入层作为CNN中的首要步骤，对原始数据进行预处理，有助于提高卷积神经网络的性能和泛化能力，使得神经网络更加适合于处理图像数据。

2、卷积计算层(即卷积层)：

在这个卷积层中，有两个关键操作：局部关联和窗口滑动。局部关联操作可以将每个神经元看做一个滤波器(filter)，滤波器内的参数可以通过训练学习得到，从而实现对不同车型特征的提取。通过对于每个像素点和其附近像素点的卷积操作，滤波器可以从输入数据中提取出对于该滤波器有意义的特征，并且保持了空间上的局部相关性，使得我们能够更好地捕捉到图像的空间结构。在窗口滑动操作上，将滤波器或者说神经元在输入数据上进行滑动操作，以便在整个输入空间中扫描局部相关的特征，并将其汇总到本地感受野层中。通过多次滑动，我们可以得到更全面、更准确地对输入图像的特征提取，可以更好地应对如物体旋转、缩放等形变的变化。

3、激励层：

激励层是把卷积层输出结果做非线性映射，激励层也被称为激活函数，它的作用是在神经网络的输出上应用一个非线性函数，以使网络能够学习更加复杂的函数映射。激励层还有助于缓解梯度消失问题，同时也可以使网络具有更好的泛化能力和分类性能。

4、池化层：

池化层的核心作用之一是实现特征的尺度不变性，目的是使我们根据车辆目标缩小或扩大输入图片，池化层仍能够识别和提取重要特征。这样，即使输入图片大小不同，CNN依然可以区分不同的物体或场景，提高了模型对图片理解的能力。池化层还有一个重要的作用是实现特征降维，这有助于提高模型的运行速度和减少不必要的计算开销。同时，池化层还可以去除特征矩阵中的冗余信息，只保留最重要的特征，有助于提高模型的性能和鲁棒性，此外也能够减少过拟合和数据噪声对模型的干扰。另外，池化层对于提高CNN的泛化能力也是非常关键的，通过在池化层中加入dropout等方法，可以使池化层在一定程度上防止过拟合的发生，进而提高模型的泛化能力。

5、全连接层：

全连接层在卷积层之后，它将卷积得到的特征图(矩阵)展开成一维向量，为分类器提供输入。这个过程实际上将图像中的像素信息压缩到一维向量中，从而使得特征信息能够更好地传递给分类器，提高分类器的性能。全连接层通常会将高维特征矩阵展开成一个一维的向量，这个向量包含了所有的特征信息，这也是全连接层的主要功能之一。在展开过程中，每个元素都与特定的神经元相连，这些神经元通常组成一个全连接的网络结构。这种设计的好处是可以保留每个像素之间的空间结构关系，从而提高模型的分类性能。此外，全连接层还起到了分类器的作用。分类器接收到展开后的特征向量作为输入，然后对它进行分类。在这个过程中，分类器学习如何将不同的特征映射到不同的类别中，从而实现对输入的目标图像的分类识别功能。

一些具体实施例中，本发明根据需求及车型图像和音频特征差异将各车型分类的具体参数：

小车(car)：载客车辆车长小于6米，乘坐人数小于20人；载货车辆车长小于6米，总质量小于4.5吨的微型货车；

客车(bus)：车长大于6米，乘坐人数大于等于20人(含驾驶员)；

货车(truck)：车长大于等于6米，核载总质量大于等于4.5吨。

训练标签为三种类型：小车(car)、客车(bus)、货车(truck)。

进而利用训练完成的模型进行实际车型识别的流程如下：

训练完成后的模型，当目标车辆运行经过时，通过将捕捉到的视频图像输入模型，该模型会对该通过车辆的车型图像特征与运行音频特征与训练模型的众多样本进行对比，通过特征的比对，最终得出最符合预期的车型判定结果，由于该模型学习的特征不仅仅是图像特征，因此在图像特征模糊的情况下，仍可以有音频特征给予模型作出车型判断的依据。

其中，一些具体实施例中，本发明可以在基于候选区域的卷积神经网络的深度学习框架基础上，对现已有的基于图像特征的车型识别在极端光线条件下失能或降能的问题，尝试通过融合音频识别补足识别效果，从而达到在图像识别失能区间仍有较为准确的识别效果。通过基于候选区域的卷积神经网络深度学习框架基础上，提出的一种综合图像和音频同步信号的模型，通过这种方式，提升最终车型分类和检测结果的准确性，同时克服在极端光线条件下图像识别模型无法响应的失能情况，使得该基于图像和音频同步信号输入的车型识别系统能够拥有更高的识别准确率，同时能够满足更多场景下精确识别车型的需求。

综上所述，本发明通过将图像识别与音频识别集成融合的方式，更好地优化上述的图像模型所存在的问题，通过将音频信号转化为梅尔频谱图与车型图像结合进行联合输入训练，能够较好地克服因光线条件对图像识别造成的影响，两种基于不同采集原理的输入信号互为补充，有效提高了综合识别准确率，防止了因单一信号特征模糊而导致的对特定场景不适应而失能的情况。相较于现有技术，本发明至少包括如下有益效果：

第一，现有大部分技术在克服图像识别在极端光线情况失能的问题时，一般采取丰富训练样本或者优化模型底层结构的方式，这些方式因为受制于视觉图像的天然弊端，难以从根本上解决因图像特征模糊而带来的识别准确率下降及失能问题；而本技术优点在于，由于融合了音频识别，通过提取车型的音频特征，避开了图像特征提取的短板情况，在极端情况下，提取到的音频特征能对模型的判断提供不受光线情况影响的依据，使得该模型的可靠性、场景适应性等较现有最好技术有着更高的水平。

第二，本发明运用图像和音频两种不同的特征来对模型进行训练，相较于现有技术单独基于图像特征的模型，拥有更大的发展空间和更多的识别精确度提升维度。例如，本技术基于两种信号的特征学习，在后续发展中可以通过优化两种特征在模型对车型的判定过程中不同的加权情况，进一步提升识别准确度，这相比当前图像识别技术的优化中，常以优化模型结构来提升模型性能，是一条更具可能性的道路。

另一方面，如图6所示，本发明的实施例提供了一种基于同步信号的车型识别装置400，包括：第一模块410，用于获取待识别的车辆行驶视频，对车辆行驶视频进行图音分离，获得车辆图片和车辆音频；第二模块420，用于将车辆音频转化为梅尔频谱图，对车辆图片和梅尔频谱图进行拼接，获得合成图像；第三模块430，用于利用车型识别模型，对合成图像进行分析，获得车型识别结果；其中，车型识别模型基于卷积神经网络对已标注车型标签的合成图像所提取的音频特征和视觉特征进行联合学习训练得到；车型识别模型包括输入层、卷积层、激励层、池化层和全连接层。

一些实施例中，装置还可以包括：

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

如图7所示，本发明实施例的另一方面还提供了一种电子设备500，包括处理器510以及存储器520；

存储器520用于存储程序；

处理器510执行程序实现如前面的方法。

本发明方法实施例的内容均适用于本电子设备实施例，本电子设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于同步信号的车型识别方法，其特征在于，包括：

获取待识别的车辆行驶视频，对所述车辆行驶视频进行图音分离，获得车辆图片和车辆音频；

将所述车辆音频转化为梅尔频谱图，对所述车辆图片和所述梅尔频谱图进行拼接，获得合成图像；

利用车型识别模型，对所述合成图像进行分析，获得车型识别结果；

其中，所述车型识别模型基于卷积神经网络对已标注车型标签的合成图像所提取的音频特征和视觉特征进行联合学习训练得到；所述车型识别模型包括输入层、卷积层、激励层、池化层和全连接层。

2.根据权利要求1所述的一种基于同步信号的车型识别方法，其特征在于，所述车辆图片的格式为3通道RGB图，所述对所述车辆图片和所述梅尔频谱图进行拼接这一步骤前，所述方法还包括：

将所述梅尔频谱图的格式转换为3通道RGB图。

3.根据权利要求1所述的一种基于同步信号的车型识别方法，其特征在于，所述将所述车辆音频转化为梅尔频谱图，包括：

利用librosa对所述车辆音频进行音频信号处理，转化获得梅尔频谱图。

4.根据权利要求1任一项所述的一种基于同步信号的车型识别方法，其特征在于，所述方法还包括：

基于已标注车型标签的合成图像，通过梅尔频率倒谱系数提取所述合成图像中所述梅尔频谱图的音频特征，并提取所述合成图像中所述车辆图片的视觉特征，联合所述音频特征和所述视频特征确定训练样本；

设置卷积神经网络，通过所述卷积神经网络对所述训练样本进行学习训练，并基于训练结果，对所述卷积神经网络进行调整，获得车型识别模型。

5.根据权利要求4所述的一种基于同步信号的车型识别方法，其特征在于，所述通过梅尔频率倒谱系数提取所述合成图像中所述梅尔频谱图的音频特征，包括：

依次对所述梅尔频谱图进行预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组变换和倒谱分析，获得音频特征；

其中，所述梅尔滤波器组变换包括基于梅尔频率刻度对所述梅尔频谱图进行滤波；所述倒谱分析包括离散余弦变换。

6.根据权利要求1所述的一种基于同步信号的车型识别方法，其特征在于，所述利用车型识别模型，对所述合成图像进行分析，获得车型识别结果，包括：

对所述合成图像进行规范化处理；其中，所述规范化处理包括取均值处理和归一化处理；

通过所述输入层对所述规范化处理后的合成图像进行预处理；

通过所述卷积层对所述预处理后的所述合成图像进行特征提取，获得第一车型特征；

通过所述激励层对所述第一车型特征进行非线性映射，获得第二车型特征；

通过所述池化层对所述第二车型特征进行特征降维，获得第三车型特征；

通过所述全连接层将所述第三车型特征展开成一维特征向量，进而分类获得车型识别结果。

7.根据权利要求6所述的一种基于同步信号的车型识别方法，其特征在于，所述通过所述卷积层对所述预处理后的所述合成图像进行特征提取，获得第一车型特征，包括：

对所述预处理后的所述合成图像进行局部关联操作，获得局部相关特征；

其中，所述局部关联操作包括对所述预处理后的所述合成图像中每个像素点与附近像素点的卷积操作；

通过窗口滑动操作对所述局部相关特征进行汇总，获得所述第一车型特征。

8.一种基于同步信号的车型识别装置，其特征在于，包括：

第一模块，用于获取待识别的车辆行驶视频，对所述车辆行驶视频进行图音分离，获得车辆图片和车辆音频；

第二模块，用于将所述车辆音频转化为梅尔频谱图，对所述车辆图片和所述梅尔频谱图进行拼接，获得合成图像；

第三模块，用于利用车型识别模型，对所述合成图像进行分析，获得车型识别结果；

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。