CN117912494A

CN117912494A - 一种基于声音识别的轨道交通多维度落物分析方法及系统

Info

Publication number: CN117912494A
Application number: CN202311814582.2A
Authority: CN
Inventors: 吉鹏程; 杨德贤; 倪小龙; 何潞; 李蒙; 李健华; 赵海涛; 徐波
Original assignee: Nanjing Ticom Tech Co ltd; Nanjing University of Posts and Telecommunications
Current assignee: Nanjing Ticom Tech Co ltd; Nanjing University of Posts and Telecommunications
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-19

Abstract

本发明提供了一种基于声音识别的轨道交通多维度落物分析方法、系统及计算机可读存储介质，其方法包括：预采集声音数据，在边缘端对预采集声音数据进行预处理，并提取预采集声音数据中的音频特征；再将特征向量上传至云端，然后在云端基于特征向量创建声音识别模型，最终利用声音识别模型分析落物体积大小和实物类型。本发明的方法可以实时地对轨道上的声音进行分析和识别，及时发现落物并确定位置范围，避免事故的发生；不仅可以检测到大型的落物，还可以识别出小型或难以察觉的物体，识别度更高，且不易受到天气条件、光照变化和视野受限等因素的影响，抗干扰性更强，识别更准确，提供更全面的落物监测和分析。

Description

一种基于声音识别的轨道交通多维度落物分析方法及系统

技术领域

本发明涉及声音信号处理、声音识别、数据分析和模式识别、多维度分析和轨道交通安全等关键技术，特别是一种基于声音识别的轨道交通多维度落物分析方法。

背景技术

如今高铁已经成为了一种重要的交通工具，对于隧道产生的落物可能会对高铁运行造成严重影响，甚至引发事故。通过落物检测，可以及时发现轨道上的物体，避免碰撞和其他安全隐患，保障乘客和列车的安全。许多现有的方法主要依赖于视觉监测，即使用摄像机或其他视觉传感器来检测落物事件，这种方法容易受到天气条件、光照变化和视野受限等因素的影响，可能导致漏报或误报。

随着人工智能技术的快速发展，音频信号处理和语音识别领域取得了巨大的进展。梅尔频谱是一种在语音处理中广泛应用的特征表示方法，能够提取音频信号中与人耳感知相关的频谱特征。梅尔频谱能够帮助在轨道交通多维度落物分析中捕捉到语音信号中的重要信息，如语音的音调、共振峰等。

同时，卷积神经网络(Convolutional Neural Networks，简称CNN)已被证明在图像分类任务中非常有效。ResNet(Residual Network)是一种具有残差连接的深度卷积神经网络结构，通过引入残差模块解决了深度网络训练中的梯度消失和梯度爆炸问题，提高了网络的训练效果。通过在边缘端将音频信号转换为梅尔频谱，然后将梅尔频谱作为输入数据传入云端，加入到SENet(Squeeze-and-Excitation Networks)模块的ResNet网络，可以进行音频信息的分类识别。通过训练这个网络，可以实现对不同音频信息的自动识别和分类，例如语音命令识别、语音情绪分析等。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供的一种基于声音识别的轨道交通多维度落物分析方法、系统及存储介质，其目标为通过收集到的落物声音数据，分析出落物的大小和实物类型。通过声音识别的轨道交通多维度落物分析方法可以对视觉监测方法加以辅助，从而能够保证更高的准确性。

本发明为解决上述技术问题采用以下技术方案：

一种基于声音识别的轨道交通多维度落物分析方法，包括步骤如下：

步骤1.在轨道交通现场部署声音传感器，预采集轨道交通系统现场的声音数据；

步骤2.在边缘端对预采集声音数据进行预处理，并提取预采集声音数据中的音频特征；

步骤3.将提取到的音频特征进行CFD变换，生成用于声音识别模型训练的特征向量；

步骤4.将得到的特征向量，上传至云端，然后在云端基于生成的所述特征向量创建声音识别模型；

步骤5.声音识别模型结合多维度落物分析的多标签输出的分类器，分析落物体积大小和实物类型，输出最终识别结果。

进一步的，步骤1中，声音数据包括不同体积大小区间和不同实物类型的落物声音数据，将声音数据信号表示为a[n],n＝0,...,N-1，n为第n个采样点，N为样本数量，N具体取决于所使用的采样频率及其持续时间。

进一步的，步骤2中，边缘端对预采集声音数据进行预处理时，具体步骤如下：首先对预采集声音数据进行去噪；然后进行预加重，并对声音数据信号进行高通滤波，突出高频部分，减小低频部分的能量损失，利用平滑窗函数w[·]将信号a[n]分割成多个重叠的样本块，其大小决定了时间分辨率和频率分辨率的权衡，然后计算声音数据信号短时傅里叶变换(STFT)为：

其中k＝0,...,K-1，，k表示第k个时间帧，K表示时间帧数，m＝0,...,N_DFT-1代表频率，N_DFT表示DFT变换的点数；DFT变换在频域信号上进行等间的采样，将连续的频率离散化成N_DFT个点；通过对变换后的信号进行幅度平方运算，得到每个频率分量的功率；将功率谱通过每个梅尔滤波器进行滤波，得到梅尔频谱Ψ。

进一步的，步骤3中，通过梅尔频谱将音频特征转换为CFD(Cadence FrequencyDiagram)的新域，这个变换域提供了信号中每个频率的重复周期的信息，被称为节奏频率。因此，计算CFD作为与梅尔谱图一起研究的附加域，可以进一步提高对a[n]的特征提取，其公式为：

其中ξ表示节拍频率。

计算CFD变换后，进行模量取对数，并在区间[0,1]内进行归一化，以符合切比雪夫矩的提取程序，通过变换操作投影到切比雪夫多项式的正交基上，其公式为：

其中N_CVD表示用于计算CFD的频率仓，是描述的归一化振幅因子，L和H是梅尔谱转化为CFD域生成的图像大小为L×H的矩阵，x、y分别是DFT频域对应的第x个频率和CFD域对应的第y个频率，l和h都表示阶数；/>是l阶的切比雪夫多项式，/>是h阶的切比雪夫多项式，/>是CFD模量的归一化对数，最终可以的得到矩阵构造特征向量f₁＝[C_0,0,C_0,1,...C_0,h,C_1,0...,C_l,h]^T；

在梅尔频谱计算之后，再进行对数运算，将对数运算压缩后的信号进行离散余弦变换，可以得到梅尔频率倒频谱系数MFCC(Mel-Frequency Cepstrum Coefficients)，取每个MFCC随时间的平均值，可以得到构造的特征向量：

将特征向量f₁和f₂串联为可以得到用于声音识别模型训练的特征向量。

进一步的，步骤4中，基于通过梅尔频谱和CFD转换提取的所述特征向量作为输入数据加入到结合了SE模块的ResNet网络，得到音频信息的分类识别。ResNet50的第一个卷积模块中只使用了1个卷积核大小为7x7的卷积层实现特征提取，但是考虑到对交通落物的多维度分析，需要对落物体积大小和实物进行更详细的分类，因此需要对网络结构进行改变，本文将第一个卷积层改造为双通道，第一个通道采用SA(scale aggregation)块来替换卷积核大小为5x5的卷积层；第二个通道采用SA块来替换卷积核大小为3x3的卷积层，输出时将两个通道的特征图相加，构成完整的多尺度特征提取模块，创建的声音识别模型为：

F₁(f)＝MP(δ₁(BN(W_α(f)))),

F₂(f)＝MP(δ₁(BN(W_β(f)))),

F_Multi-scale(f)＝F₁(f)+F₂(f)

其中f为输入的特征向量，F₁(f)对应卷积尺度为5x5分支的探头输出，F₂(f)对应卷积尺度为3x3分支的探头输出，δ₁为ReLU函数，BN为批量归一化，MP为最大池化操作，F_Multi-scale(f)为多尺度探头Multi-scale Block模块对应的输出，W_α为5x5卷积层的SA块系数，W_β为3x3卷积层的SA块系数。

SA块具体操作过程如公式：

||表示沿通道尺寸连接特征映射，R表示SA块的尺度数，每个尺度r是通过进行下采样D_r产生的，T_r表示一个卷积层操作，U_r表示反采样操作符。为更加有效地让模型能够基于通道提取特征图的信息，将SENet(压缩和激励网络)引入到残差模块中，ResNet50级联SENet提升了残差块对通道特征信息的捕捉能力，能够进一步提升轨道交通中落物实体识别的精度。

进一步的，步骤5中，原始的ResNet50输出层采用Softmax的激活函数进行单标签预测，而对轨道交通的落物需要进行多维度分析，需要对分类器进行结构改造。首先先对数据集进行标注，将落物的体积大小、落物的类型及落物距音频传感器的位置分别设置多个标签，例如，可以将落物的体积大小分为“大”，“中”，“小”，可以将落物的类型分为“金属块”，“石块”，“塑料块”，这些都有可能来自车辆部件、轨道设施的碎片或其他物体的碎片，对于落物位于音频传感器的位置可以分为“远”，“近”。然后在堆叠的SE-ResNet残差块级联一个全局平均化池层，使用贝叶斯分类器链来预测每个标签的概率；

预测每个标签的概率时，具体步骤为：以先预测体积大小，然后预测类型，最后预测位置来为每个标签训练一个独立的二分类器，对于每个标签，将前面标签的预测结果作为输入特征来预测当前标签，依次预测每个标签的概率。

根据预测的概率，最后添加一个阈值分类器来确定标签的预测结果，分类器的阈值设定采用最大化训练集预测结果macro-F1值的原则进行训练集和测试集的阈值统一设置，用于判断实体是否出现在落物数据集中，具体公式如下：

D_train＝{(x_i,y_i)|1≤i≤N},

D_test＝{(x_i,y_i)|1≤i≤M},

采用固定阈值方式对每个标签的预测概率进行拦截输出。x_i表示第i个样本的特征，y_i是第i个样本输出的标签，y_i是第i个样本的模型输出的概率，取0到1；M、N分别是测试数据集和训练数据集的样本数量；D_train为训练数据集，D_test为测试数据集，f()为多维度落物识别输出预测模型，是采用f()对样本X的预测输出，/>为训练集通过模型预测的标签集合，Y_train为训练集实际标签集合，T为固定阈值。

由于数据集分类的复杂性，需要综合考虑每个标签的识别结果，采用宏平均macro-F1作为模型分类的评价指标，其计算公式为：

其中V为标签分类的标签总数，Precision_v,Recall_v分别为第v个标签的精确率和召回率；macro-Presision、macro-Recall分别为所有标签的平均精确率和平均召回率。实验中对于固定阈值T的选取，是从0开始以步长为0.01递增至1，得到不同阈值下预测输出，选取使得评价指标macro-F1最大的T值作为固定阈值。

一种基于声音识别的轨道交通多维度落物分析系统，包括：

采集模块：在轨道交通现场部署声音传感器，预采集轨道交通系统现场的声音数据；

预处理模块：在边缘端对预采集声音数据进行预处理，并提取预采集声音数据中的音频特征；

变换模块：将提取到的音频特征进行CFD变换，生成用于声音识别模型训练的特征向量；

模型生成模块：将得到的特征向量，上传至云端，然后在云端基于生成的所述特征向量创建声音识别模型；

输出模块：声音识别模型结合多维度落物分析的多标签输出的分类器，分析落物体积大小和实物类型，输出最终识别结果。

一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于声音识别的轨道交通多维度落物分析方法。

本发明采用以上技术方案与现有技术相比，具有以下有益效果：

(1)本发明基于声音识别的方法可以实时地对轨道上的声音进行分析和识别，及时发现落物并确定位置范围，避免事故的发生。

(2)本发明基于声音识别的方法可以从多个角度对轨道上的落物进行分析，不仅可以检测到大型的落物，还可以识别出小型或难以察觉的物体，识别度更高，且不易受到天气条件、光照变化和视野受限等因素的影响，抗干扰性更强，识别更准确，提供更全面的落物监测和分析。

附图说明

图1为本发明一实施例提供的基于声音识别的轨道交通多维度落物分析方法的流程图。

图2为本发明一实施例提供的轨道交通产生的声音数据的梅尔频谱图。

图3为本发明一实施例提供的基于声音识别的轨道交通多维度落物分析方法的神经网络架构图。

图4为本发明一实施例提供方法与ResNet50损失曲线对比图。

图5为本发明一实施例提供方法与ResNet50准确度对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

实施例1

根据本发明提供的一种基于声音识别的轨道交通多维度落物分析方法。本发明的架构包含多个声音传感器设备，以及一个云服务器，其目标为通过声音识别对高铁轨道上的落物进行多维度分析。

如图1所示，本发明实施例提供的一种基于声音识别的轨道交通多维度落物分析方法的流程图，该方法包括以下步骤：

步骤1.在轨道交通现场部署声音传感器，采集现场的声音得到预采集声音数据。

步骤2.在边缘端对预采集声音数据进行预处理，并提取预采集声音数据中的音频特征。

步骤3.将提取到的音频特征进行CFD变换，生成用于声音模型训练的特征向量。

步骤4.将得到的特征向量，上传至云端，然后在云端基于提取的该特征向量创建声音识别模型，利用声音识别模型分析落物体积大小和落物的实物类型。

步骤5.设计符合多维度落物分析的多标签输出的分类器，输出最终识别结果。

轨道交通现场每五十米部署一个声音传感器，用于采集轨道交通现场的声音数据，所采集到的声音数据包括不同体积大小区间和不同实物类型的落物声音数据，采集到的声音数据信号可以表示为a[n],n＝0,...,N-1，包含N个样本，n为第n个采样点，N具体取决于所使用的采样频率及其持续时间。

在提取预采集声音数据中的音频特征之前，边缘端还需要对预采集声音数据进行预处理，方法如下：首先对预采集声音数据进行去噪；然后进行预加重，通过对原始语音信号进行高通滤波，突出高频部分，减小低频部分的能量损失，利用平滑窗函数w[·]将声音数据信号a[n]分割成多个重叠的样本块，其大小决定了时间分辨率和频率分辨率的权重，然后计算声音数据信号其短时傅里叶变换(STFT)为：

其中k＝0,...,K-1，K表示时间帧数，k表示第k个时间帧，m＝0,...,N_DFT-1，代表频率，N_DFT表示DFT变换的点数；DFT变换会在频域信号上进行等间的采样，将连续的频率离散化成N_DFT个点；通过对变换后的信号进行幅度平方运算，得到每个频率分量的功率；将功率谱通过每个梅尔滤波器进行滤波，得到如图2所示的梅尔频谱Ψ。功率谱表示信号在各个频率下的功率分布情况，横坐标是频率，纵坐标是功率。

通过梅尔频谱转换为CFD(Cadence Frequency Diagram)的新域，这个变换域提供了信号中每个频率的重复周期的信息，被称为节奏频率。因此，计算CFD作为与梅尔频谱一起研究的附加域，可以进一步提高对a[n]的特征提取，其CFD域变换公式为：

其中，Ψ(k,m)为第k个时间帧、频率m时的梅尔频谱，ξ表示节拍频率。计算复值CFD后，对其模量取对数，并在区间[0,1]内进行归一化，以符合切比切夫矩的提取程序，通过变换操作投影到切比切夫多项式的正交基上，其公式为：

其中N_CVD表示用于计算CFD的频率仓，是描述的归一化振幅因子，L和H是梅尔谱转化为CFD域生成的图像大小为L×H的矩阵，x、y分别是DFT频域对应的第x个频率和CFD域对应的第y个频率，l和h都表示阶数，/>是l阶的切比雪夫多项式，/>是h阶的切比雪夫多项式，/>是CFD模量的归一化对数；振幅因子ρ(l,L)表示为：

则可以得到可表示为：

最终可以得到矩阵构造特征向量f₁＝[C_0,0,C_0,1,...C_0,h,C_1,0...,C_l,h]^T，在梅尔频谱计算之后，对其进行对数运算，将对数压缩后的信号进行离散余弦变换，同样可以得到梅尔倒频谱系数MFCC(Mel-Frequency Cepstrum Coefficients)，取每个MFCC随时间的平均值，可以得到构造的中间特征向量：

一种基于声音识别的轨道交通多维度落物分析方法的神经网络架构图如图3所示，首先通过梅尔频谱和CFD转换提取的音频信号的重要特征向量作为输入数据加入到结合了SE模块(Squeeze-and-Excitation，压缩和激励模块)的ResNet网络(残差网络)，得到音频信息的分类识别。ResNet50的第一个卷积模块中只使用了1个卷积核大小为7x7的卷积层实现特征提取，但是考虑到对交通落物的多维度分析，需要对落物体积大小和实物进行更详细的分类，因此需要对网络结构进行改变，本文将第一个卷积层改造为双通道，第一个通道采用SA(scale aggregation)块来替换卷积核大小为5x5的卷积层；第二个通道采用SA块来替换卷积核大小为3x3的卷积层，输出时将两个通道的特征图相加，构成完整的多尺度特征提取模块，多维度特征提取模块的输出公式为：

F₁(f)＝MP(δ₁(BN(W_α(f)))),

F₂(f)＝MP(δ₁(BN(W_β(f)))),

F_Multi-scale(f)＝F₁(f)+F₂(f)

其中f为输入的特征向量，F₁(f)对应卷积尺度为5x5分支的探头输出，F₂(f)对应卷积尺度为3x3分支的探头输出，δ₁为ReLU函数，BN为批量归一化，MP为最大池化操作，F_Multi-scale(f)为多尺度探头Multi-scale Block模块对应的输出，W_α为5x5卷积层的SA块系数，W_β为3x3卷积层的SA块系数，卷积层的SA块系数具体操作过程如公式：

原始的ResNet50输出层采用Softmax的激活函数进行单标签预测，而对轨道交通的落物需要进行多维度分析，需要对分类器进行结构改造。首先先对数据集进行标注，可以落物的体积大小分为“大”，“中”，“小”；落物的类型分为“金属块”，“石块”，“塑料块”，这些都有可能来自车辆部件、轨道设施的碎片或其他物体的碎片，对于落物位于音频传感器的位置可以分为“远”，“近”，然后在堆叠的SE-ResNet残差块级联一个全局平均化池层，使用贝叶斯分类器链来预测每个标签的概率：以先预测体积大小，然后预测类型，最后预测位置来为每个标签训练一个独立的二分类器，对于每个标签，将前面标签的预测结果作为将输入特征来预测当前标签，依次预测每个标签的概率；根据预测的概率，最后添加一个阈值分类器来确定标签的预测结果，分类器的阈值设定采用最大化训练集预测结果macro-F1值的原则进行训练集和测试集的阈值统一设置，用于判断实体是否出现在落物数据集中，具体公式如下：

D_train＝{(x_i,y_i)|1≤i≤N},

D_test＝{(x_i,y_i)|1≤i≤M},

采用固定阈值方式对每个标签的预测概率进行拦截输出。x_i表示第i个样本的特征，y_i是第i个样本输出的标签，是第i个样本的模型输出的概率，取0到1；M、N分别是测试数据集和训练数据集的样本数量；D_train为训练数据集，D_test为测试数据集。f()为多维度落物识别输出预测模型，/>是采用f()对样本X预测输出，/>为训练集通过模型预测的标签集合，Y_train为训练集实际标签集合，T为固定阈值。由于数据集分类的复杂性，需要综合考虑每个标签的识别结果，采用宏平均macro-F1作为模型分类的评价指标，反映了训练集预测结果，其计算公式为：

实施例2

下面通过具体实施例对本发明提供的技术方案进一步阐述。本实施例中方案所使用的为Ubuntu20.04.2LTS操作系统，PyTorch深度学习开发框架，使用Python作为开发语言。实验采用的CPU为Intel酷睿i7-12700k，GPU为NVIDIA GeForce RTX 308012G。在训练过程中，算法运行在python 3.10环境中，数据集参数如下：

训练的批量大小: 32

分类大小: 10

读取数据的线程数量: 1

过滤最短的音频长度: 0.5

最长的音频长度: 3

音频的采样率: 16000

对音频进行音量归一化的音量分贝值: -20

训练数据的数据列表路径: 'dataset/train_list.txt'

测试数据的数据列表路径： 'dataset/test_list.txt'

标签列表： 'dataset/label_list.txt'

音频预处理方法： MelSpectrogram、Spectrogram、

优化方法：支持Adam、AdamW、SGD

初始学习率的大小: 0.001

所使用的池化层：支持ASP、SAP、TSP、TAP

训练的轮数: 10

使用的模型：支持EcapaTdnn、TDNN、Res2Net、ResNetSE

用户模型: ResNetSE

图4、图5给出了训练损失和Macro-F1值关于迭代训练周期变化趋势。可以看出本发明提出的一种基于声音识别的轨道交通多维度落物分析方法，和传统的ResNet50算法相比训练损失更低，而Macro-F1值更高，这一结果说明了本发明所提技术方案的有效性。

实施例3

本实施例公开了一种基于声音识别的轨道交通多维度落物分析系统，包括：

以上所描述的系统实施例仅仅是示意性的，这些模块可以是或者也可以不是物理单元，也可以是或者也可以不是分开的，即可以位于一个地方，或者也可以分布到多个系统或单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

实施例4

在实施例1的基础上，本实施例公开了一种计算机可读存储介质，其存储有计算机程序，计算机程序被处理器执行时实现实施例1所述的基于声音识别的轨道交通多维度落物分析方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，包括步骤如下：

2.根据权利要求1所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，步骤1中，所述声音数据包括不同体积大小区间和不同实物类型的落物声音数据，将声音数据信号表示为a[n],n＝0,...,N-1，n为第n个采样点，N为样本数量。

3.根据权利要求1所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，步骤2中，边缘端对预采集声音数据进行预处理时，具体步骤如下：首先对预采集声音数据进行去噪；然后进行预加重，并对声音数据信号进行高通滤波，利用平滑窗函数w[·]将信号a[n]分割成多个重叠的样本块，然后计算声音数据信号短时傅里叶变换STFT为：

其中k＝0,...,K-1，k表示第k个时间帧，K表示时间帧数，m＝0,...,N_DFT-1代表频率，N_DFT表示DFT变换的点数；

DFT变换在频域信号上进行等间的采样，将连续的频率离散化成N_DFT个点；通过对变换后的信号进行幅度平方运算，得到每个频率分量的功率；将功率谱通过每个梅尔滤波器进行滤波，得到梅尔频谱Ψ。

4.根据权利要求3所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，步骤3中，通过梅尔频谱将音频特征进行CFD变换，CFD变换后，进行模量取对数，并在区间[0,1]内进行归一化，通过变换操作投影到切比雪夫多项式的正交基上，其公式为：

其中N_CVD表示用于计算CFD的频率仓，是描述的归一化振幅因子，L和H是梅尔谱转化为CFD域生成的图像大小为L×H的矩阵，x、y分别是DFT频域对应的第x个频率和CFD域对应的第y个频率，l和h都表示阶数；/>是l阶的切比雪夫多项式，/>是h阶的切比雪夫多项式，是CFD模量的归一化对数，最终得到矩阵构造特征向量f₁＝[C_0,0,C_0,1,...C_0,h,C_1,0...,C_l,h]^T；

在梅尔频谱计算之后，再进行对数运算，将对数运算压缩后的信号进行离散余弦变换，得到梅尔频率倒频谱系数MFCC，取每个MFCC随时间的平均值，得到构造的特征向量：

将特征向量f₁和f₂串联为得到用于声音识别模型训练的特征向量。

5.根据权利要求1所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，步骤4中，将所述特征向量作为输入数据加入到结合了SE模块的ResNet网络，得到音频信息的分类识别，创建的声音识别模型为：

F₁(f)＝MP(δ₁(BN(W_α(f)))),

F₂(f)＝MP(δ₁(BN(W_β(f)))),

F_Multi-scale(f)＝F₁(f)+F₂(f)

6.根据权利要求1所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，步骤5中，首先先对数据集进行标注，将落物的体积大小、落物的类型及落物距音频传感器的位置分别设置多个标签，然后在堆叠的SE-ResNet残差块级联一个全局平均化池层，使用贝叶斯分类器链来预测每个标签的概率；根据预测的概率，最后添加一个分类器来确定标签的预测结果。

7.根据权利要求6所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，预测每个标签的概率时，具体步骤为：先预测落物的体积大小，然后预测落物的的类型，最后预测落物的位置，为每个标签训练一个独立的二分类器，对于每个标签，预测当前标签时，将前面标签的预测结果作为输入特征来预测当前标签，依次预测每个标签的概率。

8.根据权利要求7所述的一种基于声音识别的轨道交通多维度落物分析方法，其特征在于，所述分类器的阈值设定采用最大化训练集预测结果macro-F1值的原则进行训练集和测试集的阈值统一设置，用于判断实体是否出现在落物数据集中。

9.一种基于声音识别的轨道交通多维度落物分析系统，其特征在于，包括：

10.一种计算机可读存储介质，其特征是，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的基于声音识别的轨道交通多维度落物分析方法。