CN114022726A

CN114022726A - 一种基于胶囊网络的人员车辆监控方法及系统

Info

Publication number: CN114022726A
Application number: CN202111221927.4A
Authority: CN
Inventors: 周云飞; 曹志雷; 魏一
Original assignee: Jinpeng Electronic Information Machine Co ltd
Current assignee: Jinpeng Electronic Information Machine Co ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-08

Abstract

本发明公开了一种基于胶囊网络的人员车辆监控方法及系统，其方法包括：采集监控音视频，对监控音视频进行分离以获得声音数据和图像数据；分别对声音数据和图像数据进行特征提取，其特征提取包括低层特征和高层抽象特征的提取；对特征提取后获得的声音和图像的抽象特征进行融合生成特征融合向量，并利用胶囊网络对特征融合向量进行处理以识别出监控音视频中的人员和车辆的特征信息；将识别获得的人员和车辆的特征信息与预登记信息进行数据比对处理以输出目标人员和目标车辆的监控结果。本发明利用图像特征和声音特征进行目标识别和分类可明显提升识别准确率，最终得到精确的识别结果。

Description

一种基于胶囊网络的人员车辆监控方法及系统

技术领域

本发明涉及安防监控技术领域，尤其涉及一种基于胶囊网络的人员车辆监控方法及系统。

背景技术

随着我国城市化进程的不断加快，城市街道、工业园区、住宅小区的安防监控及应急管理是关系社会治安稳定重要工作。在该领域中，精细监控人员、车辆，以及相互间的联系，及时发现异常信息并告警，是提升安防监控等级的重要方法，也是技术发展的主要方向。

现有的识别技术多采用视觉特征分析的单模态识别方法对人员的面部特征、衣着特征进行识别；但实际中，大部分监控音视频无法采集清晰地人脸图像；且室内外光照等环境差异也给衣着颜色判断造成影响，可见，若单纯采用图像识别技术容易造成误判，导致安防监控识别的准确率无法提高。

然而，大量的实践数据证明人的自然语音，如口音、声纹等特征是核验人员身份的关键信息，在人员容貌及衣着伪装的场景中更具有优势；另一方面，车辆发动机声响、轮胎与地面摩擦声、喇叭声能够直接或间接地反映车辆的车况、车龄等关键特征，利用这些特征可提高车型识别的准确率。

但是，现有的识别技术中忽略了对声音信号的分析，限制了识别准确率进一步提升，且目前基于音视频特征融合的识别研究甚少，遇到的主要难点是不同模态的特征不易融合；其次，传统技术需采用较为完整的图像来分析，但监控系统通常只采集车辆的前、侧面图像，特征较少，降低了识别准确率；再有，传统技术仅传统的图像处理和匹配技术，难以进行精细分类且不具备学习能力和成长性。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于胶囊网络的人员车辆监控方法，利用图像特征和声音特征进行目标识别和分类可提高识别准确率，同时对声音和图像特征进行融合处理，实现了多模态特征的融合，解决了传统技术难以进行多模态特征融合的问题。

本发明的目的之二在于提供一种基于胶囊网络的人员车辆监控系统。

本发明的目的之三在于提供一种电子设备。

本发明的目的之四在于提供一种存储介质。

本发明的目的之一采用如下技术方案实现：

一种基于胶囊网络的人员车辆监控方法，包括：

采集监控音视频，对监控音视频进行分离以获得声音数据和图像数据；

分别对声音数据和图像数据进行特征提取，其特征提取包括低层特征和高层抽象特征的提取；对特征提取后获得的声音和图像的抽象特征进行融合生成特征融合向量，并利用胶囊网络对特征融合向量进行处理以识别出监控音视频中的人员和车辆的特征信息；

将识别获得的人员和车辆的特征信息与预登记信息进行数据比对处理以输出目标人员和目标车辆的监控结果。

进一步地，对所述声音数据进行特征提取的方法为：

对分离获得的声音数据进行分析以获得声音信号的时间、频率和幅度参数；

根据声音信号的时间、频率和幅度参数生成声音信号在频率和时间维度上的声谱图，使二维的声谱图包含有频域和时域的低层特征；

利用卷积神经网络提取声谱图中的时频变化特征，再利用循环神经网络对卷积神经网络输出的时频变化特征图进行时域上的上下文关联特征的提取以输出抽象声音特征图。

进一步地，对所述图像数据进行特征提取的方法为：

对所述图像数据进行图像特征提取以获得低层视觉特征并生成携带有低层视觉特征的图像特征图；

利用卷积层对图像特征图进行处理以输出抽象图像特征图。

进一步地，对声音和图像的抽象特征进行融合的方法为：

分别对抽象声音特征图和抽象图像特征图中每个像素点的最大值和最小值进行归一化处理；

将归一化处理后的声音特征和图像特征投影至统一的特征空间以获得变换后的声音和图像特征；

对变换后的声音和图像特征进行融合以获得特征融合向量。

进一步地，利用胶囊网络对特征融合向量进行处理的方法为：

将融合所得的特征融合向量按照不同维度封装为低层胶囊和高层胶囊；

通过迭代动态路由算法实现低层胶囊和高层胶囊间特征向量的传递以最终确定高层胶囊的输出。

进一步地，对声音和图像的抽象特征进行融合后，还包括：

采用交叉熵函数对声音和图像的语义一致性分类偏差进行分析，对分析所得的偏差进行纠正后更新声音数据和图像数据以重新对人员和车辆进行识别和分类。

进一步地，利用胶囊网络对特征融合向量进行处理后，还包括：

采用边缘损失函数计算系统损失，对系统损失进行纠正后更新声音数据和图像数据以重新对人员和车辆进行识别和分类。

本发明的目的之二采用如下技术方案实现：

一种基于胶囊网络的人员车辆监控系统，执行如上述的基于胶囊网络的人员车辆监控方法，其监控系统包括：

监控音视频处理模块，用于获取监控音视频，并对监控音视频进行分离以获得声音数据和图像数据；

特征提取模块，用于对声音数据和图像数据进行低层特征提取以获得声谱图和图像特征图，再对声谱图和图像特征图进行抽象特征处理，并对抽象特征处理所获得抽象声音特征图和抽象图像特征图进行融合以获得特征融合向量；

胶囊网络处理模块，用于利用胶囊网络对特征融合向量进行处理以识别出监控音视频中的人员和车辆的特征信息；

目标对象监控模块，用于将识别获得的人员和车辆的特征信息与预登记信息进行数据比对处理以输出目标人员和目标车辆的监控结果。

本发明的目的之三采用如下技术方案实现：

一种电子设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于胶囊网络的人员车辆监控方法。

本发明的目的之四采用如下技术方案实现：

一种存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的基于胶囊网络的人员车辆监控方法。

相比现有技术，本发明的有益效果在于：

将声音和图像数据进行低层特征和高层抽象特征提取，再对声音和图像的高层抽象特征进行特征融合，解决了传统技术难以进行多模态特征融合的问题；同时先提取低层特征，再利用胶囊网络处理声音和图像的高层抽象特征，相比于传统的基于卷积神经网络识别技术，本发明所用胶囊网络的输入是经过融合的高级抽象特征向量/矩阵，其携带了局部与局部，局部与整体之间的空间关系，使得本发明能够最大限度地同时保留原始数据中的局部和整体特征；再加上由于融合后的向量/矩阵维度增加，更易于特征的聚集分类，以明显提升识别准确率，最终得到精确的识别结果。

附图说明

图1为本发明基于胶囊网络的人员车辆监控方法的流程示意图；

图2为本发明人员车辆识别方法的整体流程框图；

图3为本发明用于声音特征提取的CNN+RNN两层网络结构框图；

图4为本发明用于将高维度融合特征分类的胶囊网络框图；

图5为本发明基于胶囊网络的人员车辆监控系统的模块示意框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

本实施例提供一种基于胶囊网络的人员车辆监控方法，该方法应用在安防监控领域，可对人员身份和车型精细识别，实现及时寻找跟踪目标人与车辆的目的。如图1、图2所示，本实施例的人员车辆监控方法具体包括如下步骤：

步骤S1：采集监控音视频，对监控音视频进行分离以获得声音数据和图像数据。

本实施例可通过摄像头等监控设备采集视频图像，而视频图像中需要收录现场音频，使得监控音视频中包含有图像数据以及声音数据；其中，声音数据包含了人员自然语音信息，比如说话的声调、音色、口音等；声音数据也包含有车辆特有的音频信息，比如发动机声响等。而图像数据则包含了人的形貌、衣着，以及车辆外观、车牌号码等详尽的视觉信息。

本实施例采用麦克风阵列硬件系统，结合波束形成算法来进行声源定位，从而识别出不同声音的来源。

步骤S2：分别对声音数据和图像数据进行特征提取，其特征提取包括低层特征和高层抽象特征的提取；对特征提取后获得的声音和图像的抽象特征进行融合生成特征融合向量，并利用胶囊网络对特征融合向量进行处理以识别出监控音视频中的人员和车辆的特征信息。

本实施例中对所述声音数据进行特征提取的方法为：

步骤S211：对分离获得的声音数据进行分析以计算出声音信号的时间、频率和幅度参数；

步骤S212：根据声音信号的时间、频率和幅度参数生成声音信号在频率和时间维度上的声谱图，使二维的声谱图包含有频域和时域的低层特征；

声谱图是声音信号在频率和时间维度上的二维图像，包含频域和时域的低层特征，比如人说话的声调，发动机的声纹。声谱图的横坐标表示时间，纵坐标表示频率，灰度值表示声音幅值；本实施例将音频信号的时频特征可视化，生成二维的声谱图，其目的是为了让声音与图像特征图的格式统一。

步骤S213：利用卷积神经网络提取声谱图中的时频变化特征，再利用循环神经网络对卷积神经网络输出的时频变化特征图进行时域上的上下文关联特征的提取以输出抽象声音特征图。

声谱图表示了声音信息时域和频域上功率分布的合成图像。由于卷积神经网络(下述简称为CNN)可以通过训练数据从声谱图中提取关于时间-频率的局部特征，但无法表达时间上下文关联信息。而循环神经网络(下述简称为RNN)通过时域中动态变化的上下文窗口来解决该不足。所以，本实施例采用CNN+RNN两层网络来提取声音的抽象特征。具体为：先利用CNN提取声谱图中的时频变化特征，即提取声谱图的局部纹理特征。然后，用RNN处理并表达声音信号在时域中的上下文关联特征。

本实施例为了提高识别准确率，对CNN与RNN融合结构进行了如下优化：

如图3所示，尺寸为v×h的声谱图输入到CNN进行处理，纵坐标表示频域范围(0至v)，横坐标表示时域范围(0至h)；CNN的底层由若干时域卷积层(层数根据实际情况调整)组成，每层均使用大小为1×a的卷积核，沿声谱图的时间轴进行卷积运算，滑动步长为1。而时域卷积层之后连接一层频域卷积层，使用三种不同尺寸的卷积核(b1×h，b2×h，b3×h)沿频域进行卷积运算，滑动步长为1。不同尺寸的卷积核有利于提取特征谱图不同区域内互补的特征，提升系统对声音信号分类和识别的准确率。CNN的最后一层为池化层，采用最大池化法，减少冗余信息，减小系统后续处理的计算量。

RNN最底层是双向长短期记忆层(Bi-directional Long Short-Term Memory，BLSTM)，对CNN池化后的特征图提取时间上下文信息。之后，注意力层利用权重分配机制，使网络更加关注重点信息，提升系统性能。最后，在全连接层进行Dropout操作，避免过拟合的发生。

本实施例需要对所述声音数据进行低层特征和高层抽象特征处理外，也需要对所述图像数据进行低层特征和高层抽象特征处理，具体为：

步骤S221：对所述图像数据进行图像特征提取以获得低层视觉特征并生成携带有低层视觉特征的图像特征图；

本实施例对图像数据综合采用若干种特征提取方法，生成表达低层特征的特征图，其包含有目标的轮廓、纹理、局部颜色等特征。其中，提取图像特征的主要方法包括HOG法(Histogram of Oriented Gradient，方向梯度方向统计直方图)、LBP法(Local BinaryPatterns，局部二值模式)以及SIFT法(Scale-invariant feature transform，尺度不变特征转换)；方向梯度方向统计直方图能够有效地描述图像局部的梯度纹理特征，主要用于提取目标的轮廓信息；局部二值模式计算子统计图像中像素点及其邻域的灰度比较信息，提取出图像的纹理信息，该方法具有较强的稳定性，在大多数应用场景中受光照变化的影响较小，还具备较强的旋转不变性；尺度不变特征转换法采用具有不同标准差的高斯函数对图像进行处理，在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，从而提取出局部特征，其优势是在处理过程中可以减少图像的尺度角度变换、灰度、噪声等问题的干扰。

上述图像特征提取方法可根据具体的使用场景，综合使用上述三种方法中的一种或多种来提取图像中的低层视觉特征。

步骤S222：利用卷积层对图像特征图进行处理以输出抽象图像特征图。

上述步骤中获得的携带有低层特征的图像特征图，包含了人的形貌、衣着，车辆的轮廓、局部纹理、颜色等特征；再通过卷积层处理低层特征图，提取出高层抽象特征图。

本实施例经过上述特征提取步骤后可获得抽象声音特征图以及抽象图像特征图，将抽象声音特征图和抽象图像特征图投影到维度、格式统一的特征空间之中进行特征融合，融合后特征维度提升，能够更方便聚集分类。

在特征融合之前，分别对抽象声音特征图、抽象图像特征图中每个像素点的最大值、最小值进行归一化处理，即将原数据数值映射到[0,1]区间中，一方面便于将声音和图像数据的融合，另一方面减少部分大数值数据对整体模型产生的负面影响。

由于特征融合的前提时维度相同，因此，需要将归一化处理后的声音特征和图像特征投影至统一的特征空间以获得变换后的声音和图像特征；具体为：声音特征E_A＝[e_a1,e_a2,…,e_am]^T是m维向量，图像特征是E_V＝[e_v1,e_v2,…,e_vn]^T是n维向量，统一的特征空间维度为l，l≥n＞m。利用以下公式进行变换：

E′_A＝W_A·E_A

E′_V＝W_V·E_V；

式中，E′_A和E′_V分别是变换后的声音和图像特征，均为l维向量。W_A和W_V分别是l×m和l×n维变换矩阵，通过模型训练确定。

其后，将变换后的声音和图像特征向量进行融合以获得特征融合向量，融合后的向量表示为：

E′＝[E′_A,E′_V]。

本实施例利用胶囊网络对融合后的高维度特征向量进行计算，如图4所示，即将融合所得的特征融合向量按照不同维度封装为低层胶囊和高层胶囊；通过迭代动态路由算法实现低层胶囊和高层胶囊间特征向量的传递以最终确定高层胶囊的输出。胶囊网络可充分利用各个特征之间的时空关系，获得高层特征和低层特征之间的位置关系，获得更加精准的人员特征识别及车型分类结果，同时包含了明确的空间位置关系。

具体处理流程如图4所示，维度为l的E′＝[E′_A,E′_V]包含了人员和车辆声音信息的高维度融合特征，按不同维度被封装成低层胶囊。而高层胶囊最终表述了特征类别，特征之间关系，与最终的精细监控结果直接相关。

低层与高层胶囊之间是动态路由算法，帮助高层胶囊更好地学习低层特征。u_i是低层第i个胶囊表征的局部信息，

是高层第j个胶囊在低层第i个胶囊下的整体信息预测值，整体与局部信息通过仿射变换矩阵W_ij转换，如下式：

高层第j个胶囊的输入来自于所有低层胶囊的预测值加权，加权系数被定义为耦合系数C_ij，如下式：

耦合系统数C_ij随着动态路由算法不断更新，算法采用Softmax函数，如下式：

b_ik待更新的权重系数，迭代公式如下：

系统经过训练迭代，最终确定高层胶囊的输出V_j。

本实施例为了提高识别的准确度和鲁棒性，需要对分类结果进行偏差分析，进行训练，并反作用于数据预处理阶段，不断更新后续各功能模块的系数，进一步提高后续处理准确度。

系统的分类结果要满足声音和图像的语义一致性，否则结果就会出现明显偏差。语义一致性需要声音和图像数据首先在时空坐标上要一致，比如两种数据的时间差会造成结果的误判。其次，图像可能干扰语音的判断，比如说话的神态、嘴型可能引起声音内容的误读。本发明在高维特征融合之后，采用交叉熵函数对语义一致性分类偏差进行分析，并实时更新系统参数。函数表示为：

式中，y是语义一致性分类任务的实测值，1表示一致，0表示不一致。

是语义一致性分类的预测值。

此外，在胶囊网络进行精细分类以后，采用边缘损失函数计算系统的损失，函数如下：

式中，m⁺和m^-是根据实际情况设置的值，一般地m⁺＝0.9，m^-＝0.1。k是分类数，特征属于第k类，则T_k＝1，否则T_k＝0。||v_c||可表示特征属于第k类的概率。λ用于调节比重，初始值设置为0.5。

本实施例通过上述方法对系统偏差进行纠正后更新声音数据和图像数据以重新对人员和车辆进行识别和分类，逐步提升识别的准确率。

步骤S3：将识别获得的人员和车辆的特征信息与预登记信息进行数据比对处理以输出目标人员和目标车辆的监控结果。

本实施例系统通过胶囊网络对人员和车辆进行精细识别，主要信息包括人员身份信息、口音特点及音色，车牌号码、车辆品牌、型号，发动机声音特征，轮胎与地面摩擦声音特征，间接反映出的车况信息等。这些信息与相关部门登记的信息进行数据综合处理，对比人车关联信息，对目标进行全方位的“画像”，可及时甄别伪装、伪造、可疑的异常信息，及时告警。本实施例方法可为从事安防监控的单位提供人员和车辆的详细信息，可用于特征分析，轨迹查询，及时发现异常车辆并告警。

实施例二

本实施例提供一种基于胶囊网络的人员车辆监控系统，执行如实施例一所述的基于胶囊网络的人员车辆监控方法，如图5所示，其监控系统包括：

本系统对声音和图像特征进行融合处理，利用胶囊网络进行识别及精细分类，系统结构简单，具备以下优势：

1.本系统在数据预处理阶段将监控信号分离成声音和图像，并在后续流程中充分利用声音特征进行目标识别和分类，在目标监测过程中增加了声音特征，可提高目标检测的准确度。

2.本系统在低层特征提取阶段，分别对声音和图像的原始数据进行低层特征提取，将声音信号变换成二维声谱图，提取出频域及时域特征；将图像信号用HOG、LBP、SIFT等特征提取方法处理，形成图像的低层特征图。进而，利用CNN和RNN对声谱图进行处理，利用卷积层对图像的低层特征图进行处理，分别获得高级抽象特征，并采用相同形式表达，完成了多模态特征的融合，解决了传统技术难以进行多模态特征融合的问题。此外，相比于传统的基于卷积神经网络识别技术，本发明所用胶囊网络的输入是经过融合的高级抽象特征向量/矩阵，可以多模态特征进行综合分类。由于融合后的向量/矩阵维度增加，更易于特征的聚集分类，所以识别准确率有明显提升。

3.本系统先提取低层特征，再用胶囊网络处理声音和图像的高层抽象特征。相比于传统神经网络，胶囊网络的输入是向量/矩阵，携带了局部与局部，局部与整体之间的空间关系，所以本系统能够最大限度地同时保留原始数据中的局部和整体特征，解决了传统技术难以兼顾局部与整体特征的不足问题。进一步，本系统采用纠偏系统反馈分析识别结果，提升了识别准确率。

4.本系统引入胶囊网络，保留了输入对象的姿态、位置、大小、旋转等信息，对发生平移、旋转、缩放等操作的同一对象仍可正确识别，进而将学习结果推广到新的对象及场景之中，具备训练数据量少的优势，从一定程度上加强了泛化能力，解决了传统技术泛化能力弱的不足的问题。

实施例三

本实施例提供一种电子设备，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一中的基于胶囊网络的人员车辆监控方法；另外，本实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述的基于胶囊网络的人员车辆监控方法。

本实施例中的设备及存储介质与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施例中的设备及存储介质的结构及实施过程，为了说明书的简洁，在此就不再赘述。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于胶囊网络的人员车辆监控方法，其特征在于，包括：

2.根据权利要求1所述的基于胶囊网络的人员车辆监控方法，其特征在于，对所述声音数据进行特征提取的方法为：

3.根据权利要求1所述的基于胶囊网络的人员车辆监控方法，其特征在于，对所述图像数据进行特征提取的方法为：

利用卷积层对图像特征图进行处理以输出抽象图像特征图。

4.根据权利要求2或3所述的基于胶囊网络的人员车辆监控方法，其特征在于，对声音和图像的抽象特征进行融合的方法为：

对变换后的声音和图像特征进行融合以获得特征融合向量。

5.根据权利要求1所述的基于胶囊网络的人员车辆监控方法，其特征在于，利用胶囊网络对特征融合向量进行处理的方法为：

6.根据权利要求5所述的基于胶囊网络的人员车辆监控方法，其特征在于，对声音和图像的抽象特征进行融合后，还包括：

7.根据权利要求1所述的基于胶囊网络的人员车辆监控方法，其特征在于，利用胶囊网络对特征融合向量进行处理后，还包括：

8.一种基于胶囊网络的人员车辆监控系统，其特征在于，执行如权利要求1～7任意一项所述的基于胶囊网络的人员车辆监控方法，其监控系统包括：

9.一种电子设备，其特征在于，其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1～7任一所述的基于胶囊网络的人员车辆监控方法。

10.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现权利要求1～7任一所述的基于胶囊网络的人员车辆监控方法。