CN114973120A

CN114973120A - 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统

Info

Publication number: CN114973120A
Application number: CN202210413610.9A
Authority: CN
Inventors: 翟超; 倪志祥; 李玉军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-08-30
Anticipated expiration: 2042-04-14
Also published as: CN114973120B

Abstract

本发明涉及一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统，包括：在输入端，对预处理后的多维传感数据和监控视频分别转换为Tokens序列；在特征融合部分，将多维传感数据的Tokens序列输入至跨模态Transformer模型，得到多维传感数据的特征Tokens序列；再将监控视频的Tokens序列及多维传感数据的特征Tokens序列输入至瓶颈Transformer模型中进一步融合；在输出端，将三种类别向量取出并输入到线性层，将结果进行平均得到最终的异常行为识别结果。本发明有助于特定场所及时精准地检测特定人员的异常行为并发出警报，保障特定人员的人身安全及健康，减少异常突发事件的损失。

Description

一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统

技术领域

本发明涉及一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统，属于深度学习、信号处理技术领域。

背景技术

在医院、敬老院、精神病院等特定场所，需要实时检测特定人员的行为动态，对发生异常事件的特定人员提供及时的医疗救助或管理介入，保障其人身安全和健康，维护场所的稳定。现在通用的方法是，在监控室由人工紧盯大屏幕中的多块显示屏，以判断是否有人员发生异常行为，很容易导致监控人员的疲劳，并且极易漏报异常事件，产生不良后果，因此，亟需采用智能分析方法提高行为识别的效率，减少人力资源的投入。传统的基于单监控视频或单传感数据评测人员异常行为的准确率较低，误报率较高。采集特定人员的全周期多维度数据，比如生理、行为、环境等传感数据及监控视频等，采用更为先进的技术融合多模态异构数据，实现数据特征的交叉互补，能够有效避免单一数据源数据质量差的问题，提高特定人员异常行为识别的准确率。当异常事件发生时，及时发出警报，这有助于某些场所对特定人员进行更好的管理和照护，能够大幅减轻监控人员的压力，减少人力资源代价，减少人员异常行为所导致的各种损失，具有良好的经济效益和社会效益。

多模异构数据融合的常用方法包括多核学习方法(Multiple Kernel Learning，MKL)、图像模型方法(Graphical Model，GM)和神经网络方法(Neural Network，NN)等。MKL方法具有较高的时间复杂度和空间复杂度，对计算资源的需求较高，内存占用量大，并且对训练数据有较高的依赖性。GM方法虽然能够挖掘视频数据中的时空特征，但是特征之间具有复杂的依赖关系，并且模型的泛化能力不强。NN方法能够从大量数据中自动提取深层次语义特征，自动建模输入端和输出端之间的函数关系，具有较好的可扩展性及泛化能力，能够针对多种场景多类任务进行智能数据处理，已经成为目前应用最广泛的方法之一，比如，近几年使用循环神经网络(Recurrent Neural Network，RNN)和长短时记忆网络(Long-Short Term Memory，LSTM)等实现多模异构数据的融合，在许多任务上表现出比MKL和GM方法更优的性能。

基于自注意力机制(Self-Attention)的编解码器结构Transformer最早被用于自然语言处理领域，后续被引入到计算机视觉、时序数据预测和多模态数据融合等领域，并得到了广泛的研究和应用，逐渐成为通用的感知模型。相比RNN和LSTM方法，Transformer方法的输入同样是序列数据(a sequence of Tokens)，但其捕获长期依赖的能力更强，能够更容易地学习到全局信息，并且支持对样本的并行化处理，能够加快训练速度和计算速度。渐进采样模块(Progressive Sampling Module)通过迭代的方式自适应地学习图像的采样位置，每次迭代将当前采样到的Tokens送入自注意力块(Self-Attention Block)中，利用其捕获全局信息的能力来预测一组采样偏移信息从而更新采样位置，使得从监控视频图像帧中采集到的Tokens逐渐集中到图像中的感兴趣区域。跨模态注意力机制(Crossmodal-Attention)采用一维卷积将不同模态的数据映射到同一维度，通过在模态A数据中取得Query和在模态B数据中取得Key和Value的方式，学习两种不同模态之间特征的交互与映射关系，对多模异构数据进行深度融合。瓶颈注意力机制(Bottleneck-Attention)在网络的浅层只学习单模态数据信息，而把多模异构数据的流动与交互放到网络的较深层，并通过引入一部分潜在的融合单元(FSN Tokens)来限制层内标记之间的跨模态注意力流，能够很好地对包含密集细粒度信息的视觉图像帧Tokens进行建模。

发明内容

本发明提供了一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统。本发明采用编解码器架构Transformer为基本结构来融合多模异构数据，该结构能够通过大量样本的学习自动提取到深层次语义特征，对数据的表达更加高效和准确，所提取到的抽象特征鲁棒性和泛化能力更好。在此基础上，本发明引入了渐进采样模块、跨模态注意力机制和瓶颈注意力机制。渐进采样模块以迭代的方式不断更新采样位置，能够避免监控视频帧从固定位置采样到的Tokens与底层图像内容无关、可能破坏图像中固有的对象结构等问题，可在迭代过程中逐渐将采样到的Tokens集中到视频图像中的感兴趣区域，使得提取出的Tokens更加关注语义结构相关的前景对象，而非不感兴趣的背景信息；跨模态注意力机制可以建模不同时间步长的多维传感序列之间的交互关系，能够解决每个模态的序列采样率不一致、数据不对齐等问题，避免了繁杂的手动对齐预处理工作，并且能够捕获成对的两个模态之间的相关性，用其他模态的特征重复加强一种模态的特征，有效构建不同模态数据之间的长时依赖关系；瓶颈注意力机制在网络浅层通过在输入序列中添加一系列可学习的一维向量(FSN Tokens)截断来自不同模态的序列，使得原本作用于全局序列的自注意力无法在不同模态之间流动，形成注意力瓶颈，使得模型更为关注每个模态中最相关的信息，在网络深层则取消FSN Tokens的限制，使得全局序列共同进行自注意力的计算，完成不同模态数据的特征融合，实现“后期”融合。这种机制可以大大降低模型的计算复杂度，以更少的计算量来获得性能增益。本发明构建基于渐进采样模块、跨模态注意力机制和瓶颈注意力机制的Transformer网络来实现多模异构数据的融合，对于医院、敬老院、精神病院等特定场所及时精准地检测特定人员的异常行为具有重要的应用价值，对于提升多模异构数据融合质效具有重要的理论价值。

将上述渐进采样模块和注意力机制与Transformer结构相结合，能够更好地融合多模态异构数据，深度挖掘不同模态数据之间的特征关系，实现特征的交叉互补及关键特征的增强，提升特定人员异常行为识别的准确率，该方法具有较好的可扩展性，能够适用于不同场景下的多类型数据融合及智能分析任务，具有重要的理论价值和应用价值。

本发明通过对多维传感数据及监控视频的处理，能够自动捕获跨模态数据之间最相关的特征交互，在减少计算量的同时获得了性能增益，能够对特定人员的异常行为进行精准识别。

本发明的技术方案为：

一种基于多维传感数据与监控视频多模异构融合的行为识别方法，包括：

将物联终端采集到的多维传感数据和监控视频输入训练好的行为识别模型中进行异常行为识别，具体包括：

在输入端，对预处理后的多维传感数据和监控视频分别转换为Tokens序列；在特征融合部分，将多维传感数据的Tokens序列输入至跨模态Transformer模型中，得到多维传感数据的特征Tokens序列；再将监控视频的Tokens序列及多维传感数据的特征Tokens序列输入至瓶颈Transformer模型中，进行多模异构数据的进一步融合；在输出端，从瓶颈Transformer模型的输出中取出三种类别向量并输入到线性层，将Softmax之后的结果进行平均得到最终的异常行为识别结果。

进一步优选的，多维传感数据包括生理传感数据、行为传感数据、环境传感数据。

进一步优选的，对采集的多维传感数据进行预处理并转换为特征Tokens序列，是指：对采集的多维传感数据进行一维卷积及位置编码，具体包括：

首先，对多维传感数据进行去噪及异常点删除，并对缺失值进行插补，对数据进行规范化；

然后，通过不同核尺寸大小的一维时间卷积提取不同采样率的多维传感数据的时间特征，将来自多种模态不同维度的时间特征投射到相同的维度；

最后，通过位置编码，使得多维传感数据携带位置信息。

进一步优选的，对采集的监控视频进行预处理并转换为特征Tokens序列，是指：对采集的监控视频进行渐进位置采样，具体包括：将监控视频分成K段，每段随机取一帧；

依次将视频帧通过渐进采样模块，以迭代的方式根据图像内容自适应调整采样位置，最终获得监控视频的特征Tokens序列。

进一步优选的，跨模态Transformer模型包括四个基于跨模态注意力机制的跨模态Transformer；

跨模态Transformer由多个跨模态注意力块堆叠而成，每个跨模态注意力块将自注意力块中自注意力层替换为跨模态注意力层；

跨模态注意力层的注意力机制计算公式如式(1)所示：

式(1)中，Q为Query矩阵，K为Key矩阵，V为Value矩阵，d_k为Q和K的列数；

跨模态注意力层中，Q是模态A的输入Tokens序列经过线性层获得，K和V是由模态B的输入Tokens序列经过另外两个不同的线性层得到；模态A、模态B为生理传感数据、行为传感数据、环境传感数据中任两个；

在每个跨模态注意力块内部，模态A的输入Tokens序列X和模态B的输入Tokens序列Y先经过层归一化，再输入多头跨模态注意力机制，如图4所示，多头跨模态注意力机制内部共包括h个跨模态注意力层，每个跨模态注意力层输入为一个Query向量、一个Key向量和一个Value向量的组合；多头跨模态注意力机制将两种输入序列X和Y分别分成h份：X₁,X₂,…,X_h、Y₁,Y₂,…,Y_h，再使X₁,X₂,…,X_h通过h个线性层得到h个Query向量，让Y₁,Y₂,…,Y_h分两次共送入2h个线性层分别得到h个Key向量和h个Value向量，从而得到h个Query、Key和Value向量的组合，将其送入h个跨模态注意力层，计算得到h个输出矩阵Z₁,Z₂,…,Z_h，再将h个输出矩阵Z₁,Z₂,…,Z_h进行拼接，然后传入一个线性层进行维度变换，最终得到和输入向量X、Y维度相同的输出Tokens向量Z，该输出Tokens向量Z包含了从多个子空间学习的不同注意力特征，多头跨模态注意力机制之后经过一个残差结构，再经过层归一化之后送入前馈神经网络，前馈神经网络包含两层全连接层，最终再通过一个残差结构得到该跨模态注意力块的输出Tokens向量Z；

将经过一维卷积及位置编码后的多维传感数据Tokens分别两两组合；输入四个基于跨模态注意力机制的跨模态Transformer进行初步的跨模态信息交互；具体是指：设定预处理后的模态A Tokens及预处理后的模态B Tokens，在预处理后的模态A Tokens中获取Query向量，在预处理后的模态B Tokens中获取Key向量和Value向量，实现模态B中低级别信号与目标通道模态A不断进行交互，从而将模态A及模态B进行初步的跨模态信息交互；

初步的跨模态信息交互处理后，进一步对提取到的跨模态特征进行融合，得到初步的多维多模态传感特征序列。

进一步优选的，将预处理后的多维传感数据分别两两组合，包括环境传感数据组合生理传感数据、行为传感数据组合生理传感数据、生理传感数据组合行为传感数据、环境传感数据组合行为传感数据四种跨模态组合。

进一步优选的，瓶颈Transformer模型由多个自注意力块堆叠而成；

瓶颈Transformer在不同模态输入序列之间加入FSN Tokens，在网络浅层，通过FSN Tokens序列来交换跨模态信息，使得网络计算时从一次性计算所有序列长度转变为分三次计算三种模态的输入序列，在网络深层，取消FSN Tokens的限制，让来自不同模态的特征信息直接进行交互，实现多模态异构数据的深度融合。

进一步优选的，瓶颈Transformer模型由12个自注意力块堆叠而成；

在前8个自注意力块都使用FSN Tokens来限制自注意力的流动，即分别送入序列1+FSN1，FSN1+序列2+FSN2，FSN2+序列3，将原有的拼接序列分为三次送入自注意力块中；在后4层注意力块中，则取消FSN Tokens的限制，让完整的拼接序列一次性输入自注意力块中，进行最终的数据特征融合。

进一步优选的，在输出端，从瓶颈Transformer模型的输出中取出三种类别向量并输入到线性层，将Softmax之后的结果进行平均得到最终的异常行为识别结果。

进一步优选的，行为识别模型的训练过程如下：

步骤1：构建数据集：采集特定人员的真实的多维传感数据，同时获取摄像头的监控视频流，对数据进行标注，行为的分类或者是否发生异常行为；

步骤2：数据集预处理：对采集的多维传感数据进行一维卷积及位置编码，对采集的监控视频进行预处理；

步骤3：训练行为识别模型：采用分步训练的方式，先训练跨模态Transformer模型的网络参数，再训练渐进采样模块和瓶颈Transformer模型的网络参数，最后同时训练整个训练行为识别模型，对整个训练行为识别模型进行微调；具体是指：

首先，将跨模态Transformer模型的两个输出的结果进行相加操作后，接上分类器，只使用预处理后的多维传感数据对跨模态Transformer模型进行端到端的训练，训练完成后，去掉分类器，保留训练好跨模态Transformer模型的网络参数；

然后，同时使用多维传感数据和监控视频数据训练整个行为识别模型，训练过程中冻结训练好跨模态Transformer模型的网络参数，只训练渐进采样模块和瓶颈Transformer模型的网络参数；

最后，训练完成后，再对整个行为识别模型进行微调，获得最终的训练好的行为识别模型。

一种基于多维传感数据与监控视频多模异构融合的行为识别系统，包括：

数据采集模块，被配置为，通过不同的物联网终端及监控视频，采集多维传感数据和监控视频，并发送到传感数据预处理及转换模块和监控视频预处理及采样模块；

传感数据预处理及转换模块，被配置为，将采集到的多维传感数据进行去噪及异常点删除，并对缺失值进行插补，对数据进行规范化；并经过一维时间卷积和位置编码，使得多维传感数据转换为维度一致且携带位置信息的Tokens序列；

监控视频预处理及采样模块，被配置为，将采集到的监控视频分成片段，每段截取一帧构成监控视频图像帧数据，再通过渐进采样模块自动从图像中的感兴趣区域进行采样，最终形成携带图像空间位置信息的监控视频的特征Tokens序列；

多模异构数据特征融合模块，被配置为，将传感数据预处理及转换模块输出的多维传感数据的Tokens序列输入至跨模态Transformer模型中，得到多维传感数据的特征Tokens序列；再将监控视频预处理及采样模块输出的监控视频的Tokens序列及多维传感数据的特征Tokens序列输入至瓶颈Transformer模型中，进行多模异构数据的进一步融合；

异常行为报警与显示模块，被配置为，将瓶颈Transformer模型输出中包含的三种类别向量取出并输入到线性层，将Softmax之后的结果进行平均得到最终的异常行为识别结果，若发生异常行为，则进行报警，并显示异常信息，并支持一键查询该发生异常行为的人员历史数据变化折线图、曾经发生过的异常行为次数及种类功能；

数据存储与综合服务模块，被配置为，将不同物联网终端采集的原始多维传感数据及监控视频数据进行存储，对行为识别模型分析过程中的过程性数据进行记录，并且为异常行为报警与显示模块及系统管理与控制模块提供数据支撑和后台服务；

系统管理与控制模块，被配置为，提供用户注册和登陆功能，提供安全认证和身份鉴权机制；管理人员相关的多模异构数据和基本信息数据库，对符合特定条件的人员和数据进行搜索归类、打印报表，并控制行为识别模型分析过程中的一些超参数，实现手动控制模型分析效果功能。

进一步优选的，数据采集模块包括生理数据采集模块、行为数据采集模块、环境数据采集模块及监控视频读取模块；

所述生理数据采集模块，被配置为，采集生理传感数据；

所述行为数据采集模块，被配置为，采集行为传感数据；

所述环境数据采集模块，被配置为，采集环境传感数据；

所述监控视频读取模块，被配置为，采集监控视频。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于多维传感数据与监控视频多模异构融合的行为识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于多维传感数据与监控视频多模异构融合的行为识别方法的步骤。

本发明的有益效果为：

1、本发明采集特定人员生理、行为等多维传感数据及监控视频等全周期多维度异构数据，避免了基于单视频或单传感数据评测特定人员异常行为准确率低的问题；使用具有编解码器架构的Transformer网络结构，能够提取到对数据的表达更加高效和准确、鲁棒性更强、泛化能力更好的抽象特征，对多模异构数据进行更好的特征融合；构建了基于渐进采样模块、跨模态注意力机制和瓶颈注意力机制的Transformer网络来实现多模异构数据融合，对于医院、敬老院、精神病院等特定场所及时精准地检测特定人员的异常行为具有重要意义。

2、本发明通过渐进采样模块来提取监控视频数据的Tokens向量，以迭代的方式来自适应的学习采样位置，一步一步将采样位置逐渐集中到视频图像中的感兴趣区域，避免了从固定位置采样与底层图像内容无关、容易破坏原有的对象结构等问题，使得提取出的Tokens向量包含更多的前景对象信息，以便和其他传感模态的数据实现更高效、更有效的融合；此外，渐进采样模块是迭代结构，其中涉及的网络层是共享权重的，相比传统的从固定位置采样的方式减少了网络参数量。

3、本发明采用了跨模态注意力机制来初步融合多维传感数据，使用其他模态的低维数据和特征来增强目标模态的特征表达能力，建模不同模态之间的长时依赖关系；虽然三种模态的传感数据有六种不同的两两组合，但是本发明只选择了其中四种组合，舍弃了环境-行为和环境-生理两种组合，不采用行为和生理数据的特征对环境数据进行增强，这种设计可以少用两个跨模态Transformer，在保证性能的同时减小了网络参数量，也能够避免其输出序列输入到瓶颈Transformer中，从而增加瓶颈Transformer的计算复杂度。

4、本发明引入瓶颈注意力机制来融合多维传感特征序列和视频监控数据，使用FSN Tokens来截断原始的多模态特征序列，把一段长输入序列分解为三段短输入序列，由于自注意力机制的计算复杂度与序列长度的平方成正比，大大减少了瓶颈Transformer的计算量，也可以使得模型来压缩每个通道的信息，只分享模态中最必要的信息；并且在网络的深层，通过取消FSN Tokens的限制，把网络浅层压缩过的关键模态特征通过自注意力机制进行融合，提高了多模异构数据融合的效果。

附图说明

图1为特征提取网络(Feature Extractor)的网络结构示意图；

图2为渐进采样模块(Progressive Sampling Module)的网络结构示意图；

图3(a)为跨模态注意力块(Crossmodal Attention Block)的示意图；

图3(b)为自注意力块(Self-Attention Block)的示意图；

图3(c)为跨模态Transformer(Crossmodal Transformer)的示意图；

图4为多头跨模态注意力机制(Multi-Head Crossmodal Attention)的结构示意图；

图5为基于多维传感数据与监控视频多模异构融合的行为识别方法的行为识别模型的网络结构示意图；

图6为瓶颈Transformer(Bottleneck Transformer)的原理示意图；

图7为基于多维传感数据与监控视频多模异构融合的行为识别系统的结构示意图。

具体实施方式

下面结合具体实施方式，对本发明进行进一步的说明，但不限于此。

实施例1

一种基于多维传感数据与监控视频多模异构融合的行为识别方法，如图5所示，包括：

在输入端，对预处理后的多维传感数据和监控视频分别转换为Tokens序列；成为后续跨模态Transformer模型和瓶颈Transformer模型可以接受的输入形式；

在特征融合部分，将多维传感数据的Tokens序列输入至跨模态Transformer模型中，得到多维传感数据的特征Tokens序列；再将监控视频的Tokens序列及多维传感数据的特征Tokens序列输入至瓶颈Transformer模型中，进行多模异构数据的进一步融合；

在输出端，从瓶颈Transformer模型的输出中取出三种类别向量并输入到线性层，将Softmax之后的结果进行平均得到最终的异常行为识别结果。

本发明分为基于跨模态注意机制的多维传感数据融合和基于瓶颈注意力机制的传感模态与监控视频模态的数据融合两部分，跨模态注意力机制能够捕获成对的两个模态之间的相关性，对不同模态数据之间的长时依赖关系进行建模；瓶颈注意力机制则在网络浅层限制自注意力在不同模态之间的流动，使得模型更为关注每个通道中最相关的输入，在网络的深层进行特征融合，能够降低模型的计算复杂度，以更少的计算获得网络分类性能的提升。

实施例2

根据实施例1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其区别在于：

多维传感数据包括生理传感数据(心率、体温、呼吸率)、行为传感数据(加速度、角速度)、环境传感数据(温度、湿度)。

对采集的多维传感数据进行预处理并转换为特征Tokens序列，是指：对采集的多维传感数据进行一维卷积及位置编码，具体包括：

首先，采用卡尔曼滤波、自编码、聚类等技术对多维传感数据进行去噪及异常点删除，并对缺失值进行插补，对数据进行规范化；

然后，通过不同核尺寸大小的一维时间卷积提取不同采样率的多维传感数据的时间特征，将来自多种模态不同维度的时间特征投射到相同的维度；以便在后续的跨模态注意力机制中使用点积运算；

最后，通过位置编码，使得多维传感数据携带位置信息。共同输入后续的跨模态Transformer模型，进行多维传感数据的跨模态数据交互。

对采集的监控视频进行预处理并转换为特征Tokens序列，是指：对采集的监控视频进行渐进位置采样，具体包括：将监控视频分成K段，每段随机取一帧；以减小网络计算量；依次将视频帧通过渐进采样模块，以迭代的方式根据图像内容自适应调整采样位置，最终获得监控视频的特征Tokens序列。具体过程如下；

首先，通过特征提取网络对每帧输入图像提取特征；因为特征图上每一点的像素值都可以看成一个Token向量(假设特征图通道数为C，则该Token向量维度为C*1*1)；由于卷积核具有很好的提取局部上下文信息的能力，故采用ResNet50网络结构中第一层卷积与前两个残差结构作为特征提取器(特征提取网络)，如图1所示。

然后，如图2所示，假设已得到C*H*W大小的特征图F，C为通道数，H为高度，W为宽度，通过维度为2*n*n的采样矩阵P，先沿H和W方向等间隔取n*n个采样点，在特征图F上采样得到C*n*n大小的输入Tokens向量TI，同时将该采样矩阵P经过一个线性层进行位置编码后，与该输入Tokens向量TI相加，并送入一个Transformer自注意力块中，得到当前渐进采样模块的输出Tokens向量TO，并将TO输入一个全连接层来预测采样矩阵P的偏移矩阵p(维度与矩阵P相同，均为2*n*n)，将该偏移矩阵p与采样矩阵P相加，得到了新的采样矩阵P’，从而完成了第一次的迭代过程；

在第二次迭代过程中，根据更新后的新的采样矩阵P’在特征图F上采样得到新的输入Tokens向量TI’，将新的采样矩阵P’进行位置编码并与新的输入Tokens向量TI’相加，值得一提的是，此时相加的还有第一次迭代的输出Tokens向量TO(除了第一次迭代之外，每一次迭代都应加上上一次的输出Tokens向量TO)，共同送入Transformer自注意力块，以便深入学习采样位置偏移信息和图像特征间的内在关联；

最后，重复迭代N次后，采样矩阵已经基本收敛在感兴趣区域附近，取此时的输出Tokens向量TO，并在其头部补充一个随机初始化的分类向量CLS Token(维度为C*1*1)，用于训练网络时学习类别信息，此时TO维度为C*(n*n+1)；由于上述过程中TO已经融合了图像的空间位置信息，无需再进行位置编码，便可输入后续瓶颈Transformer模型进行多维传感数据和监控视频数据的融合。

跨模态Transformer模型包括四个基于跨模态注意力机制的跨模态Transformer；

如图3(a)、图3(b)、图3(c)所示，跨模态Transformer(Crossmodal Transformer)由多个跨模态注意力块(Crossmodal-Attention Block)堆叠而成，每个跨模态注意力块类似于原始Transformer中编码部分的自注意力块，每个跨模态注意力块将自注意力块中自注意力层替换为跨模态注意力层；

跨模态注意力层和自注意力层中的注意力机制计算公式如式(1)所示：

对于自注意力层，其Q、K和V都是由同一个输入序列Tokens经不同的线性层获得，而跨模态注意力层中，Q是模态A的输入Tokens序列经过线性层获得，K和V是由模态B的输入Tokens序列经过另外两个不同的线性层得到；模态A、模态B为生理传感数据、行为传感数据、环境传感数据中任两个；

在每个跨模态注意力块内部，模态A的输入Tokens序列X和模态B的输入Tokens序列Y先经过层归一化，防止训练过程中网络参数过大或过小，导致学习过程出现异常；再输入多头跨模态注意力机制，如图4所示，多头跨模态注意力机制内部共包括h个跨模态注意力层(即“头”的个数为h)，每个跨模态注意力层输入为一个Query向量、一个Key向量和一个Value向量的组合；多头跨模态注意力机制将两种输入序列X和Y分别分成h份：X₁,X₂,…,X_h、Y₁,Y₂,…,Y_h，再使X₁,X₂,…,X_h通过h个线性层得到h个Query向量，让Y₁,Y₂,…,Y_h分两次共送入2h个线性层分别得到h个Key向量和h个Value向量，从而得到h个Query、Key和Value向量的组合，将其送入h个跨模态注意力层，计算得到h个输出矩阵Z₁,Z₂,…,Z_h，再将h个输出矩阵Z₁,Z₂,…,Z_h进行拼接，然后传入一个线性层进行维度变换，最终得到和输入向量X、Y维度相同的输出Tokens向量Z，该输出Tokens向量Z包含了从多个子空间学习的不同注意力特征，避免单个注意力机制可能产生的偏差；多头跨模态注意力机制之后经过一个残差结构，防止网络过深导致的退化现象，再经过层归一化之后送入前馈神经网络，前馈神经网络包含两层全连接层，防止注意力机制对复杂过程的拟合程度不够，增强网络的拟合能力，最终再通过一个残差结构得到该跨模态注意力块的输出Tokens向量Z；

将经过一维卷积及位置编码后的多维传感数据Tokens分别两两组合；具体的，每个跨模态Transformer的输入是两种不同模态的传感数据Tokens序列，将三种不同模态的序列进行两两组合，分为生理-行为，生理-环境，行为-生理，行为-环境，环境-生理(舍)，环境-行为(舍)的组合，将前四种组合分别输入四个基于跨模态注意力机制的跨模态Transformer中。

输入四个基于跨模态注意力机制的跨模态Transformer进行初步的跨模态信息交互；具体是指：设定预处理后的模态A Tokens及预处理后的模态B Tokens，在预处理后的模态A Tokens中获取Query向量，在预处理后的模态B Tokens中获取Key向量和Value向量，实现模态B中低级别信号与目标通道模态A不断进行交互，从而将模态A及模态B进行初步的跨模态信息交互；由图3(c)可知，跨模态Transformer的结构为多层跨模态注意力层堆叠而成，每个跨模态注意力层的输入为模态A和模态B的输入Tokens向量，输出为经跨模态注意力机制计算后、由模态B Tokens序列进行增强的模态A Tokens序列，其中每层的模态BTokens序列均由一维时间卷积后加上位置编码得来，包含了模态B Tokens序列的低维特征，而模态A Tokens序列则是在每一层中重复由模态B Tokens序列增强而又输入下一层中；因此可以看作是用模态B的数据对模态A的数据特征进行增强。

初步的跨模态信息交互处理后，进一步对提取到的跨模态特征进行融合，得到初步的多维多模态传感特征序列；具体是指：将生理-行为、生理-环境两种跨模态Transformer输出的Tokens序列相加，得到增强后的生理传感数据Tokens序列；将行为-生理、行为-环境两种跨模态Transformer输出的Tokens序列相加，得到增强后的行为传感数据Tokens序列；在得到的两种增强后的Tokens序列的头部分别补充两个分类向量CLSToken，以便在训练时学习分类信息；携带分类Token的两种模态的特征序列便可用于后续输入瓶颈Transformer中与监控视频数据进行深度融合。

将预处理后的多维传感数据分别两两组合，包括环境传感数据组合生理传感数据、行为传感数据组合生理传感数据、生理传感数据组合行为传感数据、环境传感数据组合行为传感数据四种跨模态组合。考虑到环境传感数据应该是对最终分类结果影响最小的因素，所以，对三种模态的传感数据两两组合后只使用了四个跨模态Transformer，并没有使用生理传感数据和行为传感数据对环境传感数据增强的跨模态Transformer，能够减小网络参数量，节约计算资源。

瓶颈Transformer模型由多个自注意力块堆叠而成；

类似于原始Transformer的编码部分，但不同的是，瓶颈Transformer在不同模态输入序列之间加入FSN Tokens，在网络浅层，通过FSN Tokens序列来交换跨模态信息，使得网络计算时从一次性计算所有序列长度转变为分三次计算三种模态的输入序列，由于自注意力机制的计算复杂度与序列长度的平方成正比，这种方式可以大大减少计算量，也可以使得模型来压缩每个通道的信息，只分享模态中最必要的信息；在网络深层，取消FSNTokens的限制，让来自不同模态的特征信息直接进行交互，实现多模态异构数据的深度融合。

如图6所示，瓶颈Transformer的输入主要由三部分构成，渐进采样模块输出的监控视频帧特征序列V Tokens，增强后的生理模态特征序列P Tokens，增强后的行为模态特征序列A Tokens，将以上三种模态的特征序列进行拼接，并在中间添加两段FSN Tokens序列，故最终输入瓶颈Transformer的完整序列为：V Tokens+FSN1 Tokens+P Tokens+FSN2Tokens+A Tokens；

在网络浅层，将完整的输入序列按照FSN Tokens进行分割，分为三段序列：1.VTokens+FSN1Tokens；2.FSN1 Tokens+P Tokens+FSN2 Tokens；3.FSN2 Tokens+A Tokens；分三次输入网络浅层的自注意力块，输出为同样维度大小的三段特征序列，再分三次输入下一层的自注意力块；在网络深层，将三段序列再次拼接为完整的序列，一次性输入自注意力块中，直接进行多种模态特征信息的交互，实现多模异构数据的深度融合。

在网络浅层，计算公式如下：

在网络深层，计算公式如下：

其中，Z代表Tokens序列，上标l代表在网络的第l层，下标表示序列类型，SAB()代表通过自注意力块进行计算。

瓶颈Transformer模型由12个自注意力块堆叠而成；

在前8个自注意力块都使用FSN Tokens来限制自注意力的流动，即分别送入序列1+FSN1，FSN1+序列2+FSN2，FSN2+序列3，将原有的拼接序列分为三次送入自注意力块中；由于自注意力机制的计算复杂度与与序列的平方成正比，因此该瓶颈Transformer模型可以大大减小神经网络的计算量，并且通过FSN Tokens序列来初步交换跨模态信息，可使每个模态专注于提取自身最为关键的特征信息；在后4层注意力块中，则取消FSN Tokens的限制，让完整的拼接序列(序列1+FSN1+序列2+FSN2+序列3)一次性输入自注意力块中，进行最终的数据特征融合。使得最终提取出最具有表达力、泛化力和鲁棒性的特征。

在输出端，为了能够执行分类任务，对特定场所的人员是否发生异常行为作出研判，将瓶颈Transformer模型输出中包含的三种类别向量取出并输入到全连接层，将Softmax之后的结果进行平均得到最终的异常行为识别结果。在瓶颈Transformer的三种输入Tokens序列中，每种序列头部添加了分类向量CLS Token，用于在网络训练时提取类别信息，由于瓶颈Transformer最终的输出Tokens向量维度和输入Tokens向量一致，故能够从输出Tokens向量中获取三种训练好的CLS Token向量，并分别经过全连接层进行Softmax操作得到各自的概率分布，将三种Softmax得到的结果进行平均，从而得到最终对各种行为分类的概率。

行为识别模型的训练过程如下：

步骤1：构建数据集：采集特定人员的真实的多维传感数据(真实的生理、行为及环境等多模异构数据)，同时获取摄像头的监控视频流，对数据进行标注，行为的分类或者是否发生异常行为；

步骤2：数据集预处理：对采集的多维传感数据进行一维卷积及位置编码，对采集的监控视频进行预处理；具体是指：对于多维传感数据，采用卡尔曼滤波、自编码、聚类等技术实现数据去噪及异常点删除，并对缺失值进行插补，然后对传感数据按照一定时间长度进行分割，并保证数据流有50％的重叠率，防止一段完整的行为被分成两段数据；对于视频监控数据，采用角裁剪和尺度抖动的方式进行数据增强，并将获得的视频分为N段，在每一段中随机选择一帧图像组成一轮训练的图像帧序列；

步骤3：训练行为识别模型：采用分步训练的方式，先训练跨模态Transformer模型的网络参数，再训练渐进采样模块(由于渐进采样模块涉及的操作均可微，所以可以结合整个网络进行端到端的训练)和瓶颈Transformer模型的网络参数，最后同时训练整个训练行为识别模型，对整个训练行为识别模型进行微调；具体是指：

实施例3

以精神病院为例，给需要管控的病人带上可穿戴式设备(比如手环)来采集多维传感数据，包括：生理传感数据(心率、体温、呼吸率共三维)、行为传感数据(三轴加速度、三轴角速度共六维)、环境传感数据(温度、湿度共二维)，与此同时根据其定位信息实时获取所在场所的实时监控视频流，实时采集可穿戴传感终端的多维传感数据，并维持一定长度的多维传感数据缓冲队列，比如6秒。若生理和行为传感器的传感数据采集频率为50Hz，环境传感器数据采集频率为10Hz，那么对于生理和行为传感数据缓冲池的长度则为300，对于环境传感数据缓冲队列长度为60，当缓冲队列数据充满时则启动行为识别模型进行计算与推理，之后将数据缓冲队列的前一半数据丢弃，维持每次送入行为识别模型的数据流保持50％的重叠率，防止一段完整的行为数据被分成两段，从而导致漏检；针对视频监控数据也是类似，只是把过去6秒的视频分为6段，每段随机取一帧，即每秒只需随机存储一帧视频图像帧到数据缓冲队列即可。

当数据缓冲队列全部充满数据时启动行为识别模型计算，对于生理、行为传感数据缓冲队列和环境传感数据缓冲队列长度不一致，且不同队列中数据的维度也不同的情况，对生理传感数据，采用256个长度为6、深度为3、步长为2的一维时间卷积核来提取并压缩传感序列的时间特征为150*256，对行为传感数据，采用256个长度为6、深度为6、步长为2的一维时间卷积核来提取并压缩传感序列的时间特征为150*256，同时，对环境数据缓冲队列进行插值，使其队列长度为150，在用256个长度为1、深度为2、步长为1的时序卷积核使得环境传感序列维度成为150*256，便于后续执行矩阵乘法时能够获得相同的矩阵维度。

经过一维时间卷积后，对长度相等、维度相同的生理、行为、环境传感数据进行位置编码，再经过两两组合，分为生理-环境、生理-行为、行为-环境、行为-生理四种跨模态组合，分别送入四个跨模态Transformer内部进行不同模态之间的数据融合，再将生理-环境和生理-行为两个跨模态Transformer输出的结果进行相加，并把行为-生理和行为-环境两个跨模态Transformer的结果相加，并在上述两种模态特征序列的头部分别补充一个1*256的向量CLS Token，以便后续输入瓶颈Transformer中学习类别信息；其中，跨模态Transformer由一系列跨模态注意力块堆叠而成，跨模态注意力块则类似于原始Transformer中的编码块，只是将自注意力层替换为跨模态注意力层，而跨模态注意力则是从目标模态出发，获取Query矩阵，从其他模态提取低级维度的信息，获取Key和Value矩阵，从而组成的注意力机制，在这个例子中，跨模态注意力层中的多头跨模态注意力机制头的数量为8，跨模态注意力块的个数为4。

对于监控视频，假设其分辨率为224*224*3，首先，取出监控视频缓冲队列中的6帧图像，将其依次送入渐进采样模块中，由特征提取网络可以得到维度为56*56*256的特征图，初始化采样矩阵大小为7*7*2，即在宽高方向上每8点采样一次，最终得到49个采样点，初始化输入Tokens向量TI大小为7*7*256，将采样矩阵经过位置编码映射为7*7*256大小之后与TI相加，共同送入自注意力块中，得到输出Tokens向量TO(维度为7*7*256)，并经过全连接层预测得出一个7*7*2大小的采样位置偏移矩阵，与未经位置编码的采样矩阵相加，重复上述过程，每次将新的采样矩阵经过位置编码，加上新的采样矩阵对应的新的输入Tokens向量TI，加上上一轮迭代的输出Tokens向量TO(第一轮迭代除外)，重复送入自注意力块中，不断更新采样位置矩阵及输出Tokens向量，经过4轮迭代，得到了第1帧图像最终的TO向量，将所有图像帧重复上述过程，并拼接每一帧图像的TO向量，能够得到6*7*7*256大小的Tokens向量，并在其头部追加一个长度为256的一维向量用作分类向量CLS Token，故最终输入瓶颈Transformer中的监控视频Tokens向量维度为295*256；得到三种不同模态的输入向量之后，在三种模态的输入向量之间增加两段FSN Tokens序列(每段维度为4*256)，将原有的拼接序列截断后分别送入瓶颈Transformer中，进行多模异构数据融合；瓶颈Transformer共有12个自注意力块，在前8层都使用FSN Tokens序列来限制自注意力的流动，即分别送入序列1+FSN1，FSN1+序列2+FSN2，FSN2+序列3，将原有的拼接序列分为三次送入自注意力块中，由于自注意力机制的计算复杂度与与序列的平方成正比，因此该模型可以大大减小神经网络的计算量，并且通过FSN Tokens序列来初步交换跨模态信息，可使每个模态专注于提取自身最为关键的特征信息；在后4层注意力块中，则取消FSN Tokens的限制，让完整的拼接序列(序列1+FSN1+序列2+FSN2+序列3)一次性输入自注意力块中，进行最终的数据特征融合，使得最终提取出最具有表达力、泛化力和鲁棒性的特征，最后把三个学习好的类别向量分别经过三个Softmax分类器进行分类，最后将三个分类器得到的结果进行平均，依概率输出最终的结果，比如某人员是否摔倒等。

实施例4

一种基于多维传感数据与监控视频多模异构融合的行为识别系统，如图7所示，包括：

数据采集模块，被配置为，通过不同的物联网终端及监控视频，采集多维传感数据和监控视频，并发送到传感数据预处理及转换模块和监控视频预处理及采样模块；数据采集模块包括生理数据采集模块、行为数据采集模块、环境数据采集模块及监控视频读取模块；生理数据采集模块，被配置为，采集生理传感数据(心率、体温、呼吸率)；行为数据采集模块，被配置为，采集行为传感数据(加速度、角速度)；环境数据采集模块，被配置为，采集环境传感数据(温度、湿度)；监控视频读取模块，被配置为，采集监控视频。

传感数据预处理及转换模块，被配置为，将采集到的多维传感数据进行去噪及异常点删除，并对缺失值进行插补，对数据进行规范化；并经过一维时间卷积和位置编码，使得多维传感数据转换为维度一致且携带位置信息的Tokens序列；以便后续输入多模异构数据特征融合模块；

监控视频预处理及采样模块，被配置为，将采集到的监控视频分成片段，每段截取一帧构成监控视频图像帧数据，再通过渐进采样模块自动从图像中的感兴趣区域进行采样，最终形成携带图像空间位置信息的监控视频的特征Tokens序列；以便后续输入多模异构数据特征融合模块；

异常行为报警与显示模块，被配置为，将瓶颈Transformer模型输出中包含的三种类别向量取出并输入到线性层，将Softmax之后的结果进行平均得到最终的异常行为识别结果，若发生异常行为，则发出警报声和闪光灯的方式进行报警，并显示异常信息包括发生异常行为的人员信息、所在位置的监控摄像头画面等信息，并支持一键查询该发生异常行为的人员历史数据变化折线图、曾经发生过的异常行为次数及种类等功能；

系统管理与控制模块，被配置为，提供用户注册和登陆功能，提供安全认证和身份鉴权机制；管理人员相关的多模异构数据和基本信息等数据库，对符合特定条件的人员和数据进行搜索归类、打印报表等，并控制行为识别模型分析过程中的一些超参数，实现手动控制模型分析效果等功能。

实施例5

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一基于多维传感数据与监控视频多模异构融合的行为识别方法的步骤。

实施例6

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1-3任一基于多维传感数据与监控视频多模异构融合的行为识别方法的步骤。

Claims

1.一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其特征在于，包括：

将采集到的多维传感数据和监控视频输入训练好的行为识别模型中进行异常行为识别，具体包括：

在输入端，对预处理后的多维传感数据和监控视频分别转换为Tokens序列；在特征融合部分，将多维传感数据的Tokens序列输入至跨模态Transformer模型中，得到多维传感数据的特征Tokens序列；再将监控视频的Tokens序列及多维传感数据的特征Tokens序列输入至瓶颈Transformer模型中，进行多模异构数据的进一步融合；在输出端，从瓶颈Transformer模型的输出中取出三种类别向量并输入到线性层，将Softmax之后的结果进行平均得到最终的异常行为识别结果；

2.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其特征在于，对采集的多维传感数据进行预处理并转换为特征Tokens序列，是指：对采集的多维传感数据进行一维卷积及位置编码，具体包括：

最后，通过位置编码，使得多维传感数据携带位置信息；

3.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其特征在于，跨模态Transformer模型包括四个基于跨模态注意力机制的跨模态Transformer；

跨模态注意力层的注意力机制计算公式如式(1)所示：

在每个跨模态注意力块内部，模态A的输入Tokens序列X和模态B的输入Tokens序列Y先经过层归一化，再输入多头跨模态注意力机制，如图4所示，多头跨模态注意力机制内部共包括h个跨模态注意力层，每个跨模态注意力层输入为一个Query向量、一个Key向量和一个Value向量的组合；多头跨模态注意力机制将两种输入序列X和Y分别分成h份：X₁,X₂,…,X_h、Y₁,Y₂,…,Y_h，再使X₁,X₂,…,X_h通过h个线性层得到h个Query向量，让Y₁,Y₂,…,Y_h分两次送入2h个线性层分别得到h个Key向量和h个Value向量，从而得到h个Query、Key和Value向量的组合，将其送入h个跨模态注意力层，计算得到h个输出矩阵Z₁,Z₂,…,Z_h，再将h个输出矩阵Z₁,Z₂,…,Z_h进行拼接，然后传入一个线性层进行维度变换，最终得到和输入向量X、Y维度相同的输出Tokens向量Z，该输出Tokens向量Z包含了从多个子空间学习的不同注意力特征，多头跨模态注意力机制之后经过一个残差结构，再经过层归一化之后送入前馈神经网络，前馈神经网络包含两层全连接层，最终再通过一个残差结构得到该跨模态注意力块的输出Tokens向量Z；

将经过一维卷积及位置编码后的多维传感数据Tokens分别两两组合；输入四个基于跨模态注意力机制的跨模态Transformer进行初步的跨模态信息交互；具体是指：设定预处理后的模态A Tokens及预处理后的模态B Tokens，在预处理后的模态A Tokens中获取Query向量，在预处理后的模态BTokens中获取Key向量和Value向量，实现模态B中低级别信号与目标通道模态A不断进行交互，从而将模态A及模态B进行初步的跨模态信息交互；

初步的跨模态信息交互处理后，进一步对提取到的跨模态特征进行融合，得到初步的多维多模态传感特征序列；

4.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其特征在于，瓶颈Transformer模型由多个自注意力块堆叠而成；

瓶颈Transformer通过在不同模态输入序列之间通过FSN Tokens隔开，在网络浅层，通过FSN Tokens序列来交换跨模态信息，使得网络计算时从一次性计算所有序列长度转变为分三次计算三种模态的输入序列，在网络深层，取消FSN Tokens的限制，让来自不同模态的特征信息直接进行交互，实现多模态异构数据的深度融合。

5.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其特征在于，瓶颈Transformer模型由12个自注意力块堆叠而成；

6.根据权利要求1-5任一所述的一种基于多维传感数据与监控视频多模异构融合的行为识别方法，其特征在于，行为识别模型的训练过程如下：

7.一种基于多维传感数据与监控视频多模异构融合的行为识别系统，其特征在于，包括：

8.根据权利要求7所述的一种基于多维传感数据与监控视频多模异构融合的行为识别系统，其特征在于，数据采集模块包括生理数据采集模块、行为数据采集模块、环境数据采集模块及监控视频读取模块；

所述生理数据采集模块，被配置为，采集生理传感数据；

所述行为数据采集模块，被配置为，采集行为传感数据；

所述环境数据采集模块，被配置为，采集环境传感数据；

所述监控视频读取模块，被配置为，采集监控视频。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6任一所述的基于多维传感数据与监控视频多模异构融合的行为识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一所述的基于多维传感数据与监控视频多模异构融合的行为识别方法的步骤。