CN116912744A

CN116912744A - 基于物联网的智能监控系统及其方法

Info

Publication number: CN116912744A
Application number: CN202310897409.7A
Authority: CN
Inventors: 廖隽婷; 谢慧; 黄灿; 李如心; 王力如
Original assignee: Xiangnan University
Current assignee: Xiangnan University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-20

Abstract

本申请涉及智能监控领域，其具体地公开了一种基于物联网的智能监控系统及其方法，其采用基于深度神经网络模型的人工智能技术，获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号，通过卷积神经网络得到分别得到园区监控特征图和音域特征图，融合后再通过空间注意力机制模块进行特征增强，以得到用于表示当前园区内是否有异常声音或突发噪音的分类结果。这样，构建基于物联网的智能监控方案，可以准确地检测到异常声音或突发噪音，从而实现高效的预警和应急响应。

Description

基于物联网的智能监控系统及其方法

技术领域

本申请涉及智能监控领域，且更为具体地，涉及一种基于物联网的智能监控系统及其方法。

背景技术

物联网是互联网基础上的延伸和扩展的网络，将各种信息传感设备与网络结合起来而形成的一个巨大网络。在园区内，由于有些时候人在园区活动中会产生异常的声音或者是突发的噪音，会影响到在园区工作的人，干扰带人们的正常工作，休息等。但由于现有的技术对异常的声音或者是突发的噪音很难有一个监控，导致不能及时发现并制止。

因此，期待一种优化的基于物联网的智能监控方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于物联网的智能监控系统及其方法，其采用基于深度神经网络模型的人工智能技术，获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号，通过卷积神经网络得到分别得到园区监控特征图和音域特征图，融合后再通过空间注意力机制模块进行特征增强，以得到用于表示当前园区内是否有异常声音或突发噪音的分类结果。这样，构建基于物联网的智能监控方案，可以准确地检测到异常声音或突发噪音，从而实现高效的预警和应急响应。

根据本申请的一个方面，提供了一种基于物联网的智能监控系统，其包括：

数据采集模块，用于获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号；

时间注意力提取模块，用于将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图；

音域特征提取模块，用于将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图；

融合模块，用于融合所述园区监控特征图和所述音域特征图以得到融合特征图；

空间特征增强模块，用于将所述融合特征图通过空间注意力机制模块以得到分类特征图；以及

分类结果生成模块，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。

在上述基于物联网的智能监控系统中，所述时间注意力提取模块，包括：采样单元，用于以预定采样频率从所述园区人员活动的监控视频得到多个园区人员监控关键帧；以及，时间注意力卷积编码单元，用于将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图。

在上述基于物联网的智能监控系统中，所述时间注意力卷积编码单元，包括：相邻帧提取子单元，用于从所述多个园区人员监控关键帧中提取相邻的第一园区监控关键帧和第二园区监控关键帧；第一卷积编码子单元，用于将所述第一园区监控关键帧和所述第二园区监控关键帧分别通过所述卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图；时间注意力子单元，用于计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图；注意力激活子单元，用于将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图；第二卷积编码子单元，用于将所述第二园区监控关键帧通过所述卷积神经网络模型的第三卷积层以得到第三卷积特征图；以及，注意力施加子单元，用于计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述园区监控特征图。

在上述基于物联网的智能监控系统中，所述音域特征提取模块，用于：使用所述卷积神经网络模型的各层在层的正向传递中对输入数据分别进行二维卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述卷积神经网络模型的最后一层输出所述音域特征图，其中，所述卷积神经网络模型的第一层的输入为所述园区声音信号的波形图。

在上述基于物联网的智能监控系统中，所述空间特征增强模块，包括：深度卷积编码单元，用于使用所述空间注意力机制模块的卷积编码部分对所述融合特征图进行深度卷积编码以得到检测卷积特征图；空间注意力单元，用于将所述检测卷积特征图输入所述空间注意力机制模块的空间注意力部分以得到空间注意力图；激活单元，用于将所述空间注意力图通过Softmax激活函数以得到空间注意力特征图；以及，计算单元，用于计算所述空间注意力特征图和所述检测卷积特征图的按位置点乘以得到分类特征图。

在上述基于物联网的智能监控系统中，所述分类结果生成模块，包括：展开单元，用于将所述分类特征图展开为分类特征向量；全连接编码单元，用于使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类结果单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

根据本申请的另一方面，提供了一种基于物联网的智能监控方法，其包括：

获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号；

将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图；

将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图；

融合所述园区监控特征图和所述音域特征图以得到融合特征图；

将所述融合特征图通过空间注意力机制模块以得到分类特征图；以及

将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。

与现有技术相比，本申请提供的一种基于物联网的智能监控系统及其方法，其采用基于深度神经网络模型的人工智能技术，获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号，通过卷积神经网络得到分别得到园区监控特征图和音域特征图，融合后再通过空间注意力机制模块进行特征增强，以得到用于表示当前园区内是否有异常声音或突发噪音的分类结果。这样，构建基于物联网的智能监控方案，可以准确地检测到异常声音或突发噪音，从而实现高效的预警和应急响应。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于物联网的智能监控系统的框图。

图2为根据本申请实施例的基于物联网的智能监控系统的架构示意图。

图3为根据本申请实施例的基于物联网的智能监控系统中时间注意力卷积编码单元的框图。

图4为根据本申请实施例的基于物联网的智能监控中融合模块的框图。

图5为根据本申请实施例的基于物联网的智能监控方法的流程图。

图6为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，物联网技术提供了一种实时获取数据并使其成为可能的方法来连接设备、数据以及服务，这使物联网成为了当今的基础设施之一。在园区内，有时候会产生一些异常声音或突发噪音，如爆炸声、尖叫声等。这些声音会影响到在园区活动的人，干扰到他们的工作或者休息。但由于现在的技术对声音不能实时监控，导致不能及时发现并制止，而造成不好的影响。因此，期待一种优化的基于物联网的智能监控方案。

针对上述技术问题，本申请的申请人通过获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号，通过卷积神经网络得到特征图，融合后再通过空间注意力机制模块进行特征增强，以得到用于表示当前园区内是否有异常声音或突发噪音的分类结果。

相应地，在本申请的技术方案中，考虑到监控视频可以提供对园区内人员和设施的实时监控，帮助预防和应对潜在的安全问题，如入侵、盗窃、破坏等。声音信号可以捕捉到园区内的异常声音或突发噪音，提供额外的安全监测手段。监控视频和声音信号可以用于应急响应和灾害管理。具体地，在紧急情况下，可以通过视频监控来迅速了解情况并采取相应的措施。声音信号的监测可以帮助检测火灾、爆炸等突发事件，及时预警并采取适当的应对措施。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外，深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域，也展现出了接近甚至超越人类的水平。

具体地，在本申请的技术方案中，首先，获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号。考虑到在监控视频中，不同时间段的活动和事件可能具有不同的重要性和影响力。时间注意力机制可以帮助模型自动关注和加权不同时间段的特征，使得模型更加关注重要的时间片段，从而提高模型的性能和准确性。具体来说，时间注意力机制可以根据视频中的内容和上下文动态地调整特征图的权重和重要性。例如，在监控视频中，某个时间段可能发生了异常活动或重要事件，这个时间段的特征应该被赋予更高的权重，以便模型能够更好地捕捉到这些关键信息。因此，将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图。通过时间注意力机制，模型可以自动学习到不同时间段的重要性，并相应地调整特征图中的权重，以便更好地表示园区监控视频的特征。

接着，考虑到声音信号通常是一个连续的波形图，其中包含了丰富的频率和时间信息。使用卷积神经网络可以通过学习滤波器的方式，从波形图中提取出具有辨识度和表征能力的特征。具体地，卷积神经网络具有良好的特征提取能力，可以自动学习并提取出声音信号中的关键特征。通过卷积层的滤波器操作，网络可以捕捉到不同频率和时间尺度上的特征，从而提供了对声音信号的多层次表示。卷积神经网络还可以通过激活函数引入非线性建模能力，从而更好地捕捉声音信号中的复杂关系和非线性特征；可以通过训练学习不同音域的特征表示，使得模型能够适应不同类型的声音信号。例如，可以通过训练模型来识别特定频率范围内的声音，或者区分不同音频信号的特征。因此，将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图。可以提取声音信号中的关键特征，并提供对声音信号的多层次表示。

然后，考虑到园区监控特征图可以提供视频监控数据的视觉信息，包括物体的位置、大小、形状等。而音域特征图则可以提供音频监控数据的声音信息，包括声音的频率、强度、持续时间等。通过两者之间的融合可以综合考虑视频和音频信息，从而提供更准确的监控结果。例如，在安全监控方面，通过同时分析视频和音频数据，可以更准确地检测到异常事件，如入侵者的行为或异常声音。可以帮助系统更快速地发现异常情况并作出相应的预警和响应。通过同时监测视频和音频数据，可以更早地发现潜在的风险和威胁，并及时采取措施进行干预和处理。因此，融合所述园区监控特征图和所述音域特征图以得到融合特征图，可以提供更全面、准确和高效的监控分析结果，从而提升监控系统的性能和效果。

接着，考虑到在监控系统中，不同区域的重要性可能不同。通过应用空间注意力机制，可以对特征图的不同区域进行加权，使得重要的区域在分类过程中得到更多的关注和权重，而不重要的区域则被忽略或降低权重。这样可以提高分类特征图的质量，使得监控系统更加准确地识别和分类不同的事件或行为。通过空间注意力机制，可以根据特定任务的需求，自动学习和调整每个区域的权重，从而对监控特征图进行精细的调控。这样可以增强对事件的理解和分析能力，提高预警和响应的效率，以及降低误报率。因此，将所述融合特征图通过空间注意力机制模块以得到分类特征图，可以提高监控系统的准确性，并使系统更加智能和高效。

进一步地，将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。考虑到分类器是一种机器学习模型，通过学习已有的数据样本，可以将输入的特征图分为不同的类别。在这种情况下，分类器可以学习正常声音或突发噪音的特征模式，并将输入的特征图与这些模式进行比较，从而确定当前园区内是否存在异常声音或突发噪音。具体地，分类器可以通过学习已有的数据样本，自动识别出正常声音和异常声音或突发噪音之间的差异，这样，即使在实时监控中出现了未知的声音情况，分类器也可以根据已有的模式进行分类判断。通过分类器的分类结果，可以更准确地判断当前园区内是否存在异常声音或突发噪音，这可以帮助监控系统及时发现潜在的问题或危险，并采取相应的措施进行处理和应对。分类器还可以对输入的特征图进行综合分析，减少误报的可能性。通过学习已有的正常和异常声音模式，分类器可以更好地区分正常情况和异常情况，从而降低误报率。

特别地，在本申请技术方案中，考虑到园区监控特征图和音域特征图往往具有不同的维度和尺寸。直接融合这两个特征图可能会导致维度不匹配的问题，从而无法正确地融合和处理两个特征图的信息。园区监控特征图和音域特征图所表示的信息具有不同的语义含义和特征表示方式。直接融合这两个特征图可能会导致信息的混淆和扭曲，使得最终的融合特征图难以准确地反映园区人员活动的情况。园区监控特征图和音域特征图所包含的信息权重可能不同。直接融合这两个特征图可能会导致某些信息被过度强调或忽略，从而导致最终的融合特征图失去平衡，无法准确地表示园区人员活动的情况。为了避免信息的丢失或扭曲，基于所述园区监控特征图相对于所述音域特征图的高维特征分布的几何相似度约束来融合所述园区监控特征图和所述音域特征图以得到融合特征图。

具体地，在本申请技术方案中，融合所述园区监控特征图和所述音域特征图以得到融合特征图，包括：计算所述园区监控特征图的沿通道维度的各个特征矩阵与所述音域特征图的沿通道维度的各个特征矩阵之间的KL散度以得到多个KL散度值，并计算所述多个KL散度值的加和值作为所述园区监控特征图的沿通道维度的各个特征矩阵相对于所述第二特征矩阵的全局特征分布的几何相似度；将所述园区监控特征图的沿通道维度的各个特征矩阵相对于所述第二特征矩阵的全局特征分布的几何相似度排列为几何相似度全局输入向量；将所述几何相似度全局输入向量输入Softmax函数以得到概率化几何相似度全局特征向量；以所述概率化几何相似度全局特征向量中各个位置的特征值作为权重值来融合所述园区监控特征图和所述音域特征图以得到所述融合特征图。

在本申请的技术方案中，以KL散度来度量所述园区监控特征图的沿通道维度的各个特征矩阵的特征流形相对于所述音域特征图的全局特征流形之间的几何相似度，并利用Softmax函数来实现几何相似度度量的概率化，进而以所述概率化几何相似度全局特征向量作为权重向量来对所述园区监控特征图进行特征流形调制，并将调制后的园区监控特征图与所述音域特征图进行特征流行整合以得到所述融合特征图。这样，基于所述园区监控特征图相对于所述音域特征图的高维特征分布的几何相似度约束可以保证融合特征图在高维空间中的分布与原始特征图的分布相近，从而避免了信息的丢失或扭曲。并且，也可以增强融合特征图的表达能力，因为它可以利用原始特征图之间的相关性和互补性，从而提取出更多的有效信息。

基于此，本申请提供了一种基于物联网的智能监控系统，其包括：数据采集模块，用于获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号时间注意力提取模块，用于将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图；音域特征提取模块，用于将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图；融合模块，用于融合所述园区监控特征图和所述音域特征图以得到融合特征图；空间特征增强模块，用于将所述融合特征图通过空间注意力机制模块以得到分类特征图；以及，分类结果生成模块，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1为根据本申请实施例的基于物联网的智能监控系统的框图。如图1所示，根据本申请实施例的基于物联网的智能监控系统100，包括：数据采集模块110，用于获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号；时间注意力提取模块120，用于将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图；音域特征提取模块130，用于将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图；融合模块140，用于融合所述园区监控特征图和所述音域特征图以得到融合特征图；空间特征增强模块150，用于将所述融合特征图通过空间注意力机制模块以得到分类特征图；以及，分类结果生成模块160，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。

图2为根据本申请实施例的基于物联网的智能监控系统的架构示意图。如图2所示，首先，获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号。接着，将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图。同时，将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图。然后，融合所述园区监控特征图和所述音域特征图以得到融合特征图。接着，将所述融合特征图通过空间注意力机制模块以得到分类特征图。最后，将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。

在本申请实施例中，所述数据采集模块110，用于获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号。考虑到监控视频可以提供对园区内人员和设施的实时监控，帮助预防和应对潜在的安全问题，如入侵、盗窃、破坏等。声音信号可以捕捉到园区内的异常声音或突发噪音，提供额外的安全监测手段。监控视频和声音信号可以用于应急响应和灾害管理。具体地，在紧急情况下，可以通过视频监控来迅速了解情况并采取相应的措施。声音信号的监测可以帮助检测火灾、爆炸等突发事件，及时预警并采取适当的应对措施。

在本申请实施例中，所述时间注意力提取模块120，用于将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图。考虑到在监控视频中，不同时间段的活动和事件可能具有不同的重要性和影响力。时间注意力机制可以帮助模型自动关注和加权不同时间段的特征，使得模型更加关注重要的时间片段，从而提高模型的性能和准确性。具体来说，时间注意力机制可以根据视频中的内容和上下文动态地调整特征图的权重和重要性。例如，在监控视频中，某个时间段可能发生了异常活动或重要事件，这个时间段的特征应该被赋予更高的权重，以便模型能够更好地捕捉到这些关键信息。因此，将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图。通过时间注意力机制，模型可以自动学习到不同时间段的重要性，并相应地调整特征图中的权重，以便更好地表示园区监控视频的特征。

具体地，在本申请实施例中，所述时间注意力提取模块120，包括：采样单元，用于以预定采样频率从所述园区人员活动的监控视频得到多个园区人员监控关键帧；以及，时间注意力卷积编码单元122，用于将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图。

图3为根据本申请实施例的基于物联网的智能监控中时间注意力卷积编码单元的框图。更具体地，在本申请实施例中，如图3所示，所述时间注意力卷积编码单元122，包括：相邻帧提取子单元1221，用于从所述多个园区人员监控关键帧中提取相邻的第一园区监控关键帧和第二园区监控关键帧；第一卷积编码子单元1222，用于将所述第一园区监控关键帧和所述第二园区监控关键帧分别通过所述卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图；时间注意力子单元1223，用于计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图；注意力激活子单元1224，用于将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图；第二卷积编码子单元1225，用于将所述第二园区监控关键帧通过所述卷积神经网络模型的第三卷积层以得到第三卷积特征图；以及，注意力施加子单元1226，用于计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述园区监控特征图。

在本申请实施例中，所述音域特征提取模块130，用于将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图。考虑到声音信号通常是一个连续的波形图，其中包含了丰富的频率和时间信息。使用卷积神经网络可以通过学习滤波器的方式，从波形图中提取出具有辨识度和表征能力的特征。具体地，卷积神经网络具有良好的特征提取能力，可以自动学习并提取出声音信号中的关键特征。通过卷积层的滤波器操作，网络可以捕捉到不同频率和时间尺度上的特征，从而提供了对声音信号的多层次表示。卷积神经网络还可以通过激活函数引入非线性建模能力，从而更好地捕捉声音信号中的复杂关系和非线性特征；可以通过训练学习不同音域的特征表示，使得模型能够适应不同类型的声音信号。例如，可以通过训练模型来识别特定频率范围内的声音，或者区分不同音频信号的特征。因此，将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图。可以提取声音信号中的关键特征，并提供对声音信号的多层次表示。

具体地，在本申请实施例中，所述音域特征提取模块，用于：使用所述卷积神经网络模型的各层在层的正向传递中对输入数据分别进行二维卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述卷积神经网络模型的最后一层输出所述音域特征图，其中，所述卷积神经网络模型的第一层的输入为所述园区声音信号的波形图。

在本申请实施例中，所述融合模块140，用于融合所述园区监控特征图和所述音域特征图以得到融合特征图。考虑到园区监控特征图可以提供视频监控数据的视觉信息，包括物体的位置、大小、形状等。而音域特征图则可以提供音频监控数据的声音信息，包括声音的频率、强度、持续时间等。通过两者之间的融合可以综合考虑视频和音频信息，从而提供更准确的监控结果。例如，在安全监控方面，通过同时分析视频和音频数据，可以更准确地检测到异常事件，如入侵者的行为或异常声音。可以帮助系统更快速地发现异常情况并作出相应的预警和响应。通过同时监测视频和音频数据，可以更早地发现潜在的风险和威胁，并及时采取措施进行干预和处理。因此，融合所述园区监控特征图和所述音域特征图以得到融合特征图，可以提供更全面、准确和高效的监控分析结果，从而提升监控系统的性能和效果。

图4为根据本申请实施例的基于物联网的智能监控中融合模块的框图。具体地，在本申请实施例中，如图4所示，所述融合模块140，包括：散度计算单元141，用于计算所述园区监控特征图的沿通道维度的各个特征矩阵与所述音域特征图的沿通道维度的各个特征矩阵之间的KL散度以得到多个KL散度值；几何相似度计算单元142，用于计算所述多个KL散度值的加和值作为所述园区监控特征图的沿通道维度的各个特征矩阵相对于所述第二特征矩阵的全局特征分布的几何相似度；排列单元143，用于将所述园区监控特征图的沿通道维度的各个特征矩阵相对于所述第二特征矩阵的全局特征分布的几何相似度排列为几何相似度全局输入向量；概率化单元144，用于将所述几何相似度全局输入向量输入Softmax函数以得到概率化几何相似度全局特征向量；以及，权重施加单元145，用于以所述概率化几何相似度全局特征向量中各个位置的特征值作为权重值来融合所述园区监控特征图和所述音域特征图以得到所述融合特征图。

在本申请实施例中，所述空间特征增强模块150，用于将所述融合特征图通过空间注意力机制模块以得到分类特征图。考虑到在监控系统中，不同区域的重要性可能不同。通过应用空间注意力机制，可以对特征图的不同区域进行加权，使得重要的区域在分类过程中得到更多的关注和权重，而不重要的区域则被忽略或降低权重。这样可以提高分类特征图的质量，使得监控系统更加准确地识别和分类不同的事件或行为。通过空间注意力机制，可以根据特定任务的需求，自动学习和调整每个区域的权重，从而对监控特征图进行精细的调控。这样可以增强对事件的理解和分析能力，提高预警和响应的效率，以及降低误报率。因此，将所述融合特征图通过空间注意力机制模块以得到分类特征图，可以提高监控系统的准确性，并使系统更加智能和高效。

具体地，在本申请实施例中，所述空间特征增强模块，包括：深度卷积编码单元，用于使用所述空间注意力机制模块的卷积编码部分对所述融合特征图进行深度卷积编码以得到检测卷积特征图；空间注意力单元，用于将所述检测卷积特征图输入所述空间注意力机制模块的空间注意力部分以得到空间注意力图；激活单元，用于将所述空间注意力图通过Softmax激活函数以得到空间注意力特征图；以及，计算单元，用于计算所述空间注意力特征图和所述检测卷积特征图的按位置点乘以得到分类特征图。

在本申请实施例中，所述分类结果生成模块160，用于将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。考虑到分类器是一种机器学习模型，通过学习已有的数据样本，可以将输入的特征图分为不同的类别。在这种情况下，分类器可以学习正常声音或突发噪音的特征模式，并将输入的特征图与这些模式进行比较，从而确定当前园区内是否存在异常声音或突发噪音。具体地，分类器可以通过学习已有的数据样本，自动识别出正常声音和异常声音或突发噪音之间的差异，这样，即使在实时监控中出现了未知的声音情况，分类器也可以根据已有的模式进行分类判断。通过分类器的分类结果，可以更准确地判断当前园区内是否存在异常声音或突发噪音，这可以帮助监控系统及时发现潜在的问题或危险，并采取相应的措施进行处理和应对。分类器还可以对输入的特征图进行综合分析，减少误报的可能性。通过学习已有的正常和异常声音模式，分类器可以更好地区分正常情况和异常情况，从而降低误报率。

具体地，在本申请实施例中，所述分类结果生成模块，包括：展开单元，用于将所述分类特征图展开为分类特征向量；全连接编码单元，用于使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类结果单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

综上，基于本申请实施例的基于物联网的智能监控系统100被阐明，其采用基于深度神经网络模型的人工智能技术，获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号，通过卷积神经网络得到分别得到园区监控特征图和音域特征图，融合后再通过空间注意力机制模块进行特征增强，以得到用于表示当前园区内是否有异常声音或突发噪音的分类结果。这样，构建基于物联网的智能监控方案，可以准确地检测到异常声音或突发噪音，从而实现高效的预警和应急响应。

示例性方法

图5为根据本申请实施例的基于物联网的智能监控方法的流程图。如图5所示，根据本申请实施例的基于物联网的智能监控方法，包括：S110,获取由物联网设备采集的园区人员活动的监控视频和人员活动过程中的声音信号；S120,将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图；S130,将所述园区声音信号的波形图通过卷积神经网络以得到音域特征图；S140,融合所述园区监控特征图和所述音域特征图以得到融合特征图；S150,将所述融合特征图通过空间注意力机制模块以得到分类特征图；以及,S160,将所述分类特征图通过分类器以得到分类结果，所述分类结果用于表示当前园区内是否有异常声音或突发噪音。

在一个示例中，在上述基于物联网的智能监控方法中，将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图，包括：以预定采样频率从所述园区人员活动的监控视频得到多个园区人员监控关键帧；以及,将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图。

在一个示例中，在上述基于物联网的智能监控方法中，将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图，包括：从所述多个园区人员监控关键帧中提取相邻的第一园区监控关键帧和第二园区监控关键帧；将所述第一园区监控关键帧和所述第二园区监控关键帧分别通过所述卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图；计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图；将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图；将所述第二园区监控关键帧通过所述卷积神经网络模型的第三卷积层以得到第三卷积特征图；以及,计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述园区监控特征图。

这里，本领域技术人员可以理解，上述基于物联网的智能监控方法中的各个步骤的具体操作已经在上面参考图1到图4的基于物联网的智能监控系统的描述中得到了详细介绍，并因此，将省略其重复描述。

示例性电子设备

下面，参考图6来描述根据本申请实施例的电子设备。图6为根据本申请实施例的电子设备的框图。如图6所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理模块(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理模块，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于物联网的智能监控系统及其方法中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如园区人员活动的监控视频和人员活动过程中的声音信号等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于物联网的智能监控方法中的功能中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于物联网的智能监控方法中的功能中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于物联网的智能监控系统，其特征在于，包括：

2.根据权利要求1所述的基于物联网的智能监控系统，其特征在于，所述时间注意力提取模块，包括：

采样单元，用于以预定采样频率从所述园区人员活动的监控视频得到多个园区人员监控关键帧；以及

时间注意力卷积编码单元，用于将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图。

3.根据权利要求2所述的基于物联网的智能监控系统，其特征在于，所述时间注意力卷积编码单元，包括：

相邻帧提取子单元，用于从所述多个园区人员监控关键帧中提取相邻的第一园区监控关键帧和第二园区监控关键帧；

第一卷积编码子单元，用于将所述第一园区监控关键帧和所述第二园区监控关键帧分别通过所述卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图；

时间注意力子单元，用于计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图；

注意力激活子单元，用于将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图；

第二卷积编码子单元，用于将所述第二园区监控关键帧通过所述卷积神经网络模型的第三卷积层以得到第三卷积特征图；以及

注意力施加子单元，用于计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述园区监控特征图。

4.根据权利要求3所述的基于物联网的智能监控系统，其特征在于，所述音域特征提取模块，用于：

使用所述卷积神经网络模型的各层在层的正向传递中对输入数据分别进行二维卷积处理、基于特征矩阵的均值池化处理和非线性激活处理以由所述卷积神经网络模型的最后一层输出所述音域特征图，其中，所述卷积神经网络模型的第一层的输入为所述园区声音信号的波形图。

5.根据权利要求4所述的基于物联网的智能监控系统，其特征在于，所述融合模块，包括：

散度计算单元，用于计算所述园区监控特征图的沿通道维度的各个特征矩阵与所述音域特征图的沿通道维度的各个特征矩阵之间的KL散度以得到多个KL散度值；

几何相似度计算单元，用于计算所述多个KL散度值的加和值作为所述园区监控特征图的沿通道维度的各个特征矩阵相对于所述第二特征矩阵的全局特征分布的几何相似度；

排列单元，用于将所述园区监控特征图的沿通道维度的各个特征矩阵相对于所述第二特征矩阵的全局特征分布的几何相似度排列为几何相似度全局输入向量；

概率化单元，用于将所述几何相似度全局输入向量输入Softmax函数以得到概率化几何相似度全局特征向量；以及

权重施加单元，用于以所述概率化几何相似度全局特征向量中各个位置的特征值作为权重值来融合所述园区监控特征图和所述音域特征图以得到所述融合特征图。

6.根据权利要求5所述的基于物联网的智能监控系统，其特征在于，所述空间特征增强模块，包括：

深度卷积编码单元，用于使用所述空间注意力机制模块的卷积编码部分对所述融合特征图进行深度卷积编码以得到检测卷积特征图；

空间注意力单元，用于将所述检测卷积特征图输入所述空间注意力机制模块的空间注意力部分以得到空间注意力图；

激活单元，用于将所述空间注意力图通过Softmax激活函数以得到空间注意力特征图；以及

计算单元，用于计算所述空间注意力特征图和所述检测卷积特征图的按位置点乘以得到分类特征图。

7.根据权利要求6所述的基于物联网的智能监控系统，其特征在于，所述分类结果生成模块，包括：

展开单元，用于将所述分类特征图展开为分类特征向量；

全连接编码单元，用于使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及

分类结果单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

8.一种基于物联网的智能监控方法，其特征在于，包括：

9.根据权利要求8所述的基于物联网的智能监控方法，其特征在于，将所述园区人员活动的监控视频通过使用时间注意力机制的卷积神经网络模型以得到园区监控特征图，包括：

以预定采样频率从所述园区人员活动的监控视频得到多个园区人员监控关键帧；以及

将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图。

10.根据权利要求9所述的基于物联网的智能监控方法，其特征在于，将所述多个园区人员监控关键帧通过所述使用时间注意力机制的卷积神经网络模型以得到所述园区监控特征图，包括：

从所述多个园区人员监控关键帧中提取相邻的第一园区监控关键帧和第二园区监控关键帧；

将所述第一园区监控关键帧和所述第二园区监控关键帧分别通过所述卷积神经网络模型的第一卷积层和第二卷积层以得到第一卷积特征图和第二卷积特征图；

计算所述第一卷积特征图和所述第二卷积特征图之间的按位置点乘以得到时间注意力图；

将所述时间注意力图输入Softmax激活函数以得到时间注意力特征图；

将所述第二园区监控关键帧通过所述卷积神经网络模型的第三卷积层以得到第三卷积特征图；以及

计算所述第三卷积特征图和所述时间注意力特征图之间的按位置点乘以得到对应于所述园区监控特征图。