CN117221494A

CN117221494A - 基于物联网和大数据的音视频综合管控平台

Info

Publication number: CN117221494A
Application number: CN202311285652.XA
Authority: CN
Inventors: 黄政
Original assignee: Hangzhou Xinyidi Technology Co ltd
Current assignee: Hangzhou Xinyidi Technology Co ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-12-12

Abstract

本申请公开了一种基于物联网和大数据的音视频综合管控平台，其通过物联网设备采集监控视频，并将监控视频上传至云平台，以利用云平台对所述监控视频进行压缩。在压缩过程中，利用图像处理和分析技术以基于第二帧与第一帧的语义信息差异来判断是否剔除第二帧。这样，能够有效地降低监控视频的数据量，提高监控视频数据的处理效率和存储利用率，减少对网络和存储资源的需求。同时，通过对监控视频进行语义信息差异的评估和剔除，可以提高视频质量和减少冗余数据，提供更准确和高效的监控服务。

Description

基于物联网和大数据的音视频综合管控平台

技术领域

本申请涉及智能管控领域，且更为具体地，涉及一种基于物联网和大数据的音视频综合管控平台。

背景技术

音视频管控是指对音频和视频数据进行采集、传输、存储和管理的过程。随着物联网和大数据技术的快速发展，音视频监控系统在各个领域，如安防监控、智能交通、远程教育等得到广泛应用。

然而，传统的音视频管控系统需要将大量的音视频数据传输到中心服务器或存储设备进行处理和存储。这对网络带宽提出了很高的要求，尤其是在同时处理多路音视频流的情况下，容易导致网络拥堵和传输延迟。并且，音视频数据通常需要长时间保存，以便后续的回放和分析。但传统的音视频管控系统需要大量的存储设备来满足数据存储的需求，这增加了存储成本和维护成本。

因此，期望一种优化的音视频综合管控平台。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于物联网和大数据的音视频综合管控平台，其通过物联网设备采集监控视频，并将监控视频上传至云平台，以利用云平台对所述监控视频进行压缩。在压缩过程中，利用图像处理和分析技术以基于第二帧与第一帧的语义信息差异来判断是否剔除第二帧。这样，能够有效地降低监控视频的数据量，提高监控视频数据的处理效率和存储利用率，减少对网络和存储资源的需求。同时，通过对监控视频进行语义信息差异的评估和剔除，可以提高视频质量和减少冗余数据，提供更准确和高效的监控服务。

根据本申请的一个方面，提供了一种基于物联网和大数据的音视频综合管控平台，其包括：

监控数据采集模块，用于通过物联网设备采集监控视频；

数据传输模块，用于将所述监控视频上传至云平台；

视频分析模块，用于在所述云平台，通过大数据技术对所述监控视频进行分析以得到视频中图像帧语义信息差分特征；

图像帧剔除模块，用于基于所述视频中图像帧语义信息差分特征，确定视频中图像帧的剔除方案。

与现有技术相比，本申请提供的一种基于物联网和大数据的音视频综合管控平台，其通过物联网设备采集监控视频，并将监控视频上传至云平台，以利用云平台对所述监控视频进行压缩。在压缩过程中，利用图像处理和分析技术以基于第二帧与第一帧的语义信息差异来判断是否剔除第二帧。这样，能够有效地降低监控视频的数据量，提高监控视频数据的处理效率和存储利用率，减少对网络和存储资源的需求。同时，通过对监控视频进行语义信息差异的评估和剔除，可以提高视频质量和减少冗余数据，提供更准确和高效的监控服务。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的基于物联网和大数据的音视频综合管控平台的框图；

图2为根据本申请实施例的基于物联网和大数据的音视频综合管控平台的系统架构图；

图3为根据本申请实施例的基于物联网和大数据的音视频综合管控平台中视频分析模块的框图；

图4为根据本申请实施例的基于物联网和大数据的音视频综合管控平台中图像帧语义信息差分单元的框图；

图5为根据本申请实施例的基于物联网和大数据的音视频综合管控平台中图像帧剔除模块的框图；

图6为根据本申请实施例的基于物联网和大数据的音视频综合管控平台中特征分布优化单元的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

具体地，在本申请的技术方案中，提出了一种基于物联网和大数据的音视频综合管控平台，其中，物联网设备可以通过传感器和摄像头等设备采集实时的监控视频数据，并将其上传至云平台进行处理和存储。云平台提供了强大的计算和存储能力，可以对大规模的监控视频数据进行处理和分析。同时，利用云平台的资源，可以对监控视频进行压缩，以减少存储和传输所需的带宽。特别地，考虑到在音视频管控系统中，由于监控场景中的视频数据通常是连续的，相邻帧之间存在很高的相似性。然而，目前的方案往往没有充分利用这种相似性，导致存储了大量冗余的数据，浪费了存储空间。基于此，本申请的技术构思为通过物联网设备采集监控视频，并将监控视频上传至云平台，以利用云平台对所述监控视频进行压缩。在压缩过程中，利用图像处理和分析技术以基于第二帧与第一帧的语义信息差异来判断是否剔除第二帧。这样，能够有效地降低监控视频的数据量，提高监控视频数据的处理效率和存储利用率，减少对网络和存储资源的需求。同时，通过对监控视频进行语义信息差异的评估和剔除，可以提高视频质量和减少冗余数据，提供更准确和高效的监控服务。

在本申请的技术方案中，提出了一种基于物联网和大数据的音视频综合管控平台。图1为根据本申请实施例的基于物联网和大数据的音视频综合管控平台的框图。图2为根据本申请实施例的基于物联网和大数据的音视频综合管控平台的系统架构图。如图1和图2所示，根据本申请的实施例的基于物联网和大数据的音视频综合管控平台300，包括：监控数据采集模块310，用于通过物联网设备采集监控视频；数据传输模块320，用于将所述监控视频上传至云平台；视频分析模块330，用于在所述云平台，通过大数据技术对所述监控视频进行分析以得到视频中图像帧语义信息差分特征；图像帧剔除模块340，用于基于所述视频中图像帧语义信息差分特征，确定视频中图像帧的剔除方案。

特别地，所述监控数据采集模块310和所述数据传输模块320，用于通过物联网设备采集监控视频；以及，将所述监控视频上传至云平台。特别地，在本申请的一个具体示例中，可以利用物联网摄像头采集视频数据，并将该视频数据通过网络传输到云端服务器。

相应的，在一种可能的实现方式中，可通过以下步骤通过物联网设备采集监控视频；以及，将所述监控视频上传至云平台，例如：在监控区域内部署物联网摄像头或其他监控设备。这些设备应该能够捕捉监控视频并将其转换为数字信号；将物联网设备连接到互联网，可以通过有线或无线网络连接。确保设备能够与云平台进行通信；对物联网设备进行配置，包括网络设置、视频编码参数、分辨率等。确保设备以适当的设置进行视频采集；物联网设备开始采集监控视频。视频可以以连续的帧序列形式生成；物联网设备对采集到的视频进行编码，将视频数据压缩为较小的文件大小，以便于传输和存储；物联网设备使用网络连接将编码后的视频数据上传到云平台。可以使用安全的通信协议，如HTTPS，确保数据传输的安全性；云平台接收来自物联网设备的视频数据。可以使用云存储服务或自定义的数据接收系统来接收和存储视频数据；云平台对接收到的视频数据进行解码，将其转换为图像帧序列；将解码后的图像帧序列存储到云平台的数据库或分布式文件系统中，以便后续的分析和处理。

特别地，所述视频分析模块330，用于在所述云平台，通过大数据技术对所述监控视频进行分析以得到视频中图像帧语义信息差分特征。特别地，在本申请的一个具体示例中，如图3所示，所述视频分析模块330，包括：图像帧提取单元331，用于在所述云平台，从所述监控视频提取相邻的第一图像帧和第二图像帧；图像帧特征分析单元332，用于通过基于深度神经网络模型的图像特征提取器对所述第一图像帧和所述第二图像帧进行特征提取以得到第一图像语义特征图和第二图像语义特征图；图像帧语义信息差分单元333，用于计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征以得到所述视频中图像帧语义信息差分特征。

具体地，所述图像帧提取单元331，用于在所述云平台，从所述监控视频提取相邻的第一图像帧和第二图像帧。考虑到在视频压缩和处理过程中，相邻的图像帧通常具有很高的相似性，尤其是在监控场景中，相邻帧之间的变化可能很小。因此，在本申请的技术方案中，需要进一步在所述云平台，从所述监控视频提取相邻的第一图像帧和第二图像帧，以便于利用它们之间的差异来评估相邻图像帧之间的语义信息和变化程度，从而有效剔除重复语义图像帧。

相应的，在一种可能的实现方式中，可通过以下步骤在所述云平台，从所述监控视频提取相邻的第一图像帧和第二图像帧，例如：云平台接收来自物联网设备的监控视频数据，并将其存储在适当的存储系统中，如云存储或分布式文件系统。对接收到的监控视频数据进行解码，将其转换为图像帧序列。从图像帧序列中提取第一帧图像。这可以通过指定图像帧的索引或时间戳来实现。从图像帧序列中提取第二帧图像。可以通过指定第二帧的索引或时间戳，或者通过在第一帧之后遍历图像帧序列来找到相邻的第二帧。

具体地，所述图像帧特征分析单元332，用于通过基于深度神经网络模型的图像特征提取器对所述第一图像帧和所述第二图像帧进行特征提取以得到第一图像语义特征图和第二图像语义特征图。在本申请的一个具体示例中，将所述第一图像帧和所述第二图像帧通过图像语义特征双重孪生编码模块以得到所述第一图像语义特征图和所述第二图像语义特征图。值得一提的是，所述图像语义特征双重孪生编码模块包含第一图像编码器和第二图像编码器，其中，所述第一图像编码器和所述第二图像编码器具有相同的网络结构。也就是，使用在图像的隐含特征提取方面具有优异表现性能的图像编码器来进行这两者图像的特征提取，特别地，考虑到在实际进行图像帧的语义比对和剔除时，为了能够进一步提高对于两者图像帧的语义比对精度，在本申请的技术方案中，进一步将所述第一图像帧和所述第二图像帧通过包含第一图像编码器和第二图像编码器的图像语义特征双重孪生编码模块以得到第一图像语义特征图和第二图像语义特征图。特别地，这里，所述第一图像编码器和所述第二图像编码器具有相同的网络结构。应可以理解，使用包含有相同网络结构的图像编码器的所述图像语义特征双重孪生编码模块来分别进行所述第一图像帧和所述第二图像帧的特征提取能够挖掘出两者的图像在图像源域端差异不明显的特征信息，以此来进行所述第一图像帧和所述第二图像帧的图像语义差异性分析，从而判断是否剔除所述第二图像帧。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式通过基于深度神经网络模型的图像特征提取器对所述第一图像帧和所述第二图像帧进行特征提取以得到第一图像语义特征图和第二图像语义特征图，例如：选择适当的深度神经网络模型作为图像特征提取器。常见的选择包括卷积神经网络(CNN)模型，如VGG、ResNet、Inception等；在云平台上加载所选的深度神经网络模型。确保模型的权重和参数已经训练好并保存；对第一图像帧和第二图像帧进行预处理，以使其适应深度神经网络模型的输入要求。这通常包括调整图像大小、归一化像素值、颜色空间转换等；使用加载的深度神经网络模型对第一图像帧进行前向传播，提取图像的语义特征。这可以通过获取网络模型的某一层的输出或使用全局平均池化等方法来实现；将提取的图像语义特征转换为可视化的图像表示，即第一图像语义特征图。可以使用热力图、颜色编码等方式来表示特征的重要性和分布；重复步骤3至5，对第二图像帧进行相同的特征提取和第二图像语义特征图生成；将得到的第一图像语义特征图和第二图像语义特征图存储到云平台的数据库或分布式文件系统中，以便后续的分析和处理。

具体地，所述图像帧语义信息差分单元333，用于计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征以得到所述视频中图像帧语义信息差分特征。特别地，在本申请的一个具体示例中，如图4所示，所述图像帧语义信息差分单元333，包括：图像帧语义特征差分子单元3331，用于计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征图；通道内容显化子单元3332，用于将所述语义信息差分特征图通过通道注意力层以得到通道显化语义信息差分特征图作为所述视频中图像帧语义信息差分特征。

更具体地，所述图像帧语义特征差分子单元3331，用于计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征图。也就是，计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征图。特别地，这里，所述差分特征图中的每个位置的特征值表示了相应位置上两个图像之间的语义信息差异程度。通过计算所述语义信息差分特征图，可以更准确地评估两帧之间的语义信息差异，并用于后续的决策和处理。这有助于剔除冗余的图像帧，减少存储和传输的数据量，提高系统的效率和性能。

更具体地，所述通道内容显化子单元3332，用于将所述语义信息差分特征图通过通道注意力层以得到通道显化语义信息差分特征图作为所述视频中图像帧语义信息差分特征。应可以理解，在本申请的技术方案中，为了能够更为精准强调不同通道之间的重要性，提高对语义信息差异的敏感度，在本申请的技术方案中，进一步将所述语义信息差分特征图通过通道注意力层以得到通道显化语义信息差分特征图。应可以理解，通过所述通道注意力层，可以根据每个通道的语义信息差异程度来分配权重。具体来说，较高的权重表示该通道对语义信息差异的贡献更大，而较低的权重表示该通道对语义信息差异的贡献较小。通过调整通道的权重，可以使得所述通道显化语义信息差分特征图能够更加突出和准确地反映语义信息的差异。具体地，对所述语义信息差分特征图的沿通道维度的各个特征矩阵进行全局均值池化以得到通道特征向量；将所述通道特征向量输入Softmax激活函数以得到通道注意力权重向量；以所述通道注意力权重向量中各个位置的特征值作为权重对所述语义信息差分特征图的沿通道维度的各个特征矩阵进行加权以得到所述通道显化语义信息差分特征图。

值得注意的是，通道注意力是一种用于增强深度神经网络模型中通道之间关系的注意力机制。在计算机视觉任务中，通道注意力可以帮助网络模型自动学习并关注输入特征图中不同通道的重要性，从而提高特征表示的质量和表达能力。在通道注意力机制中，通常使用全局池化操作(如全局平均池化或全局最大池化)来对每个通道的特征图进行降维，得到一个全局描述。然后，通过一个或多个全连接层或卷积层，将全局描述映射到一个通道注意力权重向量。这个权重向量表示了每个通道的重要性或权重。在应用通道注意力时，将通道注意力权重向量与原始特征图相乘，对每个通道的特征进行加权。这样，网络可以自动学习到每个通道的重要性，并在后续的特征处理中更加关注重要的通道。通过引入通道注意力，网络可以自适应地选择和强调输入特征图中最相关和有用的通道信息，从而提高特征的判别能力和表达能力。通道注意力可以应用于各种计算机视觉任务，如图像分类、目标检测、语义分割等，以提高模型的性能和准确性。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征以得到所述视频中图像帧语义信息差分特征，例如：获取视频中的第一帧图像和第二帧图像；使用已经训练好的深度神经网络(如ResNet、VGG等)将第一图像和第二图像作为输入，并提取它们的语义特征图。这些特征图包含了图像中不同层次的语义信息；对第一图像的语义特征图和第二图像的语义特征图分别应用通道注意力机制，以获得加权后的特征图。通道注意力模块可以根据特征图的通道维度来计算通道权重，并将权重应用于每个通道上的特征图；对经过通道注意力加权后的第一图像语义特征图和第二图像语义特征图进行差分计算，得到它们之间的差异特征。可以使用逐元素相减的操作来计算差异特征；根据差分计算的结果，生成图像帧的语义信息差分特征。可以将差异特征作为图像帧的新特征表示；对视频中的多个图像帧的语义信息差分特征进行聚合，以获得更全局和综合的图像帧语义信息差分特征。可以使用平均池化、最大池化或其他聚合方式来合并多个帧的特征；将得到的图像帧语义信息差分特征存储到云平台的数据库或分布式文件系统中，以供后续的分析和应用使用。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式在所述云平台，通过大数据技术对所述监控视频进行分析以得到视频中图像帧语义信息差分特征，例如：云平台接收来自物联网设备的监控视频数据，并将其存储在适当的存储系统中，如云存储或分布式文件系统；对接收到的监控视频数据进行解码，将其转换为图像帧序列；对每个图像帧应用计算机视觉算法，提取图像中的语义信息特征。这些特征可以包括目标物体的位置、大小、颜色、纹理等；将相邻图像帧的特征进行差分计算，得到图像帧之间的差异特征。可以通过比较特征向量之间的欧氏距离或使用其他相似度度量方法来实现；将差异特征聚合为视频级别的特征表示。可以使用聚类算法、时间序列分析或其他方法来聚合特征；将得到的视频帧语义信息差分特征存储到云平台的数据库或分布式文件系统中，以便后续的查询和分析；使用大数据分析技术对存储的特征数据进行分析。可以应用机器学习、深度学习等方法来挖掘视频数据中的模式、异常或其他有价值的信息；将分析结果可视化展示给用户或其他系统。可以使用图表、报表、实时监控界面等方式来展示视频数据的分析结果。

特别地，所述图像帧剔除模块340，用于基于所述视频中图像帧语义信息差分特征，确定视频中图像帧的剔除方案。特别地，在本申请的一个具体示例中，如图5所示，所述图像帧剔除模块340，包括：特征分布优化单元341，用于对所述通道显化语义信息差分特征图进行特征优化以得到优化通道显化语义信息差分特征图；图像帧语义差异检测单元342，用于将所述优化通道显化语义信息差分特征图通过分类器以得到分类结果，所述分类结果用于表示第一图像帧与第二图像帧之间的语义信息差异是否小于预定阈值；图像帧剔除判断单元343，用于响应于所述分类结果为所述第一图像帧与第二图像帧之间的语义信息差异小于预定阈值，剔除所述第二图像帧。

具体地，所述特征分布优化单元341，用于对所述通道显化语义信息差分特征图进行特征优化以得到优化通道显化语义信息差分特征图。特别地，在本申请的一个具体示例中，如图6所示，所述特征分布优化单元341，包括：降维子单元3411，用于对所述第一图像语义特征图和所述第二图像语义特征图进行沿通道维度的各个特征矩阵的均值池化以得到第一图像语义通道特征向量和第二图像语义通道特征向量；损失自监督平衡化子单元3412，用于对所述第一图像语义通道特征向量和所述第二图像语义通道特征向量进行特征插值式融合的目的损失自监督平衡化以得到通道校正特征向量；加权优化子单元3413，用于以所述通道校正特征向量对所述通道显化语义信息差分特征图进行通道加权以得到所述优化通道显化语义信息差分特征图。

更具体地，所述降维子单元3411，用于对所述第一图像语义特征图和所述第二图像语义特征图进行沿通道维度的各个特征矩阵的均值池化以得到第一图像语义通道特征向量和第二图像语义通道特征向量。应可以理解，通过均值池化操作，将每个特征矩阵沿通道维度的数值进行平均，得到一个特征向量。这个特征向量可以看作是对该特征矩阵在通道维度上的总体表示。通过对所有特征矩阵进行均值池化，可以得到第一图像和第二图像的语义通道特征向量，将图像的语义特征表示为紧凑的向量形式。

更具体地，所述损失自监督平衡化子单元3412，用于对所述第一图像语义通道特征向量和所述第二图像语义通道特征向量进行特征插值式融合的目的损失自监督平衡化以得到通道校正特征向量。特别地，在本申请的技术方案中，所述第一图像语义特征图和所述第二图像语义特征图分别用于表达所述第一图像帧和所述第二图像帧的图像语义特征，并且，将计算所述第一图像语义特征图和所述第二图像语义特征图之间的逐位置差分得到的所述语义信息差分特征图通过通道注意力层以得到通道显化语义信息差分特征图时，考虑到在通道维度上，所述第一图像语义特征图和所述第二图像语义特征图之间的表达不均衡，可能会影响所述通道显化语义信息差分特征图的表达效果，从而影响所述通道显化语义信息差分特征图通过分类器得到的分类结果的准确性。基于此，优选地，本申请的申请人首先对所述第一图像语义特征图和所述第二图像语义特征图进行沿通道维度的各个特征矩阵的均值池化，以得到第一图像语义通道特征向量，例如记为V₁和第二图像语义通道特征向量，例如记为V₂，再对所述第一图像语义通道特征向量V₁和所述第二图像语义通道特征向量V₂进行特征插值式融合的目的损失自监督平衡化，以获得通道校正特征向量，例如记为V_c：

其中和/>分别表示所述第一图像语义通道特征向量V₁和所述第二图像语义通道特征向量V₂的全局均值的倒数，且I是单位向量。也就是，在考虑到基于图像语义特征分布的通道维度语义差分注意力的情况下，如果将通道维度上所述第一图像语义通道特征向量V₁和所述第二图像语义通道特征向量V₂之一作为另一个的强特征通道维度增强输入，则可能损失所述第一图像语义通道特征向量V₁和所述第二图像语义通道特征向量V₂中的另一个的目标特征在类空间内的目标分布信息，导致类回归目的损失，因此通过对特征分布相对于彼此的离群分布(outlierdistribution)进行交叉惩罚的方式，可以在特征插值式融合时实现特征增强和回归鲁棒的自监督式平衡，以提升所述第一图像语义通道特征向量V₁和所述第二图像语义通道特征向量V₂的通道均衡效果。这样，再以所述通道校正特征向量V_c对所述通道显化语义信息差分特征图进行通道加权，就可以提升所述通道显化语义信息差分特征图的基于通道均衡的表达效果，以提升其通过分类器得到的分类结果的准确性。这样，能够基于监控视频中的第二帧与第一帧的语义信息差异来判断是否剔除第二帧，通过这样的方式，能够有效地降低监控视频的数据量，提高监控视频数据的处理效率和存储利用率，减少对网络和存储资源的需求。同时，通过对监控视频进行语义信息差异的评估和剔除，可以提高视频质量和减少冗余数据，提供更准确和高效的监控服务。

更具体地，所述加权优化子单元3413，用于以所述通道校正特征向量对所述通道显化语义信息差分特征图进行通道加权以得到所述优化通道显化语义信息差分特征图。应可以理解，通道校正特征向量可以用于对通道显化语义信息差分特征图进行通道加权。通过对特征向量中的通道权重进行调整，可以增强重要通道在特征图中的表示能力。这样可以提高特征图对目标或关键信息的敏感性，使得所述优化通道显化语义信息差分特征图更加突出和准确地表达图像的语义信息。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述通道显化语义信息差分特征图进行特征优化以得到优化通道显化语义信息差分特征图，例如：获取图像帧的语义信息差分特征图；设计通道注意力模块，用于计算特征图的通道注意力权重；使用通道注意力权重对特征图的通道维度进行加权操作，得到加权后的特征图。加权后的特征图将突出重要通道的特征，提高特征表示的质量和表达能力；使用特征显化技术将优化后的通道显化语义信息差分特征图可视化。特征显化可以通过强调特征图中的重要区域或特定通道来提高特征的可解释性和表达能力；根据应用需求，可以对优化的通道显化语义信息差分特征图进行进一步的特征增强。例如，可以应用滤波器、增强算法或其他图像处理技术来增强特征图中的细节或减少噪声；将优化的通道显化语义信息差分特征图存储到云平台的数据库或分布式文件系统中，以供后续的分析和应用使用。

具体地，所述图像帧语义差异检测单元342和所述图像帧剔除判断单元343，用于将所述优化通道显化语义信息差分特征图通过分类器以得到分类结果，所述分类结果用于表示第一图像帧与第二图像帧之间的语义信息差异是否小于预定阈值；以及，响应于所述分类结果为所述第一图像帧与第二图像帧之间的语义信息差异小于预定阈值，剔除所述第二图像帧。在本申请的技术方案中，将所述通道显化语义信息差分特征图通过分类器以得到分类结果，所述分类结果用于表示第一图像帧与第二图像帧之间的语义信息差异是否小于预定阈值。也就是，利用经过通道内容加强后的有关于所述第一图像帧和所述第二图像帧之间的图像帧语义差异性特征分布信息来进行分类处理，从而对于这两者图像帧的语义差异与阈值之间进行判断。更具体地，将所述优化通道显化语义信息差分特征图基于行向量或列向量展开为分类特征向量；使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。特别地，响应于所述分类结果为所述第一图像帧与第二图像帧之间的语义信息差异小于预定阈值，剔除所述第二图像帧。这样，能够有效地降低监控视频的数据量，提高监控视频数据的处理效率和存储利用率，减少对网络和存储资源的需求。

分类器是指一种机器学习模型或算法，用于将输入数据分为不同的类别或标签。分类器是监督学习的一部分，它通过学习从输入数据到输出类别的映射关系来进行分类任务。

全连接层是神经网络中常见的一种层类型。在全连接层中，每个神经元都与上一层的所有神经元相连接，每个连接都有一个权重。这意味着全连接层中的每个神经元都接收来自上一层所有神经元的输入，并通过权重对这些输入进行加权求和，然后将结果传递给下一层。

Softmax分类函数是一种常用的激活函数，用于多分类问题。它将输入向量的每个元素转化为一个介于0和1之间的概率值，并且这些概率值的和等于1。Softmax函数常用于神经网络的输出层，特别适用于多分类问题，因为它能够将网络输出映射为各个类别的概率分布。在训练过程中，Softmax函数的输出可以用于计算损失函数，并通过反向传播算法来更新网络参数。值得注意的是，Softmax函数的输出并不会改变元素之间的相对大小关系，只是对其进行了归一化处理。因此，Softmax函数并不改变输入向量的特性，只是将其转化为概率分布形式。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式基于所述视频中图像帧语义信息差分特征，确定视频中图像帧的剔除方案，例如：对视频中的每个图像帧，提取其语义信息差分特征；对于相邻的图像帧，计算它们之间的语义信息差分特征的差异。可以使用各种距离度量方法，如欧氏距离、余弦相似度等，来度量特征之间的差异程度；根据应用的需求和场景，设置一个阈值来判断图像帧之间的差异是否超过了可接受的范围。阈值的选择可以基于经验或通过实验进行调优；对于超过阈值的图像帧差异，将其标记为需要剔除的帧。可以使用一个二进制标记向量或其他方式来记录哪些帧需要被剔除；根据标记的结果，制定具体的剔除策略。可以选择直接删除标记为剔除的图像帧，或者通过插值或其他技术来填补剔除的帧；根据制定的剔除策略，对视频中的图像帧进行相应的操作，执行图像帧的剔除；根据剔除后的图像帧，重新生成剔除后的视频。可以使用视频编辑工具或编程方式来完成这一步骤。

如上所述，根据本申请实施例的基于物联网和大数据的音视频综合管控平台300可以实现在各种无线终端中，例如具有基于物联网和大数据的音视频综合管控算法的服务器等。在一种可能的实现方式中，根据本申请实施例的基于物联网和大数据的音视频综合管控平台300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于物联网和大数据的音视频综合管控平台300可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于物联网和大数据的音视频综合管控平台300同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于物联网和大数据的音视频综合管控平台300与该无线终端也可以是分立的设备，并且该基于物联网和大数据的音视频综合管控平台300可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于物联网和大数据的音视频综合管控平台，其特征在于，包括：

监控数据采集模块，用于通过物联网设备采集监控视频；

数据传输模块，用于将所述监控视频上传至云平台；

2.根据权利要求1所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述视频分析模块，包括：

图像帧提取单元，用于在所述云平台，从所述监控视频提取相邻的第一图像帧和第二图像帧；

图像帧特征分析单元，用于通过基于深度神经网络模型的图像特征提取器对所述第一图像帧和所述第二图像帧进行特征提取以得到第一图像语义特征图和第二图像语义特征图；

图像帧语义信息差分单元，用于计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征以得到所述视频中图像帧语义信息差分特征。

3.根据权利要求2所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述图像帧特征分析单元，用于：将所述第一图像帧和所述第二图像帧通过图像语义特征双重孪生编码模块以得到所述第一图像语义特征图和所述第二图像语义特征图。

4.根据权利要求3所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述图像语义特征双重孪生编码模块包含第一图像编码器和第二图像编码器，其中，所述第一图像编码器和所述第二图像编码器具有相同的网络结构。

5.根据权利要求4所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述图像帧语义信息差分单元，包括：

图像帧语义特征差分子单元，用于计算所述第一图像语义特征图和所述第二图像语义特征图之间的语义信息差分特征图；

通道内容显化子单元，用于将所述语义信息差分特征图通过通道注意力层以得到通道显化语义信息差分特征图作为所述视频中图像帧语义信息差分特征。

6.根据权利要求5所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述图像帧剔除模块，包括：

特征分布优化单元，用于对所述通道显化语义信息差分特征图进行特征优化以得到优化通道显化语义信息差分特征图；

图像帧语义差异检测单元，用于将所述优化通道显化语义信息差分特征图通过分类器以得到分类结果，所述分类结果用于表示第一图像帧与第二图像帧之间的语义信息差异是否小于预定阈值；

图像帧剔除判断单元，用于响应于所述分类结果为所述第一图像帧与第二图像帧之间的语义信息差异小于预定阈值，剔除所述第二图像帧。

7.根据权利要求6所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述特征分布优化单元，包括：

降维子单元，用于对所述第一图像语义特征图和所述第二图像语义特征图进行沿通道维度的各个特征矩阵的均值池化以得到第一图像语义通道特征向量和第二图像语义通道特征向量；

损失自监督平衡化子单元，用于对所述第一图像语义通道特征向量和所述第二图像语义通道特征向量进行特征插值式融合的目的损失自监督平衡化以得到通道校正特征向量；

加权优化子单元，用于以所述通道校正特征向量对所述通道显化语义信息差分特征图进行通道加权以得到所述优化通道显化语义信息差分特征图。

8.根据权利要求7所述的基于物联网和大数据的音视频综合管控平台，其特征在于，所述图像帧语义差异检测单元，包括：

展开子单元，用于将所述优化通道显化语义信息差分特征图基于行向量或列向量展开为分类特征向量；

全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及

分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。