CN117593702A

CN117593702A - 远程监控方法、装置、设备及存储介质

Info

Publication number: CN117593702A
Application number: CN202410074092.1A
Authority: CN
Inventors: 杨成志; 李飞恒; 曹广阔
Original assignee: Shenzhen Guangmingding Technology Co ltd
Current assignee: Shenzhen Guangmingding Technology Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117593702B

Abstract

本发明提供了一种远程监控方法、装置、设备及存储介质，该方法包括：通过远程传感器设备获取待监控场景下不同角度的静态传感器数据，通过后台处理设备基于静态传感器数据对待监控场景进行数字孪生处理，得到待监控场景的静态场景模型；通过远程传感器设备实时获取待监控场景下不同角度的动态传感器数据；对动态传感器数据进行内容识别，生成内容识别文本；通过后台处理设备基于内容识别文本在静态场景模型中进行实时动态渲染，得到并展示待监控场景的实时动态场景模型，并基于动态场景模型对待监控场景进行监控。本方法使用静态数据构建待监控场景的数字孪生模型，并实时获取动态数据，使用内容识别技术进行快速渲染，提高了模型的实时更新能力。

Description

远程监控方法、装置、设备及存储介质

技术领域

本发明涉及数字孪生领域，尤其涉及一种远程监控方法、装置、设备及存储介质。

背景技术

数字孪生技术是一种先进的监控和分析方法，它通过创建物理实体的高精度虚拟模型来实现实时监控和预测。这种技术被广泛应用于各种领域，包括但不限于工业自动化、城市基础设施管理以及建筑物维护。

在当前的实践中，数字孪生技术主要依赖于大量传感器和数据采集设备，用于收集实体环境的实时数据。这一过程允许操作者对物理环境进行有效的监控和管理，从而提高操作效率和安全性。然而在某些应用场景中，尤其是那些需要快速响应的场景，现有的数字孪生模型在实时数据处理和更新方面表现不佳。

发明内容

本发明的主要目的在于解决现有的数字孪生监控方式在实时数据处理和更新方面表现不佳的技术问题。

本发明第一方面提供了一种远程监控方法，所述远程监控方法应用于远程监控系统，所述远程监控系统包括远程传感器设备和后台处理设备；所述远程监控方法包括：

通过所述远程传感器设备获取待监控场景下不同角度的历史传感器数据，并对所述历史传感器数据进行条件筛选，得到所述历史传感器数据中的静态传感器数据；

通过所述远程传感器设备将所述静态传感器数据发送至所述后台处理设备，通过所述后台处理设备基于不同角度下的静态传感器数据对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型；

通过所述远程传感器设备实时获取待监控场景下不同角度的实时传感器数据，并对所述实时传感器数据进行条件筛选，得到所述实时传感器数据中的动态传感器数据；

对所述动态传感器数据进行内容识别，生成内容识别文本，并将所述内容识别文本发送至所述后台处理设备；

通过所述后台处理设备基于所述内容识别文本在所述静态场景模型中进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型，并基于所述动态场景模型对所述待监控场景进行监控。

可选的，在本发明第一方面的第一种实现方式中，所述远程传感器设备包括摄像机设备，所述静态传感器数据包括所述摄像机设备拍摄的所述待监控场景的静态图像；

所述通过所述远程传感器设备将所述静态传感器数据发送至所述后台处理设备，通过所述后台处理设备基于不同角度下的静态传感器数据对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型还包括：

通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备分别对所述不同角度下的静态图像行深度标注，得到所述不同角度下的静态图像对应的多张深度图；

根据所述摄像机设备的摄像机内参，将所述深度图中的各像素的像素坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机坐标系下的多个伪点云；

将不同角度下的静态图像的伪点云进行耦合，得到所述待监控场景的总和伪点云；

基于所述总和伪点云和不同角度下的静态图像对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备分别对所述不同角度下的静态图像行深度标注，得到所述不同角度下的静态图像对应的多张深度图包括：

通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备将所述不同角度下的静态图像输入预设的深度标注模型中，其中，所述深度标注模型包括编码器、跳跃连接层和解码器；

通过所述编码器中的多个密集块提取输入的不同角度下的静态图像的第一特征图；

通过所述跳跃连接层将所述特征图进行第一卷积处理，得到所述特征图的图像特征；

通过所述跳跃连接层中的全局池化层将所述图像特征进行压缩，得到特征向量，并将所述特征向量进行第二卷积处理和通过预设的激活函数进行处理，得到权重向量；

在所述图像特征和权重向量进行逐像素点积，得到加权特征，并根据所述加权特征和所述图像特征进行整合，得到对应的静态图像的第二特征图；

通过所述解码器对所述第二特征图进行深度估计，得到不同角度下的静态图像对应的深度图。

可选的，在本发明第一方面的第三种实现方式中，所述摄像机内参包括焦距和图像中心点的坐标，所述焦距包括x轴焦距和y轴焦距，所述像素坐标包括x轴像素坐标、y轴像素坐标和z轴像素坐标；

所述根据所述摄像机设备的摄像机内参，将所述深度图中的各像素的像素坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机坐标系下的多个伪点云包括：

根据所述x轴像素坐标、所述x轴焦距和所述图像中心点的坐标计算伪点云在所述相机坐标系下的x轴相机坐标；

根据所述y轴像素坐标、所述y轴焦距和所述图像中心点的坐标计算伪点云在所述相机坐标系下的y轴相机坐标；

将所述z轴像素坐标作为所述伪点云在所述相机坐标系下的z轴相机坐标，并基于各像素的x轴相机坐标、y轴相机坐标和z轴相机坐标生成对应的伪点云。

可选的，在本发明第一方面的第四种实现方式中，所述基于所述总和伪点云和不同角度下的静态图像对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型包括：

对所述总和伪点云进行场景组件划分，得到多个组件伪点云；

根据各组件伪点云在预设的模型组件库中进行组件检索，得到各组件伪点云对应的模型组件；

根据各组件伪点云在所述总和伪点云中的点云位置，在预设的数字内容生成软件中添加对应的模型组件；

根据所述静态图像对各模型组件进行渲染，得到所述待监控场景的静态场景模型。

可选的，在本发明第一方面的第五种实现方式中，所述动态传感器数据包括所述摄像机设备拍摄的动态图像；

所述对所述动态传感器数据进行内容识别，生成内容识别文本，并将所述内容识别文本发送至所述后台处理设备包括：

对所述动态图像进行动态区域检测，确定所述动态图像中的至少一个动态区域，并对所述至少一个动态区域进行特征提取，得到所述至少一个动态区域对应的区域特征向量；

将所述至少一个动态区域对应的区域特征向量输入预设的图像内容识别模型中，通过所述图像内容识别模型根据所述区域特征向量输出所述至少一个动态区域对应的区域描述文本；

判断所述动态区域的区域数量是否大于一；

若是，则根据各动态区域在所述动态图像中的区域位置，将各动态区域对应的区域描述文本进行整合，得到所述内容识别文本；

若否，则将所述动态区域的区域描述文本作为内容识别文本；

将所述内容识别文本发送至所述后台处理设备。

可选的，在本发明第一方面的第六种实现方式中，所述通过所述后台处理设备基于所述内容识别文本在所述静态场景模型中进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型，并基于所述动态场景模型对所述待监控场景进行监控包括：

通过所述后台处理设备对所述内容识别文本进行文本解析，提取所述内容识别文本中的关键词，其中，所述关键词包括场景实体类型和对应的属性值；

基于所述属性值识别所述静态场景模型中的待渲染位置，并在所述待渲染位置基于所述场景实体类型和对应的属性值进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型；

基于所述动态场景模型对所述待监控场景进行监控。

本发明第二方面提供了一种远程监控装置，所述远程监控装置应用于远程监控系统，所述远程监控系统包括远程传感器设备和后台处理设备；所述远程监控装置包括：

静态数据获取模块，用于通过所述远程传感器设备获取待监控场景下不同角度的历史传感器数据，并对所述历史传感器数据进行条件筛选，得到所述历史传感器数据中的静态传感器数据；

静态模型生成模块，用于通过所述远程传感器设备将所述静态传感器数据发送至所述后台处理设备，通过所述后台处理设备基于不同角度下的静态传感器数据对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型；

动态数据获取模块，用于通过所述远程传感器设备实时获取待监控场景下不同角度的实时传感器数据，并对所述实时传感器数据进行条件筛选，得到所述实时传感器数据中的动态传感器数据；

内容文本生成模块，用于对所述动态传感器数据进行内容识别，生成内容识别文本，并将所述内容识别文本发送至所述后台处理设备；

渲染监控模块，用于通过所述后台处理设备基于所述内容识别文本在所述静态场景模型中进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型，并基于所述动态场景模型对所述待监控场景进行监控。

本发明第三方面提供了一种远程监控装置，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述远程传感器设备执行上述的远程监控方法的步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的远程监控方法的步骤。

上述远程监控方法、装置、设备及存储介质，通过远程传感器设备获取待监控场景下不同角度的静态传感器数据，通过后台处理设备基于静态传感器数据对待监控场景进行数字孪生处理，得到待监控场景的静态场景模型；通过远程传感器设备实时获取待监控场景下不同角度的动态传感器数据；对动态传感器数据进行内容识别，生成内容识别文本；通过后台处理设备基于内容识别文本在静态场景模型中进行实时动态渲染，得到并展示待监控场景的实时动态场景模型，并基于动态场景模型对待监控场景进行监控。本方法使用静态数据构建待监控场景的数字孪生模型，并实时获取动态数据，使用内容识别技术进行快速渲染，提高了模型的实时更新能力。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例中远程监控方法的一个实施例示意图；

图2为本发明实施例中远程监控装置的一个实施例示意图；

图3为本发明实施例中远程传感器设备的一个实施例示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种远程监控方法进行详细介绍，所述远程监控方法应用于远程监控系统，所述远程监控系统包括远程传感器设备和后台处理设备。如图1所示，该远程监控的方法，本方法包括如下步骤：

101、通过远程传感器设备获取待监控场景下不同角度的历史传感器数据，并对历史传感器数据进行条件筛选，得到历史传感器数据中的静态传感器数据；

在本发明的一个实施例中，通过远程传感器设备获取待监控场景下不同角度的历史传感器数据，并对历史传感器数据进行条件筛选，得到历史传感器数据中的静态传感器数据的目的是为了获得更全面、准确的待监控场景信息，并且减少冗余数据的处理量，提高监控效率。远程传感器设备可以是摄像机设备，也可以是点云设备，以摄像机为例，不同角度的摄像机可以提供多个视角的监控数据。这样做的好处是可以增加对待监控场景的覆盖范围，避免盲区，同时也能够更全面地捕捉到待监控场景中发生的事件和活动。不同角度的摄像机可以提供互补的信息，从而更好地还原待监控场景的真实状态。在获取历史传感器数据后，需要对数据进行条件筛选，以提取出静态传感器数据。这是因为历史传感器数据中可能包含了大量的动态变化信息，例如移动物体、人员行走等。但对于构建数字孪生模型来说，这些动态变化信息并不是必要的，因为数字孪生模型主要关注的是待监控场景的静态结构和物体分布。条件筛选可以利用各种算法和技术，例如图像处理算法、运动检测算法等。通过对历史传感器数据进行分析和筛选，可以提取出其中的静态信息，例如待监控场景中的建筑物、固定设备等。这些静态传感器数据可以用于构建数字孪生模型，反映待监控场景的静态结构。以点云设备为例，同样可以通过不同角度的点云数据获取待监控场景的多个视角信息。点云设备可以生成包含三维空间中点的坐标和属性信息的数据集，可以提供更加细致和准确的场景信息。利用不同角度的点云设备采集的数据，可以构建多个视角的点云数据集。这些数据集可以覆盖待监控场景的各个角度和区域，从而提供全面的场景信息。不同角度的点云数据可以相互补充，帮助还原待监控场景的真实状态。在获取历史传感器数据后，需要进行条件筛选，以提取出静态传感器数据。对点云数据进行条件筛选的方法可以包括但不限于以下几种：基于运动检测：对点云数据进行运动分析，筛选出静止的物体或区域，排除动态变化的对象，从而提取出待监控场景的静态部分；基于聚类分析：通过聚类算法对点云数据进行分组，将静态的点云对象归类为一个独立的群集，从而得到静态传感器数据；基于形状匹配：通过将历史传感器数据与已知的静态场景模型进行形状匹配，识别和筛选出静态物体或区域。以上方法可以根据具体场景和需求选择合适的筛选方式，以提取出历史传感器数据中的静态传感器数据。这些静态传感器数据可以用于构建数字孪生模型，反映待监控场景的静态结构和物体分布。通过点云设备获取不同角度的数据，并提取静态传感器数据，可以更加全面、准确地还原待监控场景的静态信息。

102、通过远程传感器设备将静态传感器数据发送至后台处理设备，通过后台处理设备基于不同角度下的静态传感器数据对待监控场景进行数字孪生处理，得到待监控场景的静态场景模型；

在本发明的一个实施例中，所述远程传感器设备包括摄像机设备，所述静态传感器数据包括所述摄像机设备拍摄的所述待监控场景的静态图像；所述通过所述远程传感器设备将所述静态传感器数据发送至所述后台处理设备，通过所述后台处理设备基于不同角度下的静态传感器数据对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型包括：通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备分别对所述不同角度下的静态图像行深度标注，得到所述不同角度下的静态图像对应的多张深度图；根据所述摄像机设备的摄像机内参，将所述深度图中的各像素的像素坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机坐标系下的多个伪点云；将不同角度下的静态图像的伪点云进行耦合，得到所述待监控场景的总和伪点云；基于所述总和伪点云和不同角度下的静态图像对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型。

具体的，由于不同角度下的图片对应的伪点云是相对于各自摄像机坐标系的，需要将它们统一到一个全局坐标系下。可以选择其中一张深度图像所对应的伪点云作为参考，将其他深度图像的伪点云按照其与参考伪点云之间的平移和旋转进行校准，从而使它们在同一个全局坐标系下。将经过位置校准后的伪点云进行融合操作，以获取总和伪点云。融合的方法可以采用简单的加法或者更复杂的插值方法。通过将不同角度下的伪点云叠加或者平均，可以得到更完整的点云信息。对合并后的总和伪点云进行后处理，例如去除离群点、平滑点云、填充空洞等操作，以进一步提高点云的质量和准确性。

进一步的，所述通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备分别对所述不同角度下的静态图像行深度标注，得到所述不同角度下的静态图像对应的多张深度图包括：通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备将所述不同角度下的静态图像输入预设的深度标注模型中，其中，所述深度标注模型包括编码器、跳跃连接层和解码器；通过所述编码器中的多个密集块提取输入的不同角度下的静态图像的第一特征图；通过所述跳跃连接层将所述特征图进行第一卷积处理，得到所述特征图的图像特征；通过所述跳跃连接层中的全局池化层将所述图像特征进行压缩，得到特征向量，并将所述特征向量进行第二卷积处理和通过预设的激活函数进行处理，得到权重向量；在所述图像特征和权重向量进行逐像素点积，得到加权特征，并根据所述加权特征和所述图像特征进行整合，得到对应的静态图像的第二特征图；通过所述解码器对所述第二特征图进行深度估计，得到不同角度下的静态图像对应的深度图。

具体的，编码器主要使用Densenet（密集连接网络），基于Densenet的编码器主要由卷积层、池化层、DenseBlock（密集块）、TransitionLayer（过渡层）组成，在编码器中，输入的静态图像首先通过一个初始卷积层，该层用于对输入图像进行初步特征提取，在每个密集块内部，输入特征图（或称为前一层的输出）首先被传入第一个卷积层和激活函数，用于进行特征提取。然后，这个特征图会被直接连接到该层之前所有层的输出上，接下来，每个密集块内的每一层都会将其输出与之前所有层的输出进行连接。这样，每一层都可以直接访问之前层的特征图，从而获得更丰富的上下文信息。在密集块内部的每个连接点，特征图的通道数会逐渐增加。这是通过使用具有较小卷积核尺寸（如3x3）的卷积层来实现的。这种设计可以增加特征的多样性和复杂性。在密集块之间，可以插入过渡层（transitionlayer），用于控制特征图的通道数和分辨率。过渡层通常由一个1x1卷积层和一个平均池化层组成，以减少特征图的维度和计算量。最后一个密集块之后，全局平均池化层将得到的特征图转换为全局特征向量，根据该全局特征向量转换成对应的静态图像的第一特征图。

具体的，解码器采用双线性插值的方法上采样特征图并在不同尺度特征图上预测小波高频系数图，然后使用Haar小波的逆离散小波变换（IDWT）以系数图的两倍分辨率将四个系数图转换为2D图像：低频分量LL和三个高频分量LH、HL、HH，四个系数图分辨率为输出LL图像的一半。通过将IDWT递归应用于低频系数图LL以重建全分辨率图像，具体来说，网络在解码器特征图尺度为S/16处进行粗略深度估计获得低频深度图LL3，然后预测稀疏小波系数{LH3，HL3，HH3}，经过逆离散小波变换将它们结合在一起，得到分辨率S/8的新深度图LL2，由此不断地迭代上采样和细化该深度图，最终生成5个深度图LL的集合，其尺度分别为输入图片的1/16、1/8、1/4、1/2、1。由于IDWT以2倍分辨率输出视差，使用基于小波分解解码器的方法只需要监督四个比例1/16、1/8、1/4、1/2，最终输出尺度为1的深度图。

具体的，细节增强模块的处理过程是对深度估计网络中传统的 U-net 架构的一个优化。在标准 U-net 架构中，通过跳跃连接简单地将编码器的多尺度特征图与解码器叠加，实现浅层与深层信息的融合。但这种简单的叠加方式往往缺乏对局部细节的进一步处理，可能导致预测的深度图出现模糊或伪影。为了解决这个问题，引入了细节增强，首先，将编码器输出的特征图通过一个 (3 \times 3) 的卷积层处理。这一步的目的是提取特征，得到图像特征接下来，通过全局池化层将图像特征压缩成一个向量。这个过程有助于提取全局的上下文信息，即从整个特征图中提取重要的信息。然后，使用两个 (1 \times 1) 卷积层和一个 Sigmoid 激活函数来处理这个向量。这一步骤的目的是生成权重向量 (Y)，用于重新校准不同通道的重要性。Sigmoid 激活函数确保了权重向量的值在 0 到 1 之间，这样可以有效地进行缩放操作。将权重向量 (Y) 和特征图 (X) 通过逐像素的点积操作相结合。这一步的作用是通过权重向量调整每个像素点的特征值，使得包含关键信息的通道特征获得更大的重视。最后，将这个加权后的特征图与原始特征图 (X) 进行整合，得到第二特征图。这样可以确保不仅保留原始特征的信息，同时也强调了通过权重向量加强的那些特征。

进一步的，所述摄像机内参包括焦距和图像中心点的坐标，所述焦距包括x轴焦距和y轴焦距，所述像素坐标包括x轴像素坐标、y轴像素坐标和z轴像素坐标；所述根据所述摄像机设备的摄像机内参，将所述深度图中的各像素的像素坐标转换至相应的相机坐标系，得到所述深度图中各像素在所述相机坐标系下的多个伪点云包括：根据所述x轴像素坐标、所述x轴焦距和所述图像中心点的坐标计算伪点云在所述相机坐标系下的x轴相机坐标；根据所述y轴像素坐标、所述y轴焦距和所述图像中心点的坐标计算伪点云在所述相机坐标系下的y轴相机坐标；将所述z轴像素坐标作为所述伪点云在所述相机坐标系下的z轴相机坐标，并基于各像素的x轴相机坐标、y轴相机坐标和z轴相机坐标生成对应的伪点云。

具体的，在本实施例中，存在多个坐标系，包括相机坐标系，像素坐标系，其中，在相机坐标系和像素坐标系之前还存在图像坐标系，图像坐标系以相机光轴与成像平面的交点（principal point）为坐标原点，描述物体通过投影投射在成像平面中的位置，单位一般为mm。在本实施例中，先将深度图像从像素坐标系转换至相机坐标系，再从相机坐标系转换至鸟瞰图坐标系，其中图像坐标系和像素坐标系之间的转换关系为：

；

转换成矩阵形式为：

；

其中，（u，v）表示像素的行数和列数，表示图像坐标系原点在像素坐标系中的坐标，dx和dy表示单个像素分别在x轴和y轴上的物理尺寸，图像坐标系与相机坐标系之间的转换关系由三角形相似原理可以得到：

；

转换成矩阵形式为：

；

将像素坐标系与图像坐标系的转换公式带入并整理，可得：

；

其中，，/>分别表示相机在 x 轴和 y 轴方向上的焦距，也就是x轴焦距和y轴焦距，只需要知道相机在 x 轴和 y 轴方向上的焦距以及图像坐标系原点在像素坐标系中的坐标即可将在相机坐标系和像素坐标系之间进行转换，通过标定即可得到上述的/>、/>。

在本实施例中根据上述的转换矩阵，可以得到，根据每个像素在像素坐标系的坐标，即可计算得到每个像素对应在相机坐标系上x轴和y轴的坐标，并将深度值d作为相机坐标系上的z轴坐标，即可完成将深度值上的像素转换至相机坐标系上，并将每个坐标的3d点作为一个伪点云，即可得到每个像素在相机坐标系上的伪点云。

进一步的，所述基于所述总和伪点云和不同角度下的静态图像对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型包括：对所述总和伪点云进行场景组件划分，得到多个组件伪点云；根据各组件伪点云在预设的模型组件库中进行组件检索，得到各组件伪点云对应的模型组件；根据各组件伪点云在所述总和伪点云中的点云位置，在预设的数字内容生成软件中添加对应的模型组件；根据所述静态图像对各模型组件进行渲染，得到所述待监控场景的静态场景模型。

具体的，对于模型组件库，需要事先将数字孪生资产库中所有3DCAD模型通过算法模型的特征编码器处理转换为特征向量，储存在数据库中。对来自数据采集阶段中的伪点云数据，同样经过特征编码器转换为特征向量，即可通过检索算法从数据库中检索出对应的3DCAD模型的特征向量，通过对应的3DCAD模型的特征向量从数字孪生资产库中提取出3DCAD模型，然后嵌入到数字孪生几何场景中，最后将所有物理实体对应的3DCAD模型都嵌入几何场景中即可实现数字孪生几何场景的构建。

103、通过远程传感器设备实时获取待监控场景下不同角度的实时传感器数据，并对实时传感器数据进行条件筛选，得到实时传感器数据中的动态传感器数据；

在本发明的一个实施例中，远程传感器设备可以是摄像机也可以是点云设备，以远程传感器设备是摄像机为例，对实时传感器数据进行条件筛选可以通过对于摄像机数据，可以使用运动检测算法来提取动态传感器数据。运动检测算法会比较当前帧与前一帧之间的图像差异，并将发生明显变化的区域标记为动态区域。这些动态区域表示了物体的运动或活动。在运动检测的基础上，可以使用目标跟踪算法来对检测到的动态区域进行跟踪。目标跟踪算法可以追踪特定物体在连续帧之间的位置和运动轨迹，从而得到动态传感器数据。跟踪到的动态区域中，可以进一步应用物体识别算法，将不同的物体进行分类和识别。这样就可以从传感器数据中提取出具体的动态传感器数据，例如人的行走、车辆的移动等。需要注意的是，对于点云设备，提取动态传感器数据的过程可能略有不同，需要根据具体设备和应用场景进行相应的处理和算法。例如，可以通过比较连续点云数据之间的差异来检测运动或变化，并提取出动态传感器数据。

104、对动态传感器数据进行内容识别，生成内容识别文本，并将内容识别文本发送至后台处理设备；

在本发明的一个实施例中，所述动态传感器数据包括所述摄像机设备拍摄的动态图像；所述对所述动态传感器数据进行内容识别，生成内容识别文本，并将所述内容识别文本发送至所述后台处理设备包括：对所述动态图像进行动态区域检测，确定所述动态图像中的至少一个动态区域，并对所述至少一个动态区域进行特征提取，得到所述至少一个动态区域对应的区域特征向量；将所述至少一个动态区域对应的区域特征向量输入预设的图像内容识别模型中，通过所述图像内容识别模型根据所述区域特征向量输出所述至少一个动态区域对应的区域描述文本；判断所述动态区域的区域数量是否大于一；若是，则根据各动态区域在所述动态图像中的区域位置，将各动态区域对应的区域描述文本进行整合，得到所述内容识别文本；若否，则将所述动态区域的区域描述文本作为内容识别文本；将所述内容识别文本发送至所述后台处理设备。

具体的，要进行图像内容识别并将其转换为文字描述，这个过程通常被称为图像字幕生成（Image Captioning）。这个任务结合了计算机视觉（用于理解图像内容）和自然语言处理（用于生成描述）。在本实施例中，这需要包括两个主要部分：卷积神经网络（CNN）和循环神经网络（RNN），其中图像内容识别模型即为循环神经网络（RNN）构成，而卷积神经网络（CNN）用于提取动态区域的特征向量，这整个过程需要事先进行模型训练，需要选择一个包含大量带有描述的图像的数据集，例如常用的是 MS COCO 数据集，对图像进行规范化处理，例如调整大小、归一化像素值等，然后对描述进行分词、构建词汇表、转换为序列，并进行填充或截断以保持一致长度，然后选择一个预训练的 CNN 模型（如 VGG16、ResNet）来提取图像特征，设计 LSTM 网络来接受图像特征并生成描述。通常，这部分网络会包括嵌入层（用于单词嵌入）、LSTM 层和全连接层，训练过程中使用适当的损失函数，如交叉熵损失，来训练模型，选择优化器（如 Adam）来最小化损失函数，在训练数据集上训练模型，并在验证集上验证其性能。

具体的，在文本生成过程中，可以使用LSTM（长短期记忆网络），其是一种特殊类型的循环神经网络（RNN），它非常适合处理和预测序列数据的任务。在这种场景中，LSTM 用于生成描述文本，其输入来自于之前的 CNN 模型所提取的图像特征以及前一时间步的文字信息。LSTM 网络结构包括：嵌入层（Embedding Layer）：将输入序列中的单词转换为密集向量。这一层将稀疏的、基于索引的单词表示转换为固定大小的密集向量。LSTM 层：核心部分，处理时间序列数据。LSTM 通过其内部门结构（输入门、遗忘门、输出门）来管理信息的流动，从而有效地捕获长期依赖关系。全连接层（Dense Layer）：将 LSTM 输出的特征向量转换为单词的概率分布。这一层通常使用 softmax 激活函数，以便输出每个单词的概率。其处理步骤具体如下：LSTM 的初始状态通常是通过 CNN 提取的图像特征来设置的。这些特征在经过一层或多层全连接层后，用于初始化 LSTM 的隐藏状态和单元状态。对于生成的每个单词，模型首先使用嵌入层将其转换为密集向量。STM 接收来自前一时间步的隐藏状态和当前的输入（嵌入向量），并计算出当前时间步的输出和新的隐藏状态。这个过程在序列的每个时间步重复进行。LSTM 的输出被送入全连接层，该层输出每个可能单词的概率分布。然后，根据这个分布选择概率最高的单词作为当前步的输出。生成的单词被反馈到模型中作为下一个时间步的输入。这个过程重复进行，直到生成特殊的结束标记（例如 <end>）或达到预定的最大长度。最后所有选定的单词串联起来形成最终的描述性文字。

105、通过后台处理设备基于内容识别文本在静态场景模型中进行实时动态渲染，得到并展示待监控场景的实时动态场景模型，并基于动态场景模型对待监控场景进行监控。

在本发明的一个实施例中，所述通过所述后台处理设备基于所述内容识别文本在所述静态场景模型中进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型，并基于所述动态场景模型对所述待监控场景进行监控包括：通过所述后台处理设备对所述内容识别文本进行文本解析，提取所述内容识别文本中的关键词，其中，所述关键词包括场景实体类型和对应的属性值；基于所述属性值识别所述静态场景模型中的待渲染位置，并在所述待渲染位置基于所述场景实体类型和对应的属性值进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型；基于所述动态场景模型对所述待监控场景进行监控。

具体的，将得到的文字描述输入到数字孪生（Digital Twin）生成的场景模型中进行渲染是一个多步骤的过程。数字孪生通常是指一个虚拟环境中的物理实体的精确数字复制。在这个上下文中，它意味着根据文字描述创建或修改一个虚拟场景。首先，需要将文字描述转化为可以被场景模型理解和执行的具体参数或命令。这通常涉及自然语言处理（NLP）技术，如关键词提取、实体识别等，以从文本中提取相关信息，如物体、属性、动作等。确定场景模型的参数和构成。这包括了场景中物体的类型、位置、颜色、纹理等属性。在数字孪生模型中，这些参数需要被详细定义，以便根据输入的描述进行调整。将从文字描述中提取的信息映射到场景模型的参数上。这可能需要一个中间层，它能将抽象的概念（如“桌子”、“红色”）转化为场景模型中的具体实体和属性值。根据映射结果，生成或调整数字孪生模型中的场景。这可能涉及到在虚拟环境中创建新对象、调整现有对象的位置或属性等。使用适当的渲染技术将调整后的场景可视化。这可能包括光照、阴影、纹理映射等高级渲染技术，以确保场景的真实感。在某些应用中，还可能需要实现与生成的场景的交互，以及根据用户的输入进行进一步的调整。

在本实施例中，通过远程传感器设备获取待监控场景下不同角度的静态传感器数据，通过后台处理设备基于静态传感器数据对待监控场景进行数字孪生处理，得到待监控场景的静态场景模型；通过远程传感器设备实时获取待监控场景下不同角度的动态传感器数据；对动态传感器数据进行内容识别，生成内容识别文本；通过后台处理设备基于内容识别文本在静态场景模型中进行实时动态渲染，得到并展示待监控场景的实时动态场景模型，并基于动态场景模型对待监控场景进行监控。本方法使用静态数据构建待监控场景的数字孪生模型，并实时获取动态数据，使用内容识别技术进行快速渲染，提高了模型的实时更新能力。

上面对本发明实施例中远程监控方法进行了描述，下面对本发明实施例中远程监控装置进行描述，所述远程监控装置应用于远程监控系统，所述远程监控系统包括远程传感器设备和后台处理设备，请参阅图2，本发明实施例中远程监控装置一个实施例包括：

静态数据获取模块201，用于通过所述远程传感器设备获取待监控场景下不同角度的历史传感器数据，并对所述历史传感器数据进行条件筛选，得到所述历史传感器数据中的静态传感器数据；

静态模型生成模块202，用于通过所述远程传感器设备将所述静态传感器数据发送至所述后台处理设备，通过所述后台处理设备基于不同角度下的静态传感器数据对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型；

动态数据获取模块203，用于通过所述远程传感器设备实时获取待监控场景下不同角度的实时传感器数据，并对所述实时传感器数据进行条件筛选，得到所述实时传感器数据中的动态传感器数据；

内容文本生成模块204，用于对所述动态传感器数据进行内容识别，生成内容识别文本，并将所述内容识别文本发送至所述后台处理设备；

渲染监控模块205，用于通过所述后台处理设备基于所述内容识别文本在所述静态场景模型中进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型，并基于所述动态场景模型对所述待监控场景进行监控。

本发明实施例中，所述远程监控装置运行上述远程监控方法，所述远程监控装置通过远程传感器设备获取待监控场景下不同角度的静态传感器数据，通过后台处理设备基于静态传感器数据对待监控场景进行数字孪生处理，得到待监控场景的静态场景模型；通过远程传感器设备实时获取待监控场景下不同角度的动态传感器数据；对动态传感器数据进行内容识别，生成内容识别文本；通过后台处理设备基于内容识别文本在静态场景模型中进行实时动态渲染，得到并展示待监控场景的实时动态场景模型，并基于动态场景模型对待监控场景进行监控。本方法使用静态数据构建待监控场景的数字孪生模型，并实时获取动态数据，使用内容识别技术进行快速渲染，提高了模型的实时更新能力。

上面图2从模块化功能实体的角度对本发明实施例中的中远程监控装置进行详细描述，下面从硬件处理的角度对本发明实施例中远程传感器设备进行详细描述。

图3是本发明实施例提供的一种远程传感器设备的结构示意图，该远程传感器设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）310（例如，一个或一个以上处理器）和存储器320，一个或一个以上存储应用程序333或数据332的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器320和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对远程传感器设备300中的一系列指令操作。更进一步地，处理器310可以设置为与存储介质330通信，在远程传感器设备300上执行存储介质330中的一系列指令操作，以实现上述远程监控方法的步骤。

远程传感器设备300还可以包括一个或一个以上电源340，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口360，和/或，一个或一个以上操作系统331，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3示出的远程传感器设备结构并不构成对本发明提供的远程传感器设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述远程监控方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种远程监控方法，其特征在于，所述远程监控方法应用于远程监控系统，所述远程监控系统包括远程传感器设备和后台处理设备；所述远程监控方法包括：

2.根据权利要求1所述的远程监控方法，其特征在于，所述远程传感器设备包括摄像机设备，所述静态传感器数据包括所述摄像机设备拍摄的所述待监控场景的静态图像；

所述通过所述远程传感器设备将所述静态传感器数据发送至所述后台处理设备，通过所述后台处理设备基于不同角度下的静态传感器数据对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型包括：

3.根据权利要求2所述的远程监控方法，其特征在于，所述通过所述远程传感器设备将所述不同角度下的静态图像发送至所述后台处理设备，通过所述后台处理设备分别对所述不同角度下的静态图像行深度标注，得到所述不同角度下的静态图像对应的多张深度图包括：

4.根据权利要求2所述的远程监控方法，其特征在于，所述摄像机内参包括焦距和图像中心点的坐标，所述焦距包括x轴焦距和y轴焦距，所述像素坐标包括x轴像素坐标、y轴像素坐标和z轴像素坐标；

5.根据权利要求2所述的远程监控方法，其特征在于，所述基于所述总和伪点云和不同角度下的静态图像对所述待监控场景进行数字孪生处理，得到所述待监控场景的静态场景模型包括：

6.根据权利要求5所述的远程监控方法，其特征在于，所述动态传感器数据包括所述摄像机设备拍摄的动态图像；

判断所述动态区域的区域数量是否大于一；

将所述内容识别文本发送至所述后台处理设备。

7.根据权利要求1所述的远程监控方法，其特征在于，所述通过所述后台处理设备基于所述内容识别文本在所述静态场景模型中进行实时动态渲染，得到并展示所述待监控场景的实时动态场景模型，并基于所述动态场景模型对所述待监控场景进行监控包括：

基于所述动态场景模型对所述待监控场景进行监控。

8.一种远程监控装置，其特征在于，所述远程监控装置应用于远程监控系统，所述远程监控系统包括远程传感器设备和后台处理设备；所述远程监控装置包括：

9.一种远程传感器设备，其特征在于，所述远程传感器设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述远程传感器设备执行如权利要求1-7中任意一项所述的远程监控方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任意一项所述远程监控方法的步骤。