CN115760986B

CN115760986B - 基于神经网络模型的图像处理方法及装置

Info

Publication number: CN115760986B
Application number: CN202211513405.6A
Authority: CN
Inventors: 秦云松; 杨德志; 杨俊�; 周广东; 邢小伟
Original assignee: Beijing Zhonghua High Tech Environmental Management Co ltd
Current assignee: Beijing Zhonghua High Tech Environmental Management Co ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-07-25
Anticipated expiration: 2042-11-30
Also published as: CN115760986A

Abstract

本发明公开一种基于神经网络模型的图像处理方法及装置，方法包括：获取包含目标对象的场景区域的双目视频数据，对双目视频数据中每组同步图像进行匹配生成深度图；根据当前时刻的同步图像中的目标对象对应的目标区域的边界和深度图确定目标对象的参考输入数据；利用目标神经网络模型分别提取参考输入数据和动态输入的新双目视频数据在不同尺度下的第一特征以及用于表征参考输入数据和新双目视频数据的同类数据相关性的第二特征，并利用第一特征和第二特征从新双目视频数据中确定目标对象所在的目标区域并进行处理。该方法将二维图像的外观特征和深度信息进行结合，克服了噪声敏感性和外观依赖性，实时性较高，鲁棒性强。

Description

基于神经网络模型的图像处理方法及装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种基于神经网络模型的图像处理方法及装置。

背景技术

工业互联通讯是工业领域优化生产效率的重要手段。近年来随着技术的进步，基于图像视频的可视化通讯方法逐渐兴起。随着社会的发展与网络技术的进步，可视化通讯的运用日益广泛，也逐渐推广到PC机、手机、边缘终端等设备载体上，发挥了越来越重要的作用。可视化通讯正在许多工业领域快速替代现场沟通，成为一种有效的协同工作手段。

可视化通讯具有传统语音视频不具备的优势，通过现场图像、视频的传递可以实现更为丰富的通讯功能和更为优秀的应用效果。然而在通讯信息更为丰富的同时，也带来了隐私方面的困扰。很多情况下，用户并不希望现场的所有信息都被传递给通讯的对方。一些基于背景识别的机器视觉方法，通过区分背景与前景来去除背景，保留前景，如人像等，这类方法通常假设背景是静止的，对于背景中包含运动目标时通常具备较强噪声敏感性。还有一些基于特定目标识别的方法，如人脸识别，识别特定类型目标并聚焦于该目标，这类方法对目标类型要求比较严格，通常只能识别出具有某种固定外观特征的目标，对工业复杂环境的适用性较弱。

发明内容

本发明提供一种基于神经网络模型的图像处理方法及装置，用以克服现有技术中存在的至少一个技术问题。

第一方面，本发明实施例提供了一种基于神经网络模型的图像处理方法，包括：

获取包含目标对象的场景区域的双目视频数据，对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图；

获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界，并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合，其中，所述目标区域为一闭合区域；

根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据，所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息；

利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征，并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理，得到处理后的视频数据，其中，所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。

可选的，所述对所述目标区域进行处理，具体包括：

对所述目标区域进行隐藏、打码或模糊化处理。

可选的，所述目标神经网络模型的隐藏层包括至少三层；

所述隐藏层的第一层用于提取所述新双目视频数据和所述参考输入数据在第一尺度下的第一特征；

所述隐藏层的第二层用于提取所述新双目视频数据和所述参考输入数据在第二尺度下的第一特征；

所述隐藏层的第三层用于提取表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征。

可选的，所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。

可选的，在对所述双目视频数据的每组同步图像进行匹配之前，还包括：去除每组同步图像的互不相交区域。

可选的，所述基于神经网络模型的图像处理方法还包括：对所述参考输入数据进行预处理，得到适于输入所述目标神经网络模型的模型数据。

可选的，通过双目同步相机拍摄所述场景区域得到所述双目视频数据，所述双目视频数据包括多组同步图像，所述双目同步相机包括第一相机和第二相机，每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像，根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵；通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束，作为图像匹配的约束条件。

可选的，所述基于神经网络模型的图像处理方法还包括：

获取训练图像，并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注，得到多个训练样本，其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的，所述场景区域中包含目标对象所在的目标区域。

第二方面，本发明实施例提供了一种基于神经网络模型的图像处理装置，包括：

深度图生成模块，被配置为获取包含目标对象的场景区域的双目视频数据，对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图；

集合确定模块，被配置为获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界，并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合，其中，所述目标区域为一闭合区域；

参考输入数据确定模块，被配置为根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据，所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息；

处理模块，被配置为利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征，并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理，得到处理后的视频数据，其中，所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。

可选的，所述处理模块具体被配置为对所述目标区域进行隐藏、打码或模糊化处理。

可选的，所述处理模块还被配置为将所述目标神经网络模型的隐藏层设置为至少包括三层；

可选的，所述深度图生成模块还被配置为：在对所述双目视频数据的每组同步图像进行匹配之前去除每组同步图像的互不相交区域。

可选的，所述基于神经网络模型的图像处理装置还包括：预处理模块；

所述预处理模块被配置为对所述参考输入数据进行预处理，得到适于输入所述目标神经网络模型的模型数据。

可选的，所述深度图生成模块还被配置为：通过双目同步相机拍摄所述场景区域得到所述双目视频数据，所述双目视频数据包括多组同步图像，所述双目同步相机包括第一相机和第二相机，每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像，根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵；通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束，作为图像匹配的约束条件。

可选的，所述基于神经网络模型的图像处理装置还包括：训练模块；

所述训练模块被配置为获取训练图像，并对所述训练图像中的目标对象和目标对象所在的目标区域在训练图像中的位置进行标注，得到多个训练样本，其中所述训练图像是通过对双目同步相机拍摄场景区域得到的双目视频数据进行解码得到的，所述场景区域中包含目标对象所在的目标区域。

与现有技术相比，本发明的有益效果是：

本发明提供的一种基于神经网络模型的图像处理方法通过双目同步相机拍摄现场场景区域，对成对的同步图像进行匹配得到深度信息，利用深度信息和同步图像中的外观信息共同组成用于表征目标对象在场景区域中的位置信息的参考输入数据，并利用训练好的神经网络模型提取新双目视频数据和参考输入数据的至少三个维度的特征，并根据提取到的特征定位出需要处理的目标对象所在的目标区域并进行处理，该方法自动生成目标对象的参考输入数据并通过参考输入数据来确定下一时刻新双目视频数据中需要处理内容。

该方法将图像的二维图像的外观特征和深度信息进行结合，得到有利于全方位观察三维空间信息，对并利用该三位空间信息结合神经网络其进行至少三个维度的特征的提取分析，以准确定位出目标对象所在目标区域并针对该区域进行相关的隐私保护处理。该方法通过结合深度信息的多维特征提取，克服了噪声敏感和外观依赖，在摄像机采集现场环境视频的过程中能动态提取敏感区域部分，有效保护用户隐私该方法。

本发明实施例的创新点包括：

1、根据同步图像匹配获得带有深度信息的深度图，将二维图像的外观特征和深度信息进行结合，得到有利于全方位观察的三维空间信息，便于运动目标的跟踪和特征提取，以克服噪声敏感性和外观依赖性，是本发明的发明点之一。

2、首先在当前时刻的第一图像中标记出目标对象所在的目标区域的边界，接着确定目标对象在第一图像和第二图像中对应的坐标位置以及对应的深度信息，根据该坐标位置和深度信息共同确定用于表征目标对象在现实环境中的位置信息的参考输入数据，然后利用神经网络模型提取参考输入数据和后续动态输入的新双目视频数据在不同尺度下的第一特征，并进一步提取用于表征所述参考输入数据和所述动态输入数据的同类数据相关性的第二特征，结合第一特征和第二特征共同确定出要处理的目标区域并进行处理，实现了在摄像机采集现场环境视频的过程中动态提取敏感区域部分，有效保护用户隐私，并且实时性较高，鲁棒性强，是本发明的发明点之一。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的基于神经网络模型的图像处理方法的流程示意图；

图2为本发明一个实施例的基于神经网络模型的图像处理装置的模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语 “包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书实施例公开了一种基于基于神经网络模型的图像处理方法及装置。以下分别进行详细说明。

图1为本发明一个实施例的基于神经网络模型的图像处理方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取包含目标对象的场景区域的双目视频数据，对双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图；

一种实现方式中，通过双目同步相机拍摄场景区域得到的双目视频数据，所述场景区域中包含目标对象所在的目标区域，所述双目视频数据包括多组同步图像，每组同步图像包括同一时刻第一相机拍摄的第一图像和第二相机拍摄的第二图像，对所述第一图像和所述第二图像进行立体匹配，生成带有深度信息的深度图，其中，所述双目同步相机包括所述第一相机和所述第二相机。

具体的，作为一个示例，采用两台同步摄像机采集工业现场环境图像数据，处理后获得环境的深度数据。

采用两台可以同步工作拍摄图像的摄像机采集工业现场环境图像数据，设其中一台为主摄像机，另一台为从摄像机。两台摄像机的相对空间位置关系、内部参数经过标定。参见步骤S1.1至步骤S1.3，根据主摄像机与从摄像机的相对空间位置关系可解算环境图像中各部分的深度数据。

步骤S1.1，从主摄像机、从摄像机获得一对同步拍摄的图像，分别记为M和S，两台摄像机相对距离远小于拍摄范围，使两张图像中大部分内容相同或非常近似。两台摄像机的相对空间位置关系经过标定。

步骤S1.2，根据两台摄像机的相对空间位置关系和摄像机的内部参数可以获得两图像M、S之间的基本矩阵；摄像机的内部参数经过标定。通过基本矩阵对两图像M、S上的像元(pixel)作几何约束，作为图像匹配优化算法的约束条件。

步骤S1.3，根据图像匹配优化算法，以S1.2所述基本矩阵为约束条件，匹配两张图像M、S中的像元，使主摄像机图像M中的每个像元在从摄像机图像S中存在唯一的对应像元/>，其中，/>为主摄像机图像M中像元的位置坐标，/>为从摄像机图像S中与其对应的像元位置坐标。根据/>与/>，其在现实环境中对应于同一个三维坐标/>。根据两台摄像机的相对空间位置关系和摄像机的内部参数，以主摄像机为基准，可求解/>。/>为环境的广度，/>为环境的深度，组成的集合记为/>。

步骤S102，获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界，并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合，其中，所述目标区域为一闭合区域；

一种实现方式中，将第一相机作为主摄像机，在主摄像机拍摄的第一图像中标记出一块完整的闭合区域，作为可以被通讯的对方通过摄像机观察到的活动区域；图像中除活动区域外的剩余部分即为敏感区域，敏感区域中包含目标对象，敏感区域中的视频影像不会被通讯对方看到。目标对象在同步图像中对应的目标区域的边界可以是用户预先标记或定义好的，具体的标记参见现有技术，这里不做限制。

具体的，结合上述示例在根据主摄像机与从摄像机的相对空间位置关系可解算环境图像中各部分的深度数据后，结合用户在主摄像机图像中标注的敏感区域，确定工业场景环境中敏感区域。

用户在主摄像机图像中标记出一块完整的闭合区域，作为可以被通讯的对方通过摄像机观察到的活动区域；图像中除活动区域外的剩余部分即为敏感区域，敏感区域中的视频影像不会被通讯对方观察到。

主摄像机图像M中活动区域A是M的一个真子集：

则敏感区域E是M的一个真子集，且：

其中，表示空集。

中所有像元在从摄像机图像S中的对应像元组成集合/>，/>中所有像元在从摄像机图像S中但不在集合/>中的对应像元组成集合/>，并且：

中所有像元映射到三维现实环境中的深度组成集合/>，/>中所有像元映射到三维现实环境中的深度组成集合/>。

至此，获得主摄像机图像M中活动区域A，及其在从摄像机图像中对应的区域集合、在三维现实环境中对应的深度集合/>；获得主摄像机图像M中敏感区域E，及其在从摄像机图像中对应的区域集合/>、在三维现实环境中对应的深度集合/>。

本发明首先根据同步图像匹配获得带有深度信息的深度图，将二维图像的外观特征和深度信息进行结合，得到有利于全方位观察三维空间信息，更有利于全方位目标对象，便于运动目标的跟踪和特征提取，以克服噪声敏感性和外观依赖性，是本发明的发明点之一。

步骤S103，根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据，所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息；

一种实现方式中，将所述第一坐标集合、所述第二坐标集合和所述深度信息共同作为所述目标对象的参考输入数据。

为了提高数据处理效率，一种实现方式中，对所述参考输入数据进行预处理，得到适于输入所述目标神经网络模型的模型数据。

具体的，结合上述所有示例，以获得的活动区域及其对应集合为参考，在摄像机采集现场环境视频的过程中动态提取敏感区域部分，以保护用户隐私。

令表示主摄像机采集到图像中的一个像元，定义：

其中，表示/>中的四条直线，围成的矩形区域是活动区域A的外切矩形，记为B。通过边界获得的活动区域是不规则的，通过求取外切矩形使其规则化，以便神经网络模型处理。

相应的，对于中的所有像元，在从摄像机图像S中存在唯一的对应像元，这些像元组成的集合称为集合/>；对应到三维现实环境中的深度组成集合记为/>。

为了去除噪点，一种实现方式中，在对所述双目视频数据的每组同步图像进行匹配之前，还包括：去除每组同步图像的互不相交区域，具体的:

定义与B相对应的矩形集合C，C的每一个元素与B中同样位置的一个像元/>对应；类似的，定义与B相对应的矩形集合D，D的每一个元素与B中同样位置的一个像元b对应，且与/>中的某一个像元/>对应。

C的元素c取值为0或1，并且：

D的元素d取值为0或1，并且：

集合为与B相对应的矩形集合，每一个元素/>与B中同样位置的一个像元b对应，/>为一深度值。

以上均表示对应于矩形B中的坐标。

将上述获得的B、、C、D、/>作为参考输入数据。

步骤S104，利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征，并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理，得到处理后的视频数据，其中，所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。

一种实现方式中，所述对所述目标区域进行处理，具体包括：

对所述目标区域进行隐藏、打码或模糊化处理。

一种实现方式中，所述目标神经网络模型的隐藏层包括至少三层；

一种实现方式中，所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。

结合上述示例，在确定参考输入数据后，摄像机进入动态采集视频阶段，获取下一时刻的新双目视频数据，新双目视频数据包括多组新的同步图像，每一组新的同步图像中的新的第一图像和新的第二图像，同样的，对于新获取到的同步图像首先生成对应的深度图，然后将动态采集阶段从主、从摄像机获得的图像和计算的深度集合分别记为，作为动态输入数据，根据参考输入数据获得动态输入数据中需要隐去的内容，将参考输入数据、动态输入数据作为神经网络模型的输入建立模型。

一种实现方式中，模型的隐藏层为从输入到输出的一组逻辑、算术关系，定义如下。

隐藏层的第一层包括：

其中，，/>，/>表示7*7的卷积核函数，共有12个核函数，12个核函数每三个为一组，分别对应于B、/>、/>；/>是卷积核内的相对坐标；/>表示自然指数函数；/>是线性偏置参数；/>为一非线性激励函数，定义如下：

参数为速率控制系数，用于控制非线性函数输出值随输入值的变化速度，优选=0.3。/>表示反正切三角函数。该函数/>的作用是使模型能够对非线性映射进行建模，使模型更加精确。

隐藏层的第一层还包括：

同样，，/>，12个核函数每三个为一组，分别对应于。/>是表示/>中的坐标。

根据公式7和公式9，神经网络模型隐藏层第一层包括12个与B同样大小的矩阵、及12个与同大小的矩阵，共24个矩阵。

隐藏层的第二层为对第一层的进一步计算：

其中，，/>，/>表示13*13的卷积核函数，共有12个核函数，/>是卷积核内的相对坐标；/>是线性偏置参数；/>定义同式8.

通过设置不同尺寸的卷积核函数，第二层与第一层分别捕捉不同尺度下的视频数据特征，以更好的适应多场景与场景变化。

隐藏层的第三层为对第二层的进一步计算：

其中，，/>为线性系数，/>是线性偏置参数；/>定义同式8.

隐藏层第三层包括两个矩阵和/>；矩阵由第二层的前12个矩阵经过线性系数/>映射而来，矩阵/>由第二层的后12个矩阵经过线性系数/>映射而来，分别对应于参考输入数据和动态输入数据。线性系数/>捕捉了同类数据内部的相关关系。

隐藏层的输出层为第三层的进一步推演：

其中，表示相关性卷积运算；第三层的两个矩阵大小不相等，且/>的大小更大，因此输出层/>是与两个矩阵大小相关的一个新矩阵；其含义是在/>中每个相同大小的子矩阵与/>的相关性。

由于对应于用户标注的活动区域，把/>对应于动态捕捉到的现场环境，因此输出层/>反映了现场环境中每个位置对应于用户标注活动区域的可能性。相对的，其余区域就是敏感区域。

利用上述模型可以动态对视频场景中的敏感区域进行标记，并相应在传输时隐去，保护用户隐私。

本发明首先在当前时刻的第一图像中标记出目标对象所在的目标区域的边界，接着确定目标对象在第一图像和第二图像中对应的坐标位置以及对应的深度信息，根据该坐标位置和深度信息共同确定用于表征目标对象在现实环境中的位置信息的参考输入数据，然后利用神经网络模型提取参考输入数据和后续动态输入的新双目视频数据不同尺度下的第一特征，并进一步提取用于表征所述参考输入数据和新双目视频数据的相关性的第二特征，结合第一特征和第二特征共同确定出要处理的目标子区域并进行处理，实现了在摄像机采集现场环境视频的过程中动态提取敏感区域部分，有效保护用户隐私，并且实时性较高，鲁棒性强，是本发明的发明点之一。

一种实现方式中，所述基于神经网络模型的图像处理方法还包括：

结合上述示例所描述的，使用模型前需进行训练，每组训练样本包括一张活动区域参考图像，一张动态拍摄的环境图像，及参考图像在环境图像中的相对位置；在样本真值相对位置处标记为1，其余位置标记为0，根据式(7)至式(12)可以计算训练样本的输出值，与样本真值根据下面代价函数作比较:

代价函数用于使模型输出值与样本真值的差异最小化，从而训练获得模型参数。Log表示自然对数函数，可以防止优化过程陷入局部极值。

图2为本发明一个实施例的一种基于神经网络模型的图像处理装置的模块图。如图2所示，基于神经网络模型的图像处理装置200包括：

深度图生成模块210，被配置为获取包含目标对象的场景区域的双目视频数据，对所述双目视频数据的每组同步图像进行匹配生成带有深度信息的深度图；

集合确定模块220，被配置为获取当前时刻所述目标对象在所述同步图像中对应的目标区域的边界，并根据所述边界确定所述目标对象在所述同步图像的第一图像中对应的多个第一像素点的第一坐标集合、在所述同步图像的第二图像中对应的多个第二像素点的第二坐标集合以及在所述深度图中对应的深度信息集合，其中，所述目标区域为一闭合区域；

参考输入数据确定模块230，被配置为根据所述第一坐标集合、所述第二坐标集合和所述深度信息集合确定所述目标对象的参考输入数据，所述参考输入数据用于描述所述目标对象在所述场景区域中的位置信息；

处理模块240，被配置为利用目标神经网络模型提取所述参考输入数据以及下一时刻的新双目视频数据在不同尺度下的第一特征以及用于表征所述参考输入数据和所述新双目视频数据的同类数据相关性的第二特征，并利用所述第一特征和所述第二特征从所述新双目视频数据中确定所述目标对象所在的目标区域并对所述目标区域进行处理，得到处理后的视频数据，其中，所述目标神经网络模型是利用训练样本输入预设原始神经网络进行训练得到的。

一种实现方式中，所述处理模块具体被配置为对所述目标区域进行隐藏、打码或模糊化处理。

一种实现方式中，所述处理模块还被配置为将所述目标神经网络模型的隐藏层设置为至少包括三层；

一种实现方式中，所述深度图生成模块还被配置为：在对所述双目视频数据的每组同步图像进行匹配之前去除每组同步图像的互不相交区域。

一种实现方式中，所述基于神经网络模型的图像处理装置还包括：预处理模块；

一种实现方式中，所述深度图生成模块还被配置为：通过双目同步相机拍摄所述场景区域得到所述双目视频数据，所述双目视频数据包括多组同步图像，所述双目同步相机包括第一相机和第二相机，每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像，根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵；通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束，作为图像匹配的约束条件。

一种实现方式中，所述基于神经网络模型的图像处理装置还包括：训练模块；

本发明提供的一种基于神经网络模型的图像处理装置，首先利用双目相机拍摄场景区域获得场景区域的二维图像和深度图像，然后根据二维图像中目标对象所处的位置，结合深度图像，将二维图像中的不可显示区域（或可显示区域）映射到场景区域的三维真实世界中，以实现不可显示的隐私区域的自适应定位，分割图像；最后对分割后的图像进行深度特征学习，确定目标对象所在目标区域的特征，并将该特征作为参考输入数据，利用目标神经网络模块对下一时刻新的双目视频数据进行目标对象的隐私处理。通过对大量的样本进行测试，本发明的隐私区域（即目标区域）的漏检率比传统相关绿波法和统计学习法都低，可以较好的隐藏现场隐私信息，在通讯过程中保护客户隐私。

本发明提供的一种基于神经网络模型的图像处理装置利用摄像头捕捉工业现场环境的外观信息和深度信息，克服经典方法对背景噪声的敏感性和对目标外观特征的依赖性，适用于工业环境的多种应用场景，可以根据用户需求去除用户不希望暴露的环境信息，提高可视化工业互联通讯的私密性，保护客户信息安全。

本发明提供的一种基于神经网络模型的图像处理装置采用两台同步摄像机采集工业现场环境图像数据，处理后获得环境的深度数据；利用深度数据可以克服经典方法对背景噪声的敏感性和对目标外观特征的依赖性。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于神经网络模型的图像处理方法，其特征在于，包括：

2.根据权利要求1所述的基于神经网络模型的图像处理方法，其特征在于，所述对所述目标区域进行处理，具体包括：

对所述目标区域进行隐藏、打码或模糊化处理。

3.根据权利要求1所述的基于神经网络模型的图像处理方法，其特征在于，所述目标神经网络模型的隐藏层包括至少三层；

4.根据权利要求3所述的基于神经网络模型的图像处理方法，其特征在于，所述目标神经网络模型的输出层用于对所述隐藏层的第三层进行卷积运算。

5.根据权利要求1所述的基于神经网络模型的图像处理方法，其特征在于，在对所述双目视频数据的每组同步图像进行匹配之前，还包括：去除每组同步图像的互不相交区域。

6.根据权利要求1所述的基于神经网络模型的图像处理方法，其特征在于，还包括：对所述参考输入数据进行预处理，得到适于输入所述目标神经网络模型的模型数据。

7.根据权利要求1所述的基于神经网络模型的图像处理方法，其特征在于，包括：通过双目同步相机拍摄所述场景区域得到所述双目视频数据，所述双目视频数据包括多组同步图像，所述双目同步相机包括第一相机和第二相机，每组同步图像包括同一时刻由所述第一相机拍摄的第一图像和由所述第二相机拍摄的第二图像，根据所述第一相机和所述第二相机的相对空间位置关系和像机的内部参数确定基本矩阵；通过所述基本矩阵对所述第一图像和所述第二图像中的像元作几何约束，作为图像匹配的约束条件。

8.根据权利要求1所述的基于神经网络模型的图像处理方法，其特征在于，还包括：

9.一种基于神经网络模型的图像处理装置，其特征在于，包括：

10.根据权利要求9所述的基于神经网络模型的图像处理装置，其特征在于，所述处理模块具体被配置为对所述目标区域进行隐藏、打码或模糊化处理。