CN111832485A

CN111832485A - 一种用于识别场景的深度学习方法及自动学习巡检方法

Info

Publication number: CN111832485A
Application number: CN202010676167.5A
Authority: CN
Inventors: 饶学贵; 严华; 龙榜; 刘新; 张均宝
Original assignee: Shenzhen Farben Information Technology Co ltd
Current assignee: Shenzhen Farben Information Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-27

Abstract

本发明公开了一种用于识别场景的深度学习方法及自动学习巡检方法，其包括有如下步骤：步骤S1，启动“自动学习巡检”功能；步骤S2，识别场景的时间和空间信息：对场景监控摄像头视频数据和网络信息进行自动解析，获取场景的时间和空间信息；步骤S3，记录场景视频数据，并对场景进行分类；步骤S4，针对场景视频数据进行深度学习并生成研判报告；步骤S5，关闭或启动新的“自动学习巡检”功能。本发明不仅能提高巡检效率，而且大大节省了人工成本，使得本发明在实际应用过程中更具智能化和自动化性能，较好地满足了城市巡检工作应用需求。

Description

一种用于识别场景的深度学习方法及自动学习巡检方法

技术领域

本发明涉及城市巡检活动中的场景智能识别和自动巡逻的方法，尤其涉及一种用于识别场景的深度学习方法及自动学习巡检方法。

背景技术

城市巡检活动是指对城市各个场景进行巡检的过程，其目的是对城市环境中的人、车、物体、文字信息等进行检查，有助于提前发现一些安全隐患，以及纠正一些不合规的行为、事项等等。现有的城市巡检方法是由巡检人员定期到场景的现场进行巡逻，通过手持终端取证并上报巡检结果，这种巡检方式不仅效率低下，而且费时费力，缺乏智能化和自动化能力。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种可提高巡检效率，能节省人工以及节省成本，而且更具智能化和自动化性能的用于识别场景的深度学习方法及自动学习巡检方法。

为解决上述技术问题，本发明采用如下技术方案。

一种用于识别场景的深度学习方法，其包括有：步骤S40，通过场景监控摄像头获取场景视频数据，对所述场景视频数据进行场景分析及图像识别；步骤S41，对所述场景视频数据进行收集，利用决策树中的ID3算法对所述场景视频数据中的场景特征进行解析和分类；步骤S42，利用OCR算法对所述场景视频数据中的人、物进行识别，利用行人重识别算法对所述场景视频数据中的特定行人进行识别。

优选地，所述步骤S40包括如下过程：利用ITTI视觉显著性模型构建包含图像颜色、亮度和方向的高斯金字塔，利用所述高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图，再结合不同尺度的特征图获得亮度、颜色和方向皆显著的图像，相加处理后得到最终的视觉显著图像，实现自动场景识别功能。

优选地，所述步骤S41包括如下过程：从初始场景视频数据开始，根据所述场景视频数据计算出所有可能特征的信息增益，选择信息增益最大的特征作为结点特征，由所述结点特征的不同取值建立子结点，再通过递归方法调用子结点来建立决策树，从而完成特征分类，以及实现视频解析。

优选地，所述步骤S42中，对所述场景视频数据中的人、物进行识别的过程基于深度卷积神经网络实现，所述深度卷积神经网络首先在输入层中将视频或图像直接作为网络输入，通过训练提取特征，然后在卷积层中利用激活函数ELU将输入转变为非线性的表达方式，再通过池化层来缩小图片特征尺寸，最后，全连接层的输出取决于分类的个数。

优选地，所述步骤S42中，对所述场景视频数据中特定行人进行识别的过程包括：先对视频或图像进行特征提取，获取在不同视频或图像中的行人变化特征，然后进行度量学习，将学习到的特征映射到新的空间，使相同的人特征距离更近，不同的人特征距离更远，最后进行匹配，根据行人的当前视频或图像查找不同视频或图像中出现该行人的画面。

一种自动学习巡检方法，其包括有如下步骤：步骤S1，启动“自动学习巡检”功能；步骤S2，识别场景的时间和空间信息：对场景监控摄像头视频数据和网络信息进行自动解析，获取场景的时间和空间信息；步骤S3，记录场景视频数据，并对场景进行分类；步骤S4，针对场景视频数据进行深度学习并生成研判报告；步骤S5，关闭或启动新的“自动学习巡检”功能。

优选地，所述步骤S2中，识别场景时间和空间信息的过程包括：步骤S20，开启“自动判别场景的时间和空间信息”功能；步骤S21，基于ITTI视觉显著性模型实现自动场景识别功能；步骤S21，结束“自动判别场景的时间和空间信息”功能。

优选地，所述步骤S21包括如下过程：利用高斯采样方法构建包含图像颜色、亮度和方向的高斯金字塔，再利用高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图，结合不同尺度的特征图获得亮度、颜色和方向显著的图，相加处理后得到最终的视觉显著图，实现自动场景识别功能。

优选地，所述步骤S3包括如下过程：步骤S30，开启“自动记录并解析场景视频”功能；步骤S31，利用ID3算法对场景进行分类，实现视频解析；步骤S32，结束“自动记录并解析场景视频”功能。

优选地，所述步骤S31中，利用ID3算法对场景分类的过程包括：从初始场景视频开始，根据场景视频计算出所有可能特征的信息增益，选择信息增益最大的特征作为结点特征，由结点特征的不同取值建立子结点，再用递归方法调用子结点建立决策树，从而完成场景分类以及实现视频解析。

本发明公开的用于识别场景的深度学习方法及自动学习巡检方法中，当用户开启“自动学习巡检”功能时，系统自动判别场景的时间和空间信息，然后自动记录场景视频并解析场景类别，再根据深度学习场景并生成研判报告，最后关闭或启动新一轮的“自动分级学习巡检”过程。相比现有技术中携带手持终端进行人工巡检的方式而言，本发明不仅能提高巡检效率，而且大大节省了人工成本，使得本发明在实际应用过程中更具智能化和自动化性能，较好地满足了城市巡检工作应用需求。

附图说明

图1为本发明自动学习巡检方法的流程图；

图2为识别场景的时间和空间信息过程的流程图；

图3为自动记录并解析场景视频过程的流程图；

图4为针对场景视频数据进行深度学习并生成研判报告过程的流程图。

具体实施方式

下面结合附图和实施例对本发明作更加详细的描述。

本发明公开了一种用于识别场景的深度学习方法，请参见图4，其包括有：

步骤S40，通过场景监控摄像头获取场景视频数据，对所述场景视频数据进行场景分析及图像识别；

步骤S41，对所述场景视频数据进行收集，利用决策树中的ID3算法对所述场景视频数据中的场景特征进行解析和分类；

步骤S42，利用OCR算法对所述场景视频数据中的人、物进行识别，利用行人重识别算法对所述场景视频数据中的特定行人进行识别。

上述方法中，先对对视频进行场景分析及图像识别，然后对场景进行解析和分类，再对场景进行深度学习解析，最后根据深度学习结果，运用推理技术，生成具有时空标识的自动巡检报告，以供后续巡检确认和调度使用，同时自动录存关键原始影像记录，以供供查证和机器视觉模型研发和训练使用。基于上述方法，有助于提高城市巡检效率，以及节省人工成本，较好地满足了应用需求。

作为一种优选方式，所述步骤S40包括如下过程：利用ITTI视觉显著性模型构建包含图像颜色、亮度和方向的高斯金字塔，利用所述高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图，再结合不同尺度的特征图获得亮度、颜色和方向皆显著的图像，相加处理后得到最终的视觉显著图像，实现自动场景识别功能。

作为一种应用举例，对视频进行场景分析及图像识别的过程包括：从场景监控摄像头视频和网络信息等中，运用场景识别算法自动解析并获取场景的时间和空间信息。具体的方法：ITTI视觉显著性模型首先利用高斯采样方法构建图像的颜色、亮度和方向金字塔；接着利用高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图；最后结合不同尺度的特征图即可获得亮度、颜色和方向比较显著的图，相加得到最终的视觉显著图，实现自动场景识别功能。

进一步地，所述步骤S41包括如下过程：从初始场景视频数据开始，根据所述场景视频数据计算出所有可能特征的信息增益，选择信息增益最大的特征作为结点特征，由所述结点特征的不同取值建立子结点，再通过递归方法调用子结点来建立决策树，从而完成特征分类，以及实现视频解析。

作为一种应用举例，对场景进行解析和分类的过程中：在收集大量的场景视频后，利用决策树中的ID3算法对场景进行分类。具体的方法：首先，从初始场景视频开始，对场景视频计算出所有可能的特征的信息增益，选择信息增益最大的特征作为结点特征；接着，由该特征的不同取值建立子结点，再用递归的方法调用子结点建立决策树，从而完成分类，实现视频解析技术。

本实施例的所述步骤S42中，对所述场景视频数据中的人、物进行识别的过程基于深度卷积神经网络实现，所述深度卷积神经网络首先在输入层中将视频或图像直接作为网络输入，通过训练提取特征，然后在卷积层中利用激活函数ELU将输入转变为非线性的表达方式，再通过池化层来缩小图片特征尺寸，最后，全连接层的输出取决于分类的个数。

同时，在所述步骤S42中，对所述场景视频数据中特定行人进行识别的过程包括：先对视频或图像进行特征提取，获取在不同视频或图像中的行人变化特征，然后进行度量学习，将学习到的特征映射到新的空间，使相同的人特征距离更近，不同的人特征距离更远，最后进行匹配，根据行人的当前视频或图像查找不同视频或图像中出现该行人的画面。

作为一种应用举例，本实施例对场景进行深度学习解析过程中：先利用OCR算法对场景(如：车、人、物)进行识别。具体的方法包括：将可能内容存在的区域检测出来，从而进行进一步的文字识别。检测的部分是利用Seglink算法实现对任意角度的文字区域的检测。先检测文本行的一部分，再把每个文本字符连接起来构成一个完成的文本行。识别的部分是利用Multi-digit Number Classification算法对定长的字符进行序列识别，该算法是通过深度卷积神经网络来实现。深度卷积神经网络首先在输入层中将视频/图片直接作为网络输入，通过训练提取特征；接着，在卷积层中通过卷积运算即利用激活函数ELU将输入转变为非线性的表达方式；然后通过池化层来缩小图片特征尺寸；最后，全连接层的输出取决于分类的个数。

与此同时，利用行人ReID即行人重识别算法来判断图像/视频中是否有特定的行人。具体的方法：首先对视频/图像进行特征提取，提取在不同视频/图像中行人变化的特征；接着进行度量学习，将学习到的特征映射到新的空间，从而使得相同的人特征距离更近，不同的人特征距离更远；最后进行匹配，通过该行人的视频/图像查找到不同视频/图像中出现该行人的画面。

在完成步骤S42之后，需生成自动巡检报告：结合以上深度学习步骤，运用推理技术，生成具有时空标识的自动巡检报告，同时自动录存关键的原始影像记录。

实际应用中，上述深度学习方法可应用于一种自动学习巡检方法，请参见图1，该自动学习巡检方法包括有如下步骤：

步骤S1，启动“自动学习巡检”功能；

步骤S2，识别场景的时间和空间信息：对场景监控摄像头视频数据和网络信息进行自动解析，获取场景的时间和空间信息；

步骤S3，记录场景视频数据，并对场景进行分类；

步骤S4，针对场景视频数据进行深度学习并生成研判报告；

步骤S5，关闭或启动新的“自动学习巡检”功能。

请参见图2，所述步骤S2中，识别场景时间和空间信息的过程包括：

步骤S20，开启“自动判别场景的时间和空间信息”功能；

步骤S21，基于ITTI视觉显著性模型实现自动场景识别功能；

步骤S21，结束“自动判别场景的时间和空间信息”功能。

作为一种优选方式，所述步骤S21包括如下过程：利用高斯采样方法构建包含图像颜色、亮度和方向的高斯金字塔，再利用高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图，结合不同尺度的特征图获得亮度、颜色和方向显著的图，相加处理后得到最终的视觉显著图，实现自动场景识别功能。

请参见图3，所述步骤S3包括如下过程：

步骤S30，开启“自动记录并解析场景视频”功能；

步骤S31，利用ID3算法对场景进行分类，实现视频解析；

步骤S32，结束“自动记录并解析场景视频”功能。

进一步地，所述步骤S31中，利用ID3算法对场景分类的过程包括：

从初始场景视频开始，根据场景视频计算出所有可能特征的信息增益，选择信息增益最大的特征作为结点特征，由结点特征的不同取值建立子结点，再用递归方法调用子结点建立决策树，从而完成场景分类以及实现视频解析。

此处应当声明，上述步骤S31中所采用的ID3算法，仅作为一种应用举例来描述“对场景进行分类”的具体实现过程，本发明在实际应用过程中不局限于该ID3算法，也就是说，无论采用该ID3算法还是替换为其他同等功能的算法，皆属于对本发明部分技术手段的简单替换，而这些替换方式皆属于本发明的保护范围。

以上所述只是本发明较佳的实施例，并不用于限制本发明，凡在本发明的技术范围内所做的修改、等同替换或者改进等，均应包含在本发明所保护的范围内。

Claims

1.一种用于识别场景的深度学习方法，其特征在于，包括有：

步骤S41，对所述场景视频数据进行收集，利用决策树对所述场景视频数据中的场景特征进行解析和分类；

2.如权利要求1所述的用于识别场景的深度学习方法，其特征在于，所述步骤S40包括如下过程：

利用ITTI视觉显著性模型构建包含图像颜色、亮度和方向的高斯金字塔，利用所述高斯金字塔计算图像的亮度特征图、颜色特征图和方向特征图，再结合不同尺度的特征图获得亮度、颜色和方向皆显著的图像，相加处理后得到最终的视觉显著图像，实现自动场景识别功能。

3.如权利要求1所述的用于识别场景的深度学习方法，其特征在于，所述步骤S41包括如下过程：从初始场景视频数据开始，根据所述场景视频数据计算出所有可能特征的信息增益，选择信息增益最大的特征作为结点特征，由所述结点特征的不同取值建立子结点，再通过递归方法调用子结点来建立决策树，从而完成特征分类，以及实现视频解析。

4.如权利要求1所述的用于识别场景的深度学习方法，其特征在于，所述步骤S42中，对所述场景视频数据中的人、物进行识别的过程基于深度卷积神经网络实现，所述深度卷积神经网络首先在输入层中将视频或图像直接作为网络输入，通过训练提取特征，然后在卷积层中利用激活函数ELU将输入转变为非线性的表达方式，再通过池化层来缩小图片特征尺寸，最后，全连接层的输出取决于分类的个数。

5.如权利要求1所述的用于识别场景的深度学习方法，其特征在于，所述步骤S42中，对所述场景视频数据中特定行人进行识别的过程包括：先对视频或图像进行特征提取，获取在不同视频或图像中的行人变化特征，然后进行度量学习，将学习到的特征映射到新的空间，使相同的人特征距离更近，不同的人特征距离更远，最后进行匹配，根据行人的当前视频或图像查找不同视频或图像中出现该行人的画面。

6.一种自动学习巡检方法，其特征在于，包括有如下步骤：