CN107992854A

CN107992854A - 基于机器视觉的林业生态环境人机交互方法

Info

Publication number: CN107992854A
Application number: CN201711407164.6A
Authority: CN
Inventors: 朱智勤; 郑明耀; 李鹏华; 李嫄源; 赵芬
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-04

Abstract

本发明涉及一种基于机器视觉的林业生态环境人机交互方法，属于神经网络领域。该方法融合人工智能在图像处理中的已有先进成果，面向林业生态典型应用场景，采用“云”到“端”的处理方式，利用视觉感知所记忆的信息，构建林业生态环境统一语义表达的人机交互平台。本发明围绕林业生态中的特殊人群分析、危险行为理解、人流量监测与野生动物识别等典型需求，研究图像敏感区域捕获、目标种类判别与图像语义理解的共性技术，解决林业生态环境中视觉信息交互问题，使多模态交互设备实现智能环境感知，改善林区监管手段、提高管理效率。实现林区智能监控与预警功能，丰富林业生态监管手段、提升林业生态管理效率。

Description

基于机器视觉的林业生态环境人机交互方法

技术领域

本发明属于神经网络领域，涉及基于机器视觉的林业生态环境人机交互方法。

背景技术

随着计算机、通信、传感三大核心信息技术的高速发展，以物联网、大数据、人工智能为代表的新一代信息技术成为当今世界的中心科学技术，必将给未来的经济社会和生态环境带来深刻的影响。与此同时，我国现代化林业发展也迈向“智慧林业”2.0发展时代。市场调研表明国家级森林公园、自然保护区、生态保护区、旅游风景区、国有林场等对生态宣传、生态科普、生态旅游服务方面的人机交互设备需求十分迫切。人机交互设备是一类结构复杂、集成度高、技术密集的基础装备，引领高新技术的发展，处于价值链高端和产业链的关键环节。经历数十年的发展，人机交互以越来越自然的方式呈现在人们面前。视觉智能可识别人员性别、衣着色彩、衣着样式、举手姿势、吸烟行为、人群聚集密度等信息，根据举手姿势选择人员咨询发问，根据不文明行为进行提示劝告，根据人群密度进行预警，根据人脸识别进行游客统计。深度学习在机器视觉上的一个重要突破是行人检测。目前基于深度学习最好的结果是20.86％。在最新的研究进展中，很多在物体检测中已经被证明行之有效的思路都有其在深度学习中的实现。例如，联合深度学习提出的形变层，对物体部件间的几何形变进行建模；多阶段深度学习模拟在物体检测中常用的级联分类器；可切换深度网络表示物体各个部件的混合模型；通过迁移学习将一个深度模型行人检测器自适应到一个目标场景。

发明内容

有鉴于此，本发明的目的在于提供一种基于机器视觉的林业生态环境人机交互方法，融合人工智能在图像处理中的已有先进成果，面向林业生态典型应用场景，采用“云”到“端”的处理方式，利用视觉感知所记忆的信息，构建林业生态环境统一语义表达的人机交互平台，使之成为林业生态系统与外界沟通的重要信息源与“使能器”。

为达到上述目的，本发明提供如下技术方案：

基于机器视觉的林业生态环境人机交互方法，包括以下步骤：

S1：基于尺度相关池与级联抑制分类器的人流量监测；

S2：基于目标三维行为时间尺度不变的特殊人群判别；

S3：基于级联卷积神经网络的危险行为分析；

S4：多层次抽象语义决策图像分类的野生动物监控：通过使用尺度不变特征变换算法(Scale Invariant Feature Transform,SIFT)描述符对特征点进行描述以提取特征；通过构建视觉词典，利用K-means聚类方法将特征点聚成数类，视觉词典由聚类中心形成的视觉词汇组成；利用特征局部投影生成码书，构造BoF(Bag-of-Features)特征；通过利用BoF特征训练分类器，获取分类模型，对待分类野生动物图像特征进行预测。

进一步，所述步骤S1具体为：通过构造级联卷积神经网络，来识别行人特征，并利用边界框的数量统计，获得人流量估计；卷积神经网络的每一个卷积层都将得到一系列的粗糙对象建议，借助对每一个卷积层使用级联抑制分类器CRC将负面对象建议去除，得到相对精细的建议；幸存的对象建议通过下一层卷积层得到的特征再次使用级联抑制分类器进行负面建议消除；依次循环往下，到达第三层卷积层加入使用尺度相关池与级联抑制分类器相结合；对像素点最少即最小对象的检测识别；依次第四层第五层方法相同，分别对中等对象和大对象进行检测识别；通过对每一层的卷积特征都进行池化，综合使用各层特征对对象目标进行检测。

进一步，所述步骤S2具体为：通过建立目标行为的统计模型，来识别及描述具有时空差异性的个体步态与行为；在建模阶段，首先用相似矩阵描述目标姿态变化，并转换矩阵参数到对数空间形成一致的运动参数序列；然后基于多边形近似算法提取时间尺度不变特征(Time Scale Invariant Feature,TSIF)，并用动态时间规整对有限类别行为进行统计建模；在行为识别阶段，将测试行为与参考模型相匹配得到最小代价行为类别；

在层次化流程对视频帧进行处理的前提下，采用基于多点跟踪模型，并用相似矩阵表示目标运动姿态的方法实现单目视觉下目标三维运动姿态估计；在估计相似矩阵时，满足跟踪点数不少于矩阵参数；所跟踪的点包括外部标记点和内部标记点，外部标记点是在目标表面人为设置；内部标记点用尺度不变特征转换或加速分割测试特征关键点算法在目标区域自动选取；为避免内部标记点的位置漂移和误匹配对跟踪的影响，通过采用人工标记的外部点。

进一步，所述步骤S3具体为：基于头肩检测的级联深度网络HsNet的行人行为检测过程包括：对检测视频的每一帧图像，用多尺度的滑窗按照预定步长截取一系列的候选小图像块Patch，形成待识别样本；将这些样本送入预先训练好的头肩/非头肩识别模型HsNet进行分类，在网络的每一级被分类为负的样本的Patch直接舍弃，其余样本继续进入网络的下一级进行更严格的识别分类，经过三级CNN网络进行分类鉴别；网络第三级的输出结果用于判断图像Patch是否属于头肩区域，该区域的矩形框被称为头肩框，将头肩框高度扩展为原对应滑动窗口的3倍，得到行人检测的全身框；对于同一个行人，会形成多个检测框，最后用非极大值抑制策略剔除多余的检测框，每个位置只保留最可能的一个检测框，即行人检测结果；

引入非线性运动模式学习及在线外观模的基于检测的分层关联多目标跟踪方法型学习策略，算法第一层对检测对象进行底层可信关联，形成轨迹片段；第二层利用非线性运动模式在线学习和外观模型多实例学习，对轨迹片段进行有效连接，得到可靠的对象轨迹；为了避免遮挡问题，仅仅检测行人的头肩部分区域代替行人整体；将高斯过程回归(Gaussian process regression,GPR)引入跟踪过程，平滑对象轨迹片段，解决不同帧对象头肩部区域位置跳变问题；

通过从对象的运动轨迹中提取基本的参数作为特征，包括速度、方向和距离，对单个特征进行分析或者将多个特征相结合组成更高级的语义来描述事件，进而判断事件是否发生。

本发明的有益效果在于：本发明围绕林业生态中的特殊人群分析、危险行为理解、人流量监测与野生动物识别等典型需求，研究图像敏感区域捕获、目标种类判别与图像语义理解的共性技术，解决林业生态环境中视觉信息交互问题，使多模态交互设备实现智能环境感知，改善林区监管手段、提高管理效率。实现林区智能监控与预警功能，丰富林业生态监管手段、提升林业生态管理效率。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明行人检测网络结构示意图；

图2为本发明级联抑制分类器(CRC)的详细结构图；

图3为本发明手指关节处4个不同颜色的外部标记点示意图；

图4为本发明头肩检测的级联深度网络(HsNet)结构示意图；

图5为本发明事件关键姿态检测的网络结构图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

(1)基于尺度相关池与级联抑制分类器的人流量监测。

通过构造级联卷积神经网络，来识别行人特征，并利用边界框的数量统计，获得人流量估计。卷积神经网络的每一个卷积层都将得到一系列的粗糙对象建议，借助对每一个卷积层使用级联抑制分类器(CRC)将负面对象建议去除，得到相对精细的建议。幸存的对象建议通过下一层卷积层得到的特征再次使用级联抑制分类器进行负面建议消除。依次循环往下，到达第三层卷积层加入使用尺度相关池与级联抑制分类器相结合。对像素点最少即最小对象的检测识别。依次第四层第五层方法相同，分别对中等对象和大对象进行检测识别。与传统使用的卷积神经网络在最后一层卷积层进行特征池化不同，本项目通过对每一层的卷积特征都进行池化，综合使用各层特征对对象目标进行检测。检测网络结构如图1所示。下面结合附图给出一个行人检测的林业生态环境人机交互技术构建的实施例以对本发明内容作进一步的阐述。

给定50维的弱学习机制，使用2个fc层和双曲正切tanh层近似加强分类器，以便利用CNN框架中的计算模块。第一个fc层用δ_v应用特征的平移，后跟紧邻符号函数的tanh层。最后，所有弱学习机制通过最后一个fc层进行汇总，以使用w来产生最终提升分类得分。如果可用(l＞1)，则在抑制对象提议之前添加先前抑制分类器的分数。级联抑制分类器(CRC)的详细结构如图2所示。经过层层筛选可得到最终精确的对象目标，即行人。被检测到的行人使用边界框进行标注，通过统计边界框的数量判断人流量的大小。

(2)基于目标三维行为时间尺度不变的特殊人群判别。

通过建立目标行为的统计模型，来识别及描述具有时空差异性的个体步态与行为。在建模阶段,首先用相似矩阵描述目标姿态变化,并转换矩阵参数到对数空间形成一致的运动参数序列；然后基于多边形近似算法提取时间尺度不变特征(Time ScaleInvariant Feature,TSIF),并用动态时间规整对有限类别行为进行统计建模。在行为识别阶段,将测试行为与参考模型相匹配得到最小代价行为类别。

在层次化流程对视频帧进行处理的前提下，采用基于多点跟踪模型,并用相似矩阵表示目标运动姿态的方法实现单目视觉下目标三维运动姿态估计。在估计相似矩阵时，满足跟踪点数不少于矩阵参数即可。所跟踪的点可以是外部标记点，即在目标表面人为设置；也可以是内部标记点，如用尺度不变特征转换、加速分割测试特征等关键点算法在目标区域自动选取。为避免内部标记点的位置漂移和误匹配对跟踪的影响，本发明内容通过采用人工标记的外部点。以图3所示的手指关节标记为例，在手指关节处人为设置4个外部标记点，分别用不同颜色表示。标记点的颜色特征f可用于帧间匹配。

采用多边形近似算法对参数序列进行分段线性拟合，来构成时间尺度不变特征序列，实现时间尺度不变特征提取及匹配。首先，利用基于最小二乘的数据平滑能够有效地消除目标跟踪所获得的运动参数序列存在的量测噪声干扰；其次，目标动作发生显著变化的时刻对应于参数序列的转折点，即近似多边形的顶点，用其表示行为，保留了原始数据并实现了参数序列的降维。

在识别阶段，借助算法获得待识别行为样本的特征序列f_j,new,＝1,2,...,M。使未知运动特征数量M与参考模板保持一致，便于减小DTW的遍历误差。然后用算法将f_j,new分别与所有训练得到的有限类别行为参考模板{f_j,mod}_class相匹配，将遍历代价最小的参考模板类别作为识别结果。根据结合游客具备的拍照行为和常驻居民的步态方式，将游客从人群中区分出来。

(3)基于级联卷积神经网络的危险行为分析。

基于HsNet的行人行为检测过程包括：对检测视频的每一帧图像，用多尺度的滑窗按照预定步长截取一系列的候选小图像块(Patch)，形成待识别样本；将这些样本送入预先训练好的头肩/非头肩识别模型HsNet(三级CNN级联网络，如图4所示)进行分类，在网络的每一级被分类为负的样本的Patch直接舍弃,其余样本继续进入网络的下一级进行更严格的识别分类，如此经过三级CNN网络进行分类鉴别；网络第三级的输出结果用于判断图像Patch是否属于头肩区域，该区域的矩形框被称为头肩框，将头肩框高度扩展为原对应滑动窗口的3倍，得到行人检测的全身框；对于同一个行人，会形成多个检测框，最后用非极大值抑制策略剔除多余的检测框，每个位置只保留最可能的一个检测框---行人检测结果。

引入非线性运动模式学习及在线外观模的基于检测的分层关联多目标跟踪方法型学习策略，算法第一层对检测对象进行底层可信关联，形成轨迹片段；第二层利用非线性运动模式在线学习和外观模型多实例学习，对轨迹片段进行有效连接，得到可靠的对象轨迹。为了避免遮挡问题，仅仅检测行人的头肩部分区域代替行人整体；由于头肩区域较小，且采用多尺度滑动窗口的对象检测策略，同一对象的头肩区域在不同帧中位置跳变不可避免，这将影响对象轨迹片段速度的计算，进而影响高层关联中运动关系估计，使同一对象的不同轨迹片段因速度计算误差，导致无法正确关联。为解决此问题，我们将高斯过程回归(Gaussian process regression,GPR)引入跟踪过程，通过GPR，平滑对象轨迹片段，解决不同帧对象头肩部区域位置跳变问题。

通过从对象的运动轨迹中提取基本的参数(速度、方向、距离等)作为特征，对单个特征进行分析或者将多个特征相结合组成更高级的语义来描述事件，进而判断事件是否发生。相对于传统的特征分类器相结合的方法，轨迹分析方法更注重对象整体行为以及对象间行为关系，轨迹分析更符合人眼对行为的认知，事件关键姿态检测网络结构如图5所示。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.基于机器视觉的林业生态环境人机交互方法，其特征在于：该方法包括以下步骤：

S1：基于尺度相关池与级联抑制分类器的人流量监测；

S2：基于目标三维行为时间尺度不变的特殊人群判别；

S3：基于级联卷积神经网络的危险行为分析；

2.根据权利要求1所述的基于机器视觉的林业生态环境人机交互方法，其特征在于：所述步骤S1具体为：通过构造级联卷积神经网络，来识别行人特征，并利用边界框的数量统计，获得人流量估计；卷积神经网络的每一个卷积层都将得到一系列的粗糙对象建议，借助对每一个卷积层使用级联抑制分类器CRC将负面对象建议去除，得到相对精细的建议；幸存的对象建议通过下一层卷积层得到的特征再次使用级联抑制分类器进行负面建议消除；依次循环往下，到达第三层卷积层加入使用尺度相关池与级联抑制分类器相结合；对像素点最少即最小对象的检测识别；依次第四层第五层方法相同，分别对中等对象和大对象进行检测识别；通过对每一层的卷积特征都进行池化，综合使用各层特征对对象目标进行检测。

3.根据权利要求1所述的基于机器视觉的林业生态环境人机交互方法，其特征在于：所述步骤S2具体为：通过建立目标行为的统计模型，来识别及描述具有时空差异性的个体步态与行为；在建模阶段，首先用相似矩阵描述目标姿态变化，并转换矩阵参数到对数空间形成一致的运动参数序列；然后基于多边形近似算法提取时间尺度不变特征(Time ScaleInvariant Feature,TSIF)，并用动态时间规整对有限类别行为进行统计建模；在行为识别阶段，将测试行为与参考模型相匹配得到最小代价行为类别；

4.根据权利要求1所述的基于机器视觉的林业生态环境人机交互方法，其特征在于：所述步骤S3具体为：基于头肩检测的级联深度网络HsNet的行人行为检测过程包括：对检测视频的每一帧图像，用多尺度的滑窗按照预定步长截取一系列的候选小图像块Patch，形成待识别样本；将这些样本送入预先训练好的头肩/非头肩识别模型HsNet进行分类，在网络的每一级被分类为负的样本的Patch直接舍弃，其余样本继续进入网络的下一级进行更严格的识别分类，经过三级CNN网络进行分类鉴别；网络第三级的输出结果用于判断图像Patch是否属于头肩区域，该区域的矩形框被称为头肩框，将头肩框高度扩展为原对应滑动窗口的3倍，得到行人检测的全身框；对于同一个行人，会形成多个检测框，最后用非极大值抑制策略剔除多余的检测框，每个位置只保留最可能的一个检测框，即行人检测结果；

引入非线性运动模式学习及在线外观模的基于检测的分层关联多目标跟踪方法型学习策略，算法第一层对检测对象进行底层可信关联，形成轨迹片段；第二层利用非线性运动模式在线学习和外观模型多实例学习，对轨迹片段进行有效连接，得到可靠的对象轨迹；为了避免遮挡问题，仅仅检测行人的头肩部分区域代替行人整体；将高斯过程回归(Gaussianprocess regression,GPR)引入跟踪过程，平滑对象轨迹片段，解决不同帧对象头肩部区域位置跳变问题；