CN109376610B

CN109376610B - 视频监控中基于图像概念网络的行人不安全行为检测方法

Info

Publication number: CN109376610B
Application number: CN201811132864.3A
Authority: CN
Inventors: 李群; 肖甫; 徐鼎; 周剑
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2022-03-29
Anticipated expiration: 2038-09-27
Also published as: CN109376610A

Abstract

本发明公开了一种视频监控中基于图像概念网络的行人不安全行为检测方法，由事先获取的概念词汇表构建基于词激活力的语义概念网络，然后应用社会网络分析方法挖掘概念共现相关提取场景语义概念，进一步实现场景概念检测；另一方面，应用概念推理模型提取视觉一致语义概念特征；最后，应用场景语义概念优化视觉一致语义概念，并应用分类器完成基于图像识别的行人不安全行为检测。本发明能够实现行人不安全行为检测，同时对行人在参与交通过程中普遍存在的不安全行为有很好的预警效果。

Description

视频监控中基于图像概念网络的行人不安全行为检测方法

技术领域

本发明涉及一种行人不安全行为检测方法，属于视频监控应用和计算机视觉集成领域。

背景技术

马路上行人的交通陋习导致的不安全行为是目前我国道路交通伤害的重要诱因。行人不安全行为如过马路不走人行横道、行走中低头看手机等。如果能够及时对行人不安全行为预警，就能避免交通隐患，保证行人和行车的安全。计算机视觉技术和图像识别技术已经被广泛应用到交通流量控制、车辆检测和追踪等领域。除此之外，图像识别还被广泛应用于人体行为识别，如对于图像中包含的人与对象交互行为的识别，对于图像中包含场景信息的人体行为的识别等。所以，可以利用图像识别来进行行人不安全行为检测。

面向行人不安全行为检测的图像识别技术的关键是跨越语义鸿沟。而要跨越语义鸿沟，关键是获取图像的语义特征。其中，语义概念提取是语义特征提取这一基本研究问题中的一个颇具生命力的方向，也是目前视觉研究中的一个热点。而且，目前的研究表明，利用概念的共现模式，可以加强语义概念的提取。同时考虑到语义概念的关系复杂，类似一个网络。

发明内容

发明目的：本发明针对语义概念提取方法的不足，提出一种视频监控中基于图像概念网络的行人不安全行为检测方法，采用视觉一致语义概念和场景语义概念提取方案，前者用于检测视觉相关语义概念以及同一概念的视觉变化性，后者挖掘语义概念的共现模式和相关性。针对集群概念相关性研究的不足，同时考虑到语义概念的复杂关系类似一个网络，本发明应用复杂网络建模方法——词激活力构建语义概念网络，应用网络分析方法，有效的获取集群概念的相关性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种视频监控中基于图像概念网络的行人不安全行为检测方法，由事先获取的概念词汇表构建基于词激活力的语义概念网络，然后应用社会网络分析方法挖掘概念共现相关提取场景语义概念，进一步实现场景概念检测；另一方面，应用概念推理模型提取视觉一致语义概念特征；最后，应用场景语义概念优化视觉一致语义概念，并应用分类器完成基于图像识别的行人不安全行为检测。

具体包括以下步骤：

步骤1，给定训练集，提取每幅图像的语义概念，根据其在图像中的位置信息组成句子，同类图像概念构成的句子集合为一个文本，由此构建语义概念词汇表。

根据给定训练集和查询图提取图像的视觉特征，应用概念推理模型提取视觉一致语义概念，同时根据语义概念词汇表建立个体概念模型，进而提取图像描述子。

步骤2，基于词激活力的概念网络建模：由语义概念词汇表通过网络结构对语义概念网络建模，应用词激活力转化为图像语义概念激活力，构建基于词激活力的语义概念网络，并应用社会网络分析方法挖掘图像语义概念的共现属性，提取场景语义概念描述子。

步骤3，融合个体语义概念特征和场景语义概念特征获取融合特征，或者以场景语义概念描述子优化图像描述子作为最终特征，把融合特征或者优化后的图像描述子输入到线性SVM分类器(Support Vector Machine，支持向量机)对分类器进行训练，利用训练好的分类器实现行人不安全行为检测从而给定不安全行为标识。

优选的：所述步骤2中基于词激活力的语义概念网络构建包括以下步骤：

步骤21，给定语义概念词汇表中的一对语义概念词汇，记为词汇一c_l和词汇二c_k，首先计算得出它们各自的词汇一频率

和词汇二频率

以及它们的共现频率

它们的激活力

为：

其中，

是词汇一c_l和词汇二c_k共生频率中词汇一c_l对词汇二c_k前向距离的平均值。

步骤22，构建网络结构S＝(N,E,W)，其中N表示节点集，E表示连接节点的边缘集，且每个边缘对应其重要性被分配给一个大于零的权重W。对应于网络结构事先建立的概念词汇表C，概念网络则由每个概念c关联网络结构S中的节点n构建。

步骤23，网络边缘权重由谷歌距离NGD(the Normalized Google Distance，NGD)和激活力二次加权获取，其中谷歌距离NGD用于评估全局语义概念共现，词激活力用于捕捉局部共现活跃性属性。两两成对的词汇一c_l和词汇二c_k之间的全局语义共现依据谷歌距离NGD计算为：

其中，S(c_l)表示包含词汇一c_l的页面数量，S(c_k)表示包含词汇二c_k的页面数量，S(c_l,c_k)表示同时包含词汇一c_l和词汇二c_k的页面数量，Ω表示谷歌所搜索的总页面数；

步骤24，以网络的加权边缘表示各节点之间的共现相关性，以快速模块式最大化算法作为网络中的分层社区检测共现模式，实现场景语义概念描述子的提取。

优选的：所述步骤3中融合个体语义概念特征和场景语义概念特征获取融合特征的方法：

设个体概念概率特征为F_c，场景概念概率特征为F_s，获取融合特征F＝[F₁F₂]，其中F₁＝W₁F_c，F₂＝W₂F_s，则目标函数定义为：

τ₁+τ₂＝1,τ₁≥0,τ₂≥0.

其中，R₁(W₁,F₁)、R₂(W₂,F₂)为重构函数，C₁、C₂为特征相关项，g(F₁)、g(F₂)为惩罚函数，W₁,W₂,τ₁,τ₂，λ，λ₁，λ₂为权重系数,

为惩罚因子。

优选的：采用模块化优化模式对场景语义概念提取，通过比较节点的链路密度测量模块化分区的质量，模块化优化模式为：M＝ψ(N_i,N_j),i≠j＝1,2,3,......,，其中，M表示优化模式，ψ表示优化函数，N_i表示模块i，N_j表示模块j。

优选的：词激活力是加权复杂网络链接的一种统计学方法，能够获取词网络中的重要信息，是一种映射方法。

优选的：所述分类器为SVM分类器。

优选的：采用CoHOG(Co-occurrence Histograms of Oriented Gradients，共生方向梯度直方图)、PHOG(pyramid of histogram of oriented gradients，金字塔方向梯度直方图)、SIFT(Scale Invariant Feature Transform，尺度不变特征变换)、或GIST(Generalized Search Trees，通用搜索树)提取图像的视觉特征。

本发明相比现有技术，具有以下有益效果：

1、本发明把加权复杂网络链接的统计学方法——词激活力引入到图像识别领域，抽象和升华词激活力为场景图像语义概念激活力，并基于此构建场景图像语义概念的稀疏编码网络。并应用社会网络分析方法，提取语义概念的共现相关模式，从网络分析的角度分析和提取概念的语义相关，其能够获取图像语义概念及其相关性的重要信息。

2、本发明利用概率推理模型检测视觉一致语义概念，研究同一概念的视觉变化性及其与其它概念的视觉距离。并以网络的加权边缘表示各节点之间的共现相关性，以一种快速的模块式最大化算法作为网络中的分层社区检测共现模式，实现场景语义概念的提取。视觉一致语义概念与场景概念结合应用于行人不安全行为的检测，可以加强行人不安全行为语义概念的提取，构建稳定的检测模型。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提出的视频监控中基于图像概念网络的行人不安全行为检测方法，由事先获取的概念词汇表构建基于词激活力的语义概念网络，然后应用社会网络分析方法挖掘概念共现相关提取场景语义概念，进一步实现场景概念检测。另一方面，应用概念推理模型提取视觉一致语义概念特征；最后，应用场景语义概念优化视觉一致语义概念，并应用分类器完成基于图像识别的行人不安全行为检测。如图1所示，包括视觉一致语义概念提取、基于词激活力的语义概念网络构建、基于社会网络分析方法的网络共现模式挖掘、和基于判别模型的行人不安全行为识别，具体包括以下步骤：

步骤1，个体视觉一致语义概念提取，给定训练集，提取每幅图像的语义概念，根据其在图像中的位置信息组成句子，同类图像概念构成的句子集合为一个文本，由此构建语义概念词汇表。

1)提取图像的视觉特征，可以选用共生方向梯度直方图CoHOG、金字塔方向梯度直方图PHOG、尺度不变特征SIFT、或通用搜索树GIST。

2)利用个体概念模型，提取视觉一致语义概念特征。个体语义概念模型P定义如下：

P(concept,visual feature),

P(concept|visual feature).

由此视觉一致语义概念模型提取的描述子既不像传统的视觉描述子纯粹基于底层图像特征，也不像文本描述子仅包含高层语义概念，该描述子可以记录高层语义以及从底层特征获取的相关置信度值。

步骤2，基于词激活力的语义概念网络构建。基于词激活力的概念网络建模：由语义概念词汇表通过网络结构对语义概念网络建模，应用词激活力转化为图像语义概念激活力，构建基于词激活力的语义概念网络，并应用社会网络分析方法挖掘图像语义概念的共现属性，提取场景语义概念描述子。

所述步骤2中基于词激活力的语义概念网络构建包括以下步骤：

和词汇二频率

以及它们的共现频率

它们的激活力

为：

其中，

步骤23，网络边缘权重由谷歌距离和激活力二次加权获取，其中谷歌距离NGD用于评估全局语义概念共现，词激活力用于捕捉局部共现活跃性属性。两两成对的词汇一c_l和词汇二c_k之间的全局语义共现依据谷歌距离NGD计算为：

其中，S(c_l)表示包含词汇一c_l的页面数量，S(c_k)表示包含词汇二c_k的页面数量，S(c_l,c_k)表示同时包含词汇一c_l和词汇二c_k的页面数量，Ω表示谷歌所搜索的总页面数。

本发明通过一个网络结构对语义概念网络建模，应用词激活力转化为图像语义概念激活力，构建语义概念网络，并挖掘图像语义概念的共现属性。词激活力是加权复杂网络链接的一种统计学方法，其公式定义形式与万有引力公式相仿，其能够获取词网络中的重要信息，是一种优越的映射方法。实验表明，词激活力网络能够有效的挖掘出合理的词簇和层次结构，而且揭示了大脑中词网络编码的方式。

本发明应用社会网络分析技术，通过检测网络结构中的分层社区来开发概念共现模式，提取场景语义概念。许多现实生活中的复杂网络如社交网络和生物学网络中存在一个普遍的属性：社区结构。社区被定义为网络中具有严密的内部链接和松动的外部链接的节点群。检测有意义的概念共现模式的问题可以看作检测概念网络中存在重叠节点的社区。为了实现场景语义概念提取，采用模块化优化模式对场景语义概念提取，通过比较节点的链路密度测量模块化分区的质量。

步骤3，融合个体语义概念特征和场景语义概念特征获取融合特征，把融合特征输入到线性SVM对分类器进行训练，利用训练好的分类器实现行人不安全行为检测从而给定不安全行为标识。

所述步骤3中融合个体语义概念特征和场景语义概念特征获取融合特征的方法：

τ₁+τ₂＝1,τ₁≥0,τ₂≥0.

为惩罚因子。

采用模块化优化模式对场景语义概念提取，通过比较节点的链路密度测量模块化分区的质量，模块化优化模式为：M＝ψ(N_i,N_j),i≠j＝1,2,3,......,，其中，M表示优化模式，ψ表示优化函数，N_i表示模块i，N_j表示模块j。

应用特征融合算法获取融合特征后，给定一个图像，其融合特征可以输入到SVM等辨别式分类器实现分类，从而给定不安全行为标识。优化后特征描述子提取，优化后的特征描述子既包含个体语义概念本身的属性，又包含概念之间的共现相关属性。

本发明以语义概念提取为基础，通过识别和分类图像中的场景和对象，以确定视频图像中是否包含行人不安全行为。本发明应用复杂网络建模方法构建语义概念网络，目的是应用社会网络分析方法挖掘众多语义概念的复杂关系，进一步地提取视觉一致语义概念，用以检测概念的视觉相关以及视觉变化性，并提取场景语义概念挖掘语义概念的共现模式和相关性。本发明从跨越图像视觉信息与语义信息之间的“语义鸿沟”入手，提出了一种基于概念网络建模和社会网络分析方法的行人不安全行为检测方案，网络构建采用复杂网络构建方法词激活力，成功的实现了从文本词到图像语义概念词汇的抽象，并应用此激活力实现了语义概念网络的构建。基于社会网络分析实现了语义概念共现模式的挖掘，分析和充分挖掘了场景中的对象之间和人与对象之间的位置和相互作用关系，从而加强场景图像中对象的识别。采用判别模型可以实现鲁棒的行人不安全行为检测。本发明提出以语义概念提取为基础，应用复杂网络建模方法构建语义概念网络，挖掘概念共现模式，以此实现行人不安全行为检测，同时对行人在参与交通过程中普遍存在的不安全行为有很好的预警效果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频监控中基于图像概念网络的行人不安全行为检测方法，其特征在于：由事先获取的概念词汇表构建基于词激活力的语义概念网络，然后应用社会网络分析方法挖掘概念共现相关提取场景语义概念，进一步实现场景概念检测；另一方面，应用概念推理模型提取视觉一致语义概念特征；最后，应用场景语义概念优化视觉一致语义概念，并应用分类器完成基于图像识别的行人不安全行为检测；包括以下步骤：

步骤1，给定训练集，提取每幅图像的语义概念，根据其在图像中的位置信息组成句子，同类图像概念构成的句子集合为一个文本，由此构建语义概念词汇表；

根据给定训练集和查询图提取图像的视觉特征，应用概念推理模型提取视觉一致语义概念，同时根据语义概念词汇表建立个体概念模型，进而提取图像描述子；

步骤2，基于词激活力的语义概念网络构建；基于词激活力的概念网络建模：由语义概念词汇表通过网络结构对语义概念网络建模，应用词激活力转化为图像语义概念激活力，构建基于词激活力的语义概念网络，并应用社会网络分析方法挖掘图像语义概念的共现相关，提取场景语义概念描述子；

基于词激活力的语义概念网络构建包括以下步骤：

和词汇二频率

以及它们的共现频率

它们的激活力

为：

其中，

是词汇一c_l和词汇二c_k共生频率中词汇一c_l对词汇二c_k前向距离的平均值；

步骤22，构建网络结构S＝(N,E,W)，其中N表示节点集，E表示连接节点的边缘集，且每个边缘对应其重要性被分配给一个大于零的权重W；对应于网络结构事先建立的概念词汇表C，概念网络则由每个概念c关联网络结构S中的节点n构建；

步骤23，网络边缘权重由谷歌距离NGD和激活力二次加权获取，其中谷歌距离NGD用于评估全局语义概念共现，词激活力用于捕捉局部共现活跃性属性；两两成对的词汇一c_l和词汇二c_k之间的全局语义共现依据谷歌距离NGD计算为：

步骤24，以网络的加权边缘表示各节点之间的共现相关性，以快速模块式最大化算法作为网络中的分层社区检测共现模式，实现场景语义概念描述子的提取；

步骤3，融合个体语义概念特征和场景语义概念特征获取融合特征，把融合特征或者优化后的图像描述子输入到线性SVM分类器对分类器进行训练，利用训练好的分类器实现行人不安全行为检测从而给定不安全行为标识；

融合个体语义概念特征和场景语义概念特征获取融合特征的方法：

设个体概念概率特征为F_c，场景概念概率特征为F_s，获取融合特征F＝[F₁ F₂]，其中F₁＝W₁F_c，F₂＝W₂F_s，则目标函数定义为：

τ₁+τ₂＝1,τ₁≥0,τ₂≥0，

为惩罚因子。

2.根据权利要求1所述视频监控中基于图像概念网络的行人不安全行为检测方法，其特征在于：采用模块化优化模式对场景语义概念提取，通过比较节点的链路密度测量模块化分区的质量，

模块化优化模式M为：M＝ψ(N_i,N_j),i≠j＝1,2,3,......,，

其中，ψ表示优化函数，N_i表示模块i，N_j表示模块j。

3.根据权利要求1所述视频监控中基于图像概念网络的行人不安全行为检测方法，其特征在于：词激活力是加权复杂网络链接的一种统计学方法，能够获取词网络中的重要信息，是一种映射方法。

4.根据权利要求1所述视频监控中基于图像概念网络的行人不安全行为检测方法，其特征在于：所述分类器为SVM分类器。

5.根据权利要求1所述视频监控中基于图像概念网络的行人不安全行为检测方法，其特征在于：采用共生方向梯度直方图、金字塔方向梯度直方图、尺度不变特征、或通用搜索树提取图像的视觉特征。