CN116844241B - 基于着色的红外视频行为识别方法、系统和电子设备 - Google Patents

基于着色的红外视频行为识别方法、系统和电子设备 Download PDF

Info

Publication number
CN116844241B
CN116844241B CN202311101311.2A CN202311101311A CN116844241B CN 116844241 B CN116844241 B CN 116844241B CN 202311101311 A CN202311101311 A CN 202311101311A CN 116844241 B CN116844241 B CN 116844241B
Authority
CN
China
Prior art keywords
image
coloring
channel
color
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311101311.2A
Other languages
English (en)
Other versions
CN116844241A (zh
Inventor
钟忺
刘炳义
李伟
郑晓燕
黄文心
王正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Dashuiyun Technology Co ltd
Original Assignee
Wuhan Dashuiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Dashuiyun Technology Co ltd filed Critical Wuhan Dashuiyun Technology Co ltd
Priority to CN202311101311.2A priority Critical patent/CN116844241B/zh
Publication of CN116844241A publication Critical patent/CN116844241A/zh
Application granted granted Critical
Publication of CN116844241B publication Critical patent/CN116844241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/814Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level using belief theory, e.g. Dempster-Shafer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于着色的红外视频行为识别方法、系统和电子设备。针对背景噪点对红外视频的消极影响,提出颜色通道选择网络,将图像从RGB映射至CIE Lab,选择通道并加权融合,提高前背景的对比度;针对红外图像色彩细节信息丢失的问题,提出颜色通道增强网络,将背景与人物实例分离后,根据亮度通道预测色度信息,分别对完整图像和实例进行增强,将背景着色图与实例着色图按权重融合,使其更贴合红外视频的行为识别方法;针对模型融合不对齐问题,将上述两个网络的图像特征与光流特征分别转换为对应证据加以计算,得到样本数据特征的狄利克雷分布,进而确定每个模型的不确定度,动态分配各模型融合的权重,从而根据最终分类器得到最优的分类结果。

Description

基于着色的红外视频行为识别方法、系统和电子设备
技术领域
本发明属于人工智能、计算机视觉技术领域,涉及一种行为识别方法,尤其涉及一种基于着色的红外视频行为识别方法、系统和电子设备。
背景技术
行为识别主要是对特定场景下视频中的人类进行检测与跟踪,对其做出的行为动作进行识别、理解与分类。与传统行为识别技术研究的关键问题相比,本发明提出的场景是在红外摄像机范围内,对行人的运动行为进行识别并分类。随着红外监控的高频使用,红外视频凭借对光照条件变化和阴影具有鲁棒性的特点,在居民生活区的安全监控、生物医学等方面做出了突出贡献(授权公开号为CN111160181B的中国发明专利:一种基于红外视频图像的小目标检测方法),并逐渐引起了广大研究者的关注。但是,一方面,红外视频接收物体反射的红外光波,除了人体外还有其他物体对红外光波的反射率也较高;另一方面,红外图像作为单通道图像缺乏色彩信息;此外,红外图像与可见光图像特征不完全对齐,无法联合模型学习特征。
由于行为识别算法在可见光数据上已经较为成熟,现有通过借助可见光数据来获取红外模态的特征向量的红外视频行为识别算法。陈平等人(授权公开号为CN111881853B的中国发明专利:一种超大桥隧中异常行为识别方法和装置)直接将视频流中同时拍摄的红外图像和可见光图像进行融合处理,通过帧间背景差分法确定融合后的视频流图像中是否存在异常行为。丁萌等人(公开号为CN111325140A的中国发明专利:一种红外视频序列行为识别方法及装置)首先获取在指定时间内可见光数据的空间动作信息以及光流特征所对应的时间动作信息,同时获取在指定时间内迁移训练获取红外运动视频的两种信息,然后整合所有的空间动作信息以及时间动作信息,对原始红外动作视频片段进行动作的分类。李玉军等人(公开号为CN113901931A的中国发明专利:一种基于知识蒸馏模型的红外和可见光视频的行为识别方法)使用可见光数据集训练大型教师网络,通过知识蒸馏,让输入为红外图像的小型学生网络学习教师网络知识,使学生网络的性能逼近性能好的教师网络,解决了红外数据集少、训练效果不好的问题。另一方面,也涌现了不少基于多流网络的行为识别方法。吴雪平等人(吴雪平,孙韶媛,李佳豪,李大威.基于时空双流卷积神经网络的红外行为识别[J].应用光学,2018,39(05):743-750)将红外视频分段输入双流网络,通过加权融合后得到分类结果。周啸辉等人(周啸辉,余磊,何茜,陈涵,聂宏,欧巧凤,熊邦书.基于改进ResNet-18的红外图像人体行为识别方法研究[J].激光与红外,2021,51(09):1178-1184)根据红外图像特征改进ResNet-18残差网络,构建多分支同构结构增强网络的表达能力,并结合卷积注意力模块(CBAM)增加网络多样性,提升了网络的特征提取能力。Liu等人(Liu Y, Lu Z, Li J, et al.Transferable feature representation for visible-to-infrared cross-dataset human action recognition [J]. Complexity,2018:5345241: 1-5345241:20)为了更好地表示全局时间信息,提出了一个三流网络,该网络将光流运动历史图像(MHIs)、光流和光流图像的叠加差分图像分别送到用于行为识别的三流卷积神经网络(CNN)中。此外,还可以对红外视频序列进行处理来提高行为识别准确度。奉志强等人(公开号为CN115115990A的中国发明专利:基于复杂光照条件下红外监控视频的行为识别方法)则是对光照变化严重的图像进行灰度变换,来替换视频中光照变换严重的视频图像,使用改善的密集轨道算法(IDT算法)提取视频中的运动特征,最后使用多分类的支持向量机算法(SVM算法)进行行为类别分类。该方法解决了红外监控视频中存在严重光照变化或亮度变化的问题,进一步提升了该方法的能力。
然而,目前的行为识别方法在处理红外图像光谱成像时,未能充分理解红外图像光谱成像的本质,忽视了红外模态图像作为近似单通道图像更加注重明度对比的特点。这导致它们没有有效地解决背景杂波所带来的负面影响,并且忽略了红外图像中丢失的色度信息。因此,在红外视频上的行为识别预测精度仍然存在一些不足之处。本基于着色的红外视频行为识别方法,受数字图像的着色技术启发,利用通道选择和增强、着色等方法来增强红外图像轮廓、色度信息,融合红外图像外观信息与光流信息,可以提高红外视频下行为识别的准确率。此外,通过调整视频的学习片段可以为夜间观测驾驶人员危险动作行为识别、水域巡查等提供技术支持。
综上所述,当前在红外视频上的行为识别方法广受关注,但依旧存在着尚未解决的问题,要提高其算法精度仍是一项重大的挑战。利用颜色通道选择、增强方法可以优化行为识别所依赖的外观特征的提取,使得结果更具准确性。
发明内容
本发明解决的技术问题是在红外监控环境下的行为识别问题。传统的行为识别研究大多数都只针对可见光谱中的行为识别,基于红外光数据的行为识别算法准确率还有待提高。红外视频是一种反应亮度变化的单通道图像序列,因此本发明适当利用其单通道特性,叠加颜色通道并引入分离着色的方法,借鉴D-S证据理论融合的思想,优化行为识别结果。
本发明所采用的技术方案是:一种基于着色的红外视频行为识别方法,包括以下步骤:
步骤1,预处理红外视频,获得随机裁剪的红外图像,并提取红外图像中的运动特征,将红外图像由RGB颜色空间转换至CIE Lab颜色空间;
步骤2,建立颜色通道选择网络,颜色通道选择网络的处理过程为:对CIE Lab颜色空间下的图像序列依次进行通道分离、通道复制、通道组合操作,选取若干种通道组合加权融合得到融合后的图像,即为外观信息A;
步骤3,建立颜色通道增强网络,颜色通道增强网络的处理过程为:对随机裁减后的红外图像进行图像分割处理,将背景与人物实例分离,根据亮度通道对色度信息进行预测,分别对完整图像和实例着色,并利用浅层网络学习融合权重,将背景着色图与实例着色图按学习融合权重融合,融合后的图像即为外观信息B;
步骤4,构建一个三分支的网络模型,第一个分支为步骤1的运动特征提取分支,第二分支为步骤2中的颜色通道选择网络,第三分支为步骤3中的颜色通道增强网络,第一分支直接输出运动特征,将第二和第三分支的输出分别输入到特征提取器中,得到与外观信息A和外观信息B对应的外观特征A和外观特征B;
步骤5,将步骤4中的外观特征A、外观特征B和运动特征分别输入到分类器中,其输出作为基于D-S证据理论多分类融合决策算法中的三个证据,通过算法中意见生成和融合,得到每个类别的最优结果。
进一步的,步骤1中,将图像从RGB颜色空间转换至XYZ颜色空间,然后再向CIE Lab颜色空间转换,实现色度与亮度分离,即,其中/>为视频序列,上标表示其所属颜色空间;转换公式如下:
其中,分别代表RGB、XYZ、Lab颜色空间的各通道数值;从RGB颜色空间到XYZ颜色空间仅需经过一个线性的变换矩阵,而XYZ颜色空间到CIELab空间是一个非线性过程,/>是对应的非线性转换公式;/>、/>、/>表示同样照明条件下一个完全漫反射体表面的三刺激值,/>、/>、/>是将三刺激值做归一化处理。
进一步的,步骤2的具体实现方式如下;
步骤2.1,将CIE Lab颜色空间中的红外图像序列进行通道分离,分别得到代表亮度的L通道和代表色度的a、b通道的红外图像序列/>、/>、/>,在保留L通道信息的情况下进行重新组合,在Lab空间中得到多种通道形式;
步骤2.2,分别将多种通道组合融合后的图像送入在ImageNet上预训练的Inception-V1模型进行识别,准确率最高的若干个通道形式,将它们进行加权融合,得到融合后的图像。
进一步的,步骤3中,针对CIE Lab颜色空间下的图像,采用Mask R-CNN或YOLO模型将人体实例对象检测出来,并通过边界框标注;利用着色网络,通过亮度通道信息预测色度通道信息/>,得到补充了缺失色度细节信息的红外图像,然后分别对整个图像和实例进行着色,获得全景着色图和实例着色图,其中i为实例的索引,L表示亮度,a、b表示色度。
进一步的,步骤3中,将实例着色图,边界框/>与全景着色图/>作为输入,采用三层卷积网络作为学习融合权重W的模型,即浅层网络;首先在像素级别上对每个像素点使用Softmax函数归一化,然后采用下述公式来融合着色图:
其中,Y为最后融合后的图像,为实例个数,/>为矩阵相乘操作,/>为全景着色特征图的权重矩阵,/>为人物实例着色特征图的权重矩阵。
进一步的,训练学习融合权重W的模型的损失函数如下所示,
其中,表示/>损失函数,/>损失函数本质上是一个分段函数,/>取1时表示/>在/>区间上是一个二次曲线,在/>上是两条/>的射线;/>分别为预测值和真实值。
进一步的,所述特征提取器采用现有的卷积网络。
进一步的,步骤5中,所述分类器是通过将传统的基于神经网络的分类器的最后一层的Softmax函数更换为ReLU激活函数,以确保分类器的预测值为非负值;引入KL散度及平衡参数,得到损失函数如下所示:
其中,为第i个样本的分类概率,/>为Dirichlet分布的调整参数,/>为Dirichlet分布参数,/>为由Dirichlet分布的调整参数得到的多项式意见,/>意在约束,使其近似于满足Dirichlet分布的参数为1的多项式意见,/>为聚合交叉熵损失函数;
从0开始逐渐增大的值,在/>中找到最优的/>,最终损失函数表示如下:
其中,N表示样本数量,V表示证据的个数,也是分支的个数,为第v个分支中的Dirichlet分布参数。
第二方面,本发明提供一种基于着色的红外视频行为识别系统,包括以下模块:
预处理模块,用于预处理红外视频,获得随机裁剪的红外图像,并提取红外图像中的运动特征,将红外图像由RGB颜色空间转换至CIE Lab颜色空间;
颜色通道选择网络构建模块,用于建立颜色通道选择网络,颜色通道选择网络的处理过程为:对CIE Lab颜色空间下的图像序列依次进行通道分离、通道复制、通道组合操作,选取若干种通道组合加权融合得到融合后的图像,即为外观信息A;
颜色通道增强网络构建模块,用于建立颜色通道增强网络,颜色通道增强网络的处理过程为:对随机裁减后的红外图像进行图像分割处理,将背景与人物实例分离,根据亮度通道对色度信息进行预测,分别对完整图像和实例着色,并利用浅层网络学习融合权重,将背景着色图与实例着色图按学习融合权重融合,融合后的图像即为外观信息B;
整体网络模块构建模块,用于构建一个三分支的网络模型,第一个分支为步骤1的运动特征提取分支,第二分支为步骤2中的颜色通道选择网络,第三分支为步骤3中的颜色通道增强网络,第一分支直接输出运动特征,将第二和第三分支的输出分别输入到特征提取器中,得到与外观信息A和外观信息B对应的外观特征A和外观特征B;
分类模块,用于将外观特征A、外观特征B和运动特征分别输入到分类器中,其输出作为基于D-S证据理论多分类融合决策算法中的三个证据,通过算法中意见生成和融合,得到每个类别的最优结果。
第三发明,本发明提供一种基于着色的红外视频行为识别电子设备,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的程序指令执行上述一种基于着色的红外视频行为识别方法。
本发明公开了一种基于着色的红外视频的行为识别方法。(1)针对背景杂波造成的背景噪点对红外视频的消极影响,提出颜色通道选择网络(CCS net),将图像从RGB颜色空间映射至亮度与色度分离、色域更广泛的CIE Lab颜色空间,选择通道并加权融合,提高前背景的对比度;(2)针对红外图像色彩细节信息丢失的问题,提出颜色通道增强网络(CCEnet),将背景与人物实例分离后,根据亮度通道对色度信息进行预测,分别对完整图像和前景实例进行增强,将背景着色图与实例着色图按权重融合,使其更贴合红外视频的行为识别方法;(3)针对模型融合不对齐问题,将上述两个子网络的图像特征与附加光流特征分别转换为对应证据,加以计算,得到该样本数据特征的狄利克雷分布,进而确定每个模型的不确定度(即置信度),动态分配各模型融合的权重,从而根据最终分类器得到最优的分类结果。实验在红外行为识别InfAR数据集上取得了最佳准确率93.33%,并且在NTU RGB+D数据子集上验证了本发明的有效性。
与现有行为识别技术与系统相比,本发明的有益效果还包括:
1)与现有技术相比,本发明提出了颜色通道选择网络CCS net,增强了人物轮廓,弱化了红外视频受背景杂波影响的问题。
2)与现有技术相比,本发明为解决红外视频色度细节信息缺失问题,提出了颜色通道增强网络CCE net。
3)与现有技术相比,本发明将上述处理后的特征融合,提出了基于D-S证据理论的多分类器融合决策算法,以达到更准确的分类效果。
附图说明
图1为本发明实施例的流程图;
图2为D-S证据理论的融合算法流程图;
图3为本发明的网络模型图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于着色的红外视频行为识别方法,包括以下步骤:
步骤1:预处理红外视频,得到已随机剪裁的红外图像以及对红外图像利用现有光流估计方法提取的光流图像。
基于红外图像更注重明度对比的近似单通道特质,本发明在HSV、Lab、HSL、YUV、YCrCb、XYZ六种颜色空间中进行试验,根据实验效果决定将图像从RGB颜色空间转换至XYZ颜色空间,然后再向CIE Lab颜色空间转换,实现色度与亮度分离,即,其中/>为视频序列,上标表示其所属颜色空间。转换公式如下:
其中,分别代表RGB、XYZ、Lab颜色空间的各通道数值;从RGB颜色空间到XYZ颜色空间仅需经过一个线性的变换矩阵,而XYZ颜色空间到CIELab空间是一个非线性过程,/>是对应的非线性转换公式。/>、/>、/>表示同样照明条件下一个完全漫反射体表面的三刺激值,/>、/>、/>是将三刺激值做归一化处理。
步骤2:建立颜色通道选择网络,对CIE Lab颜色空间下的图像序列依次进行通道分离、通道复制、通道组合等操作,将效果最好的四种通道组合加权融合。
步骤2的具体实现包括以下子步骤:
步骤2.1:将CIE Lab颜色空间中的红外图像序列进行通道分离,分别得到代表亮度的L通道和代表色度的a、b通道的红外图像序列/>、/>、/>,由于红外图像色度信息不足而亮度信息较丰富,在保留L通道信息的情况下重新组合这些通道,在Lab空间中可以得到/>、/>、/>、/>等21种通道形式。
步骤2.2:分别将21种通道组合融合后的图像送入在ImageNet上预训练的Inception-V1模型进行识别,准确率最高四者分别为、/>、/>、/>,将他们加权融合,得到融合后的图像,即用于步骤4的对比度更强的外观信息A;
步骤3:在CIE Lab颜色空间下使用目标检测器Mask R-CNN对图像进行处理,将背景与人物实例分离,根据亮度通道对色度信息进行预测,先后对完整图像和实例着色,然后用三层卷积的浅层网络学习融合权重W,使用损失函数进行训练,将背景着色图与实例着色图按权重融合,得到融合后的图像,即用于步骤4的颜色更丰富的外观信息B。损失函数如下所示,此时/>,/>分别为预测值和真实值:
其中,表示/>损失函数,/>损失函数本质上是一个分段函数,/>取1时表示/>在/>区间上是一个二次曲线,在/>上是两条/>的射线。在现有的颜色通道增强网络中,共融合13次,融合的通道数为64、128、256、512、512、512、256、256、128、128和128。在图像着色过程中,使用ADAM优化器,其中用于控制移动平均的衰减率参数/>。设置初始学习率为/>,并共训练10000个epochs,采用每2000个epochs学习率降低0.1。
步骤3的具体实现包括以下子步骤:
步骤3.1:针对步骤1中CIE Lab颜色空间下的图像,利用目标检测器(Mask R-CNN或YOLO)将人体等实例对象检测出来,保留边界框信息,利用着色网络,通过亮度通道信息预测色度通道信息/>,先后对整个图像和实例进行着色,获得全景着色图和实例着色图,由此补充了红外图像的色度细节信息;
步骤3.2:将实例着色图,边界框/>与全景着色图/>作为输入,选用三层卷积网络作为学习融合权重W(包括/>和/>)的模型。首先在像素级别上对每个像素点使用Softmax函数归一化,然后采用下述公式来融合着色图:
其中,Y为融合后的着色图像,为实例个数,/>为矩阵相乘操作,/>为全景着色特征图的权重矩阵,/>为人物实例着色特征图的权重矩阵。训练学习融合权重W的模型的损失函数如下所示,其中/>
步骤3.3:将融合后的着色图像Y作为步骤4的输入之一,即颜色更丰富的外观信息B。
步骤4:构建一个三分支的网络模型,第一个分支为步骤1的光流图像信息提取分支,第二分支为步骤2中的颜色通道选择网络,第三分支为步骤3中的颜色通道增强网络,将三个分支的输出分别输入到I3D特征提取器中,得到与外观信息A和外观信息B对应的外观特征A(即图3中的Fs)和外观特征B(即图3中的Fc),以及与光流图像信息对应的运动特征(即图3中的Fflow),三者作为步骤5中分类器的输入;
步骤5:,将步骤4中的外观特征A、外观特征B和运动特征分别输入到改进后的分类器中,其输出作为基于D-S证据理论多分类融合决策算法的三个证据,通过意见生成和融合步骤得到每个类别上的最优结果;
步骤5的具体实现包括以下子步骤:
步骤5.1:改进一个传统的基于神经网络的分类器,使其结果非负,对三分支网络的输出特征分别进行处理,其输出作为基于D-S证据理论多分类融合决策算法的三个证据。
在获取证据时将一个传统的基于神经网络的分类器的最后一层的Softmax函数更换为ReLU激活函数,以确保该分类器的预测值为非负值。引入KL散度及平衡参数,得到损失函数如下所示:
其中,为第i个样本的分类概率,/>为Dirichlet分布的调整参数,/>为Dirichlet分布参数,/>为由Dirichlet分布的调整参数得到的多项式意见,/>意在约束,使其近似于满足Dirichlet分布的参数为1的多项式意见,/>为聚合交叉熵损失函数。
在本实施例中可从0开始逐渐增大的值,在/>中找到最优的/>,以防分类器在初始训练时过分关注KL散度,导致模型缺乏对参数空间的调整而输出平坦均匀的分布。因此最终损失函数表示如下:
其中,N表示样本的个数,V表示证据的个数,也是分支的个数,为第v个分支中的Dirichlet分布参数。
步骤5.2:分别对三个证据构建Dirichlet分布,并利用主观逻辑获取不同类别的预测概率(置信质量)以及不确定性(不确定性质量);
本实施例中,对于每一个分支网络的k种分类问题,主观逻辑根据给定证据为每个行为类别标签和整个框架确定一个可靠性,分别为当前样本的预测概率和当前分支网络的不确定性。
步骤5所述的三个分支网络可认为是三种模态,对于第v个模态,通过下述公式,主观逻辑将证据与Dirichlet分布的相关参数/>关联起来,得到证据理论融合的分配概率/>及样本整体的不确定性/>
其中,K是类别数,代表样本总体的不确定性,/>代表Dirichlet强度,/>代表第k类标签的预测概率,它们的和为1:
本实施例中,当证据越充分,足够强时,不确定性可忽略(无限趋近于0);当证据非常弱时,不确定性变为极大(趋近于1)。因此,对模型样本不确定性的可信度分配可看作是一种主观意见。
步骤5.3:根据Dirichlet分布以及样本的不确定性通过D-S证据理论(Dempster-Shafer theory)进行多分类器的融合,取得每个类别上的最优结果;
本实施例中,第v个模态下的分类置信度可表示为,多决策器的融合实质上是根据D-S组合规则将V个独立模态的分配概率进行组合,因此当处理多分类器融合时,其Dirichlet分类可概括为:
本发明在方法评价上使用准确率(Accuracy)作为评价指标评价模型性能,该指标定义将所有样本实例分为正类(Positive)或者负类(Negative),在实际的分类过程中会出现以下四种情况:(1)真正类(1 Positive,TP)为样本的真实分类为正类且模型分类器将其划分为正类实例;(2)假正类(0 Positive,FP)为样本的真实分类为负类但模型分类器将其错误划分为正确类的实例;(3)假负类(0 Negative,FN)为样本的真实分类为正类,但模型分类器将其错误划分为负类;(4)真负类(1 Negative,TN)为样本的真实分类为负类且模型分类器将其划分为负类。对于给定测试数据集,其准确率计算方式如下所示,公式分子为分类器正确分类的数目(包含正样本与负样本),分母为样本总数。
本发明提出一种全新的基于着色的红外视频行为识别方法,通过通道分离、通道叠加、通道融合,分离着色,基于D-S证据理论的融合方法等途径提高了红外视频条件下行为识别的准确率,在红外行为识别InfAR数据集上取得了最佳准确率93.33%。
表1 在InfAR数据集上与先进结果的比较
本发明的创新点包括:
(1)本发明将图像从RGB颜色空间转换至CIE Lab颜色空间,令红外图像的色度通道与亮度通道分离,其次利用通道选择及叠加,增大红外图像亮度的对比度,令人体等主要对象轮廓增强,从而相对抑制背景噪点的影响。
(2)本发明借鉴图像着色领域的方法,通过大量成对可见光彩色—红外图像训练,可利用红外图像亮度通道预测生成色度通道,将红外图像补充至三通道图像,从而补全红外图像缺失的色度信息。
(3)本发明利用Dirichlet分布与证据理论计算出模型样本的不确定性,根据模型不确定性以及预测分类概率共同决定不同样本的融合权重参数,从而达到动态融合的目的。
(4)不同于传统的红外视频的行为识别方法,本发明将红外视频映射至亮度色度分离的CIE Lab颜色空间并通过着色来补充其缺失的色度信息,最后结合证据理论进行最终的分类决策。
应用场景:本发明可以在光线不足的情况下很好地捕获人的图像信息,可用于水域巡查,及时发现、制止各类污染河湖水质、破坏水环境和侵占水域岸线等违法行为;用于夜间(车、船)驾驶员监控系统,监测(车、船)驾驶员是否存在影响安全驾驶行为;用于夜间监测关键地区的异常行为,医院、养老院等看护机构的病人、老人摔倒等异常行为检测。
另一实施例,本发明提供一种基于着色的红外视频行为识别系统,包括以下模块:
预处理模块,用于预处理红外视频,获得随机裁剪的红外图像,并提取红外图像中的运动特征,将红外图像由RGB颜色空间转换至CIE Lab颜色空间;
颜色通道选择网络构建模块,用于建立颜色通道选择网络,颜色通道选择网络的处理过程为:对CIE Lab颜色空间下的图像序列依次进行通道分离、通道复制、通道组合操作,选取若干种通道组合加权融合得到融合后的图像,即为外观信息A;
颜色通道增强网络构建模块,用于建立颜色通道增强网络,颜色通道增强网络的处理过程为:对随机裁减后的红外图像进行图像分割处理,将背景与人物实例分离,根据亮度通道对色度信息进行预测,分别对完整图像和实例着色,并利用浅层网络学习融合权重,将背景着色图与实例着色图按学习融合权重融合,融合后的图像即为外观信息B;
整体网络模块构建模块,用于构建一个三分支的网络模型,第一个分支为步骤1的运动特征提取分支,第二分支为步骤2中的颜色通道选择网络,第三分支为步骤3中的颜色通道增强网络,第一分支直接输出运动特征,将第二和第三分支的输出分别输入到特征提取器中,得到与外观信息A和外观信息B对应的外观特征A和外观特征B;
分类模块,用于将外观特征A、外观特征B和运动特征分别输入到分类器中,其输出作为基于D-S证据理论多分类融合决策算法中的三个证据,通过算法中意见生成和融合,得到每个类别的最优结果。
在实际处理过程中,还可以包括输出模块,用于输入红外视频。上述各模块的具体实现方式与各步骤相应,本发明不予撰述。
另一实施例,本发明提供一种基于着色的红外视频行为识别电子设备,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的程序指令执行上述一种基于着色的红外视频行为识别方法。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种基于着色的红外视频行为识别方法,其特征在于,包括以下步骤:
步骤1,预处理红外视频,获得随机裁剪的红外图像,并提取红外图像中的运动特征,将红外图像由RGB颜色空间转换至CIE Lab颜色空间;
步骤2,建立颜色通道选择网络,颜色通道选择网络的处理过程为:对CIE Lab颜色空间下的图像序列依次进行通道分离、通道复制、通道组合操作,选取若干种通道组合加权融合得到融合后的图像,即为外观信息A;
步骤3,建立颜色通道增强网络,颜色通道增强网络的处理过程为:对随机裁减后的红外图像进行图像分割处理,将背景与人物实例分离,根据亮度通道对色度信息进行预测,分别对完整图像和实例着色,并利用浅层网络学习融合权重,将背景着色图与实例着色图按学习融合权重融合,融合后的图像即为外观信息B;
步骤4,构建一个三分支的网络模型,第一个分支为步骤1的运动特征提取分支,第二分支为步骤2中的颜色通道选择网络,第三分支为步骤3中的颜色通道增强网络,第一分支直接输出运动特征,将第二和第三分支的输出分别输入到特征提取器中,得到与外观信息A和外观信息B对应的外观特征A和外观特征B;
步骤5,将步骤4中的外观特征A、外观特征B和运动特征分别输入到分类器中,其输出作为基于D-S证据理论多分类融合决策算法中的三个证据,通过算法中意见生成和融合,得到每个类别的最优结果。
2.如权利要求1所述的一种基于着色的红外视频行为识别方法,其特征在于:步骤1中,将图像从RGB颜色空间转换至XYZ颜色空间,然后再向CIE Lab颜色空间转换,实现色度与亮度分离,即,其中/>为视频序列,上标表示其所属颜色空间;转换公式如下:
其中,分别代表RGB、XYZ、Lab颜色空间的各通道数值;从RGB颜色空间到XYZ颜色空间仅需经过一个线性的变换矩阵,而XYZ颜色空间到CIELab空间是一个非线性过程,/>是对应的非线性转换公式;/>、/>、/>表示同样照明条件下一个完全漫反射体表面的三刺激值,/>、/>、/>是将三刺激值做归一化处理。
3.如权利要求1所述的一种基于着色的红外视频行为识别方法,其特征在于:步骤2的具体实现方式如下;
步骤2.1,将CIE Lab颜色空间中的红外图像序列进行通道分离,分别得到代表亮度的L通道和代表色度的a、b通道的红外图像序列/>、/>、/>,在保留L通道信息的情况下进行重新组合,在Lab空间中得到多种通道形式;
步骤2.2,分别将多种通道组合融合后的图像送入在ImageNet上预训练的Inception-V1模型进行识别,准确率最高的若干个通道形式,将它们进行加权融合,得到融合后的图像。
4.如权利要求1所述的一种基于着色的红外视频行为识别方法,其特征在于:步骤3中,针对CIE Lab颜色空间下的图像,采用Mask R-CNN或YOLO模型将人体实例对象检测出来,并通过边界框标注;利用着色网络,通过亮度通道信息预测色度通道信息/>,得到补充了缺失色度细节信息的红外图像,然后分别对整个图像和实例进行着色,获得全景着色图和实例着色图,其中i为实例的索引,L表示亮度,a、b表示色度。
5.如权利要求4所述的一种基于着色的红外视频行为识别方法,其特征在于:步骤3中,将实例着色图,边界框/>与全景着色图/>作为输入,采用三层卷积网络作为学习融合权重W的模型,即浅层网络;首先在像素级别上对每个像素点使用Softmax函数归一化,然后采用下述公式来融合着色图:
其中,Y为最后融合后的图像,为实例个数,/>为矩阵相乘操作,/>为全景着色特征图的权重矩阵,/>为人物实例着色特征图的权重矩阵。
6.如权利要求1所述的一种基于着色的红外视频行为识别方法,其特征在于:训练学习融合权重W的模型的损失函数如下所示,
其中,表示/>损失函数,/>损失函数本质上是一个分段函数,/>取1时表示/>在/>区间上是一个二次曲线,在/>上是两条的射线;/>分别为预测值和真实值。
7.如权利要求1所述的一种基于着色的红外视频行为识别方法,其特征在于:所述特征提取器采用现有的卷积网络。
8.如权利要求1所述的一种基于着色的红外视频行为识别方法,其特征在于:步骤5中,所述分类器是通过将传统的基于神经网络的分类器的最后一层的Softmax函数更换为ReLU激活函数,以确保分类器的预测值为非负值;引入KL散度及平衡参数,得到损失函数如下所示:
其中,为第i个样本的分类概率,/>为Dirichlet分布的调整参数,/>为Dirichlet分布参数,/>为由Dirichlet分布的调整参数得到的多项式意见,/>意在约束,使其近似于满足Dirichlet分布的参数为1的多项式意见,/>为聚合交叉熵损失函数;
从0开始逐渐增大的值,在/>中找到最优的/>,最终损失函数表示如下:
其中,N表示样本数量,V表示证据的个数,也是分支的个数,为第v个分支中的Dirichlet分布参数。
9.一种基于着色的红外视频行为识别系统,其特征在于,包括以下模块:
预处理模块,用于预处理红外视频,获得随机裁剪的红外图像,并提取红外图像中的运动特征,将红外图像由RGB颜色空间转换至CIE Lab颜色空间;
颜色通道选择网络构建模块,用于建立颜色通道选择网络,颜色通道选择网络的处理过程为:对CIE Lab颜色空间下的图像序列依次进行通道分离、通道复制、通道组合操作,选取若干种通道组合加权融合得到融合后的图像,即为外观信息A;
颜色通道增强网络构建模块,用于建立颜色通道增强网络,颜色通道增强网络的处理过程为:对随机裁减后的红外图像进行图像分割处理,将背景与人物实例分离,根据亮度通道对色度信息进行预测,分别对完整图像和实例着色,并利用浅层网络学习融合权重,将背景着色图与实例着色图按学习融合权重融合,融合后的图像即为外观信息B;
整体网络模块构建模块,用于构建一个三分支的网络模型,第一个分支为步骤1的运动特征提取分支,第二分支为步骤2中的颜色通道选择网络,第三分支为步骤3中的颜色通道增强网络,第一分支直接输出运动特征,将第二和第三分支的输出分别输入到特征提取器中,得到与外观信息A和外观信息B对应的外观特征A和外观特征B;
分类模块,用于将外观特征A、外观特征B和运动特征分别输入到分类器中,其输出作为基于D-S证据理论多分类融合决策算法中的三个证据,通过算法中意见生成和融合,得到每个类别的最优结果。
10.一种基于着色的红外视频行为识别电子设备,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的程序指令执行如权利要求1-8任一权利要求所述的一种基于着色的红外视频行为识别方法。
CN202311101311.2A 2023-08-30 2023-08-30 基于着色的红外视频行为识别方法、系统和电子设备 Active CN116844241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311101311.2A CN116844241B (zh) 2023-08-30 2023-08-30 基于着色的红外视频行为识别方法、系统和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311101311.2A CN116844241B (zh) 2023-08-30 2023-08-30 基于着色的红外视频行为识别方法、系统和电子设备

Publications (2)

Publication Number Publication Date
CN116844241A CN116844241A (zh) 2023-10-03
CN116844241B true CN116844241B (zh) 2024-01-16

Family

ID=88165566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311101311.2A Active CN116844241B (zh) 2023-08-30 2023-08-30 基于着色的红外视频行为识别方法、系统和电子设备

Country Status (1)

Country Link
CN (1) CN116844241B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082968A (zh) * 2022-08-23 2022-09-20 天津瑞津智能科技有限公司 基于红外光和可见光融合的行为识别方法及终端设备
CN115147864A (zh) * 2022-05-31 2022-10-04 合肥学院 一种基于协同异质深度学习网络的红外人体行为识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184029A1 (en) * 2020-11-12 2021-09-16 Innopeak Technology, Inc. Systems and methods for fusing color image and near-infrared image
US20230169777A1 (en) * 2021-11-30 2023-06-01 Zoox, Inc. Center-based detection and tracking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147864A (zh) * 2022-05-31 2022-10-04 合肥学院 一种基于协同异质深度学习网络的红外人体行为识别方法
CN115082968A (zh) * 2022-08-23 2022-09-20 天津瑞津智能科技有限公司 基于红外光和可见光融合的行为识别方法及终端设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《A Target Identification Method Based on Uncertainty Estimation and Evidence Theory》;Leping Lin等;《2022 4th International Conference on Frontiers Technology of Information and Computer》;第Ⅱ节 *
《Instance-aware Image Colorization》;Jheng-Wei Su等;《CVPR2020》;全文 *
《Subspace Enhancement and Colorization Network for Infrared Video Action Recognition》;Lu Xu等;《Pacific Rim International Conference on Artificial Intelligence》;第3-4节,图2 *

Also Published As

Publication number Publication date
CN116844241A (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN109614996B (zh) 基于生成对抗网络的弱可见光与红外图像融合的识别方法
Frizzi et al. Convolutional neural network for video fire and smoke detection
CN109543640B (zh) 一种基于图像转换的活体检测方法
Yang et al. Single image haze removal via region detection network
Yang et al. Research on a skin color detection algorithm based on self-adaptive skin color model
CN108268859A (zh) 一种基于深度学习的人脸表情识别方法
CN110555465B (zh) 一种基于cnn与多特征融合的天气图像识别方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
US8295637B2 (en) Method of classifying red-eye objects using feature extraction and classifiers
CN111160216B (zh) 一种多特征多模型的活体人脸识别方法
Chen et al. Skin color modeling for face detection and segmentation: a review and a new approach
CN104598924A (zh) 一种目标匹配检测方法
CN110598560A (zh) 基于神经网络增强的夜间监控识别方法和系统
CN108171241B (zh) 基于IFCS/Otsu的IOFR火焰识别方法
CN113128481A (zh) 一种人脸活体检测方法、装置、设备及存储介质
CN103119625A (zh) 一种视频人物分割的方法及装置
CN111815528A (zh) 基于卷积模型和特征融合的恶劣天气图像分类增强方法
CN111242868A (zh) 暗视觉环境下基于卷积神经网络的图像增强方法
CN114627269A (zh) 一种基于深度学习目标检测的虚拟现实安防监控平台
CN114387195A (zh) 一种基于非全局预增强的红外图像与可见光图像融合方法
CN111612090B (zh) 基于内容颜色交叉相关的图像情感分类方法
CN111695436B (zh) 一种基于目标增强的高空间分辨率遥感图像场景分类方法
Mousavi et al. Digital image segmentation using rule-base classifier
CN116844241B (zh) 基于着色的红外视频行为识别方法、系统和电子设备
CN117115630A (zh) 一种基于循环一致性的强光下多光谱车辆重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant