CN114022698A - 一种基于二叉树结构的多标签行为识别方法及装置 - Google Patents

一种基于二叉树结构的多标签行为识别方法及装置 Download PDF

Info

Publication number
CN114022698A
CN114022698A CN202111202508.6A CN202111202508A CN114022698A CN 114022698 A CN114022698 A CN 114022698A CN 202111202508 A CN202111202508 A CN 202111202508A CN 114022698 A CN114022698 A CN 114022698A
Authority
CN
China
Prior art keywords
behavior
binary tree
classifier
network
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111202508.6A
Other languages
English (en)
Inventor
卿志武
桑农
张士伟
高常鑫
王翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111202508.6A priority Critical patent/CN114022698A/zh
Publication of CN114022698A publication Critical patent/CN114022698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于二叉树结构的多标签行为识别方法及装置,包括:S1,提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;S2,基于所述参数向量计算各行为类别之间的相似度并按照相似度从高到低进行排序,将各行为类别依次进行不重复的两两递归组合,以构建二叉树;S3,基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;S4,采用训练后的第二多标签行为识别网络对待测视频进行行为识别。通过采用基于二叉树的多标签行为分类技术,可以实现对不同类别的行为间相似性的解耦,尤其是对于视觉上高度相似又难以区分的行为,从而有效提高识别准确率。

Description

一种基于二叉树结构的多标签行为识别方法及装置
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于二叉树结构的多标签行为识别方法及装置。
背景技术
在互联网大数据时代,每时每刻都有海量视频的产生,如何让计算机准确地理解这些视频中的内容,对视频的标签进行识别,不仅可以快速实现视频分类,提高信息传播效率,而且在监控场景中可以辅助人类更准确地进行异常监测。前者旨在对互联网上产生的海量原创视频进行自动分析,并为其生成标签,便于语义相关信息的检索;后者主要用于对摔倒、打架、溺水等异常行为的准确识别可以减少人员伤亡的概率,视频内容的分析和理解,尤其是多标签任务,具有极大的现实应用价值。
现有的大多数研究聚焦于视频的单标签分类,该任务中认为每一个视频只包含一种行为,网络只需要对每一个视频给出一个行为标签即可。然而现实中的视频往往包含多个行为,因此要对视频进行完整分析,视频的多标签分类是必然的趋势。视频的多标签分类中,不同类的行为之间往往存在极高的视觉相似度,比如开冰箱门和关冰箱门这两个行为,要精确地区分这些相似的行为对网络最后的全连接层要求极高,因此往往会出现二者无法区分的情况。
目前学者们提出的针对多标签分类的任务,一般聚焦于探索多个标签之间的共生依赖关系,例如使用图卷积建模标签和标签之间的语义关系,如食物和盘子,人和背包这些不同物体的联系,以实现对可能标签的启发以及不可能出现的标签的抑制。而面对不同标签之间高度的视觉相似性,如何提高分类器的辨别能力的相关研究还较少,现有方法很难解决高度视觉相似行为之间的细粒度区分问题,普遍鲁棒性不够好。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于二叉树结构的多标签行为识别方法及装置,由此解决现有多标签行为分类任务中,高度视觉相似的行为之间难以区分的问题。
为实现上述目的,按照本发明的第一方面,提供了一种基于二叉树结构的多标签行为识别方法,包括:
S1,提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;其中,所述第一多标签行为识别网络还包括特征提取网络;
S2,基于所述参数向量计算各行为类别之间的相似度并按照相似度从高到低进行排序,将各行为类别依次进行不重复的两两递归组合,以构建二叉树;
S3,基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;所述第二分类器的输出维度与二叉树的节点个数相同;
S4,采用训练后的第二多标签行为识别网络对待测视频进行行为识别。
优选地,所述步骤S2包括:
将所述第一分类器中各行为类别之间的相似度从高到低进行排序,并依次进行不重复的两两递归组合,最终得到一个组合,该组合为二叉树的根节点。
优选地,所述第一分类器和第二分类器为全连接层、多层感知机或SVM中的任一种。
优选地,所述二叉树的层数L与数据集的行为类别数量C满足以下关系式:
Figure BDA0003305517510000031
优选地,所述各行为类别之间的相似度的确定方法为:
计算第一分类器中C个D维特征参数之间的Cosine相似度;
或,对第一分类器中C个D维特征参数进行归一化,再计算C个特征参数之间的相似度。
优选地,所述特征提取网络为深度学习特征提取网络或基于手工特征算子的提取网络。
优选地,仅对所述第二多标签行为识别网络中的第二分类器及二叉树进行训练。
按照本发明的第二方面,提供了一种基于二叉树结构的多标签行为识别装置,包括:
提取模块,用于提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;其中,所述第一多标签行为识别网络还包括特征提取网络;
二叉树构建模块,用于将所述第一分类器中各行为类别之间的相似度从高到低进行排序,并依次进行不重复的两两递归组合,以构建二叉树;
识别网络构建模块,用于基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;所述第二分类器的输出维度与二叉树的节点个数相同;
识别模块,用于采用训练后的第二多标签行为识别网络对待测视频进行行为识别。
总体而言,通过本发明所构思的以上技术方案与现有技术相比能够取得下列有益效果:
1、本发明提供的基于二叉树结构的多标签行为识别方法,采用多标签行为分类技术,利用训练好的分类器来度量多个行为类别之间的相似性,根据相似性构建的行为树从模型结构上即直观体现了任意两个行为类别的相似性,这种建模方式可以充分利用第一分类器自身学到的行为和行为之间的相似性,减少第二分类器学习的难度,从而提高分类准确率。
2、本发明提供的基于二叉树结构的多标签行为识别方法,采用基于二叉树的多标签行为分类技术,可以实现对不同类别的行为间相似性的解耦,尤其是对于视觉上高度相似又难以区分的行为,行为树技术可以有效提高识别准确率。
附图说明
图1为本发明提供的一种基于二叉树结构的多标签行为识别方法的流程示意图之一;
图2为本发明提供的组合间相似性度量示意图;
图3为本发明提供的二叉树与第二分类器对应图;
图4为本发明提供的一种基于二叉树结构的多标签行为识别方法的流程示意图之二。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种基于二叉树结构的多标签行为识别方法,如图1所示,包括:
S1,提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;其中,所述第一多标签行为识别网络还包括特征提取网络。
具体地,使用的任意特征提取网络+第一分类器训练一个多标签行为分类网络,取出第一分类器中对应每一个类别的参数向量,利用这些参数向量度量所有类别之间的相似性。
所述第一分类器的输出维度与数据集的行为类别数量C相等,即第一分类器的输出为C维向量。
其中,所述行为可以为人体行为、动物行为、机器行为等。
优选地,所述特征提取网络可以为任意传统深度学习特征提取网络或基于手工特征算子的提取网络。
S2,基于所述参数向量计算各行为类别之间的相似度并按照相似度从高到低进行排序,将各行为类别依次进行不重复的两两递归组合,以构建二叉树。
具体地,将每一个行为类别之间的相似性从高到低进行排序,根据不同类别之间的相似度进行不重复的两两递归分组,构成行为树。
S3,基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;所述第二分类器的输出维度与二叉树的节点个数相同。
优选地,所述第一分类器和第二分类器为全连接层、多层感知机或SVM中的任一种。第一分类器可以和第二分类器相同,也可以不同。
S4,采用训练后的第二多标签行为识别网络对待测视频进行行为识别。
具体地,使用第二分类器和构建好的行为树代替第一分类器,构建第二多标签行为识别网络,并对其进行训练,训练完成后,直接使用行为树进行推理测试。
进一步地,所述二叉树的层数L与数据集的行为类别数量C满足以下关系式:
Figure BDA0003305517510000051
具体地,对于具有C个类的数据集,为了保证C个类可以完整分布在所有的叶子节点上,需要设计一个L层的行为树,该树为完整的二叉树。可以理解的是,所述数据集包括训练数据集和测试数据集。
一个L层的行为树共有2L-1个节点,因此在实现行为树过程中,需要使用一个与第一分类器完全独立的、输出维度为2L-1的第二分类器与二叉树中的各节点进行一一对应,也即,所述第二分类器输出的2L-1维向量与二叉树的2L-1个节点一一对应,第二分类器输出向量中的每一个元素唯一对应行为树中的一个节点。如图2所示,展示了行为树中的节点与分类器输出结果中元素的对应关系,其中以第二分类器为全连接层为例,C=4,L=3,即行为类别的数量为4,行为树的层数为3,行为树的节点数量为8。第二分类器输出结果中元素的位置与行为树中节点的编号符合完全二叉树的规则。
由于C个类别被放置在了构建好的二叉树的4个叶子节点A、B、C、D上,为了得到每一个类别对应的概率预测,将每一个类别对应的叶子节点的预测结果与该叶子节点的所有父节点的预测结果相乘,作为每一个类别对应的叶子节点的预测概率;以图2中的行为树为例,节点B的预测概率为:
pB=σ(f4)σ(f1)σ(f0)
其中fj表示分类器中的第j个元素的输出,σ表示Sigmoid函数。其中f4是叶子节点,f1和f0是f4这个叶子节点的所有父节点。
进一步地,所述步骤S2包括:
将所述第一分类器中各行为类别之间的相似度从高到低进行排序,并依次进行不重复的两两递归组合,最终得到一个组合,该组合为二叉树的根节点。
具体地,根据不同类别之间的相似度进行不重复的两两递归分组,构成行为树,组合的具体步骤如下:
(1)将所述第一分类器中各行为类别之间的相似度从高到低进行排序,将相似度高的行为类别优先组合成为一组,以保证分为一组的两个行为类别具有最高的相似度;例如,若行为1与行为2的相似度为0.9,行为1与行为3的相似度为0.8,行为1与行为4的相似度为0.7,则优先将行为1与行为2组合为一组。在组合过程中,若当前组合中的行为已经被其他相似度更高的行为组合选中,则当前组合会被放弃。该规则可以让所有行为类别互不重复地完成两两组合,对于C个类,可以得到
Figure BDA0003305517510000072
个组合,
Figure BDA0003305517510000073
表示向上取整。
(2)为了形成二叉树结构,组合与组合之间需要进一步进行分组,为了度量组合之间的相似性,如图2所示,该方法利用组合中的行为之间的相似性估计组合整体的相似性,图1中组合A和组合B之间的相似性Sab写为:
Figure BDA0003305517510000071
式中Sij表示第i类行为第j类行为之间的相似性。
(3)经过步骤(2)中,不断对行为类别递归地进行两两组合,行为类别之间就完成树关系建立,为了方便观察,可以绘制成为如图3所示的行为树。
进一步地,所述各行为类别之间的相似度的确定方法为:
计算第一分类器中C个D维特征参数之间的Cosine相似度;
或,对第一分类器中C个D维特征参数进行归一化,再计算C个特征参数之间的相似度。
具体地,度量所有类别之间的相似性,具体包括:
假设全连接层中的参数形状为D×C,其中直接D表示每一个类别的特征维度,C表示数据集中待分类的类别数量有C个,这C个类别之间的相似度度量为一个C×C的相似度矩阵,该矩阵中的相似度值有以下计算方法:
直接计算C个D维特征参数之间的Cosine相似度;
或,对C个D维特征参数进行归一化到单位向量,再计算这C个特征参数之间的相似度。
进一步地,仅对所述第二多标签行为识别网络中的第二分类器及二叉树进行训练。
具体地,第一多标签行为识别网络包括特征提取网络和第一分类器。由于特征提取网络在第一多标签行为识别网络的训练过程中已经得到并完成了训练,因此,为了提高建模速度,在对第二标签行为识别网络进行训练时,可固定所述特征提取网络的参数,即不再对特征提取网络中的参数进行训练,仅对所述第二多标签行为识别网络中的第二分类器及二叉树的参数进行分类任务训练。已经训练好的特征提取器在第二多标签行为识别网络中直接用于提取待测视频的图像特征。
进一步地,对于每次训练迭代中的一批数据,使用BCE损失函数进行优化,训练的损失函数为:
Figure BDA0003305517510000081
式中,N表示每次训练迭代中一批数据的数量,yij表示第i个数据中的第j个类别的正确标签,pij则为网络对第i个数据中的第j个类别的预测概率。
下面对本发明提供的基于二叉树结构的多标签行为识别装置进行描述,下文描述的基于二叉树结构的多标签行为识别装置与上文描述的基于二叉树结构的多标签行为识别方法可相互对应参照。
下面以一个具体的例子对本发明提供的方法进行说明。
如图4所示,本发明的提供的多标签分类方法,其流程具体包括以下步骤:
(1)首先按传统流程训练一个多标签视频分类模型,实例中,使用Slowfast50作为特征提取网络,以16帧224像素×224像素的连续视频图像作为输入,Slowfast50将提取得到的2304维特征输入到一个全连接层中进行分类,实例中假设为100个类别,则全连接层的参数矩阵的形状为2304×100,使用BCE损失函数对其进行训练优化。
(2)基于全连接层的多标签视频分类模型训练完成后,取出2304×100的全连接层参数矩阵,为100个类别两两计算相似性,得到一个100×100的相似性矩阵。
(3)将相似性矩阵从大到小进行排序,按顺序选择行为的类别对形成组合,如果新的类别对中有一个或多个已经被前面的组合选中,则放弃当前类别对的组合。最终要保证所有类别对之间不存在重复的类。
(4)计算新的组合之间的相似性,并重复第(3)步的方法对新的组合再次进行组合,直到只存在一个组合,则该组合为行为树的根节点。
(5)根据生成的行为树,重新初始化一个与第一分类器不同的、输出维度为2L-1的第二分类器,这个分类器的输出元素将根据每一个元素与行为树中的节点对应关系进行解释,即每一个行为的叶子节点与其所有的父节点之积作为每一个类的分类结果。为了训练这个第二分类器,首先取出前述提到的已经训练好的Slowfast50特征提取网络,将特征提取网络输出的特征用于训练第二分类器,训练第二分类器的过程中不对特征提取网络中的参数进行更新,仅训练第二分类器中的参数。
(6)使用训练完成的Slowfast50特征提取网络+第二分类器对输入的待测视频进行推理,然后对第二分类器的输出元素根据行为树进行解释以得到每一个类的置信概率,完成对视频的多标签分类过程。
本发明实施例提供一种基于二叉树结构的多标签行为识别装置,包括:
提取模块,用于提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;其中,所述第一多标签行为识别网络还包括特征提取网络;
二叉树构建模块,用于将所述第一分类器中各行为类别之间的相似度从高到低进行排序,并依次进行不重复的两两递归组合,以构建二叉树;
识别网络构建模块,用于基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;所述第二分类器的输出维度与二叉树的节点个数相同;
识别模块,用于采用训练后的第二多标签行为识别网络对待测视频进行行为识别。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于二叉树结构的多标签行为识别方法,其特征在于,包括:
S1,提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;其中,所述第一多标签行为识别网络还包括特征提取网络;
S2,基于所述参数向量计算各行为类别之间的相似度并按照相似度从高到低进行排序,将各行为类别依次进行不重复的两两递归组合,以构建二叉树;
S3,基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;所述第二分类器的输出维度与二叉树的节点个数相同;
S4,采用训练后的第二多标签行为识别网络对待测视频进行行为识别。
2.如权利要求1所述的基于二叉树结构的多标签行为识别方法,其特征在于,步骤S2包括:
将所述第一分类器中各行为类别之间的相似度从高到低进行排序,并依次进行不重复的两两递归组合,最终得到一个组合,该组合为二叉树的根节点。
3.如权利要求1或2所述的基于二叉树结构的多标签行为识别方法,其特征在于,所述第一分类器和第二分类器为全连接层、多层感知机或SVM中的任一种。
4.如权利要求1所述的基于二叉树结构的多标签行为识别方法,其特征在于,其特征在于,所述二叉树的层数L与数据集的行为类别数量C满足以下关系式:
Figure FDA0003305517500000011
5.如权利要求1所述的基于二叉树结构的多标签行为识别方法,其特征在于,所述各行为类别之间的相似度的确定方法为:
计算第一分类器中C个D维特征参数之间的Cosine相似度;
或,对第一分类器中C个D维特征参数进行归一化,再计算C个特征参数之间的相似度。
6.如权利要求1或2所述的基于二叉树结构的多标签行为识别方法,其特征在于,所述特征提取网络为深度学习特征提取网络或基于手工特征算子的提取网络。
7.如权利要求1所述的基于二叉树结构的多标签行为识别方法,其特征在于,仅对所述第二多标签行为识别网络中的第二分类器及二叉树进行训练。
8.一种基于二叉树结构的多标签行为识别装置,其特征在于,包括:
提取模块,用于提取训练好的第一多标签行为识别网络中的第一分类器输出的各行为类别的参数向量;其中,所述第一多标签行为识别网络还包括特征提取网络;
二叉树构建模块,用于将所述第一分类器中各行为类别之间的相似度从高到低进行排序,并依次进行不重复的两两递归组合,以构建二叉树;
识别网络构建模块,用于基于所述特征提取网络、第二分类器及二叉树,构建第二多标签行为识别网络;所述第二分类器的输出维度与二叉树的节点个数相同;
识别模块,用于采用训练后的第二多标签行为识别网络对待测视频进行行为识别。
CN202111202508.6A 2021-10-15 2021-10-15 一种基于二叉树结构的多标签行为识别方法及装置 Pending CN114022698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111202508.6A CN114022698A (zh) 2021-10-15 2021-10-15 一种基于二叉树结构的多标签行为识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111202508.6A CN114022698A (zh) 2021-10-15 2021-10-15 一种基于二叉树结构的多标签行为识别方法及装置

Publications (1)

Publication Number Publication Date
CN114022698A true CN114022698A (zh) 2022-02-08

Family

ID=80056387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111202508.6A Pending CN114022698A (zh) 2021-10-15 2021-10-15 一种基于二叉树结构的多标签行为识别方法及装置

Country Status (1)

Country Link
CN (1) CN114022698A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997278A (zh) * 2022-05-09 2022-09-02 浙江大学 基于计算机算法模型的工程数字化信息分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997278A (zh) * 2022-05-09 2022-09-02 浙江大学 基于计算机算法模型的工程数字化信息分析方法

Similar Documents

Publication Publication Date Title
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
Li et al. Localizing and quantifying damage in social media images
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CA3066029A1 (en) Image feature acquisition
CN111652066A (zh) 基于多自注意力机制深度学习的医疗行为识别方法
US20170255831A1 (en) System and method for relevance estimation in summarization of videos of multi-step activities
Qi et al. Embedding deep networks into visual explanations
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN113673244B (zh) 医疗文本处理方法、装置、计算机设备和存储介质
Ayyar et al. Review of white box methods for explanations of convolutional neural networks in image classification tasks
CN113723426A (zh) 基于深度多流神经网络的图像分类方法及装置
CN115588193A (zh) 基于图注意力神经网络与视觉关系的视觉问答方法及装置
Jha et al. Forecasting of heart diseases in early stages using machine learning approaches
CN111985333A (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
Rodis et al. Multimodal explainable artificial intelligence: A comprehensive review of methodological advances and future research directions
Lonij et al. Open-world visual recognition using knowledge graphs
Orosoo et al. Performance analysis of a novel hybrid deep learning approach in classification of quality-related English text
Ali et al. Fake accounts detection on social media using stack ensemble system
Kaur et al. Relevance feedback based CBIR system using SVM and BAYES classifier
Chen et al. HiBug: on human-interpretable model debug
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
Boom et al. Uncertainty-aware estimation of population abundance using machine learning
Anderson et al. Category systems for real-world scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination