CN118053050B - 一种用于动作识别的自适应分类决策面构建方法 - Google Patents

一种用于动作识别的自适应分类决策面构建方法 Download PDF

Info

Publication number
CN118053050B
CN118053050B CN202410452748.9A CN202410452748A CN118053050B CN 118053050 B CN118053050 B CN 118053050B CN 202410452748 A CN202410452748 A CN 202410452748A CN 118053050 B CN118053050 B CN 118053050B
Authority
CN
China
Prior art keywords
class
adaptive
sample
prototype
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410452748.9A
Other languages
English (en)
Other versions
CN118053050A (zh
Inventor
周果清
郑皓文
王立东
单敬
王浩宇
李雅诗
李婧怡
王庆
王雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202410452748.9A priority Critical patent/CN118053050B/zh
Publication of CN118053050A publication Critical patent/CN118053050A/zh
Application granted granted Critical
Publication of CN118053050B publication Critical patent/CN118053050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种用于动作识别的自适应分类决策面构建方法,使用动作样本的时空语义来引导构建先验决策面的类原型从而生成构建后验决策面的动作样本自适应类原型,使用先验和后验损失一起来指导决策面的优化。本发明增强了决策面中动作样本表征的可判别性。在训练的过程中循环对先验和后验的约束,既实现了先验的基准性与泛化性,又提升了后验的有效性与灵活性,保证了训练过程的稳定有序进行,达到了良好的分类效果。

Description

一种用于动作识别的自适应分类决策面构建方法
技术领域
本发明涉及动作识别任务中的动作表征可判别性研究技术领域,尤其是一种优化分类决策面来提升动作样本表征可判别性的方法。
背景技术
动作识别任务的性能取决于动作样本表征的可判别性,更具判别性的表征会带来更优的分类性能。以往的工作往往通过在特征级上改进特征编码方法来编码更具判别性的样本表征,而忽视了在决策级上分类决策面对于样本表征可判别性的绝对影响。直观上看,决策面的结构直接决定了表征的可判别性,一个更可分的决策面会增强其中样本表征的可判别性,反之亦然。
在以往的工作中,要么训练一个分类器来分类动作样本表征,要么计算动作样本表征与类原型之间的相似度作为分类度量。前者通过分类器隐式地学习了决策面,后者通过类原型显式地构建了决策面。他们都生成了对于所有动作样本来说共有且固定的决策面。然而,固定的决策面并非对于所有动作样本来说都是普遍可分的,特别是对那些在决策边界附近的困难样本,因此动作样本的可判别性在固定的决策面中并非是良好的,某些特定样本的可判别性甚至非常差。
发明内容
为了克服现有技术的不足,本发明提供一种用于动作识别的自适应分类决策面构建方法。为了提升动作样本在决策面中的可判别性,本发明提供一种后验的即动作样本自适应的分类决策面构建方法。鉴于现有分类决策面的瓶颈与局限,本发明认为每一个动作样本应该有其专属与自适应的决策面以此来优化其表征在决策面中的可判别性,因此设计一种遵循贝叶斯理论的基于先验决策面的后验决策面构建方法。本发明的关键设计在于两步:1.使用动作样本的时空语义来引导构建先验决策面的类原型从而生成构建后验决策面的动作样本自适应类原型,2.使用先验和后验损失一起来指导决策面的优化。本发明所提出的后验决策面相较于先验决策面来说对于动作样本表征的可分性更强,因此增强了决策面中动作样本表征的可判别性。
本发明解决其技术问题所采用的技术方案的具体步骤如下:
S1.构建先验分类决策面
S1.1 首先为每个动作类别创建类原型,设置类原型为可学习的嵌入, K为类别总数,为特征维数,并由类内样本的平均特征初始化,类原型在训练过程中学习动 作类别的公共特征,并总结动作类别的共有模式,构建了分类决策面,类原型充当类别先 验,构建先验分类决策面;
S1.2 使用先验决策面进行分类决策时,分类度量为动作样本表征与类原型之 间的相似度,与动作样本表征Z相似度最大的类原型所对应的类别即为动作样本类别归属, 先验决策面对于所有的动作样本来说,都是固定的因为学习得到的类原型,不会改变的;
S2.构建后验分类决策面
S2.1 使用动作样本的时空语义引导类原型生成动作样本自适应的类原型,根据 贝叶斯原理后验先验似然,以步骤S1中构建先验决策面的类原型为先验,以表 征在先验决策面中的动作样本特征为似然,其中T为时间帧数,为空间块数,生 成动作样本自适应的类原型构建了后验分类决策面,生成过程步骤如下:
首先对动作样本特征分别执行时间池化和空间池化,得到动作样本空间特征和动作样本时间特征,然后以动作样本空间特征为似然引导代表先验 的类原型E,继而生成代表后验的自适应空间类原型,以动作样本时间特征为 似然引导代表先验的类原型E,继而生成代表后验的自适应时间类原型,最后整 合自适应空间类原型与自适应时间类原型,得到动作样本自适应的类原型
S2.2 使用后验决策面进行分类决策时,分类度量为动作样本表征与自适应类 原型之间的相似度,同样与动作样本表征Z相似度最大的自适应类原型所对应的类别即为 样本类别归属,但后验决策面对于动作样本来说是特定且自适应的,因为是在动作样本时 空语义的引导下生成的,其既保留了类别的公共模式,又兼容了动作样本特有的语义分布, 从而构建了对动作样本来说更加适合且可分性更强的决策面,增强了动作样本表征在决策 面中的可判别性,更加有利于识别;
S3.分类任务中的先验后验损失
S3.1 作为分类任务,最直接的评价指标是分类结果,因此使用交叉熵损失作为分类损失;
S3.2 后验决策面中真实类别对应的自适应原型应该更加显著,覆盖区域应该更大,因此应该使得真实类别对应的自适应原型显著区别于其他类别对应的自适应原型来指导后验决策面的生成,故设计后验损失,使得真实类别对应的自适应原型更加显著,后验决策面更加可分;
S3.3 为了确保先验类原型表示类别的公共特征,避免类别共有模式的丢失,应 该稳定使其不受动作样本特殊性的干扰,设计先验损失,使得先验类原型与类内动作样本 的平均特征相一致,使用先验损失指导模型进行训练,提升先验决策面的标准性和泛化性 从而确保后验决策面的可行性与精度,进而使得分类精度更高,性能更优。
所述交叉熵损失为作为分类损失,其中为真实类别概率,为预 测类别概率,真实类别概率Y指groundtruth,即数据集中给定的标签,是真实类别对应为1, 其余类别对应为0的一个向量,预测类别概率指的是根据Z与所有原型进行相似度计算所 得到的相似度值,i=1,2,...,K,K个相似度形成一个向量,两个向量间的交 叉熵损失即为
所述步骤S3.2中,后验损失(1-cos()),其中为 真实类别索引,为第个类别的自适应类原型,为第个类别的自适应类原型,为 一个指标函数,当动作样本j的真是类别标签为一个位置为1其余位置为0的向量时,该公式 值为1,否则为0,也就是说只对类别为i的动作样本进行平均计算,表示这个损失只是 对真实类别所对应的自适应原型有用,其他类别的自适应原型不计算这项损失。
所述步骤S3.3中,先验损失,其中为第个类别 的类原型,为第i个类别的类内样本的平均特征。
本发明的有益效果在于使用动作样本的时空语义引导类原型生成动作样本自适应的类原型,从而将固定的先验决策面优化为动作样本自适应的后验决策面,因此使得决策面对于动作样本来说更加适合且可分性更强,进而增强了动作样本表征在决策面中的可判别性,更加有利于提升动作识别任务的性能;设计了一种先验后验的交替共轭损失,在训练的过程中循环对先验和后验的约束,既实现了先验的基准性与泛化性,又提升了后验的有效性与灵活性,保证了训练过程的稳定有序进行,达到了良好的分类效果。
附图说明
图 1 为本发明的整体结构图。
图 2 为本发明提出的后验决策面和先验决策面的比较示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一种用于动作识别的自适应分类决策面构建方法,包括步骤:
S1.构建先验分类决策面
S1.1 类原型为可学习的嵌入为类别总数,为特征维数,并由类内 动作样本的平均特征初始化,对于第个类别,为动作样 本,为样本真实类别,为样本总数,为第个类别的样本总数,类原型在训练过程中学 习动作类别的公共特征并总结动作类别的共有模式,由于类原型在表征空间中表示一个类 的中心,在表征空间中是基于类原型构建分类决策面的,通过样本表征与类原型之间的相 似度进行分类决策。在本发明中类原型充当类别先验,构建了先验分类决策面;
S1.2 先验决策面进行分类决策的分类度量为动作样本表征Z与类原型E之间的相似度,动作样本隶属于类别i的概率为动作样本表征Z与类原型的相似度为,而与Z相似度最大的类原型的对应类别即为动作样本类别归属,由于E是学习得到的,因此E并不会随着动作样本的变化而变化,这也就意味着E构建的先验决策面对于所有的动作样本来说是固定不变的;
S2.构建后验分类决策面
S2.1 使用动作样本的时空语义引导类原型生成动作样本自适应的类原型,根据 贝叶斯原理(后验先验似然),以S1中构建先验决策面的类原型为先验,以表征 在先验决策面中的动作样本空间特征和动作样本时间特征为似然,其 中T为时间帧数,为空间块数,生成代表后验的自适应空间类原型和自适应时 间类原型,由整合的动作样本自适应的类原型构建了后验分类 决策面,这里使用交叉注意力机制来生成自适应的类原型,首先对动作样本特征分别执行时间池化和空间池化得到动作样本空间特征 和动作样本时间特征,然后以类原型为查询,动作样本空间特征为键和值来生成自适应空间类原型,其中表示空间查询 嵌入,指代空间类原型,表示空间键嵌入,指代样本空间表征,为一个缩放 因子,实际上计算的是空间类原型与样本空间表征之间的相似度, 这其实是先验类别概率,代表了贝叶斯中的先验,表示空间值嵌入,指代表征在先 验决策面中的样本空间特征,代表了贝叶斯中的似然,生成的为自适应空间类原型,代表 了贝叶斯中的后验,时间生成与空间类似,以类原型为查询,动作样本时间特征为键和 值来生成自适应时间类原型其中表示时间查询 嵌入,指代时间类原型,表示时间键嵌入,指代样本时间表征,是先验类别概率,代表了贝叶斯中的先验,表示时间值嵌入,指代表征在先验决策面中的样本时间特征,代表了贝叶斯中的似然,生成的为自适 应时间类原型,代表了贝叶斯中的后验,最后整合自适应空间类原型与自适应时间类原 型得到动作样本自适应的类原型,其中为平衡时空项的参 数,动作样本自适应类原型的生成过程如图1所示;
S2.2 后验决策面进行分类决策的分类度量为动作样本表征与自适应类原型 之间的相似度,同样与相似度最大的自适应类原型所对应的类别即为样本类别归 属 ,但后验决策面对于所有的动作样本来说是特定且自适应的,因 为后验决策面是由自适应类原型构建的,是在动作样本时空语义的引导下生成的,在引 导过程中,真实类别的自适应原型应该更显著,而其他类别的自适应原型应该不显著,因为 前者从动作样本的时空语义中提取了更多的分类信息,提取了充分样本特定分类信息的自 适应原型与样本表征之间的相似度应该大于其先验类原型与表征之间的相似度,反之亦 然,因此动作样本表征与真实类别的自适应原型之间的相似度将增大,而与其他类别的自 适应原型之间的相似度将减小,故构建了对动作样本来说更加适合且可分性更强的决策 面,从而增强了动作样本表征在决策面中的可判别性,这更加有利于动作识别,先验决策面 与后验决策面的分类效果对比如图2所示;
S3.分类任务中的先验后验损失
S3.1 作为分类任务,最直接的评价指标就是分类结果,因此使用交叉熵损失作为目标函数,其中为真实类别概率,为预测类别概率;
S3.2 后验决策面中真实类别对应的自适应原型应该比其他类别对应的自适应原 型更加显著,在表征空间中的覆盖区域应该更大,因此应该使得其他类别对应的自适应原 型显著区别于真实类别对应的自适应原型来指导后验决策面的生成,故设计后验损失(1-cos())来使得真实类别对应的自适应原型更加显著,其 中为真实类别索引,使得后验决策面对动作样本更加可分,进一步增强动作样本表征在 决策面中的可判别性;
S3.3 由于类原型是可学习的嵌入,并且仅用作先验来生成后验,因此在训练过程 中可能会出现类原型漂移以及公共模式消失等问题,为了维护先验类原型中类别的公共 特征并确保先验的正确性和有效性,应该稳定先验类原型使其不受动作样本特殊性的干 扰,故设计先验损失来对先验类原型施加一致性约束以稳 定先验,其中为第个类别的类内样本平均特征,这可以提升先验的标准性和泛化 性从而确保后验的可行性与精度,具体而言,在每轮训练迭代之后,通过计算类内动作样本 的平均特征来获得每个类别的聚类中心,然后使用L2损失来鼓励每个类原型更接 近其对应类别的聚类中心,整个训练过程是通过交替迭代使用先验损失和后验损失来进行 的。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (4)

1.一种用于动作识别的自适应分类决策面构建方法,其特征在于包括下述步骤:
S1.构建先验分类决策面
S1.1 首先为每个动作类别创建类原型,设置类原型为可学习的嵌入,K为 类别总数,为特征维数,并由类内样本的平均特征初始化,类原型在训练过程中学习动作 类别的公共特征,并总结动作类别的共有模式,构建了分类决策面,类原型充当类别先验, 构建先验分类决策面;
S1.2 使用先验决策面进行分类决策时,分类度量为动作样本表征与类原型之间的 相似度,与动作样本表征Z相似度最大的类原型所对应的类别即为动作样本类别归属;
S2.构建后验分类决策面
S2.1 使用动作样本的时空语义引导类原型生成动作样本自适应的类原型,根据贝叶 斯原理后验先验似然,以步骤S1中构建先验决策面的类原型为先验,以表征在 先验决策面中的动作样本特征为似然,其中T为时间帧数,为空间块数,生成 动作样本自适应的类原型构建了后验分类决策面,生成过程步骤如下:
首先对动作样本特征分别执行时间池化和空间池化,得到动作增强了样本空间特征和动作样本时间特征,然后以动作样本空间特征为似然引导代表先 验的类原型E,继而生成代表后验的自适应空间类原型,以动作样本时间特征 为似然引导代表先验的类原型E,继而生成代表后验的自适应时间类原型,最后 整合自适应空间类原型与自适应时间类原型,得到动作样本自适应的类原型
S2.2 使用后验决策面进行分类决策时,分类度量为动作样本表征与自适应类原型 之间的相似度,同样与动作样本表征Z相似度最大的自适应类原型所对应的类别即为样本 类别归属,但后验决策面对于动作样本来说是特定且自适应的,因为是在动作样本时空语 义的引导下生成的,其既保留了类别的公共模式,又兼容了动作样本特有的语义分布,从而 构建了对动作样本来说更加适合且可分性更强的决策面;
S3.分类任务中的先验后验损失
S3.1 作为分类任务,最直接的评价指标是分类结果,因此使用交叉熵损失作为分类损失;
S3.2 设计后验损失,使得真实类别对应的自适应原型更加显著,后验决策面更加可分;
S3.3 为了确保先验类原型表示类别的公共特征,避免类别共有模式的丢失,应该稳 定使其不受动作样本特殊性的干扰,设计先验损失,使得先验类原型与类内动作样本的平 均特征相一致,使用先验损失指导模型进行训练,提升先验决策面的标准性和泛化性从而 确保后验决策面的可行性与精度。
2.根据权利要求1所述的用于动作识别的自适应分类决策面构建方法,其特征在于:
所述交叉熵损失为作为分类损失,其中为真实类别概率,为预测类 别概率,真实类别概率Y指groundtruth,即数据集中给定的标签,是真实类别对应为1,其余 类别对应为0的一个向量,预测类别概率指的是根据Z与所有原型进行相似度计算所得到 的相似度值,i=1,2,...,K,K个相似度形成一个向量,两个向量间的交叉熵 损失即为
3.根据权利要求1所述的用于动作识别的自适应分类决策面构建方法,其特征在于:
所述步骤S3.2中,后验损失(1-cos()),其中为真实 类别索引,为第个类别为第i个类别的类内样本的平均特征的自适应类原型,为第个 类别的自适应类原型,为一个指标函数,当动作样本j的真实类别标签为一个位置为 1其余位置为0的向量时,该公式值为1,否则为0,也就是说只对类别为i的动作样本进行平 均计算,表示这个损失只是对真实类别所对应的自适应原型有用,其他类别的自适 应原型不计算这项损失。
4.根据权利要求1所述的用于动作识别的自适应分类决策面构建方法,其特征在于:
所述步骤S3.3中,先验损失,其中为第个类别的类 原型,为第i个类别的类内样本的平均特征。
CN202410452748.9A 2024-04-16 2024-04-16 一种用于动作识别的自适应分类决策面构建方法 Active CN118053050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410452748.9A CN118053050B (zh) 2024-04-16 2024-04-16 一种用于动作识别的自适应分类决策面构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410452748.9A CN118053050B (zh) 2024-04-16 2024-04-16 一种用于动作识别的自适应分类决策面构建方法

Publications (2)

Publication Number Publication Date
CN118053050A CN118053050A (zh) 2024-05-17
CN118053050B true CN118053050B (zh) 2024-07-05

Family

ID=91048768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410452748.9A Active CN118053050B (zh) 2024-04-16 2024-04-16 一种用于动作识别的自适应分类决策面构建方法

Country Status (1)

Country Link
CN (1) CN118053050B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609509A (zh) * 2017-09-09 2018-01-19 北京工业大学 一种基于运动显著性区域检测的动作识别方法
CN112784812A (zh) * 2021-02-08 2021-05-11 安徽工程大学 一种深蹲动作识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687970A (zh) * 2022-10-11 2023-02-03 西北工业大学 一种提升肌电信号识别准确率的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609509A (zh) * 2017-09-09 2018-01-19 北京工业大学 一种基于运动显著性区域检测的动作识别方法
CN112784812A (zh) * 2021-02-08 2021-05-11 安徽工程大学 一种深蹲动作识别方法

Also Published As

Publication number Publication date
CN118053050A (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
Liu et al. $ p $-Laplacian regularized sparse coding for human activity recognition
CN110413924B (zh) 一种半监督多视图学习的网页分类方法
Prince et al. Probabilistic models for inference about identity
Wang et al. SymNet: A simple symmetric positive definite manifold deep learning method for image set classification
CN103514443B (zh) 一种基于lpp特征提取的单样本人脸识别迁移学习方法
CN108256450A (zh) 一种基于深度学习的人脸识别和人脸验证的监督学习方法
Rudolph et al. Structuring autoencoders
CN102938070B (zh) 一种基于动作子空间与权重化行为识别模型的行为识别方法
CN109376796A (zh) 基于主动半监督学习的图像分类方法
CN107451545A (zh) 基于软标签下多通道判别非负矩阵分解的人脸识别方法
CN106127112A (zh) 基于dlle模型的数据降维与特征理解方法
CN113222072A (zh) 基于K-means聚类和GAN的肺部X光图像分类方法
Okokpujie et al. Predictive modeling of trait-aging invariant face recognition system using machine learning
Klomsae et al. A string grammar fuzzy-possibilistic C-medians
Li et al. Feature extraction based on deep‐convolutional neural network for face recognition
CN112966629B (zh) 基于图像变换和BoF模型的遥感图像场景分类方法
Dan et al. PF‐ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition
CN118053050B (zh) 一种用于动作识别的自适应分类决策面构建方法
Yan et al. Improved spectral clustering algorithm based on similarity measure
Du et al. An Improved Algorithm Based on Fast Search and Find of Density Peak Clustering for High‐Dimensional Data
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
Kim Probabilistic sequence translation-alignment model for time-series classification
CN111507243B (zh) 一种基于格拉斯曼流形分析的人体行为识别方法
Ghansah et al. A Discriminative locality-sensitive dictionary learning with kernel weighted KNN classification for video semantic concepts analysis
Cai Simulation Evaluation of Calligraphy Art Style Relying on Fuzzy Support Vector Machine Scientific Calculation Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant