CN114973107A - 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 - Google Patents

基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 Download PDF

Info

Publication number
CN114973107A
CN114973107A CN202210729369.0A CN202210729369A CN114973107A CN 114973107 A CN114973107 A CN 114973107A CN 202210729369 A CN202210729369 A CN 202210729369A CN 114973107 A CN114973107 A CN 114973107A
Authority
CN
China
Prior art keywords
domain
network
discriminator
source
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210729369.0A
Other languages
English (en)
Other versions
CN114973107B (zh
Inventor
高赞
田壮
宋健明
陶俊伟
陶瑞涛
李华刚
张蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Calmcar Vision Electronic Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Iray Technology Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Suzhou Calmcar Vision Electronic Technology Co ltd
Qingdao Haier Smart Technology R&D Co Ltd
Iray Technology Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Calmcar Vision Electronic Technology Co ltd, Qingdao Haier Smart Technology R&D Co Ltd, Iray Technology Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Suzhou Calmcar Vision Electronic Technology Co ltd
Priority to CN202210729369.0A priority Critical patent/CN114973107B/zh
Publication of CN114973107A publication Critical patent/CN114973107A/zh
Application granted granted Critical
Publication of CN114973107B publication Critical patent/CN114973107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备及存储介质,属于计算机视觉技术领域,通过使视频动作样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;在不使用目标域标签信息进行训练的情况下,达到了在多个目标域数据集上都能取得高效的动作识别性能的技术效果。

Description

基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识 别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备及存储介质。
背景技术
近来,基于深度学习的视频表示学习方法取得了较快的发展,并涌现了较多经典的方法,如Two-Stream(双流卷积神经网络),通过对视频序列中相邻两帧计算密集光流,得到密集光流的序列(提取时间信息),然后对视频RGB图像(空间信息)和密集光流(时间信息)分别训练卷积网络模型,两个分支的网络分别对动作进行建模,最后,直接将两个网络的分类得分进行融合,得到最终的分类结果。如C3D(Convolutional 3D),通过3D卷积层对输入的连续的16帧彩图图像进行时空维度上的卷积操作,去提取视频数据的时间和空间特征;如伪三维残差神经网络(Pseudo-3D residual networks,P3D),通过将3D卷积拆分为一个3*1*1的1D时间卷积核和一个1*3*3的2D空间卷积,来降低纯3D卷积的计算量和复杂度;有效地解决了C3D-net随着网络深度增加参数和计算量激增的问题。
但是,现有的视频表示学习方法仍然存在以下弊端:因为训练数据集和测试数据集是相同分布的,即所有样本来自同一数据集;而对于跨域任务,即在训练和测试样来自不同的数据集的场景中,则不能很好的消除样本的数据分布差异,从而导致模型的分类效果下降。
跨域任务在图像领域已经有了较成熟的应用,但是,因为图像识别缺少动作识别中必须要考虑的时序信息,因此,图像领域的跨域方法无法直接应用于在动作识别领域中。
因此,亟需一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法。
发明内容
本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备及存储介质,用以克服现有技术中存在的至少一个技术问题。
为实现上述目的,本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,方法包括:
将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
进一步,优选的,权值弱共享的双链2D卷积网络包括源域2D卷积网络和目标域2D卷积网络;源域2D卷积网络和目标域2D卷积网络均包括多个由卷积层、域条件归一化层和卷积层组成的三层结构;源域2D卷积网络的域条件归一化层由两个批归一化层并列组成,所述两个批归一化层分别为对源域样本进行归一化的源域批归一化层和对目标域样本进行归一化的目标域批归一化层;
其中,通过域条件归一化层对输入的样本进行判断;
若所输入的样本为源域样本,则将样本数据输入至源域批归一化层;
若所输入的样本为目标域样本,则将样本数据输入至目标域批归一化层。
进一步,优选的,域条件归一化层通过以下公式实现:
Figure BDA0003712380050000021
Figure BDA0003712380050000022
其中,γd和βd表示特定于每个域d∈{S,T}的仿射参数,
Figure BDA0003712380050000031
Figure BDA0003712380050000032
表示属于域标签d的每个通道上的激活值;μd表示激活值的均值,
Figure BDA0003712380050000033
表示激活值的方差。
进一步,优选的,在将源域数据集和目标域数据集的样本输入特征提取器网络之前,还包括利用Two-Stream的下采样方法对源域数据集和目标域数据集中的动作视频进行下采样,方法包括:
将源域数据集和目标域数据集中的每个动作样本的视频按照设定数值进行分段;
在每段动作视频中随机抽取一帧的帧图像;将设定数值的帧图像作为动作样本的表示。
进一步,优选的,利用损失函数对双域鉴别器网络进行训练的方法,包括:
对双域鉴别器网络的每个域鉴别器的权值进行随机初始化,且两个域鉴别器之间不共享权值;
对每个域鉴别器对源域样本和目标域样本的域鉴别损失进行不同的加权,以使两个域鉴别器对源域样本和目标域样本的鉴别产生不同的权重。
进一步,优选的,单个域鉴别器对单个域样本的域鉴别损失通过以下公式实现:
Figure BDA0003712380050000034
其中,yi表示第i个样本的域标签,
Figure BDA0003712380050000035
为域鉴别器对域d∈{S,T}第个i特征的预测值;
Figure BDA0003712380050000036
是对预测值
Figure BDA0003712380050000037
取对数操作。
进一步,优选的,双域鉴别器网络和分类器网络利用损失函数进行训练中,损失函数通过以下公式实现:
L=β(Ldis1+Ldis2)+γLcls
其中,Ldis1和Ldis2分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;Lcls表示分类器网络的损失;β,γ表示损失函数超参数。
为了解决上述问题,本发明还提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统,包括:
特征提取单元,用于将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
域适应优化单元,用于将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
分类单元,用于将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
为了解决上述问题,本发明还提供一种电子设备,电子设备包括:
存储器,存储至少一个指令;及
处理器,执行存储器中存储的指令以实现上述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法中的步骤。
本发明还保护一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法。
本发明的一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法、系统、电子设备以及存储介质,具有有益效果如下:
1)通过弱共享的双链结构,更高效地提取每个域的有效特征,有助于提高基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型的泛化能力;
2)样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;
3)本发明的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法在不使用目标域标签信息进行训练的情况下,在多个目标域数据集上都能取得高效的动作识别性能。
附图说明
图1为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的流程示意图;
图2为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的原理示意图;
图3为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统的逻辑结构框图;
图4为根据本发明实施例的实现基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例可以基于人工智能技术和计算机视觉技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
具体的,作为示例,图1为本发明一实施例提供的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的流程示意图。参照图1所示,本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,包括步骤S110~S130。
具体地说,S110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;S120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;S130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
图2为根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的原理示意图;如图2所示,针对在现有技术的跨域任务场景中,对于训练和测试样来自不同的数据集时无法有效地解决跨域任务,以及使用无标签目标数据集时,模型容易过度拟合到源域数据集的问题。本发明的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,将源域数据集和目标域数据集分别输入到本发明的模型的两条链中。
因为动作识别任务需要同时建模时间信息和空间信息,因此本模型的两条链采用2D+3D的网络结构;其中,在对动作样本的视频帧分别进行2D卷积的空间信息提取后,再将所有帧的特征整合作为一个视频样本输入到3D卷积中提取时空信息。为了2D卷积块和3D卷积块的双链网络结构有所区别,在2D卷积部分,卷积层的权值是相同的,归一化层的权值是不同的,实现弱共享的结构;是为了考虑属于每个数据集的之间的差异性,完全共享权值的特征提取层难以同时捕获两个域的有效信息,因此将2D卷积部分通过归一化层的权值不同,实现弱共享结构;另外,考虑到动作样本在时序信息上的域差异性相对于空间信息的域差异来说很小,并不需要分别去进行适应,在3D卷积块的部分,源域的3D卷积模块与目标域的3D卷积模块是完全共享权值的。
最后,使用域鉴别器对数据样本进行自监督的对抗学习是跨域任务的一个经典方法。但考虑到常规方法所采用的单个域鉴别器在对抗优化的过程中可能不能全面的鉴别出特定于域的信息,即在每次的对抗过程中,单个域鉴别器可能会忽略掉部分特定于域的信息。因此,本发明考虑使用两个差异化的域鉴别器分别进行域鉴别;同时对双域鉴别器对源域和目标域样本的鉴别损失应用不同的超参数。让两个域鉴别器对源域和目标域的鉴别能力产生不同的偏重;使其在对抗的过程中更全面的优化特征提取网络提取更多的具有域不变性的特征。
本发明的网络模型要实现的功能有两个,第一个功能是在双链网络中实现源域和目标域的域适应,混淆不同域的数据分布,使模型提取更多具有域不变性的特征;因此,在经过2D和3D卷积提取特征的基础上,使用域鉴别器对特征的来源进行鉴别(即鉴别该特征来自源域还是目标域),通过域鉴别器和卷积特征提取层形成对抗,域鉴别器要尽量鉴别出特征来自源域还是目标域,特征提取层尽量提取出能够混淆域鉴别器的特征,以达到提取具有域不变性的特征的目的。第二个功能是动作识别分类,虽然通过对抗的方法能够使得所学特征具有一定的泛化性,但是特征的鲁棒性和区分性有待加强,并且特征提取层也需要优化学习提取更有用的动作特征;因此,使用交叉熵损失函数(CEloss)对源域特征进行分类,这样可以使网络特征具有更好的区分性。
在具体的实施过程中,基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法包括步骤S110~S130。
S110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取。
需要说明的是,源域中的数据实例通常被标记(以为源模型提供标记训练数据),而目标域中的数据实例被部分标记(半监督域适配)或根本不标记(无监督域适配)。域适配的目的是寻求利用源模型的各方面来训练目标模型。也就是说,将有动作分类标签的动作样本集作为源域数据集,将无动作分类标签的动作样本集作为目标域数据集。
常用动作识别方法的训练集和测试集都是从同一数据集划分的,无法有效地解决跨域问题;本发明解决了不同动作数据集之间数据分布不一致的问题,并且解决了目标数据集训练数据集无标签的情况下的跨域动作识别问题,通过使用源域数据集的信息和目标域无标签训练集的信息,实现了对目标域测试集的准确识别。在具体的实施过程中,可以但不限制于采用的数据集包括UCF–Olympic和UCF–HMDB full。UCF–Olympic:有6个来自UCF50和Olympic数据集的共享类,总共包含来自UCF50数据集的601个训练视频和240个测试视频,以及来自Olympic-sport的250个训练样本和54个测试样本。UCF–HMDB full:分别有来自UCF101和HMDB51的12个共享类别,总共包含来自UCF101数据集的1552个训练视频和620个测试视频,以及来自HMDB51的840个训练视频和360个测试视频。
由于视频动作样本的帧图像较多,因此可以采用抽帧的方式代表整个视频样本,可以但不限制与采用Two-stream经典论文的下采样方法。
具体地说,在将源域数据集和目标域数据集的样本输入特征提取器网络之前,还包括利用Two-Stream的下采样方法对源域数据集和目标域数据集中的动作视频进行下采样,方法包括:将源域数据集和目标域数据集中的每个动作样本的视频按照设定数值进行分段;在每段动作视频中随机抽取一帧的帧图像;将设定数值的帧图像作为动作样本的表示。需要说明的是,设定数值是根据实际的应用场景中的需求设定的,可以是4~15份。在本实施例中,设定数值为8。具体地说,将每个动作样本的视频分成八份,每份随机抽一帧,将这八帧图像作为一个动作样本的表示。这样做的优点是可以避免输入大量的帧来表示长时间动作,减少了模型训练参数的同时也能获得很好的识别结果。同时,对帧图像进行常规的数据增强,即将视频帧进行中心裁剪,随机水平翻转和归一化处理。在测试时,仅对帧图像进行裁剪区域为(224 224)的中心裁剪;网络的输入尺寸为8*224*224*3,8是视频抽取的帧数,3是RGB图片通道数,224是帧的宽和高。
需要说明的是,Two-Stream(双流卷积神经网络)基本原理为,对视频序列中每两帧计算密集光流,得到密集光流的序列(即时间信息),然后对视频图像(空间信息)和密集光流(时间信息)分别训练卷积网络模型,两个分支的网络分别对动作的类别进行判断,最后直接将两个网络的分类得分进行融合,得到最终的分类结果。
将上述处理获得的每个动作样本的8个帧图像样本作为本发明的网络模型的输入。特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络。需要说明的是,因为双链网络的输入是数据对,非常适合处理数据相似性问题、数据分布问题和迁移学习问题,能够将任何神经网络当作双链网络的基础网络。但是,对于常规的双链网络来说,双链一般是权值完全共享的,即两条链是完全相同的,目的是让双链提取的特征更相似,然而这样的结构没有考虑属于每个数据集的之间的差异性,完全共享权值的特征提取层难以同时捕获两个域的有效信息。另外,由于目标域没有标签,如果完全共享权值,特征提取器在优化的过程中很可能偏向于提取更多的源域特征,而忽略目标域的有用特征;而使用双链弱共享结构就是通过双链的权值不完全共享,使两条链能够适应不同数据集,分别提取各个域的有用特征,且让目标域特征提取链尽量少的受到源域样本分类损失的影响。
通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取。在具体的实施过程中,Resnet-50深度神经网络作为双链网络的空间特征提取器。由于Resnt-50的残差网络结构能够解决在网络层数加深的过程中出现的梯度消失问题,除此之外,残差网络不仅能够取得很好的效果,并且参数量较小,易于训练,能够抽取出鲁棒的空间信息;因为空间信息已经由Resnet网络提取出来,3d时空特征提取层的重点是进一步提取出时间信息,因此,时空特征提取器采用两个卷积核为3*1*3和3*3*1的3D卷积层叠加,对一个视频样本所抽取的8帧图像提取出的8份空间特征在时间通道上进行融合,并提取时空特征。
权值弱共享的双链2D卷积网络包括源域2D卷积网络和目标域2D卷积网络;源域2D卷积网络和目标域2D卷积网络均包括多个由卷积层、域条件归一化层和卷积层组成的三层结构。需要说明的是,这里的多个是两个以上,具体的数量根据应用场景进行设置,并不做具体的限制。源域2D卷积网络的域条件归一化层由两个批归一化层并列组成,两个批归一化层分别为对源域样本进行归一化的源域批归一化层和对目标域样本进行归一化的目标域批归一化层;其中,通过域条件归一化层对输入的样本进行判断;若所输入的样本为源域样本,则将样本数据输入至源域批归一化层;若所输入的样本为目标域样本,则将样本数据输入至目标域批归一化层。
具体地说,Resnet-50深度神经网络主要是由卷积层和批归一化层叠加而成。本发明的双链弱共享结构主要是通过对Resnet-50深度神经网络的批归一化层进行修改实现的。主要是将Resnet-50深度神经网络的所有批归一化层替换为域条件归一化层,域条件归一化层是包含了两个常规批归一化层的结构,分别是源域批归一化层和目标域批归一化层;域条件归一化层会对输入的样本进行判断,若样本为源域样本,则将样本数据输入到源域批归一化层,若样本为目标域样本,则将样本数据输入到目标域批归一化层;之后在将源域和目标域样本输入到相同权值的卷积层中进行卷积;通过这样的修改,就得到了权值弱共享的双链结构。
域条件归一化层通过以下公式实现:
Figure BDA0003712380050000101
Figure BDA0003712380050000111
其中,γd和βd表示特定于每个域d∈{S,T}的仿射参数,
Figure BDA0003712380050000112
Figure BDA0003712380050000113
表示属于域标签d的每个通道上的激活值;μd表示激活值的均值,
Figure BDA0003712380050000114
表示激活值的方差。
μd表示激活值的均值通过以下公式获取:
Figure BDA0003712380050000115
Figure BDA0003712380050000116
表示激活值的方差通过以下公式获取:
Figure BDA0003712380050000117
总之,选择弱共享的结构而不是完全共享的双链结构,主要是由于源域和目标域有一定的差异,完全共享的双链结构很难将两个域的有用信息同时提取出来,同时由于目标域训练样本没有标签信息对双链进行优化,因此网络很可能会因为源域样本的分类损失优化而偏向于提取更多的源域有用信息,而忽略目标域的有用信息,而采用弱共享的结构,就能分别提取每个域的有用信息,且让目标域特征提取链尽量少的受到源域样本分类损失的影响。
S120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征。
需要说明的是,鉴别器用于生成对抗网络(GAN),并且包括用于根据所接收的特征表示z来训练指示特定数据项是否与源域或某个其他域(例如,目标域)相关联的数据的计算模型。鉴别器的目的是通过上述对抗性学习将源特征与目标特征分离。作为计算模型,鉴别器可以包括一组参数或权重,该参数或权重可以根据作为例如梯度下降算法的一部分的对抗性损失函数来被迭代地适配(训练)以减小或最小化对抗性损失函数。随着训练迭代地进行,通过对预测值的了解,鉴别器可以被迭代地更新以改进源特征和目标特征的分离。此外,通过乘以负1来反转梯度,可以获取表示特征损失的反向梯度。
具体地说,在本实施例中,使用域鉴别器对数据样本进行自监督的对抗学习是跨域任务的一个经典方法。通过域鉴别器对特征提取器提取的时空特征进行鉴别,通过特征里包含的特定域的信息判断特征来自源域还是目标域,同时特征提取器提取出更具有域不变性的特征用以混淆域鉴别器,就形成了对抗过程。但考虑到常规方法所采用的单个域鉴别器在对抗优化的过程中可能不能全面的鉴别出特定于域的信息,即在每次的对抗过程中,单个域鉴别器可能会忽略掉部分特定于域的信息,本发明通过使用两个差异化的域鉴别器同时对样本特征进行域鉴别,以求在对抗训练过程中,更全面的发现和剔除特定于域的信息,达到更全面的优化网络,使网络提取更多的具有域不变性的特征的目的。
利用损失函数对双域鉴别器网络进行训练的方法,包括:对双域鉴别器网络的每个域鉴别器的权值进行随机初始化,且两个域鉴别器之间不共享权值;对每个域鉴别器对源域样本和目标域样本的域鉴别损失进行不同的加权,以使两个域鉴别器对源域样本和目标域样本的鉴别产生不同的权重。
也就是说,双域鉴别器的差异化主要有两方面组成,一是对双域鉴别器权值进行随机初始化,且不共享权值;二是对每个域鉴别器对源域和目标域样本的域鉴别损失进行不同的加权,使两个域鉴别器对源域和目标域样本的鉴别产生不同的偏重,即让一个域鉴别器偏重于对源域样本进行域鉴别,另一个域鉴别器偏重于对目标域样本进行域鉴别。
在双链网络中实现源域和目标域的域适应,混淆不同域的数据分布,使模型产生具有域不变性的特征;这部分功能主要由双域鉴别器模块完成。双域鉴别器模块的损失函数为二分类交叉熵损失(BCEloss)。单个域鉴别器对单个域样本的域鉴别损失通过以下公式实现:
Figure BDA0003712380050000121
其中,yi表示第i个样本的域标签,
Figure BDA0003712380050000122
为域鉴别器对域d∈{S,T}第个i特征的预测值;
Figure BDA0003712380050000123
是对预测值
Figure BDA0003712380050000124
取对数操作。
每个域鉴别器对所有域样本的鉴别损失定义为:
Figure BDA0003712380050000125
Figure BDA0003712380050000126
其中,Ldis1和Ldis2分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;α为超参数,用以对每个域鉴别器对源域和目标域样本的域鉴别损失进行不同的加权,使两个域鉴别器对源域和目标域样本的鉴别产生不同的偏重。
S130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别。
本发明的网络模型要实现的第二个功能就是动作的分类识别。使用交叉熵损失函数对源域时空特征进行分类,分类器网络对应的交叉熵损失函数的定义为:
Figure BDA0003712380050000131
其中,P代表当前网络训练批次中样本数量,yi表示第i个样本的标签,
Figure BDA0003712380050000132
表示对第i个样本的预测值;
Figure BDA0003712380050000133
是对预测值取对数操作。
双域鉴别器网络和分类器网络组成的整个双链弱共享网络模型利用损失函数进行训练中,整个网络模型的损失函数通过以下公式实现:
L=β(Ldis1+Ldis2)+γLcls
其中,Ldis1和Ldis2分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;Lcls表示分类器网络的损失;β,γ表示损失函数超参数。总之,在本发明的网络模型的目标函数中,首先,域鉴别损失函数使得源域特征和目标特征具有更好的域不变性,其次,交叉熵损失函数(CEloss)使得所学特征具有更好的区分性,这两个损失函数同时嵌入到双链弱共享网络上,共同指导该网络参数的学习和优化,并通过最小化这两个损失函数,从而确定最优的网络参数。
综上,经过在源域数据集和目标域数据集随机选择样本,并对视频样本均分成八段,每一段随机采样一帧,将每一帧RGB图像输入到双链的Resnet-50深度神经网络中提取样本的空间特征,两者的双链网络结构是相同的,但权重参数在部分层是共享的,部分层不共享;再将提取出每个样本的八帧的空间特征一同输入到3D卷积层,提取时空特征;将提取出的时序动作特征输入到双域鉴别器模块,进行差异化的对抗学习,用以优化特征提取网络生成更能混淆域鉴别器的特征(具有域不变性的特征);同时将源域的动作特征输入到分类器模块,使用源域标签,对源域特征进行分类,并计算交叉熵损失函数,用以对特征提取层优化,使其提取的特征更具类别可分性,实现分类。
经过上述训练过程,然后利用目标域数据集对基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型进行测试,最终获得训练好的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型(即双链弱共享网络模型)。
利用训练好的模型的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别模型进行视频交互动作识别的流程包括:将待测试的单个动作视频进行下采样后的RGB样本帧输入到双链网络的目标域链中;通过2D卷积和3D卷积操作相继提取空间特征和时空特征;最后将所有时空特征输入到全连接层中,得到类别特征,进而实现动作识别。
在一个具体的实施例中,在动作数据集UCF-HMDBfull和UCF-Olympic上进行了评测,设置500个epoch,采用优化方法Adam,默认学习率是0.0001,50个epoch衰减到0.00001,100个epoch衰减到0.000001后保持不变;损失函数超参数设置为α=0.1,β=0.5,γ=1.0,使用kinetics-400上预训练的模型参数初始化Resnet-50网络。
在测试过程中,测试样本的采样方式与训练阶段相同,测试样本在双链网络部分只输入到属于目标域的链中提取特征。
表1示出了本发明与其他方法在UCF-HMDBfull和UCF-Olympic数据集的实验效果。
表1
Figure BDA0003712380050000141
通过观察表1发现,在UCF-HMDBfull数据集和UCF-Olympic数据集上,本发明提出的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法在无监督跨域动作识别数据集上具有较好的识别性能。
综上,本发明的一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,通过使样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;在不使用目标域标签信息进行训练的情况下,达到了在多个目标域数据集上都能取得高效的动作识别性能的技术效果。
与上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法相对应,本发明还提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统。图3示出了根据本发明实施例的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统的功能模块。
如图3所示,本发明提供的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统300可以安装于电子设备中。根据实现的功能,所述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统300可以包括特征提取单元310、域适应优化单元320和分类单元330。本发明所述单元也可以称之为模块,指的是一种能够被电子设备的处理器所执行,并且能够完成某一固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
特征提取单元310,用于将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
域适应优化单元320,用于将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
分类单元330,用于将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
本发明所提供的上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统的更为具体的实现方式,均可以参照上述对基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的实施例表述,在此不再一一列举。
本发明所提供的上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统,通过使样本经过差异化的双域鉴别器与特征提取器形成对抗训练,可以得到更具有判别性的,域不变性的特征;在不使用目标域标签信息进行训练的情况下,达到了在多个目标域数据集上都能取得高效的动作识别性能的技术效果。
如图4所示,本发明提供一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法的电子设备4。
该电子设备4可以包括处理器40、存储器41和总线,还可以包括存储在存储器41中并可在所述处理器40上运行的计算机程序,如基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序42。
其中,所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元,例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备,例如电子设备4上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据,例如基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器40在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块(例如基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序等),以及调用存储在所述存储器41内的数据,以执行电子设备4的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备4的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备4还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器40逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备4还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备4与其他电子设备之间建立通信连接。
可选地,该电子设备4还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备4中的所述存储器41存储的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序42是多个指令的组合,在所述处理器40中运行时,可以实现:S110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;S120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;S130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
具体地,所述处理器40对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序的私密和安全性,上述基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别程序存储于本服务器集群所处区块链的节点中。
进一步地,所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:S110、将源域数据集和目标域数据集的样本输入特征提取器网络;特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;S120、将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;S130、将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,双域鉴别器网络和分类器网络利用损失函数进行训练。
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等,区块链可以存储医疗数据,如个人健康档案、厨房、检查报告等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,包括:
将源域数据集和目标域数据集的样本输入特征提取器网络;所述特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对所述源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,所述双域鉴别器网络和分类器网络利用损失函数进行训练。
2.如权利要求1所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,所述权值弱共享的双链2D卷积网络包括源域2D卷积网络和目标域2D卷积网络;所述源域2D卷积网络和目标域2D卷积网络均包括多个由卷积层、域条件归一化层和卷积层组成的三层结构;所述域条件归一化层由两个批归一化层并列组成,所述两个批归一化层分别为对源域样本进行归一化的源域批归一化层和对目标域样本进行归一化的目标域批归一化层;
其中,通过域条件归一化层对输入的样本进行判断;
若所输入的样本为源域样本,则将样本数据输入至源域批归一化层;
若所输入的样本为目标域样本,则将样本数据输入至目标域批归一化层。
3.如权利要求2所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,所述域条件归一化层通过以下公式实现:
Figure FDA0003712380040000021
Figure FDA0003712380040000022
其中,γd和βd表示特定于每个域d∈{S,T}的仿射参数,
Figure FDA0003712380040000023
Figure FDA0003712380040000024
表示属于域标签d的每个通道上的激活值;μd表示激活值的均值,
Figure FDA0003712380040000025
表示激活值的方差。
4.如权利要求1所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,在将源域数据集和目标域数据集的样本输入特征提取器网络之前,还包括利用Two-Stream的下采样方法对源域数据集和目标域数据集中的动作视频进行下采样,方法包括:
将源域数据集和目标域数据集中的每个动作样本的视频按照设定数值进行分段;
在每段动作视频中随机抽取一帧的帧图像;将设定数值的帧图像作为所述动作样本的表示。
5.如权利要求1中所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,利用损失函数对双域鉴别器网络进行训练的方法,包括:
对所述双域鉴别器网络的每个域鉴别器的权值进行随机初始化,且两个域鉴别器之间不共享权值;
对每个域鉴别器对源域样本和目标域样本的域鉴别损失进行不同的加权,以使两个域鉴别器对源域样本和目标域样本的鉴别产生不同的权重。
6.如权利要求5中所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,单个域鉴别器对单个域样本的域鉴别损失通过以下公式实现:
Figure FDA0003712380040000026
其中,yi表示第i个样本的域标签,
Figure FDA0003712380040000027
为域鉴别器对域d∈{S,T}第个i特征的预测值;
Figure FDA0003712380040000031
是对预测值
Figure FDA0003712380040000032
取对数操作。
7.如权利要求1中所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法,其特征在于,所述双域鉴别器网络和分类器网络利用损失函数进行训练中,所述损失函数通过以下公式实现:
L=β(Ldis1+Ldis2)+γLcls
其中,Ldis1和Ldis2分别为双域鉴别器网络中每个鉴别器对所有域样本的鉴别损失;Lcls表示分类器网络的损失;β,γ表示损失函数超参数。
8.一种基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别系统,其特征在于,包括:
特征提取单元,用于将源域数据集和目标域数据集的样本输入特征提取器网络;所述特征提取器网络包括权值弱共享的双链2D卷积网络和权值完全共享的双链3D卷积网络;其中,通过权值弱共享的双链2D卷积网络分别对所述源域数据集以及目标域数据集进行源域空间特征提取和目标域空间特征提取;通过权值完全共享的双链3D卷积网络分别对源域空间特征和目标域空间特征进行源域时空特征和目标域时空特征提取;
域适应优化单元,用于将源域时空特征和目标域时空特征分别输入双域鉴别器网络进行判别,通过特征提取器网络和双域鉴别器网络的对抗学习,优化特征提取器网络,获取具有域不变性的特征;
分类单元,用于将源域时空特征输入分类器网络中,进行预测分类以实现视频交互动作识别;其中,所述双域鉴别器网络和分类器网络利用损失函数进行训练。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法。
CN202210729369.0A 2022-06-24 2022-06-24 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 Active CN114973107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210729369.0A CN114973107B (zh) 2022-06-24 2022-06-24 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210729369.0A CN114973107B (zh) 2022-06-24 2022-06-24 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法

Publications (2)

Publication Number Publication Date
CN114973107A true CN114973107A (zh) 2022-08-30
CN114973107B CN114973107B (zh) 2023-03-24

Family

ID=82964741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210729369.0A Active CN114973107B (zh) 2022-06-24 2022-06-24 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法

Country Status (1)

Country Link
CN (1) CN114973107B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029394A (zh) * 2023-03-29 2023-04-28 季华实验室 自适应文本情感识别模型训练方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
US20190130257A1 (en) * 2017-10-27 2019-05-02 Sentient Technologies (Barbados) Limited Beyond Shared Hierarchies: Deep Multitask Learning Through Soft Layer Ordering
CN112016461A (zh) * 2020-08-28 2020-12-01 深圳市信义科技有限公司 一种多目标的行为识别方法及系统
CN112115769A (zh) * 2020-08-05 2020-12-22 西安交通大学 一种基于视频的无监督稀疏人群异常行为检测算法
CN113313030A (zh) * 2021-05-31 2021-08-27 华南理工大学 基于运动趋势特征的人体行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
US20190130257A1 (en) * 2017-10-27 2019-05-02 Sentient Technologies (Barbados) Limited Beyond Shared Hierarchies: Deep Multitask Learning Through Soft Layer Ordering
CN112115769A (zh) * 2020-08-05 2020-12-22 西安交通大学 一种基于视频的无监督稀疏人群异常行为检测算法
CN112016461A (zh) * 2020-08-28 2020-12-01 深圳市信义科技有限公司 一种多目标的行为识别方法及系统
CN113313030A (zh) * 2021-05-31 2021-08-27 华南理工大学 基于运动趋势特征的人体行为识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029394A (zh) * 2023-03-29 2023-04-28 季华实验室 自适应文本情感识别模型训练方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN114973107B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Wang et al. Inferring salient objects from human fixations
Ding et al. Swapped face detection using deep learning and subjective assessment
US11804069B2 (en) Image clustering method and apparatus, and storage medium
Zhang et al. Attention and boundary guided salient object detection
CN112131978A (zh) 一种视频分类方法、装置、电子设备和存储介质
KR20200010993A (ko) 보완된 cnn을 통해 이미지 속 얼굴의 속성 및 신원을 인식하는 전자 장치.
CN113761253A (zh) 视频标签确定方法、装置、设备及存储介质
CN111860545B (zh) 一种基于弱检测机制的图像敏感内容识别方法及系统
CN113792680A (zh) 基于图像融合的行为识别方法、装置、电子设备及介质
CN113052150A (zh) 活体检测方法、装置、电子设备和计算机可读存储介质
CN114973107B (zh) 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法
CN116958637A (zh) 图像检测模型的训练方法、装置、设备及存储介质
Suratkar et al. Deep-fake video detection approaches using convolutional–recurrent neural networks
Dhawan et al. Identification of traffic signs for advanced driving assistance systems in smart cities using deep learning
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN114049676A (zh) 疲劳状态检测方法、装置、设备及存储介质
CN111651626B (zh) 图像分类方法、装置及可读存储介质
Dong et al. GIAD: Generative inpainting-based anomaly detection via self-supervised learning for human monitoring
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
Calderon-Vilca et al. The Best Model of Convolutional Neural Networks Combined with LSTM for the Detection of Interpersonal Physical Violence in Videos
Nascimento et al. Machine-based stereotypes: How machine learning algorithms evaluate ethnicity from face data
Ridzuan et al. Classifying Ethnicity of the Pedestrian Using Skin Colour Palette
Shojaeilangari et al. Dynamic facial expression analysis based on extended spatio-temporal histogram of oriented gradients
Ibrahim et al. Semantic Analysis of Moving Objects in Video Sequences
Schoinas et al. Technology Assisted Review of Images using Machine Vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant