CN113469289A - 视频自监督表征学习方法、装置、计算机设备和介质 - Google Patents

视频自监督表征学习方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN113469289A
CN113469289A CN202111017638.2A CN202111017638A CN113469289A CN 113469289 A CN113469289 A CN 113469289A CN 202111017638 A CN202111017638 A CN 202111017638A CN 113469289 A CN113469289 A CN 113469289A
Authority
CN
China
Prior art keywords
video
sequence
feature
self
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111017638.2A
Other languages
English (en)
Other versions
CN113469289B (zh
Inventor
徐行
张静然
沈复民
邵杰
姚亚洲
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202111017638.2A priority Critical patent/CN113469289B/zh
Publication of CN113469289A publication Critical patent/CN113469289A/zh
Application granted granted Critical
Publication of CN113469289B publication Critical patent/CN113469289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种视频自监督表征学习方法、装置、计算机设备和介质,包括:获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图、对每个时域图进行图视角的对比增强,得到两个增强特征序列;构建视频自监督表征提取模型;采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。本申请提供的视频自监督表征学习方法,无需人工标签,在图像领域对比学习的基础上扩展成序列帧的情形,并合理利用相邻帧间的相关性,高效的学习视频中视觉信息的特征,为下游视频任务服务。

Description

视频自监督表征学习方法、装置、计算机设备和介质
技术领域
本申请涉及视频的视觉特征表征学习领域,特别涉及一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备、计算机可读存储介质。
背景技术
视频中的相邻帧有很强的相关性和冗余行,同一视频在具体模式上不同的采样帧序列间是语义一致的。合理的利用这一特性,不仅可以减小人工标注的成本,而且可以更高效的提取视频中视觉特征。
近年来由于视频采集设备的普及性,如便携相机、智能手机等,和4G和5G时代给消费者带来移动网络便利体验,导致视频数据非常容易获取,并在互联网上呈指数级增长趋势。基于这些视频数据的信息挖掘和内容理解有重要学术和商业价值。利用深度学习技术进行视频内容理解,在商业和学术领域都表现出巨大优势。然而,如果应用传统的监督学习方法进行深度网络训练,以提取视频中的信息,需要预先花费巨大的代价对数据进行人工标注和清洗,同时这些标注信息只能体现数据在标签层的语义,很难体现视频数据的特有序列结构特征。自监督的信息挖掘方法作为一种重要的表征学习方法,可以有效的利用视频数据的这一特性,无需进行额外的标注,就能进行深度网络训练,然后服务下游的视频理解任务。
基于视频自监督表征学习问题,已成为一个重要的研究方向,尤其是应用对比学习的视频自监督学习方法,该方法通过比对神经网络提取的同一视频的不同视角下特征间的相似性,进行自监督网络训练。现有的基于对比学习视频自监督学习方法主要通过扩展基于图像对比学习方法,只进行一定数量帧的空域的对比增强学习。这种方式下的视频自监督学习是通过验证输入空域特征对间相似性实施的,其中正样本的序列特征对都是采样于同一视频,而负样本序列特征对来源不同视频。
现有的基于对比学习视频自监督学习方法采用直接扩展基于图像对比学习方法,存在以下不足:(1)忽略视频本身的结构特性,只对每帧进行单独的处理,忽略了帧间语义关联。(2)由于只是扩展基图像的方法,并没有在视频角度下的进行多视角学习,无法高效的挖掘视频特征信息,且无法保证应用与不同视频源。
发明内容
本申请的目的是提供一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备、计算机可读存储介质,无需人工标签,能够利用视频中相邻帧间强相关性进行对比自监督学习来提取视频的表征,为下游视频任务服务。其具体方案如下:
本申请提供一种视频自监督表征学习方法,包括:
获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
构建视频自监督表征提取模型;
采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
优选的,所述对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,包括:
按照预设采样函数对视频样本进行采样,并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换,得到增强视频帧序列;
利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特征序列;
按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。
优选的,所述基于每个视频特征序列构建时域图,包括:
求解视频特征序列中任意两个特征点间的相似性值;
根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
优选的,所述对每个时域图进行图视角的对比增强,得到两个增强特征序列,包括:
在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
对增强邻接矩阵进行图卷积推理,得到增强特征序列。
优选的,所述采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型,包括:
获取动态更新的负样本特征序列;
基于每个视频样本的负样本特征序列、两个增强特征序列,采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
本申请还提供一种视频自监督表征学习装置,包括:
训练数据获取模块,用于获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
神经模型构建模块,用于构建视频自监督表征提取模型;
神经模型训练模块,用于采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
优选的,所述训练数据获取模块包括:
相似性求解单元,用于求解视频特征序列中任意两个特征点间的相似性值;
邻接矩阵构造单元,用于根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
邻接矩阵生成单元,用于根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
邻接矩阵求解单元,用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
时域图构建单元,用于根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
优选的,所述训练数据获取模块还包括:
图增强变换单元,用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
图特征获取单元,用于对增强邻接矩阵进行图卷积推理,得到增强特征序列。
本申请还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现上述视频自监督表征学习方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述视频自监督表征学习方法的步骤。
本申请提供一种视频自监督表征学习方法,包括:获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图、对每个时域图进行图视角的对比增强,得到两个增强特征序列;构建视频自监督表征提取模型;采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
可见,本申请提供的视频自监督表征学习方法,无需人工标签,在图像领域对比学习的基础上扩展成序列帧的情形,并合理利用相邻帧间的相关性,高效的学习视频中视觉信息的特征,为下游视频任务服务。
本申请同时还提供了一种视频自监督表征学习装置、计算机设备、计算机可读存储介质,均具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频自监督表征学习方法的流程示意图;
图2为本申请实施例提供的一种基于每个视频特征序列构建时域图方法的流程示意图;
图3为本申请实施例提供的一种对时域图进行图视角的对比增强方法的流程示意图;
图4为本申请实施例提供的一种视频自监督表征学习装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护范围。
现有的基于对比学习视频自监督学习方法采用直接扩展基于图像的对比学习方法,存在以下不足:(1)忽略视频本身的结构特性,只对每帧进行单独的处理,忽略了帧间语义关联。(2)由于只是扩展基图像的方法,并没有在视频角度下的进行多视角学习,无法高效的挖掘视频特征信息,且无法保证应用于不同视频源。
基于上述问题,本实施例提供一种视频自监督表征学习方法,具体请参考图1,图1为本申请实施例提供的一种视频自监督表征学习方法的流程示意图,具体包括:
S11:获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列。
在一种可实现的实施方式中,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,包括:按照预设采样函数对视频样本进行采样,并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换,得到增强视频帧序列;利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特征序列;按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。
在本实施例中,假设视频样本集
Figure 396359DEST_PATH_IMAGE001
由N个样本
Figure 844658DEST_PATH_IMAGE002
组成,N为整数,且该数 据集中的样本没有标签。对每个视频样本
Figure 640706DEST_PATH_IMAGE003
进行2次相同方法的采样和图像增强变换,得 到该视频的两种增强视频帧序列表示
Figure 567074DEST_PATH_IMAGE004
Figure 709342DEST_PATH_IMAGE005
,T为采样和增强变换后的视频帧数量。该过程由以下表示:
Figure 46652DEST_PATH_IMAGE006
,其中
Figure 376002DEST_PATH_IMAGE007
表示采样函数,这里可以采用每间隔4帧采一帧,
Figure 653531DEST_PATH_IMAGE008
表示数据增强函数,包括图像剪裁,灰度变换,水平翻转,添加高斯噪声4种数据增 强方式,例如,可以同时采用这4种数据增强方式,也可以有随机性,例如随机水平翻转和随 机添加高斯噪声有一半概率不进行,可以表示为:
Figure 853568DEST_PATH_IMAGE010
,其中,
Figure 378090DEST_PATH_IMAGE011
为图像裁剪,
Figure 663578DEST_PATH_IMAGE012
为图像水平反转,
Figure 915437DEST_PATH_IMAGE013
为图像灰度变换,
Figure 969980DEST_PATH_IMAGE014
为 图像添加高斯噪声,
Figure 930983DEST_PATH_IMAGE015
为以0.5的概率采用这种数据增强变换方式,不断应用该过程可 以保证每次提取到不同的增强视频帧序列数据,保证数据多样性,达到数据增强的目的,为 后续步骤服务,让模型真正的学习本质特征。
其中,间隔4帧采样是我们采用的一种视频采样方式,不同的用户可以使用不同的采样方式。视频有很强的冗余性,同一视频中不同的采样帧序列满足同一分布,我们只需从同一视频中采集部分帧就可以训练。如果一个视频以30fps进行传输,那间隔4帧采样就能保证这个视频中每秒约8帧被采集。
在本实施例中,利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特 征序列。具体的,对采样和图像增强处理后的两个增强视频帧序列进行特征提取,运用神经 卷积网络
Figure 703767DEST_PATH_IMAGE016
提取具体视频序列的特征:
Figure 260781DEST_PATH_IMAGE017
,其中,
Figure 435411DEST_PATH_IMAGE018
为增强视频帧序列
Figure 98473DEST_PATH_IMAGE003
的特征,
Figure 342242DEST_PATH_IMAGE019
为增强视频帧序列
Figure 952214DEST_PATH_IMAGE003
的正样本对
Figure 778088DEST_PATH_IMAGE020
的特征,且
Figure 284156DEST_PATH_IMAGE018
可表示为视频特征序列
Figure 516685DEST_PATH_IMAGE021
Figure 930349DEST_PATH_IMAGE022
为特征序列的长度。
其中,在分类任务中,正样本通常指与某个具体的样本属于同一类的样本。在自监 督任务中由于没有类别信息可以利用,所以某个样本增强后的样本被认为是正样本,其他 样本是负样本,正样本间组成的两两集合认为是一个样本对,所以
Figure 813991DEST_PATH_IMAGE003
Figure 553277DEST_PATH_IMAGE020
为一个正样本 对。
本实施例中卷积神经网络
Figure 771638DEST_PATH_IMAGE016
是任意3D卷积网络,本实施例采用的是S3D作为骨干 卷积网络,在进行特征提取时将增强视频帧序列
Figure 723413DEST_PATH_IMAGE003
Figure 727141DEST_PATH_IMAGE020
分别输入到网络
Figure 575012DEST_PATH_IMAGE016
,即可获得视 频特征序列
Figure 31401DEST_PATH_IMAGE018
Figure 537600DEST_PATH_IMAGE019
在一种可实现的实施方式中,基于每个视频特征序列构建时域图,是指在提取的 特征序列
Figure 130255DEST_PATH_IMAGE021
基础上构建T'-时域图,其中
Figure 945764DEST_PATH_IMAGE023
为特征点
Figure 889449DEST_PATH_IMAGE024
的节点集合,
Figure 963454DEST_PATH_IMAGE025
为特征节点
Figure 676195DEST_PATH_IMAGE026
Figure 397026DEST_PATH_IMAGE024
间的边
Figure 828007DEST_PATH_IMAGE027
集合。在提取的特征序列
Figure 128539DEST_PATH_IMAGE019
基础上构建T'-时域图也是相 同的方法,这里以特征序列
Figure 712098DEST_PATH_IMAGE018
为例进行介绍。
如图2所示,基于每个视频特征序列构建时域图,包括:
S201:求解视频特征序列中任意两个特征点间的相似性值。
具体的,首先求解特征序列
Figure 603830DEST_PATH_IMAGE018
中特征点
Figure 522108DEST_PATH_IMAGE028
间的相似性,
Figure 688647DEST_PATH_IMAGE028
间的相似性 可表示为:
Figure 359669DEST_PATH_IMAGE029
,其中,
Figure 687882DEST_PATH_IMAGE030
是可学习的参数矩阵,
Figure 827876DEST_PATH_IMAGE031
为指数 函数,
Figure 735789DEST_PATH_IMAGE032
为特征点
Figure 277629DEST_PATH_IMAGE026
Figure 527476DEST_PATH_IMAGE024
间的相似性分数,
Figure 420346DEST_PATH_IMAGE033
或者
Figure 397529DEST_PATH_IMAGE034
Figure 59454DEST_PATH_IMAGE035
从 区间里随机取值。这里,将特征序列
Figure 978738DEST_PATH_IMAGE018
中任意两个特征点
Figure 93324DEST_PATH_IMAGE028
取出,输入到公式中即可 求出相似性值
Figure 77461DEST_PATH_IMAGE032
,目的是为了服务后续构造时域图时,赋值时域图中节点边上的权值。
S202:根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵。
具体的,在已求取的特征点间相似性
Figure 593893DEST_PATH_IMAGE032
基础上构造序列
Figure 434810DEST_PATH_IMAGE018
间特征点的邻接矩阵
Figure 787425DEST_PATH_IMAGE036
Figure 637569DEST_PATH_IMAGE037
,即通过将已求取的相似性值
Figure 8508DEST_PATH_IMAGE032
填入到 邻接矩阵
Figure 20326DEST_PATH_IMAGE038
中即可。
S203:根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵。
具体的,由于邻接矩阵
Figure 93193DEST_PATH_IMAGE038
是无向全连接的,现根据视频中特征序列
Figure 481449DEST_PATH_IMAGE018
的结构特性 添加帧时序信息,可以获取不同跳数的邻接矩阵
Figure 910156DEST_PATH_IMAGE039
。此矩阵
Figure 92876DEST_PATH_IMAGE038
将中非k近 邻的特征点相似性置为0,可表示为:
Figure 669351DEST_PATH_IMAGE041
,其中,k表示特征节点
Figure 612030DEST_PATH_IMAGE026
Figure 691982DEST_PATH_IMAGE042
间的帧距离,在
Figure 311182DEST_PATH_IMAGE043
中只有帧距离k的节点间权值设置为
Figure 109374DEST_PATH_IMAGE044
,其他 设置为0。由于不同跳数的邻接矩阵有不同形式的时序特征,融合不同的时序的步数信息, 可以更高效的挖掘视频特征。
S204:对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵。
具体的,对不同跳数邻域矩阵
Figure 88700DEST_PATH_IMAGE043
中特征点
Figure 23158DEST_PATH_IMAGE028
间相似性值进行扩散融合,以 获取最终的包含相似性和时序性的邻接矩阵
Figure 813259DEST_PATH_IMAGE045
,该过程表示为:
Figure 98747DEST_PATH_IMAGE046
,其中
Figure 117650DEST_PATH_IMAGE047
为相似性递减因子,只需满足条件
Figure 172193DEST_PATH_IMAGE048
,本处设置为
Figure 133196DEST_PATH_IMAGE049
Figure 640401DEST_PATH_IMAGE050
为0.5。 通过获得高度融合的邻接矩阵,有利于后面步骤求解出最终的T'-时域图。
S205:根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
具体的,最终由提取后的特征序列
Figure 961530DEST_PATH_IMAGE021
以及融合邻接矩阵
Figure 136159DEST_PATH_IMAGE045
构建 T'-时域图 ,其中
Figure 2484DEST_PATH_IMAGE023
为特征序列
Figure 262564DEST_PATH_IMAGE018
中特征点
Figure 623269DEST_PATH_IMAGE024
的节点集合,
Figure 652405DEST_PATH_IMAGE025
为特征节点
Figure 689631DEST_PATH_IMAGE026
Figure 437007DEST_PATH_IMAGE024
间的边
Figure 99939DEST_PATH_IMAGE027
集合,且边上的权值由
Figure 186844DEST_PATH_IMAGE051
指定。构建的T'-时域图可以进行图视角下的视频关联 学习。
在一种可实现的实施方式中,对每个时域图进行图视角的对比增强,得到两个增强特征序列,由于对每一个时域图都是采用相同的方法得到增强特征序列,所以以其中一个为例进行介绍。
具体的,如图3所示,每个时域图进行图视角的对比增强,得到两个增强特征序列,包括:
S301:在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵。
具体的,在构建的时域图
Figure 660550DEST_PATH_IMAGE052
的基础上进行图视角的增强,以增强帧间特征关联性, 具体地,时域图
Figure 629643DEST_PATH_IMAGE052
的增强变换可由邻接矩阵
Figure 581419DEST_PATH_IMAGE045
的增强变换表示,需要满足轻微扰动
Figure 335879DEST_PATH_IMAGE045
中的 边和节点,同时不破坏
Figure 714908DEST_PATH_IMAGE045
的结构特征,可以使用Gumbel-trick (康拜儿采样技巧)满足这一 要求:
Figure 171297DEST_PATH_IMAGE054
,其中,
Figure 926764DEST_PATH_IMAGE051
是邻接矩阵 中i行j列中元素的值,
Figure 34266DEST_PATH_IMAGE055
是增强 变换后的邻接矩阵,
Figure 849775DEST_PATH_IMAGE056
为对数函数,
Figure 59039DEST_PATH_IMAGE057
为符合康拜儿分布变量,
Figure 352618DEST_PATH_IMAGE058
为温度超参数,设 为0.07。由于图增强变换过程中添加了随机变量,可以保证增强的变化行,同时最本质的图 结构不会改变。
S302:对增强邻接矩阵进行图卷积推理,得到增强特征序列。
具体的,在增强时域图的基础上,对增强处理后的序列特征
Figure 816091DEST_PATH_IMAGE018
进行图卷积推理, 以充分融合不同层次特征,表示为:
Figure 802502DEST_PATH_IMAGE059
,其中,
Figure 233483DEST_PATH_IMAGE019
是正样本;
Figure 330752DEST_PATH_IMAGE060
Figure 147267DEST_PATH_IMAGE061
都是在不同随机因子下进行图增强后的增强邻接矩阵,它们分别为
Figure 507841DEST_PATH_IMAGE018
Figure 426119DEST_PATH_IMAGE019
由S301步骤获 取的增强邻接矩阵;
Figure 61499DEST_PATH_IMAGE062
为图卷积函数;
Figure 748833DEST_PATH_IMAGE063
为同一视频样本的两个增强样本在 图增强后进行特征提取后的不同表示,虽然有不同的表示形式,但有相同的本质特征,都是 为了进行多视角学习,它们可以用于后续的训练。
S12:构建视频自监督表征提取模型。
具体的,构建的视频自监督表征提取模型为
Figure 827778DEST_PATH_IMAGE016
Figure 967773DEST_PATH_IMAGE016
是任意3D卷积网络,本实施例 采用的是S3D作为骨干卷积网络。
S13:采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
在一种可实现的实施方式中,采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型,包括:获取动态更新的负样本特征序列;基于每个视频样本的负样本特征序列、两个增强特征序列,采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
具体的,根据最终的增强特征
Figure 672423DEST_PATH_IMAGE064
进行对比学习,在对比样本相似度的过程中,如果 只考虑样本的正样本特征对
Figure 479842DEST_PATH_IMAGE065
,会导致模型训练最终得到平凡解,只有在一定数量 的负样本特征基础上模型才能保证模型正常优化。为解决这一问题并保证有足够数量的负 样本,本申请在训练过程中维护了一个特征队列
Figure 228224DEST_PATH_IMAGE066
来实时的更新模型训练过 程中的负样本特征,库的大小为K=16384,且库中样本特征会在训练过程中进行动态更新, 在
Figure 855515DEST_PATH_IMAGE067
的基础上采用噪声对比损失函数进行模型训练:
Figure 832698DEST_PATH_IMAGE069
,其中,
Figure 494624DEST_PATH_IMAGE056
为对数函数,
Figure 915372DEST_PATH_IMAGE031
为指数函数,
Figure 29958DEST_PATH_IMAGE070
为温度超参数,设为0.07,
Figure 810833DEST_PATH_IMAGE063
为正样本特征,
Figure 327264DEST_PATH_IMAGE071
为负样本特征。由于每次的队列
Figure 417449DEST_PATH_IMAGE067
中负样本特征
Figure 222594DEST_PATH_IMAGE071
是从所有样本 特征集中随机抽取,又维持固定大小,不仅可以减小计算量还可以保证负样本的多样性。
具体的,由于需要大量负样本信息辅助对比学习,来保证模型训练效果,如果直接 应用数据集中所有负样本进行对比学习训练,现有的硬件不支持这种操作。可以以一种机 制存储历史的负样本信息,维持一个稳定大小的记忆库,在保证负样本量的同时,满足现有 的硬件条件。
Figure 807159DEST_PATH_IMAGE067
就是记忆存储机制中一种具体存储库,它使用动量更新机制进行更新。库的 样本会在训练过程中进行动态更新:
Figure 178098DEST_PATH_IMAGE072
,其中,
Figure 189916DEST_PATH_IMAGE073
为在某次训练迭代过程中的增强 视频特征,由于每次的记忆库是从所有样本集中随机抽取,且维持固定大小,不仅可以减小 计算量还可以保证负样本的多样性。
以上过程完成后,得到训练好的视频自监督表征提取模型
Figure 764248DEST_PATH_IMAGE016
,可以用训练好的 视频自监督表征提取模型
Figure 152504DEST_PATH_IMAGE016
服务下游应用,例如,可以进行视频动作识别,动作识别任务 可表示为:
Figure 377949DEST_PATH_IMAGE074
,其中,
Figure 826248DEST_PATH_IMAGE075
为动作的预测标签,
Figure 409849DEST_PATH_IMAGE076
为 求最大值函数,
Figure 601795DEST_PATH_IMAGE077
为求概率函数,
Figure 681747DEST_PATH_IMAGE078
,C为总共的动作类别个数。
Figure 300947DEST_PATH_IMAGE079
为在 训练好的视频自监督表征提取模型
Figure 302401DEST_PATH_IMAGE016
基础上、下游任务微调后的视频自监督表征提取模 型。微调过程可以理解为在该下游小数据集上的进行预热训练的过程。视频动作识别的步 骤包括:步骤(1):对一段给定包含行为的视频
Figure 517613DEST_PATH_IMAGE080
,利用
Figure 717650DEST_PATH_IMAGE079
提取该视频的预测分类向量
Figure 507752DEST_PATH_IMAGE081
,该预测分类向量为一个行向量,其中元素
Figure 527660DEST_PATH_IMAGE082
为对应类别
Figure 310677DEST_PATH_IMAGE083
的预测 分数,具体可以表示为:
Figure DEST_PATH_IMAGE084
。步骤(2):对测试视频的预测分 类向量
Figure DEST_PATH_IMAGE085
,按数值模的大小进行排序,模最大预测分数
Figure DEST_PATH_IMAGE086
所对应的类别索引
Figure DEST_PATH_IMAGE087
即是该视频 中预测行为类别
Figure 506166DEST_PATH_IMAGE075
本申请的发明原理:为了更好的利用不断增长的无标签视频数据集,并挖掘这些视频中隐藏信息,本申请利用对比学习,在提出的图增强视角下进行视频关联性表征学习,可在无人工标注的视频数据集上进行自监督训练,获取一个预训练模型,以提取高效的视频表征,服务下游视频数据难采集的任务。
具体地,本申请提出的时域图构建方法,以充分利用视频中失序结构特性;其次,在时域图的基础上进行图视角对比学习,将视频中的相邻帧关联性作为潜在自监督信号进行模型训练。本申请获取的预训练视频自监督表征提取模型可弥补下游任务中视频数据集不足而导致的训练困难问题。
下面对本申请实施例提供的一种视频自监督表征学习装置进行介绍,下文描述的视频自监督表征学习装置与上文描述的视频自监督表征学习方法可相互对应参照。
参考图4,本申请还提供一种视频自监督表征学习装置,包括:
训练数据获取模块41,用于获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
神经模型构建模块42,用于构建视频自监督表征提取模型;
神经模型训练模块43,用于采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
具体的,训练数据获取模块41包括:
相似性求解单元,用于求解视频特征序列中任意两个特征点间的相似性值;
邻接矩阵构造单元,用于根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
邻接矩阵生成单元,用于根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
邻接矩阵求解单元,用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
时域图构建单元,用于根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
具体的,训练数据获取模块41还包括:
图增强变换单元,用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
图特征获取单元,用于对增强邻接矩阵进行图卷积推理,得到增强特征序列
由于视频自监督表征学习装置部分的实施例与视频自监督表征学习方法部分的实施例相互对应,因此视频自监督表征学习装置部分的实施例请参见视频自监督表征学习方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种计算机设备进行介绍,下文描述的计算机设备与上文描述的视频自监督表征学习方法可相互对应参照。
本申请还提供一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现上述视频自监督表征学习方法的步骤。
由于计算机设备部分的实施例与视频自监督表征学习方法部分的实施例相互对应,因此计算机设备部分的实施例请参见视频自监督表征学习方法部分的实施例的描述,这里暂不赘述。
下面对本申请实施例提供的一种计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的视频自监督表征学习方法可相互对应参照。
本申请提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述视频自监督表征学习方法的步骤。
由于计算机可读存储介质部分的实施例与视频自监督表征学习方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见视频自监督表征学习方法部分的实施例的描述,这里暂不赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种视频自监督表征学习方法、视频自监督表征学习装置、计算机设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种视频自监督表征学习方法,其特征在于,包括:
获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
构建视频自监督表征提取模型;
采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
2.根据权利要求1所述的视频自监督表征学习方法,其特征在于,所述对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,包括:
按照预设采样函数对视频样本进行采样,并采用包含图像裁剪、灰度变换、随机水平翻转和随机添加高斯噪声的数据增强函数对采样的视频帧进行图像增强变换,得到增强视频帧序列;
利用卷积神经网络对增强视频帧序列进行特征提取,得到视频特征序列;
按照上述方法对一个视频样本执行2次得到该视频样本的两个视频特征序列。
3.根据权利要求1所述的视频自监督表征学习方法,其特征在于,所述基于每个视频特征序列构建时域图,包括:
求解视频特征序列中任意两个特征点间的相似性值;
根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
4.根据权利要求3所述的视频自监督表征学习方法,其特征在于,所述对每个时域图进行图视角的对比增强,得到两个增强特征序列,包括:
在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
对增强邻接矩阵进行图卷积推理,得到增强特征序列。
5.根据权利要求1所述的视频自监督表征学习方法,其特征在于,所述采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型,包括:
获取动态更新的负样本特征序列;
基于每个视频样本的负样本特征序列、两个增强特征序列,采用噪声对比损失函数对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
6.一种视频自监督表征学习装置,其特征在于,包括:
训练数据获取模块,用于获取大量视频样本,对每个视频样本进行采样、图像增强变换和特征提取,生成两个视频特征序列,基于每个视频特征序列构建时域图,对每个时域图进行图视角的对比增强,得到两个增强特征序列;
神经模型构建模块,用于构建视频自监督表征提取模型;
神经模型训练模块,用于采用增强特征序列对视频自监督表征提取模型进行训练和优化,得到训练好的视频自监督表征提取模型。
7.根据权利要求6所述的视频自监督表征学习装置,其特征在于,所述训练数据获取模块包括:
相似性求解单元,用于求解视频特征序列中任意两个特征点间的相似性值;
邻接矩阵构造单元,用于根据视频特征序列中任意两个特征点间的相似性值,构造视频特征序列中任意两个特征点间的邻接矩阵;
邻接矩阵生成单元,用于根据视频特征序列的结构特征,在视频特征序列中任意两个特征点间的邻接矩阵中添加帧时序信息,得到不同跳数的邻接矩阵;
邻接矩阵求解单元,用于对不同跳数的邻接矩阵中任意两个特征点间的相似性值进行扩散融合,得到包含相似性和时序性的融合邻接矩阵;
时域图构建单元,用于根据视频特征序列和融合邻接矩阵构建时域图,其中时域图由视频特征序列中各个特征点的节点集合和任意两个特征点间的边集合组成,边的权值由融合邻接矩阵指定。
8.根据权利要求7所述的所述的视频自监督表征学习装置,其特征在于,所述训练数据获取模块还包括:
图增强变换单元,用于在时域图中扰动融合邻接矩阵的边和节点进行图视角的增强变换,得到增强邻接矩阵;
图特征获取单元,用于对增强邻接矩阵进行图卷积推理,得到增强特征序列。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5中任一项所述视频自监督表征学习方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述视频自监督表征学习方法的步骤。
CN202111017638.2A 2021-09-01 2021-09-01 视频自监督表征学习方法、装置、计算机设备和介质 Active CN113469289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111017638.2A CN113469289B (zh) 2021-09-01 2021-09-01 视频自监督表征学习方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111017638.2A CN113469289B (zh) 2021-09-01 2021-09-01 视频自监督表征学习方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN113469289A true CN113469289A (zh) 2021-10-01
CN113469289B CN113469289B (zh) 2022-01-25

Family

ID=77867032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111017638.2A Active CN113469289B (zh) 2021-09-01 2021-09-01 视频自监督表征学习方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN113469289B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267087A (zh) * 2022-02-28 2022-04-01 成都考拉悠然科技有限公司 一种基于小样本机器学习模型的动作注册方法及其系统
CN114550098A (zh) * 2022-02-28 2022-05-27 山东大学 基于对比学习的考场监控视频异常行为检测方法及系统
CN114596312A (zh) * 2022-05-07 2022-06-07 中国科学院深圳先进技术研究院 一种视频处理方法和装置
CN115187787A (zh) * 2022-09-09 2022-10-14 清华大学 用于自监督多视图表征学习的局部流形增强的方法及装置
CN115205739A (zh) * 2022-07-06 2022-10-18 中山大学·深圳 一种基于半监督学习的低光照视频行为识别方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488932A (zh) * 2020-04-10 2020-08-04 中国科学院大学 一种基于帧率感知的自监督视频时-空表征学习方法
CN112016683A (zh) * 2020-08-04 2020-12-01 杰创智能科技股份有限公司 数据增强学习、训练方法、电子设备、可读存储介质
US20200410322A1 (en) * 2019-06-26 2020-12-31 Nvidia Corporation Neural architecture for self supervised event learning and anomaly detection
CN112257665A (zh) * 2020-11-12 2021-01-22 腾讯科技(深圳)有限公司 图像内容的识别方法、图像识别模型的训练方法及介质
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN112733789A (zh) * 2021-01-20 2021-04-30 清华大学 一种基于动态时空图的视频推理方法、装置、设备及介质
CN112925977A (zh) * 2021-02-26 2021-06-08 中国科学技术大学 一种基于自监督图表征学习的推荐方法
CN113065533A (zh) * 2021-06-01 2021-07-02 北京达佳互联信息技术有限公司 一种特征提取模型生成方法、装置、电子设备和存储介质
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
AU2021102838A4 (en) * 2021-05-25 2021-07-15 ., Nikhilesh DR Self-aware continual pose estimator in act video recording and animations

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200410322A1 (en) * 2019-06-26 2020-12-31 Nvidia Corporation Neural architecture for self supervised event learning and anomaly detection
CN111488932A (zh) * 2020-04-10 2020-08-04 中国科学院大学 一种基于帧率感知的自监督视频时-空表征学习方法
CN112016683A (zh) * 2020-08-04 2020-12-01 杰创智能科技股份有限公司 数据增强学习、训练方法、电子设备、可读存储介质
CN112257665A (zh) * 2020-11-12 2021-01-22 腾讯科技(深圳)有限公司 图像内容的识别方法、图像识别模型的训练方法及介质
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112733789A (zh) * 2021-01-20 2021-04-30 清华大学 一种基于动态时空图的视频推理方法、装置、设备及介质
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN112925977A (zh) * 2021-02-26 2021-06-08 中国科学技术大学 一种基于自监督图表征学习的推荐方法
CN113077505A (zh) * 2021-04-19 2021-07-06 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
AU2021102838A4 (en) * 2021-05-25 2021-07-15 ., Nikhilesh DR Self-aware continual pose estimator in act video recording and animations
CN113065533A (zh) * 2021-06-01 2021-07-02 北京达佳互联信息技术有限公司 一种特征提取模型生成方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINGRAN ZHANG 等: "Enhancing Audio-Visual Association with Self-Supervised Curriculum Learning", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
YANG LIU 等: "Temporal Contrastive Graph for Self-supervised Video Representation Learning", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
听我的错不了: "Contrastive Transformation for Self-supervised Correspondence Learning用于对应性自监督学习的对比变换", 《HTTPS://BLOG.CSDN.NET/WEIXIN_45032769/ARTICLE/DETAILS/112316565》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267087A (zh) * 2022-02-28 2022-04-01 成都考拉悠然科技有限公司 一种基于小样本机器学习模型的动作注册方法及其系统
CN114267087B (zh) * 2022-02-28 2022-05-17 成都考拉悠然科技有限公司 一种基于小样本机器学习模型的动作注册方法及其系统
CN114550098A (zh) * 2022-02-28 2022-05-27 山东大学 基于对比学习的考场监控视频异常行为检测方法及系统
CN114550098B (zh) * 2022-02-28 2024-06-11 山东大学 基于对比学习的考场监控视频异常行为检测方法及系统
CN114596312A (zh) * 2022-05-07 2022-06-07 中国科学院深圳先进技术研究院 一种视频处理方法和装置
CN115205739A (zh) * 2022-07-06 2022-10-18 中山大学·深圳 一种基于半监督学习的低光照视频行为识别方法及系统
CN115205739B (zh) * 2022-07-06 2023-11-28 中山大学·深圳 一种基于半监督学习的低光照视频行为识别方法及系统
CN115187787A (zh) * 2022-09-09 2022-10-14 清华大学 用于自监督多视图表征学习的局部流形增强的方法及装置

Also Published As

Publication number Publication date
CN113469289B (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
CN113469289B (zh) 视频自监督表征学习方法、装置、计算机设备和介质
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
CN111444878B (zh) 一种视频分类方法、装置及计算机可读存储介质
CN107861938B (zh) 一种poi文案生成方法及装置,电子设备
CN110751224B (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111708876B (zh) 生成信息的方法和装置
WO2020108396A1 (zh) 视频分类的方法以及服务器
US11868738B2 (en) Method and apparatus for generating natural language description information
CN113111814B (zh) 基于正则化约束的半监督行人重识别方法及装置
CN110619081A (zh) 一种基于交互图神经网络的新闻推送方法
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN113705811A (zh) 模型训练方法、装置、计算机程序产品及设备
WO2021103474A1 (zh) 图像的处理方法和装置、存储介质及电子装置
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
Nida et al. Video augmentation technique for human action recognition using genetic algorithm
CN117726884A (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN109933741B (zh) 用户网络行为特征提取方法、装置及存储介质
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN112560760B (zh) 一种注意力辅助的无监督视频摘要系统
CN115082840A (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
CN112926368B (zh) 一种识别障碍物的方法和装置
CN114663765A (zh) 一种基于弱监督细粒度的植物叶片识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant