CN113065533B - 一种特征提取模型生成方法、装置、电子设备和存储介质 - Google Patents

一种特征提取模型生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113065533B
CN113065533B CN202110606977.8A CN202110606977A CN113065533B CN 113065533 B CN113065533 B CN 113065533B CN 202110606977 A CN202110606977 A CN 202110606977A CN 113065533 B CN113065533 B CN 113065533B
Authority
CN
China
Prior art keywords
image
sampling
images
target
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110606977.8A
Other languages
English (en)
Other versions
CN113065533A (zh
Inventor
朱文涛
杨森
姚鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110606977.8A priority Critical patent/CN113065533B/zh
Publication of CN113065533A publication Critical patent/CN113065533A/zh
Application granted granted Critical
Publication of CN113065533B publication Critical patent/CN113065533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开关于一种特征提取模型生成方法、装置、电子设备和存储介质,该方法包括:对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像;基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像,并基于预设数目个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像,将第一个目标图像和其他目标图像作为目标图像,基于目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。该方法可以提高图像增强的有效性,并提高自监督学习的准确性。

Description

一种特征提取模型生成方法、装置、电子设备和存储介质
技术领域
本公开涉及机器学习模型技术领域,尤其涉及一种特征提取模型生成方法、装置、电子设备和存储介质。
背景技术
自监督学习是不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系的方法。自监督学习由于没有人工标注信息,因此自监督学习的重点在于如何自动为输入的数据产生标签信息,可以通过对输入的数据进行采样和数据增强的方式,对输入的数据进行区别,从而可以在特征提取时得到有效的特征信息。
相关技术中,对视频数据的数据增强通常采用相同程度的增强,而在实际的视频数据中,物体会移动,摄像机也会抖动,视频数据中的帧数据会发生模糊甚至丢失,单纯的对所有帧采用相同程度的增强不能够充分模拟视频数据中对象的动态变化或摄像头的动态变化,导致图像增强的有效性低,从而导致自监督学习的准确性低。
发明内容
本公开提供一种特征提取模型生成方法、装置、电子设备和存储介质,以至少解决相关技术中图像增强的有效性低,且自监督学习的准确性低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种特征提取模型生成方法,所述方法包括:
获取视频数据;
对所述视频数据中预设数量个目标帧位置处的图像进行采样,得到所述预设数量个采样图像;
基于预设的图像增强程度,对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像;
基于所述预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对所述其他采样图像进行图像增强处理,得到其他目标图像,所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采样图像;
将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像;
基于所述多个按序排列的目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。
作为一个可选的实施例,所述基于所述预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对所述其他采样图像进行图像增强处理,得到其他目标图像包括:
根据每个其他采样图像对应的图像增强程度,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像,所述每个其他采样图像对应的图像增强程度为基于所述上一帧采样图像对应的图像增强程度确定的增强程度。
作为一个可选的实施例,所述根据所述每个其他采样图像对应的图像增强程度,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像包括:
根据所述每个其他采样图像对应的图像增强参数,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像,所述图像增强参数表征所述每个其他采样图像对应的图像增强程度,所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。
作为一个可选的实施例,所述基于预设的图像增强程度,对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像包括:
将预设的初始图像增强参数作为所述预设的图像增强程度;
根据所述初始图像增强参数,对所述第一帧采样图像进行图像增强处理,得到第一个目标图像;
所述根据所述每个其他采样图像对应的图像增强参数,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像包括:
从所述其他采样图像中确定目标采样图像;
根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定所述目标采样图像对应的图像增强参数;
根据所述目标采样图像对应的图像增强参数,对所述目标采样图像进行图像增强处理,得到所述其他目标图像。
作为一个可选的实施例,所述对所述视频数据中预设数量个目标帧位置处的图像进行采样,得到所述预设数量个采样图像包括:
对所述视频数据中与所述预设采样参数对应的目标帧位置处的图像进行采样,得到第一帧采样图像;
将所述第一帧采样图像作为当前采样图像;
将所述预设采样参数作为当前采样参数;
根据所述当前采样图像的目标帧位置和所述当前采样参数,对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样,得到所述当前采样图像的下一采样图像;
根据所述下一采样图像,更新所述当前采样图像;
根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数中的视频采样率;
重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数,确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数的步骤,直到采样图像的数量达到所述预设数量。
作为一个可选的实施例,所述基于所述多个按序排列的目标图像,对所述待训练特征提取模型进行训练,得到视频特征提取模型还包括:
从所述多个按序排列的目标图像中获取第一数量个训练图像;
在第一训练阶段,基于所述第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型;
从所述多个按序排列的目标图像中获取第二数量个训练图像;
在第二训练阶段,基于所述第二数量个训练图像,对所述第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型;
从所述多个按序排列的目标图像中获取第三数量个训练图像;
在第三训练阶段,基于所述第三数量个训练图像,对所述第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
作为一个可选的实施例,所述基于所述多个按序排列的目标图像,对所述待训练特征提取模型进行训练,得到视频特征提取模型之后,所述方法还包括:
将所述视频数据输入到所述视频特征提取模型中进行特征提取,得到视频特征数据;
将所述视频特征数据输入到待训练视频分类模型中进行分类,得到所述视频数据对应的每个视频类别概率,所述视频类别概率表征所述视频数据属于不同的视频类别的概率;
根据所述每个视频类别概率,确定所述视频数据对应的视频类别信息;
根据所述视频类别信息和所述每个视频类别概率,确定分类损失数据;
根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据;
基于所述分类损失数据和所述标签平滑损失数据,对所述待训练视频分类模型进行训练,得到视频分类模型。
作为一个可选的实施例,所述方法还包括:
对所述预设数量个采样图像进行翻转处理或灰度化处理,得到预设数量个预处理采样图像;
基于预设的图像增强程度,对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,得到第一个目标图像;
基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度,对所述其他预处理采样图像进行图像增强处理,得到其他目标图像,所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。
根据本公开实施例的第二方面,提供一种特征提取模型生成装置,所述装置包括:
视频数据获取模块,被配置为执行获取视频数据;
采样模块,被配置为执行对所述视频数据中预设数量个目标帧位置处的图像进行采样,得到所述预设数量个采样图像;
第一图像增强模块,被配置为执行基于预设的图像增强程度,对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像;
第二图像增强模块,被配置为执行基于所述预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对所述其他采样图像进行图像增强处理,得到其他目标图像,所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采样图像;
目标图像确定模块,被配置为执行将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像;
特征提取模型训练模块,被配置为执行基于所述多个按序排列的目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。
作为一个可选的实施例,所述第二图像增强模块包括:
第二图像增强单元,被配置为执行根据每个其他采样图像对应的图像增强程度,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像,所述每个其他采样图像对应的图像增强程度为基于所述上一帧采样图像对应的图像增强程度确定的增强程度。
作为一个可选的实施例,所述第二图像增强单元包括:
参数增强处理单元,被配置为执行根据所述每个其他采样图像对应的图像增强参数,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像,所述图像增强参数表征所述每个其他采样图像对应的图像增强程度,所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。
作为一个可选的实施例,所述第一图像增强模块包括:
初始增强程度确定单元,被配置为执行将预设的初始图像增强参数作为所述预设的图像增强程度;
第一个目标图像获取单元,被配置为执行根据所述初始图像增强参数,对所述第一帧采样图像进行图像增强处理,得到第一个目标图像;
所述参数增强处理单元包括:
目标采样图像确定单元,被配置为执行从所述其他采样图像中确定目标采样图像;
图像增强参数确定单元,被配置为执行根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定所述目标采样图像对应的图像增强参数;
其他目标图像获取单元,被配置为执行根据所述目标采样图像对应的图像增强参数,对所述目标采样图像进行图像增强处理,得到所述其他目标图像。
作为一个可选的实施例,所述采样模块包括:
第一帧采样图像确定单元,被配置为执行对所述视频数据中与所述预设采样参数对应的目标帧位置处的图像进行采样,得到第一帧采样图像;并将所述第一帧采样图像作为当前采样图像;
当前采样参数确定单元,被配置为执行将所述预设采样参数作为当前采样参数;
下一采样图像确定单元,被配置为执行根据所述当前采样图像的目标帧位置和所述当前采样参数,对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样,得到所述当前采样图像的下一采样图像;
当前采样图像更新单元,被配置为执行根据所述下一采样图像,更新所述当前采样图像;
视频采样率更新单元,被配置为执行根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数中的视频采样率;
采样图像获取单元,被配置为执行重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数,确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数的步骤,直到采样图像的数量达到所述预设数量。
作为一个可选的实施例,所述特征提取模型训练模块包括:
第一训练图像获取模块,被配置为执行从所述多个按序排列的目标图像中获取第一数量个训练图像;
第一训练模块,被配置为执行在第一训练阶段,基于所述第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型;
第二训练图像获取模块,被配置为执行从所述多个按序排列的目标图像中获取第二数量个训练图像;
第二训练模块,被配置为执行在第二训练阶段,基于所述第二数量个训练图像,对所述第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型;
第三训练图像获取模块,被配置为执行从所述多个按序排列的目标图像中获取第三数量个训练图像;
第三训练模块,被配置为执行在第三训练阶段,基于所述第三数量个训练图像,对所述第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
作为一个可选的实施例,所述装置还包括:
特征提取模块,被配置为执行将所述视频数据输入到所述视频特征提取模型中进行特征提取,得到视频特征数据;
视频分类模块,被配置为执行将所述视频特征数据输入到待训练视频分类模型中进行分类,得到所述视频数据对应的每个视频类别概率,所述视频类别概率表征所述视频数据属于不同的视频类别的概率;
视频类别确定模块,被配置为执行根据所述每个视频类别概率,确定所述视频数据对应的视频类别信息;
分类损失确定模块,被配置为执行根据所述视频类别信息和所述每个视频类别概率,确定分类损失数据;
标签平滑损失确定模块,被配置为执行根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据;
分类模型训练模块,被配置为珍惜基于所述分类损失数据和所述标签平滑损失数据,对所述待训练视频分类模型进行训练,得到视频分类模型。
作为一个可选的实施例,所述装置还包括:
预处理模块,被配置为执行对所述预设数量个采样图像进行翻转处理或灰度化处理,得到预设数量个预处理采样图像;
第一预处理图像增强模块,被配置为执行基于预设的图像增强程度,对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,得到第一个目标图像;
第二预处理图像增强模块,被配置为执行基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度,对所述其他预处理采样图像进行图像增强处理,得到其他目标图像,所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述所述的一种特征提取模型生成方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述所述的一种特征提取模型生成方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现上述所述的一种特征提取模型生成方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像;基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像,并基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像,将第一个目标图像和其他目标图像作为目标图像,基于目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。该方法可以根据每一个采样图像的图像增强参数,对该采样图像进行图像增强,从而提高了图像增强的有效性,并提高增强后的图像间的帧间连续性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种视频特征提取模型生成方法的应用场景示意图。
图2是根据一示例性实施例示出的一种视频特征提取模型生成方法的流程图。
图3是根据一示例性实施例示出的一种视频特征提取模型生成方法中对视频数据进行采样的流程图。
图4是根据一示例性实施例示出的一种视频特征提取模型生成方法中对预处理采样图像和采样图像进行图像增强处理的流程图。
图5是根据一示例性实施例示出的一种视频特征提取模型生成方法中在图像增强时基于每个采样图像的图像增强参数,对采样图像进行图像增强处理的流程图。
图6是根据一示例性实施例示出的一种视频特征提取模型生成方法中训练视频分类模型的流程图。
图7是根据一示例性实施例示出的一种视频特征提取模型生成方法中对目标业务模型进行分阶段训练的流程图。
图8是根据一示例性实施例示出的一种视频特征提取模型生成装置的结构示意图。
图9是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1为根据一示例性实施例示出的一种视频特征提取模型生成方法的应用场景示意图,该应用场景包括服务器110和客户端120,服务器110获取客户端120上传的视频数据,服务器110对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像,并基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像,再基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像,将第一个目标图像和其他目标图像作为目标图像,服务器110将目标图像作为训练数据,通过自监督学习的方式生成视频特征提取模型。
在本公开实施例中,服务器110可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器110可以包括有网络通信单元、处理器和存储器等等。具体的,服务器110可以获取视频数据,对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像,并对每个采样图像分别进行图像增强处理,得到目标图像。服务器110还可以目标图像作为训练数据,通过自监督学习的方式生成视频特征提取模型。
在本发明实施例中,客户端120包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。客户端120基于API(Application Programming Interface,应用程序接口)将视频数据发送给服务器110。
图2是根据一示例性实施例示出的一种视频特征提取模型生成方法的流程图,如图2所示,该方法用于服务器中,包括以下步骤。
S210.获取视频数据;
S220.对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像。
作为一个可选的实施例,基于预设采样参数,对预设数量个目标帧位置处中的第一个帧位置处的图像进行采样,得到第一帧采样图像。基于预设数量个目标帧位置处中的其他帧位置处的上一帧位置处的图像对应的采样参数,对其他帧位置处的图像进行采样,得到其他采样图像,其他采样图像为预设数量个采样图像中除第一帧采样图像外的采样图像。
作为一个可选的实施例,请参见图3,对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像包括:
S310.对视频数据中与预设采样参数对应的目标帧位置处的图像进行采样,得到第一帧采样图像;
S320.将第一帧采样图像作为当前采样图像;
S330.将预设采样参数作为当前采样参数;
S340.根据当前采样图像的目标帧位置和当前采样参数,对当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样,得到当前采样图像的下一采样图像;
S350.根据下一采样图像,更新当前采样图像;
S360.根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视频数据的帧率,更新当前采样参数中的视频采样率;
S370.重复根据当前采样图像的目标帧位置和所述当前采样参数,确定当前采样图像的下一采样图像至根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视频数据的帧率,更新当前采样参数的步骤,直到采样图像的数量达到预设数量。
作为一个可选的实施例,在对视频数据进行采样时,利用预设采样参数只能对视频数据进行均匀采样,在视频数据中的对象处于加速运动或减速运动时,或者摄像机发生平移或抖动时,通过均匀采样得到的采样图像与视频数据在采样过程中的实际动态变化不匹配,因此可以利用分布函数模拟视频数据中对象的动态变化或坐标参考系的动态变化,从而通过视频数据在采样过程中的动态分布数据,确定采样图像的目标帧位置,得到预设数量个采样图像。
作为一个可选的实施例,预设采样参数包括预设的采样率、预设的采样图像的数量、视频数据的帧率和视频数据的帧数,根据预设采样参数,确定第一帧采样图像的目标帧位置。根据第一帧采样图像的目标帧位置,得到第一帧采样图像。将第一帧采样图像作为当前采样图像,并将预设的采样率作为当前采样参数。根据当前视频采样参数和视频数据的帧率,可以确定视频数据采集过程中的动态分布数据。根据当前采样图像的目标帧位置和动态分布数据,可以确定当前采样图像的下一采样图像的目标帧位置,动态分布数据可以确定两个相邻的采样图像间的目标帧位置的差值。根据当前采样图像的下一采样图像的目标帧位置,可以更新当前采样图像。根据当前采样图像的目标帧位置、当前采样图像的下一采样图像的目标帧位置和视频数据的帧率,可以更新当前视频采样参数。基于更新后的当前采样图像的目标帧位置和更新后的当前视频采样参数,可以确定更新后的当前采样图像的下一采样图像的目标帧位置,并可以再次对当前采样图像和当前视频采样参数进行更新,并更新动态分布数据。重复上述采样和更新的步骤直到采样图像的数量达到预设数量,根据每一个采样图像的目标帧位置,可以得到多个按序排列的采样图像。该多个按序排列的采样图像对应当前采样的视频数据。
作为一个可选的实施例,视频数据包括
Figure 121871DEST_PATH_IMAGE001
帧图像,当前采样的采样图像的数目为
Figure 620986DEST_PATH_IMAGE002
帧。当对视频数据的采样为均匀采样时,可以得到目标帧位置的均匀分布为
Figure 717118DEST_PATH_IMAGE003
,每一帧采样图像和下一帧采样图像间的采样间隔为
Figure 694301DEST_PATH_IMAGE004
。假设
Figure 825068DEST_PATH_IMAGE004
为5,当前采样图像对应的帧位置为第1帧,则下一采样图像对应的帧位置为第6帧,若此时视频数据中的对象为加速状态,或者摄像机的方向平移,或者摄像机的抖动变得剧烈,则可以根据预设的分布函数模拟视频数据中对象的动态变化或视频数据对应的参考系的动态变化,缩短采样率,实际采样的下一采样图像可以为第5帧或者第4帧。
作为一个可选的实施例,在进行非均匀采样的采样过程开始时,初始的采样率为
Figure 495084DEST_PATH_IMAGE005
帧/s,视频数据的帧率为
Figure 78512DEST_PATH_IMAGE006
,根据预设的采样率
Figure 859386DEST_PATH_IMAGE005
可以确定第一帧采样图像的目标帧位置。此时可以根据均匀分布确定第一帧采样图像的目标帧位置,即
Figure 844660DEST_PATH_IMAGE007
时对应第一帧采样图像,第一帧采样图像的目标帧位置为
Figure 685577DEST_PATH_IMAGE008
在当前采样图像不为第一帧采样图像时,可以设当前采样图像的目标帧位置为
Figure 756301DEST_PATH_IMAGE009
,则当前采样图像的下一帧采样图像的目标帧位置为
Figure 340866DEST_PATH_IMAGE010
,其中,
Figure 180646DEST_PATH_IMAGE011
的部分,也就是
Figure 702718DEST_PATH_IMAGE012
可以采用预设的分布函数进行模拟,例如高斯分布函数或拉普拉斯分布函数。
在采用高斯分布函数时,可以使用方差为
Figure 995159DEST_PATH_IMAGE013
的高斯分布函数,
Figure 383415DEST_PATH_IMAGE014
为预先定义的超参数,可以设定为
Figure 77702DEST_PATH_IMAGE015
。当前采样图像和当前采样图像的下一帧采样图像间的目标帧位置差值符合高斯分布,即
Figure 260421DEST_PATH_IMAGE016
,可以根据高斯分布得到
Figure 305738DEST_PATH_IMAGE012
的值,计算当前采样图像的下一帧采样图像间的目标帧位置。
在采用拉普拉斯分布函数时,可以使用平均绝对方差为
Figure 232105DEST_PATH_IMAGE017
的拉普拉斯分布函数,
Figure 780899DEST_PATH_IMAGE017
为预先定义的超参数,可以设定为
Figure 400099DEST_PATH_IMAGE018
。当前采样图像和当前采样图像的下一帧采样图像间的目标帧位置差值符合拉普拉斯分布,即
Figure 198290DEST_PATH_IMAGE019
,可以根据拉普拉斯分布得到Δs的值,计算当前采样图像的下一帧采样图像间的目标帧位置。
根据当前采样图像的目标帧位置、当前采样图像的下一帧采样图像的目标帧位置和视频数据的帧率,可以更新当前视频采样参数,具体的公式为
Figure 131611DEST_PATH_IMAGE020
。更新当前采样图像,将当前采样图像的下一帧采样图像作为当前采样图像。基于更新后的当前视频采样参数和视频数据的帧率,可以更新动态分布数据,从而计算当前采样图像和当前采样图像的下一帧采样图像间的目标帧位置差值,直到采样图像的数量达到预设数量。
基于视频数据采集过程中的当前采样图像的目标帧位置和当前采样参数,确定下一采样图像的目标帧位置,可以模拟视频数据中对象的动态变化和坐标参考系的动态变化,提高图像采样的准确率和平滑度。
S230.基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像;
S240.基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像,其他采样图像为预设数量个采样图像中除第一帧采样图像外的采样图像;
S250.将第一个目标图像和其他目标图像作为多个按序排列的目标图像;
作为一个可选的实施例,请参见图4,该方法还包括:
S410.对预设数量个采样图像进行翻转处理或灰度化处理,得到预设数量个预处理采样图像;
S420.基于预设的图像增强程度,对预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,得到第一个目标图像;
S430.基于预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度,对其他预处理采样图像进行图像增强处理,得到其他目标图像,其他预处理采样图像为预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。
作为一个可选的实施例,服务器可以基于预设的随机分布数据,确定是否要对视频数据对应的预设数量个采样图像进行翻转处理或灰度化处理,随机分布数据可以为伯努利分布数据。服务器在对视频数据对应的预设数量个采样图像进行翻转处理或灰度化处理时,是对预设数量个采样图像中每一个采样图像均进行翻转处理或灰度化处理。
服务器在对预设数量个采样图像进行翻转处理或灰度化处理,得到预处理采样图像,服务器可以对每个预处理采样图像进行图像增强处理,得到目标图像。在进行图像增强处理时,服务器可以基于预设的图像增强程度,对预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,并根据上一帧预处理采样图像对应的图像增强程度,对其他预处理采样图像进行图像增强处理。
服务器可以对采样图像采用不同的预处理方式,并在预处理后,对预处理采样图像多次进行不同的图像增强处理,得到多组目标图像。例如,服务器对视频数据
Figure 331649DEST_PATH_IMAGE021
对应的预设数量个采样图像
Figure 590592DEST_PATH_IMAGE022
进行图像增强处理,服务器可以对预设数量个采样图像
Figure 610500DEST_PATH_IMAGE022
进行翻转处理,得到预处理采样图像
Figure 613091DEST_PATH_IMAGE023
。服务器对预处理采样图像
Figure 169100DEST_PATH_IMAGE023
进行图像增强处理,得到一组目标图像。服务器对采样图像
Figure 333365DEST_PATH_IMAGE022
进行图像增强处理,得到另一组目标图像。或者服务器可以对预设数量个采样图像
Figure 106149DEST_PATH_IMAGE022
进行翻转处理,得到预处理采样图像
Figure 646852DEST_PATH_IMAGE023
。服务器对预处理采样图像
Figure 555902DEST_PATH_IMAGE023
进行图像增强处理,得到一组目标图像。服务器可以对预设数量个采样图像
Figure 156647DEST_PATH_IMAGE022
进行灰度化处理,得到预处理采样图像
Figure 151148DEST_PATH_IMAGE024
,服务器对预处理采样图像
Figure 26700DEST_PATH_IMAGE024
进行图像增强处理,得到另一组目标图像。服务器就可以得到两组目标图像,在后续步骤中,根据这两组目标图像进行对比学习。服务器还可以获得两组以上的目标图像。
对采样图像进行翻转处理或灰度化处理,可以简单生成与采样图像相似的预处理采样图像,从而将预处理采样图像应用到后续的对比学习中,可以提高自监督学习的准确率。
作为一个可选的实施例,基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像包括:
根据每个其他采样图像对应的图像增强程度,对每个其他采样图像进行图像增强处理,得到其他目标图像,每个其他采样图像对应的图像增强程度为基于上一帧采样图像对应的图像增强程度确定的增强程度。
作为一个可选的实施例,基于上一帧采样图像对应的图像增强程度,可以确定其他采样图像对应的图像增强程度,根据每个其他采样图像对应的图像增强程度,对每个其他采样图像进行图像增强处理,得到其他目标图像。因此,图像增强程度是一个动态变化的信息,可以表征两帧采样图像之间的动态变化,从而在进行图像增强时,将两帧采样图像之间发生的动态变化增加到图像增强中,得到目标其他图像。
根据每个其他采样图像的图像增强程度,对其他采样图像进行图像增强,可以通过图像增强程度模拟两帧采样图像之间的动态变化,使得图像增强的结果上也可以表示这种动态变化,从而在应用到后续的对比学习中,可以提高自监督学习的准确性。
作为一个可选的实施例,根据每个其他采样图像对应的图像增强程度,对每个其他采样图像进行图像增强处理,得到其他目标图像包括:
根据每个其他采样图像对应的图像增强参数,对每个其他采样图像进行图像增强处理,得到其他目标图像,图像增强参数表征每个其他采样图像对应的图像增强程度。
作为一个可选的实施例,可以通过图像增强参数表示每个其他采样图像对应的图像增强程度,图像增强参数是动态变化的图像增强参数,图像增强参数为基于每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参,图像增强参数可以包括图像缩放参数、图像裁剪参数和颜色扰动参数中的一种或多种。
例如,图像增强参数包括图像缩放参数。服务器根据每个其他采样图像的上一帧采样图像对应的图像缩放参数和预设的帧间缩放参数,确定每个其他采样图像对应的图像缩放参数。服务器根据每个采样图像对应的图像缩放参数,对每个其他采样图像进行图像缩放处理,可以得到其他目标图像。图像增强参数包括图像缩放参数和图像裁剪参数。服务器根据每个其他采样图像的上一帧采样图像对应的图像缩放参数和预设的帧间缩放参数,确定每个其他采样图像对应的图像缩放参数,并根据每个其他采样图像对应的图像缩放参数,对每个其他采样图像进行图像缩放处理,可以得到缩放后图像。服务器根据每个缩放后图像的上一个缩放后图像对应的图像裁剪参数和预设的帧间裁剪参数,确定每个缩放后图像对应的图像裁剪参数。服务器根据每个采样图像对应的图像裁剪参数,对每个缩放后图像进行图像裁剪处理,可以得到其他目标图像。
在对采样图像进行图像增强时,根据每一个采样图像的上一帧采样图像的图像增强参数,实时更新每一个采样图像的图像增强参数,从而可以模拟自然条件下视频出现的各种变形,提高图像增强的有效性。
作为一个可选的实施例,请参见图5,基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像包括:
S510.将预设的初始图像增强参数作为所述预设的图像增强程度;
S520.根据初始图像增强参数,对第一帧采样图像进行图像增强处理,得到第一个目标图像;
根据每个其他采样图像对应的图像增强参数,对每个其他采样图像进行图像增强处理,得到其他目标图像包括:
S530.从其他采样图像中确定目标采样图像;
S540.根据目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定目标采样图像对应的图像增强参数;
S550.根据目标采样图像对应的图像增强参数,对目标采样图像进行图像增强处理,得到其他目标图像。
作为一个可选的实施例,在对多个按序排列的采样图像中的第一帧采样图像进行图像增强时,服务器获取预设的初始图像增强参数,将初始图像增强参数作为第一帧采样图像对应的图像增强参数。服务器可以根据第一帧采样图像对应的图像增强参数,对第一帧采样图像进行图像增强处理,得到第一个目标图像,第一个目标图像为第一帧采样图像的增强后图像。
作为一个可选的实施例,在初始图像增强参数为初始图像缩放参数时,初始图像缩放参数可以设置为
Figure 55836DEST_PATH_IMAGE025
。在初始图像增强参数为初始图像裁剪参数时,设采样图像的尺寸信息为
Figure 561904DEST_PATH_IMAGE026
,对采样图像进行裁剪的目标为将每个采样图像变成224x224大小的规整的图像,初始图像裁剪参数可以为
Figure 309280DEST_PATH_IMAGE027
。在初始图像增强参数为初始颜色扰动参数时,初始颜色扰动参数可以为
Figure 191785DEST_PATH_IMAGE028
,分别对应为三个颜色通道的初始颜色扰动参数。
作为一个可选的实施例,服务器可以从其他采样图像中确定目标采样图像。服务器可以根据目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定目标采样图像对应的第一图像增强参数。帧间增强参数可以为预设的平滑分布数据的参数,帧间增强参数可以包括帧间缩放参数、帧间裁剪参数和帧间颜色扰动参数。平滑分布数据用来模拟相邻两帧采样图像间图像增强参数的变化,图像增强参数的变化可以包括相邻两帧采样图像间缩放参数的变化、裁剪位置的变化或者颜色扰动变化。平滑分布数据可以采用高斯分布或者拉普拉斯分布。服务器根据目标采样图像对应的图像增强参数,对目标采样图像进行图像增强处理,可以得到其他目标图像,其他目标图像为其他采样图像的增强后图像。
作为一个可选的实施例,在图像增强参数为图像缩放参数时,设目标采样图像的上一帧采样图像对应的图像缩放参数为
Figure 75428DEST_PATH_IMAGE029
,则目标采样图像对应的图像缩放参数为
Figure 752397DEST_PATH_IMAGE030
。计算目标采样图像对应的图像缩放参数的公式为
Figure 220025DEST_PATH_IMAGE031
Figure 437380DEST_PATH_IMAGE032
为高斯分布,则该高斯分布的方差为
Figure 644370DEST_PATH_IMAGE033
Figure 288978DEST_PATH_IMAGE033
为帧间缩放参数,是一个预先定义的超参数。可以从同一对象在相邻两帧采样图像中像素位置的变化来确定
Figure 214209DEST_PATH_IMAGE034
,即高斯分布对应的像素位置的变化的发生概率大于90%概率的分布区间,从而确定帧间缩放参数
Figure 969675DEST_PATH_IMAGE033
利用高斯分布模拟图像缩放参数的变化,计算目标采样图像对应的图像缩放参数的公式为:
Figure 296751DEST_PATH_IMAGE035
服务器根据高斯分布确定图像缩放参数的变化程度,从而确定
Figure 112260DEST_PATH_IMAGE036
Figure 259208DEST_PATH_IMAGE037
Figure 818365DEST_PATH_IMAGE032
为拉普拉斯分布,则该拉普拉斯分布的方差为
Figure 999948DEST_PATH_IMAGE038
Figure 986359DEST_PATH_IMAGE038
为帧间缩放参数,是一个预先定义的超参数。可以从同一对象在相邻两帧采样图像中像素位置的变化来确定
Figure 886181DEST_PATH_IMAGE039
,从而确定帧间缩放参数
Figure 983450DEST_PATH_IMAGE038
利用拉普拉斯分布模拟图像缩放参数的变化,计算目标采样图像对应的图像缩放参数的公式为:
Figure 19540DEST_PATH_IMAGE040
服务器根据拉普拉斯分布确定图像缩放参数的变化程度,从而确定
Figure 678316DEST_PATH_IMAGE036
Figure 799856DEST_PATH_IMAGE037
服务器根据目标采样图像对应的图像缩放参数
Figure 700816DEST_PATH_IMAGE030
,对目标采样图像进行缩放处理,得到其他目标图像。
作为一个可选的实施例,在图像增强参数为图像裁剪参数时,设目标采样图像的上一帧采样图像对应的图像裁剪参数为
Figure 856991DEST_PATH_IMAGE041
,则目标采样图像对应的图像裁剪参数
Figure 185204DEST_PATH_IMAGE042
,计算目标采样图像对应的图像裁剪参数的公式为
Figure 325198DEST_PATH_IMAGE043
。若
Figure 764270DEST_PATH_IMAGE032
为高斯分布,则该高斯分布的方差为
Figure 306110DEST_PATH_IMAGE044
Figure 274066DEST_PATH_IMAGE044
为帧间缩放参数,是一个预先定义的超参数。服务器可以从同一对象在相邻两帧采样图像中像素位置的变化来确定
Figure 901356DEST_PATH_IMAGE045
,即高斯分布对应的像素位置的变化大于90%概率的分布区间,从而确定帧间缩放参数
Figure 144119DEST_PATH_IMAGE044
利用高斯分布模拟图像缩放参数的变化,计算目标采样图像对应的图像裁剪参数的公式为:
Figure 304579DEST_PATH_IMAGE046
服务器根据高斯分布图像裁剪参数的变化程度,从而确定
Figure 443437DEST_PATH_IMAGE047
Figure 292444DEST_PATH_IMAGE048
Figure 807739DEST_PATH_IMAGE032
为拉普拉斯分布,则该拉普拉斯分布的方差为
Figure 324171DEST_PATH_IMAGE049
Figure 633929DEST_PATH_IMAGE049
为帧间裁剪参数,是一个预先定义的超参数。可以从同一对象在相邻两帧采样图像中像素位置的变化来确定
Figure 970233DEST_PATH_IMAGE050
,从而确定帧间缩放参数
Figure 23639DEST_PATH_IMAGE049
。利用拉普拉斯分布模拟图像裁剪参数的变化,计算目标采样图像对应的图像裁剪参数的公式为:
Figure 394578DEST_PATH_IMAGE051
服务器根据拉普拉斯分布确定图像裁剪参数的变化程度,从而确定
Figure 875238DEST_PATH_IMAGE047
Figure 964417DEST_PATH_IMAGE048
服务器根据目标采样图像对应的图像裁剪参数
Figure 555935DEST_PATH_IMAGE052
,对目标采样图像进行裁剪处理,得到其他目标图像。
作为一个可选的实施例,在图像增强参数为颜色扰动参数时,设目标采样图像的上一帧采样图像对应的颜色扰动参数为:
Figure 46959DEST_PATH_IMAGE053
则对于目标采样图像对应的颜色扰动参数为:
Figure 698520DEST_PATH_IMAGE054
计算目标采样图像对应的颜色扰动参数的公式为:
Figure 9416DEST_PATH_IMAGE055
。若
Figure 437248DEST_PATH_IMAGE032
为高斯分布,则该高斯分布的方差为
Figure 251621DEST_PATH_IMAGE056
Figure 605242DEST_PATH_IMAGE056
为帧间颜色扰动参数,是一个预先定义的超参数。可以根据经验值,从同一对象在相邻两帧采样图像中像素值的变化来确定
Figure 872275DEST_PATH_IMAGE057
,即高斯分布对应的像素值的变化发生概率大于90%概率的分布区间,从而确定帧间颜色扰动参数
Figure 602334DEST_PATH_IMAGE056
利用高斯分布模拟颜色扰动参数的变化,计算目标采样图像对应的颜色扰动参数的公式为:
Figure 271212DEST_PATH_IMAGE058
服务器根据高斯分布确定颜色扰动参数的变化程度,从而确定
Figure 795735DEST_PATH_IMAGE059
Figure 550064DEST_PATH_IMAGE060
Figure 83813DEST_PATH_IMAGE061
Figure 607199DEST_PATH_IMAGE032
为拉普拉斯分布,则该拉普拉斯分布的方差为
Figure 302622DEST_PATH_IMAGE062
Figure 544248DEST_PATH_IMAGE062
为帧间颜色扰动参数,是一个预先定义的超参数。可以根据经验值,从同一对象在相邻两帧采样图像中像素值的变化来确定
Figure 616109DEST_PATH_IMAGE063
,从而确定帧间颜色扰动参数
Figure 994001DEST_PATH_IMAGE062
。利用拉普拉斯分布模拟图像颜色扰动参数的变化,计算目标采样图像对应的颜色扰动参数的公式为:
Figure 125905DEST_PATH_IMAGE064
服务器根据拉普拉斯分布确定颜色扰动参数的变化程度,从而确定
Figure 589247DEST_PATH_IMAGE059
Figure 963334DEST_PATH_IMAGE060
Figure 195733DEST_PATH_IMAGE061
服务器根据目标采样图像对应的颜色扰动参数
Figure 498538DEST_PATH_IMAGE065
,对目标采样图像中的像素点进行颜色偏移处理,得到其他目标图像。
将第一个目标图像和其他目标图像作为目标图像,在将目标图像输入到待训练特征提取模型中进行模型训练之前,可以对目标图像进行高斯模糊处理。
基于每一个采样图像的上一帧采样图像的图像增强参数,以及预设的平滑分布数据模拟得到的帧间增强参数,确定每一个采样图像的图像增强参数,根据每一个采样图像的图像增强参数,对该采样图像进行图像增强,从而提高了图像增强的有效性,同时由于考虑到了帧间增强参数,因此也可以提高增强后的图像间的帧间连续性。
S260.基于多个按序排列的目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。
作为一个可选的实施例,服务器可以采用自监督学习的方式,对视频数据的特征进行学习,待训练特征提取模型。服务器将目标图像输入到待训练特征提取模型中进行特征提取,得到目标图像对应的训练特征数据。目标图像可以有多组,因此训练特征模型也可以有多组。选择一个目标视频数据,目标视频数据的其中一组目标图像与目标视频数据的另一组目标图像相似,目标视频数据的其中一组目标图像与其他视频数据的各组目标图像均不相似,因此可以将目标图像输入到待训练特征提取模型中,通过相似图像间的对比以及非相似图像间的对比,可以对待训练特征提取模型进行训练,得到视频特征提取模型。
作为一个可选的实施例,在输入为两组目标图像时,可以得到两组目标图像分别对应的第一训练特征数据和第二训练特征数据。服务器可以计算第一训练特征数据和第二训练特征数据间的损失数据
Figure 449176DEST_PATH_IMAGE066
。损失数据
Figure 862840DEST_PATH_IMAGE066
的计算公式为:
Figure 746483DEST_PATH_IMAGE067
其中,
Figure 689031DEST_PATH_IMAGE068
为两组目标图像中一组目标图像对应的第一训练特征数据,
Figure 658124DEST_PATH_IMAGE069
为两组目标图像中另一组目标图像对应的第二训练特征数据,
Figure 344320DEST_PATH_IMAGE070
为与
Figure 82469DEST_PATH_IMAGE068
不相同的训练特征数据。
Figure 195918DEST_PATH_IMAGE071
为加快模型训练的温度参数,一般可以取0.1。
Figure 652308DEST_PATH_IMAGE072
Figure 876616DEST_PATH_IMAGE073
可以用内积公式
Figure 734850DEST_PATH_IMAGE074
进行计算。具体公式如下:
Figure 753622DEST_PATH_IMAGE075
其中,
Figure 198772DEST_PATH_IMAGE076
表示向量
Figure 226771DEST_PATH_IMAGE077
Figure 939512DEST_PATH_IMAGE078
范数,
Figure 394764DEST_PATH_IMAGE079
表征向量
Figure 560166DEST_PATH_IMAGE080
Figure 126276DEST_PATH_IMAGE078
范数,
Figure 959103DEST_PATH_IMAGE078
范数定义为向量所有元素的平方和的开平方。
Figure 116415DEST_PATH_IMAGE081
表示向量
Figure 237955DEST_PATH_IMAGE077
的转置。
服务器基于损失数据
Figure 873336DEST_PATH_IMAGE066
,对待训练特征提取模型进行训练,得到视频特征提取模型。
在自监督学习中,通过对比学习的方式学习视频特征,生成视频特征提取模型,可以不需要人工标注信息,从而减少人工成本,缩短模型开发周期。
作为一个可选的实施例,请参见图6,基于多个按序排列的目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型包括:
S610.从多个按序排列的目标图像中获取第一数量个训练图像;
S620.在第一训练阶段,基于第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型;
S630.从多个按序排列的目标图像中获取第二数量个训练图像;
S640.在第二训练阶段,基于第二数量个训练图像,对第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型;
S650.从多个按序排列的目标图像中获取第三数量个训练图像;
S660.在第三训练阶段,基于第三数量个训练图像,对第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
作为一个可选的实施例,服务器在对待训练特征提取模型、待训练分类模型等模型进行训练时,可以采用分阶段训练的方式进行训练。服务器可以从多个目标图像中获取第一数量个训练图像,第一数量个训练图像的数量少于目标图像的总数量。在第一训练阶段,服务器基于第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型。服务器固定第一待训练模型中前预设数目层神经网络的参数,将第一待训练模型中前预设数目层神经网络作为特征提取网络。服务器从多个目标图像中获取第二数量个训练图像,第二数量个训练图像的数量少于目标图像的总数量,第二数量个训练图像的数量大于第一数量个训练图像的数量。在第二训练阶段,服务器基于第二数量个训练图像,对第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型。
服务器固定第二待训练模型中后预设数目层神经网络的参数,将第二待训练模型中后预设数目层神经网络作为非特征提取网络。服务器从多个目标图像中获取第三数量个训练图像,第三数量个训练图像的数量少于目标图像的总数量,第三数量个训练图像的数量可以大于第一数量个训练图像的数量。在第三训练阶段,服务器基于第三数量个训练图像,对第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
服务器在分阶段训练目标业务模型时,也可以交替重复第二训练阶段和第三训练阶段多次,直到目标业务模型中的模型参数符合预期参数。
采用多阶段训练的方式,训练得到目标业务模型,每次可以使用少量数据进行训练,从而可以减少内存占用,并提高模型训练的效率。
作为一个可选的实施例,请参见图7,基于多个按序排列的目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型之后,该方法还:
S710.将视频数据输入到所述视频特征提取模型中进行特征提取,得到视频特征数据;
S720.将视频特征数据输入到待训练视频分类模型中进行分类,得到视频数据对应的每个视频类别概率;
S730.根据每个视频类别概率,确定视频数据对应的视频类别信息;
S740.根据视频类别信息和每个视频类别概率,确定分类损失数据;
S750.根据视频类别信息、每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据;
S760.基于分类损失数据和标签平滑损失数据,对待训练视频分类模型进行训练,得到视频分类模型。
作为一个可选的实施例,在得到视频特征提取模型后,可以应用于视频分类场景。服务器将视频数据输入到视频特征提取模型中进行特征提取,得到视频特征数据。服务器将视频特征数据输入到待训练视频分类模型中进行分类,可以得到视频数据对应的每个视频类别概率,视频类别概率表征视频数据属于不同的视频类别的概率。
服务器根据每个视频类别概率,确定视频数据对应的视频类别信息,并根据视频类别信息和每个视频类别概率,确定分类损失数据。分类损失数据的具体公式如下:
Figure 29510DEST_PATH_IMAGE082
其中,
Figure 623303DEST_PATH_IMAGE083
表示视频类别的数目,
Figure 232139DEST_PATH_IMAGE084
为标签信息,标签信息包括0和1,0表示不属于该视频类别,1表示属于该视频类别。
Figure 671210DEST_PATH_IMAGE085
表示视频类别概率。
服务器预设的标签平滑参数
Figure 681892DEST_PATH_IMAGE086
可以取0.1,加入标签平滑参数后,表示的标签信息包括
Figure 691260DEST_PATH_IMAGE087
Figure 787392DEST_PATH_IMAGE088
,
Figure 30154DEST_PATH_IMAGE088
表示不属于该视频类别,
Figure 895342DEST_PATH_IMAGE087
表示属于该视频类别。服务器可以根据视频类别信息、每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据。标签平滑损失数据对应的公式与分类损失数据对应的公式相同。
服务器根据分类损失数据和标签平滑损失数据,对待训练视频分类模型进行训练,可以得到视频分类模型。
基于分类损失数据和标签平滑损失数据,训练得到视频分类模型,通过标签平滑可以减少错误标签,提高视频分类的准确性。
本公开实施例在生成视频特征提取模型后,服务器可以基于视频特征提取模型从视频数据中提取视频特征数据,将视频特征数据输入到待训练视频分类模型等待训练业务模型中,训练得到视频分类模型等目标业务模型。服务器可以基于目标业务模型对视频数据进行视频分析,根据视频分析的结果生成推荐信息或者广告信息等,将推荐信息或广告信息发送到客户端。
本公开实施例提出了一种视频特征提取模型生成方法,该方法包括:对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像;基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像,并基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像,将第一个目标图像和其他目标图像作为目标图像,基于目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。该方法可以模拟视频数据中对象的动态变化和坐标参考系的动态变化,提高图像采样的准确率和平滑度,该方法还可以根据每一个采样图像的图像增强参数,对该采样图像进行图像增强,从而提高了图像增强的有效性,并提高增强后的图像间的帧间连续性。该方法还可以通过标签平滑的方式提高视频分类的准确率,并通过分阶段训练的方式提高模型训练的效率。
图8是根据一示例性实施例示出的一种视频特征提取模型生成装置框图。参照图8,该装置包括:
视频数据获取模块810,被配置为执行获取视频数据;
采样模块820,被配置为执行对视频数据中预设数量个目标帧位置处的图像进行采样,得到预设数量个采样图像;
第一图像增强模块830,被配置为执行基于预设的图像增强程度,对预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像;
第二图像增强模块840,被配置为执行基于预设数量个采样图像中的其他采样图像的上一帧采样图像对应的图像增强程度,对其他采样图像进行图像增强处理,得到其他目标图像,其他采样图像为预设数量个采样图像中除第一帧采样图像外的采样图像;
目标图像确定模块850,被配置为执行将第一个目标图像和其他目标图像作为多个按序排列的目标图像;
特征提取模型训练模块860,被配置为执行基于多个按序排列的目标图像,对待训练特征提取模型进行训练,得到视频特征提取模型。
作为一个可选的实施例,第二图像增强模块840包括:
第二图像增强单元,被配置为执行根据每个其他采样图像对应的图像增强程度,对每个其他采样图像进行图像增强处理,得到其他目标图像,每个其他采样图像对应的图像增强程度为基于上一帧采样图像对应的图像增强程度确定的增强程度。
作为一个可选的实施例,第二图像增强单元包括:
参数增强处理单元,被配置为执行根据每个其他采样图像对应的图像增强参数,对每个其他采样图像进行图像增强处理,得到其他目标图像,图像增强参数表征每个其他采样图像对应的图像增强程度,图像增强参数为基于每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。
作为一个可选的实施例,第一图像增强模块850包括:
初始增强程度确定单元,被配置为执行将预设的初始图像增强参数作为预设的图像增强程度;
第一个目标图像获取单元,被配置为执行根据初始图像增强参数,对第一帧采样图像进行图像增强处理,得到第一个目标图像;
参数增强处理单元包括:
目标采样图像确定单元,被配置为执行从其他采样图像中确定目标采样图像;
图像增强参数确定单元,被配置为执行根据目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定目标采样图像对应的图像增强参数;
其他目标图像获取单元,被配置为执行根据目标采样图像对应的图像增强参数,对目标采样图像进行图像增强处理,得到其他目标图像。
作为一个可选的实施例,采样模块820包括:
第一帧采样图像确定单元,被配置为执行对视频数据中与预设采样参数对应的目标帧位置处的图像进行采样,得到第一帧采样图像;并将第一帧采样图像作为当前采样图像;
当前采样参数确定单元,被配置为执行将预设采样参数作为当前采样参数;
下一采样图像确定单元,被配置为执行根据当前采样图像的目标帧位置和当前采样参数,对当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样,得到当前采样图像的下一采样图像;
当前采样图像更新单元,被配置为执行根据下一采样图像,更新当前采样图像;
视频采样率更新单元,被配置为执行根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视频数据的帧率,更新当前采样参数中的视频采样率;
采样图像获取单元,被配置为执行重复根据当前采样图像的目标帧位置和当前采样参数,确定当前采样图像的下一采样图像至根据当前采样图像的目标帧位置、下一采样图像的目标帧位置和视频数据的帧率,更新当前采样参数的步骤,直到采样图像的数量达到预设数量。
作为一个可选的实施例,特征提取模型训练模块860包括:
第一训练图像获取模块,被配置为执行从多个按序排列的目标图像中获取第一数量个训练图像;
第一训练模块,被配置为执行在第一训练阶段,基于第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型;
第二训练图像获取模块,被配置为执行从多个按序排列的目标图像中获取第二数量个训练图像;
第二训练模块,被配置为执行在第二训练阶段,基于第二数量个训练图像,对第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型;
第三训练图像获取模块,被配置为执行从多个按序排列的目标图像中获取第三数量个训练图像;
第三训练模块,被配置为执行在第三训练阶段,基于第三数量个训练图像,对第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
作为一个可选的实施例,该装置还包括:
特征提取模块,被配置为执行将视频数据输入到视频特征提取模型中进行特征提取,得到视频特征数据;
视频分类模块,被配置为执行将视频特征数据输入到待训练视频分类模型中进行分类,得到视频数据对应的每个视频类别概率,视频类别概率表征视频数据属于不同的视频类别的概率;
视频类别确定模块,被配置为执行根据每个视频类别概率,确定视频数据对应的视频类别信息;
分类损失确定模块,被配置为执行根据视频类别信息和每个视频类别概率,确定分类损失数据;
标签平滑损失确定模块,被配置为执行根据视频类别信息、每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据;
分类模型训练模块,被配置为珍惜基于分类损失数据和标签平滑损失数据,对待训练视频分类模型进行训练,得到视频分类模型。
作为一个可选的实施例,该装置还包括:
预处理模块,被配置为执行对预设数量个采样图像进行翻转处理或灰度化处理,得到预设数量个预处理采样图像;
第一预处理图像增强模块,被配置为执行基于预设的图像增强程度,对预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,得到第一个目标图像;
第二预处理图像增强模块,被配置为执行基于预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度,对其他预处理采样图像进行图像增强处理,得到其他目标图像,其他预处理采样图像为预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种用于生成特征提取模型的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征提取模型的生成方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以实现一种特征提取模型的生成方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述的一种特征提取模型生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种特征提取模型生成方法,其特征在于,所述方法包括:
获取视频数据;
对所述视频数据中预设数量个目标帧位置处的图像进行采样,得到所述预设数量个采样图像;
基于预设的图像增强程度,对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像;
根据所述预设数量个采样图像中每个其他采样图像对应的图像增强程度,对所述每个其他采样图像进行图像增强处理,得到其他目标图像,所述每个其他采样图像对应的图像增强程度为基于所述每个其他采样图像的上一帧采样图像对应的图像增强程度确定的增强程度,所述每个其他采样图像对应的图像增强程度用于模拟两帧采样图像之间的动态变化,所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采样图像;
将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像;
基于至少两组多个按序排列的目标图像,对待训练特征提取模型进行对比学习训练,得到视频特征提取模型。
2.根据权利要求1所述的特征提取模型生成方法,其特征在于,所述根据所述每个其他采样图像对应的图像增强程度,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像包括:
根据所述每个其他采样图像对应的图像增强参数,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像,所述图像增强参数表征所述每个其他采样图像对应的图像增强程度,所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。
3.根据权利要求2所述的特征提取模型生成方法,其特征在于,所述基于预设的图像增强程度,对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像包括:
将预设的初始图像增强参数作为所述预设的图像增强程度;
根据所述初始图像增强参数,对所述第一帧采样图像进行图像增强处理,得到第一个目标图像;
所述根据所述每个其他采样图像对应的图像增强参数,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像包括:
从所述其他采样图像中确定目标采样图像;
根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定所述目标采样图像对应的图像增强参数;
根据所述目标采样图像对应的图像增强参数,对所述目标采样图像进行图像增强处理,得到所述其他目标图像。
4.根据权利要求1所述的特征提取模型生成方法,其特征在于,所述对所述视频数据中预设数量个目标帧位置处的图像进行采样,得到所述预设数量个采样图像包括:
对所述视频数据中与预设采样参数对应的目标帧位置处的图像进行采样,得到第一帧采样图像;
将所述第一帧采样图像作为当前采样图像;
将所述预设采样参数作为当前采样参数;
根据所述当前采样图像的目标帧位置和所述当前采样参数,对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样,得到所述当前采样图像的下一采样图像;
根据所述下一采样图像,更新所述当前采样图像;
根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数中的视频采样率;
重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数,确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数的步骤,直到采样图像的数量达到所述预设数量。
5.根据权利要求1所述的特征提取模型生成方法,其特征在于,所述基于所述多个按序排列的目标图像,对所述待训练特征提取模型进行训练,得到视频特征提取模型还包括:
从所述多个按序排列的目标图像中获取第一数量个训练图像;
在第一训练阶段,基于所述第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型;
从所述多个按序排列的目标图像中获取第二数量个训练图像;
在第二训练阶段,基于所述第二数量个训练图像,对所述第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型;
从所述多个按序排列的目标图像中获取第三数量个训练图像;
在第三训练阶段,基于所述第三数量个训练图像,对所述第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
6.根据权利要求1所述的特征提取模型生成方法,其特征在于,所述基于所述多个按序排列的目标图像,对所述待训练特征提取模型进行训练,得到视频特征提取模型之后,所述方法还包括:
将所述视频数据输入到所述视频特征提取模型中进行特征提取,得到视频特征数据;
将所述视频特征数据输入到待训练视频分类模型中进行分类,得到所述视频数据对应的每个视频类别概率,所述视频类别概率表征所述视频数据属于不同的视频类别的概率;
根据所述每个视频类别概率,确定所述视频数据对应的视频类别信息;
根据所述视频类别信息和所述每个视频类别概率,确定分类损失数据;
根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据;
基于所述分类损失数据和所述标签平滑损失数据,对所述待训练视频分类模型进行训练,得到视频分类模型。
7.根据权利要求1所述的特征提取模型生成方法,其特征在于,所述方法还包括:
对所述预设数量个采样图像进行翻转处理或灰度化处理,得到预设数量个预处理采样图像;
基于预设的图像增强程度,对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,得到第一个目标图像;
基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度,对所述其他预处理采样图像进行图像增强处理,得到其他目标图像,所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。
8.一种特征提取模型生成装置,其特征在于,所述装置包括:
视频数据获取模块,被配置为执行获取视频数据;
采样模块,被配置为执行对所述视频数据中预设数量个目标帧位置处的图像进行采样,得到所述预设数量个采样图像;
第一图像增强模块,被配置为执行基于预设的图像增强程度,对所述预设数量个采样图像中的第一帧采样图像进行图像增强处理,得到第一个目标图像;
第二图像增强模块,被配置为执行根据所述预设数量个采样图像中每个其他采样图像对应的图像增强程度,对所述每个其他采样图像进行图像增强处理,得到其他目标图像,所述每个其他采样图像对应的图像增强程度为基于所述每个其他采样图像的上一帧采样图像对应的图像增强程度确定的增强程度,所述每个其他采样图像对应的图像增强程度用于模拟两帧采样图像之间的动态变化,所述其他采样图像为所述预设数量个采样图像中除第一帧采样图像外的采样图像;
目标图像确定模块,被配置为执行将所述第一个目标图像和所述其他目标图像作为多个按序排列的目标图像;
特征提取模型训练模块,被配置为执行基于至少两组多个按序排列的目标图像,对待训练特征提取模型进行对比学习训练,得到视频特征提取模型。
9.根据权利要求8所述的特征提取模型生成装置,其特征在于,所述第二图像增强单元包括:
参数增强处理单元,被配置为执行根据所述每个其他采样图像对应的图像增强参数,对所述每个其他采样图像进行图像增强处理,得到所述其他目标图像,所述图像增强参数表征所述每个其他采样图像对应的图像增强程度,所述图像增强参数为基于所述每个其他采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数进行更新的参数。
10.根据权利要求9所述的特征提取模型生成装置,其特征在于,所述第一图像增强模块包括:
初始增强程度确定单元,被配置为执行将预设的初始图像增强参数作为所述预设的图像增强程度;
第一个目标图像获取单元,被配置为执行根据所述初始图像增强参数,对所述第一帧采样图像进行图像增强处理,得到第一个目标图像;
所述参数增强处理单元包括:
目标采样图像确定单元,被配置为执行从所述其他采样图像中确定目标采样图像;
图像增强参数确定单元,被配置为执行根据所述目标采样图像的上一帧采样图像对应的图像增强参数和预设的帧间增强参数,确定所述目标采样图像对应的图像增强参数;
其他目标图像获取单元,被配置为执行根据所述目标采样图像对应的图像增强参数,对所述目标采样图像进行图像增强处理,得到所述其他目标图像。
11.根据权利要求8所述的特征提取模型生成装置,其特征在于,所述采样模块包括:
第一帧采样图像确定单元,被配置为执行对所述视频数据中与预设采样参数对应的目标帧位置处的图像进行采样,得到第一帧采样图像;并将所述第一帧采样图像作为当前采样图像;
当前采样参数确定单元,被配置为执行将所述预设采样参数作为当前采样参数;
下一采样图像确定单元,被配置为执行根据所述当前采样图像的目标帧位置和所述当前采样参数,对所述当前采样图像的目标帧位置的下一目标帧位置处的图像进行采样,得到所述当前采样图像的下一采样图像;
当前采样图像更新单元,被配置为执行根据所述下一采样图像,更新所述当前采样图像;
视频采样率更新单元,被配置为执行根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数中的视频采样率;
采样图像获取单元,被配置为执行重复所述根据所述当前采样图像的目标帧位置和所述当前采样参数,确定所述当前采样图像的下一采样图像至所述根据所述当前采样图像的目标帧位置、所述下一采样图像的目标帧位置和所述视频数据的帧率,更新所述当前采样参数的步骤,直到采样图像的数量达到所述预设数量。
12.根据权利要求8所述的特征提取模型生成装置,其特征在于,所述特征提取模型训练模块包括:
第一训练图像获取模块,被配置为执行从所述多个按序排列的目标图像中获取第一数量个训练图像;
第一训练模块,被配置为执行在第一训练阶段,基于所述第一数量个训练图像,对待训练业务模型进行训练,得到第一待训练模型;
第二训练图像获取模块,被配置为执行从所述多个按序排列的目标图像中获取第二数量个训练图像;
第二训练模块,被配置为执行在第二训练阶段,基于所述第二数量个训练图像,对所述第一待训练模型中的非特征提取网络进行训练,得到第二待训练模型;
第三训练图像获取模块,被配置为执行从所述多个按序排列的目标图像中获取第三数量个训练图像;
第三训练模块,被配置为执行在第三训练阶段,基于所述第三数量个训练图像,对所述第二待训练模型中的特征提取网络进行训练,得到目标业务模型。
13.根据权利要求8所述的特征提取模型生成装置,其特征在于,所述装置还包括:
特征提取模块,被配置为执行将所述视频数据输入到所述视频特征提取模型中进行特征提取,得到视频特征数据;
视频分类模块,被配置为执行将所述视频特征数据输入到待训练视频分类模型中进行分类,得到所述视频数据对应的每个视频类别概率,所述视频类别概率表征所述视频数据属于不同的视频类别的概率;
视频类别确定模块,被配置为执行根据所述每个视频类别概率,确定所述视频数据对应的视频类别信息;
分类损失确定模块,被配置为执行根据所述视频类别信息和所述每个视频类别概率,确定分类损失数据;
标签平滑损失确定模块,被配置为执行根据所述视频类别信息、所述每个视频类别概率和预设的标签平滑参数,确定标签平滑损失数据;
分类模型训练模块,被配置为珍惜基于所述分类损失数据和所述标签平滑损失数据,对所述待训练视频分类模型进行训练,得到视频分类模型。
14.根据权利要求8所述的特征提取模型生成装置,其特征在于,所述装置还包括:
预处理模块,被配置为执行对所述预设数量个采样图像进行翻转处理或灰度化处理,得到预设数量个预处理采样图像;
第一预处理图像增强模块,被配置为执行基于预设的图像增强程度,对所述预设数量个预处理采样图像中的第一帧预处理采样图像进行图像增强处理,得到第一个目标图像;
第二预处理图像增强模块,被配置为执行基于所述预设数量个预处理采样图像中的其他预处理采样图像的上一帧预处理采样图像对应的图像增强程度,对所述其他预处理采样图像进行图像增强处理,得到其他目标图像,所述其他预处理采样图像为所述预设数量个预处理采样图像中除第一帧预处理采样图像外的采样图像。
15.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的一种特征提取模型生成方法。
16.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的一种特征提取模型生成方法。
17.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至7任一项所述的一种特征提取模型生成方法。
CN202110606977.8A 2021-06-01 2021-06-01 一种特征提取模型生成方法、装置、电子设备和存储介质 Active CN113065533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110606977.8A CN113065533B (zh) 2021-06-01 2021-06-01 一种特征提取模型生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606977.8A CN113065533B (zh) 2021-06-01 2021-06-01 一种特征提取模型生成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113065533A CN113065533A (zh) 2021-07-02
CN113065533B true CN113065533B (zh) 2021-11-02

Family

ID=76568814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606977.8A Active CN113065533B (zh) 2021-06-01 2021-06-01 一种特征提取模型生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113065533B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822325A (zh) * 2021-07-22 2021-12-21 腾讯科技(深圳)有限公司 图像特征的监督学习方法、装置、设备及存储介质
CN113469289B (zh) * 2021-09-01 2022-01-25 成都考拉悠然科技有限公司 视频自监督表征学习方法、装置、计算机设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108366295A (zh) * 2018-02-12 2018-08-03 北京印刷学院 视频分类特征提取方法、转码重压缩检测方法及存储介质
CN110457524A (zh) * 2019-07-12 2019-11-15 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法及装置
CN111489378A (zh) * 2020-06-28 2020-08-04 腾讯科技(深圳)有限公司 视频帧特征提取方法、装置、计算机设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103692B (zh) * 2011-03-17 2012-07-18 电子科技大学 一种指纹图像增强方法
CN104700378A (zh) * 2013-12-05 2015-06-10 大连掌控科技有限公司 基于遗传算法的低照度视频图像处理方法
CN106257490A (zh) * 2016-07-20 2016-12-28 乐视控股(北京)有限公司 检测行驶车辆信息的方法及系统
CN107766781B (zh) * 2016-08-19 2020-10-02 清华大学深圳研究生院 一种快速心电身份识别的方法及其系统
CN106650721B (zh) * 2016-12-28 2019-08-13 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN109977738B (zh) * 2017-12-28 2023-07-25 深圳Tcl新技术有限公司 一种视频场景分割判断方法、智能终端及存储介质
CN108446617B (zh) * 2018-03-09 2022-04-22 华南理工大学 抗侧脸干扰的人脸快速检测方法
CN111274422A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 模型训练方法、图像特征提取方法、装置及电子设备
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN110347873B (zh) * 2019-06-26 2023-04-07 Oppo广东移动通信有限公司 视频分类方法、装置、电子设备及存储介质
CN110674854B (zh) * 2019-09-09 2022-05-17 东软集团股份有限公司 一种图像分类模型训练方法、图像分类方法、装置及设备
CN110929099B (zh) * 2019-11-28 2023-07-21 杭州小影创新科技股份有限公司 一种基于多任务学习的短视频帧语义提取方法及系统
CN111046232B (zh) * 2019-11-30 2024-06-14 北京达佳互联信息技术有限公司 一种视频分类方法、装置及系统
US11138441B2 (en) * 2019-12-06 2021-10-05 Baidu Usa Llc Video action segmentation by mixed temporal domain adaption
CN111898701B (zh) * 2020-08-13 2023-07-25 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN112086197B (zh) * 2020-09-04 2022-05-10 厦门大学附属翔安医院 基于超声医学的乳腺结节检测方法及系统
CN112232384A (zh) * 2020-09-27 2021-01-15 北京迈格威科技有限公司 模型训练方法、图像特征提取方法、目标检测方法和装置
CN112215244A (zh) * 2020-11-02 2021-01-12 同方威视科技江苏有限公司 货物图像检测方法、装置、设备及存储介质
CN112488071B (zh) * 2020-12-21 2021-10-26 重庆紫光华山智安科技有限公司 提取行人特征的方法、装置、电子设备和存储介质
CN112734641B (zh) * 2020-12-31 2024-05-31 百果园技术(新加坡)有限公司 目标检测模型的训练方法、装置、计算机设备及介质
CN112819858B (zh) * 2021-01-29 2024-03-22 北京博雅慧视智能技术研究院有限公司 基于视频增强的目标跟踪方法、装置、设备及存储介质
CN112560822B (zh) * 2021-02-23 2021-05-14 江苏聆世科技有限公司 一种基于卷积神经网络的道路声信号分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108366295A (zh) * 2018-02-12 2018-08-03 北京印刷学院 视频分类特征提取方法、转码重压缩检测方法及存储介质
CN110457524A (zh) * 2019-07-12 2019-11-15 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法及装置
CN111489378A (zh) * 2020-06-28 2020-08-04 腾讯科技(深圳)有限公司 视频帧特征提取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113065533A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US10776970B2 (en) Method and apparatus for processing video image and computer readable medium
CN108898186B (zh) 用于提取图像的方法和装置
CN109145781B (zh) 用于处理图像的方法和装置
WO2018019126A1 (zh) 视频类别识别方法和装置、数据处理装置和电子设备
WO2022142450A1 (zh) 用于图像分割模型训练和图像分割的方法及装置
CN112287820A (zh) 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN113065533B (zh) 一种特征提取模型生成方法、装置、电子设备和存储介质
CN112270686B (zh) 图像分割模型训练、图像分割方法、装置及电子设备
CN110910391A (zh) 一种双模块神经网络结构视频对象分割方法
WO2023050650A1 (zh) 动画视频生成方法、装置、设备及存储介质
CN110490959B (zh) 三维图像处理方法及装置、虚拟形象生成方法以及电子设备
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN113610069B (zh) 基于知识蒸馏的目标检测模型训练方法
WO2021184754A1 (zh) 视频对比方法、装置、计算机设备和存储介质
CN113989556B (zh) 一种小样本医学影像分类方法和系统
CN113128478A (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN114005019B (zh) 一种翻拍图像识别方法及其相关设备
CN113283334B (zh) 一种课堂专注度分析方法、装置和存储介质
CN109919214A (zh) 一种神经网络模型的训练方法及训练装置
CN113159146A (zh) 样本生成、目标检测模型训练、目标检测方法及装置
CN110996128B (zh) 在线教学视频推送管理系统
CN112070181A (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN110633641A (zh) 一种智能安防行人检测方法、系统、装置及存储介质
CN113763313A (zh) 文本图像的质量检测方法、装置、介质及电子设备
CN112434698A (zh) 字符识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant