CN112966584A - 一种运动感知模型的训练方法、装置、电子设备及存储介质 - Google Patents

一种运动感知模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112966584A
CN112966584A CN202110223264.3A CN202110223264A CN112966584A CN 112966584 A CN112966584 A CN 112966584A CN 202110223264 A CN202110223264 A CN 202110223264A CN 112966584 A CN112966584 A CN 112966584A
Authority
CN
China
Prior art keywords
information
feature
machine learning
learning model
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110223264.3A
Other languages
English (en)
Other versions
CN112966584B (zh
Inventor
李嘉茂
王贤舜
朱冬晨
张晓林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microsystem and Information Technology of CAS
Original Assignee
Shanghai Institute of Microsystem and Information Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microsystem and Information Technology of CAS filed Critical Shanghai Institute of Microsystem and Information Technology of CAS
Priority to CN202110223264.3A priority Critical patent/CN112966584B/zh
Publication of CN112966584A publication Critical patent/CN112966584A/zh
Application granted granted Critical
Publication of CN112966584B publication Critical patent/CN112966584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种运动感知模型的训练方法、装置、电子设备及存储介质,包括获取训练图像组集合和每一训练图像组对应的标签光流信息,对每一训练图像组进行特征提取处理,确定多个目标特征图集,从每一目标特征图集中,确定每一训练图像组对应的预测光流信息,根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息,基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。本申请可以监督中间的特征层的采样所得到感知信息,提高模型输出的运动状态的精确性。

Description

一种运动感知模型的训练方法、装置、电子设备及存储介质
技术领域
本发明涉及深度学习领域,尤其涉及一种运动感知模型的训练方法、装置、电子设备及设存储介质。
背景技术
随着深度学习技术的不断发展,人们使用神经网络对运动物体进行分割,现有基于神经网络对运动物体进行感知的方法,主要是基于Tokmakov提出的一种运动显著性估计的网络结构,该网络是一种端到端的网络结构,即在网络的一端输入光流场,在另一端解码输出运动显著性的地图。由于该网络是通过大感受野感知场景的整体运动状态,因此,在网络设计过程中,会对中间的特征层进行采样,但是在该网络只监督最后一层的输出,因此很难保证对中间的特征层的采样所得到感知信息是想要的信息。如此,将使得网络输出的运动状态的精确性不高,且可能会输出冗余信息,造成计算机资源的浪费。
发明内容
本发明实施例提供一种运动感知模型的训练方法、装置、电子设备及存储介质,可以监督中间的特征层的采样所得到感知信息,可以提高模型输出的运动状态的精确性。
本发明实施例提供了一种运动感知模型的训练方法,该方法包括获取训练图像组集合和每一训练图像组对应的标签光流信息;
构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型;
基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集;
从每一目标特征图集中,确定每一训练图像组对应的预测光流信息;
根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息;
基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集;
当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。
进一步地,对每一训练图像组进行特征提取处理,确定多个目标特征图集,包括:
基于当前机器学习模型,对每一训练图像组进行特征提取处理,得到待处理特征图集;
对待处理特征图集进行特征提取处理,得到第一特征图集;
根据待处理特征图集和第一特征图集,确定第二特征图集;
基于第二特征图集,确定多个目标特征图集。
进一步地,对待处理特征图集进行特征提取处理,得到第一特征图集之前,还包括:
对相机参数信息进行全连接处理,得到相机参数信息对应的权重信息集合和偏置信息集合;
根据权重信息集合和偏置信息集合,确定卷积信息集合;卷积信息集合包括第一卷积信息和第二卷积信息中的至少一个。
进一步地,基于第二特征图集,确定多个目标特征图集,包括:
对第二特征图集进行特征提取处理,得到第三特征图集;
将第二特征图集和第三特征图集进行堆叠处理,得到第一候选特征图集;
对第一候选特征图集进行特征提取处理,得到多个目标特征图集。
进一步地,对候选特征图集进行特征提取处理,得到多个目标特征图集,包括:
基于第一预设卷积信息,对第一候选特征图集进行特征提取处理,得到第二候选特征图集,
基于第二预设卷积信息,对第二候选特征图集进行特征提取处理,得到第一目标特征图子集;
基于第三预设卷积信息,对第一候选特征图集进行特征提取处理,得到第二目标特征图子集;
对第一目标特征图子集和第二目标特征图子集进行采样处理,得到多个目标特征图集。
进一步地,若卷积信息集合包括第一卷积信息和第二卷积信息,
对待处理特征图集进行特征提取处理,得到第一特征图集,包括:
基于第一卷积信息,对待处理特征图集进行特征提取处理,得到第一特征图集;
对第二特征图集进行特征提取处理,得到第三特征图集,包括:
基于第二卷积信息,对第二特征图集进行特征提取处理,得到第三特征图集。
本申请实施例还提供了一种运动感知模型的训练装置,该装置包括:
获取模块,用于获取训练图像组集合和每一训练图像组对应的标签光流信息;
构建模块,用于构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型;
目标特征图集确定模块,用于基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集;
预测光流信息确定模块,用于从每一目标特征图集中,确定每一训练图像组对应的预测光流信息;
损失信息确定模块,用于根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息;
调整模块,用于基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集;
模型确定模块,用于当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。
进一步地,该装置还包括:
全连接处理模块,用于对相机参数信息进行全连接处理,得到相机参数信息对应的权重信息集合和偏置信息集合;
卷积信息确定模块,用于根据权重信息集合和偏置信息集合,确定卷积信息集合;卷积信息集合包括第一卷积信息和第二卷积信息中的至少一个。
相应地,本发明实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述运动感知模型的训练方法。
相应地,本发明实施例还提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述运动感知模型的训练方法。
本发明实施例具有如下有益效果:
本发明实施例提供了一种运动感知模型的确定方法、装置、电子设备及存储介质,包括获取训练图像组集合和每一训练图像组对应的标签光流信息,构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型,基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集,从每一目标特征图集中,确定每一训练图像组对应的预测光流信息,根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息,基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型,重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集,当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。基于本申请实施例,可以监督中间的特征层的采样所得到感知信息,可以提高模型输出的运动状态的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例所提供的一种应用环境的示意图;
图2是本发明实施例提供的一种运动感知模型的训练方法的流程示意图;
图3是本申请实施例提供的一种运动感知模型的训练方法的示意图;
图4是本发明实施例提供的一种运动感知模型的训练装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例作进一步地详细描述。显然,所描述的实施例仅仅是本发明一个实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
此处所称的“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本发明实施例的描述中,需要理解的是术语“第一”、“第二”和“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”和“第三”的特征可以明示或者隐含的包括一个或者更多个该特征。而且,术语“第一”、“第二”和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明实施例能够以除了在这里图示或描述以外的顺序实施。此外,术语“包括”和“为”以及他们的任何变形,意图在于覆盖不排他的包含。
请参阅图1,其所示为本发明实施例所提供的一种应用环境的示意图,包括服务器101,该服务器101装载有运动感知模型的训练装置1011,该服务器101可以获取训练图像组集合和每一训练图像组对应的标签光流信息,构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型,基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集,从每一目标特征图集中,确定每一训练图像组对应的预测光流信息,根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息,基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集,当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。
下面介绍本发明一种运动感知模型的训练方法的具体实施例,图2是本发明实施例提供的一种运动感知模型的训练方法的流程示意图,图3是本申请实施例提供的一种运动感知模型的训练方法的示意图,本说明书提供了如实施例或流程图所示的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式,不代表唯一的执行顺序,在实际执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2和3所示,该方法包括:
S201:获取训练图像组集合和每一训练图像组对应的标签光流信息。
本申请实施例中,服务器可以获取训练图像组集合和每一训练图像组对应的标签光流信息,其中,每一训练图像组可以包括第一图像、第二图像和第三图像,第一图像、第二图像和第三图像均包括对象,对象在第一图像中具有第一像素信息,对象在第二图像中具有第二像素信息,对象在第三图像中具有第三像素信息,标签光流信息可以包括第一像素信息和第二像素信息对应的第一标签光流信息,第二像素信息和第三像素信息对应的第二标签光流信息。
S202:构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型。
S203:基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集。
本申请实施例中,服务器可以基于当前机器学习模型,对每一训练图像组进行特征提取处理,得到待处理特征图集,并对待处理特征图集进行特征提取处理,得到第一特征图集,以及根据待处理特征图集和第一特征图集,确定第二特征图集,进而基于第二特征图集,确定多个目标特征图集。
本申请实施例中,在服务器对待处理特征图集进行特征提取处理之前,还可以对相机参数信息进行全连接处理,得到相机参数信息对应的权重信息集合和偏置信息集合,并根据权重信息集合和偏置信息集合,确定卷积信息集合。其中,卷积信息集合包括第一卷积信息和第二卷积信息中的至少一个。也即是,服务器可以增设一个参数感知模块,该参数感知模块由两个菱形网络组成,将相机参数输入其中的一个菱形网络,该菱形网络由一系列全连接组成,在将相机参数输入一层全连接层之后,可以获得基础嵌入特征,即图3中的FC1,进而将该基础嵌入特征分别输入两组全连接层,分别估计卷积的权重参数和偏置参数,该权重参数和偏置参数可以组成卷积信息集合,如图3中的第一卷积信息TC1和第二卷积信息TC2。
在一种可选的实施方式中,若卷积信息集合包括第一卷积信息和第二卷积信息,可以基于第一卷积信息,对待处理特征图集进行特征提取处理,得到第一特征图集,也可以基于第二卷积信息,对待处理特征图集进行特征提取处理,得到第一特征图集。
本申请实施例中,服务器可以将待处理特征图集和第一特征图集进行堆叠处理,得到堆叠特征图集,并对堆叠特征图集进行特征提取处理,得到第二特征图集。
在一种可选的实施方式中,若卷积信息集合包括第一卷积信息和第二卷积信息,可以基于第一卷积信息,对堆叠特征图集进行特征提取处理,得到第二特征图集,也可以基于第二卷积信息,对堆叠特征图集进行特征提取处理,得到第二特征图集。
本申请实施例中,服务器可以对第二特征图集进行特征提取处理,得到第三特征图集,并将第二特征图集和第三特征图集进行堆叠处理,得到第一候选特征图集,进而对第一候选特征图集进行特征提取处理,得到多个目标特征图集。
在一种可选的实施方式中,若卷积信息集合包括第一卷积信息,可以基于第一卷积信息,对第二特征图集进行特征提取处理,得到第三特征图集。即基于同一卷积信息,对待处理特征图集进行特征提取处理,得到第一特征图集,并基于该卷积信息对待处理特征图集和第一特征图集进行特征提取处理,得到第二特征图集,该基于该卷积信息对第二特征图集进行特征提取处理,得到第三特征图集,再基于第一卷积信息,对第二特征图集和第三特征图集进行特征提取处理,得到第一候选特征图集。
在另一种的可选的实施方式中,若卷积信息集合包括第一卷积信息和第二卷积信息,可以基于第二卷积信息,对第二特征图集进行特征提取处理,得到第三特征图集。即基于第一卷积信息,对待处理特征图集进行特征提取处理,得到第一特征图集,并基于第一卷积信息,对待处理特征图集和第一特征图集进行特征提取处理,得到第二特征图集,进而基于第二卷积信息对第二特征图集进行卷积处理,得到第三特征图集,再基于第二卷积信息,对第二特征图集和第三特征图集进行特征提取处理,得到第一候选特征图集。
本申请实施例中,可以基于第一预设卷积信息,对第一候选特征图集进行特征提取处理,得到第二候选特征图集,并基于第二预设卷积信息,对第二候选特征图集进行卷积处理,得到第一目标特征图子集,以及基于第三预设卷积信息,对第一候选特征图集进行特征提取处理,得到第二目标特征图子集,进而对第一目标特征图子集和第二目标特征图子集进行采样处理,得到多个目标特征图集。
S204:从每一目标特征图集中,确定每一训练图像组对应的预测光流信息。
本申请实施例中,服务器可以从每一特征图集中,确定每一训练图像组对应的预测光流信息,即可以从每一目标特征图集中确定对象的对应的像素信息,进而确定每一训练图像的第一图像中对象的第一预测像素信息,第二图像中对象的第二预测像素信息以及第三图像中对象的第三预测像素信息,并确定第一预测像素信息和第二预测像素信息对应的第一预测光流信息以及第二预测光流信息。
S205:根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息。
本申请实施例中,服务器可以根据第一标签光流信息和第一预测光流信息,确定第一损失信息,以及根据第二标签光流信息和第二预测光流信息,确定第二损失信息,进而根据第一损失信息和第二损失信息,确定损失信息。
在一种可选的实施方式中,可以确定第一损失信息和第二损失信息的和值为损失信息,也可以确定第一损失信息和第二损失信息的均值为损失信息,还可以确定第一损失信息和第二损失信息中的最大值为损失信息,还可以确定第一损失信息和第二损失信息中的最小值为损失信息。
S206:基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集。
S207:当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。
采用本申请实施例提供的运动感知模型的训练方法,可以监督中间的特征层的采样所得到感知信息,可以提高模型输出的运动状态的精确性。
本发明实施例还提供的一种运动感知模型的训练装置,图4是本发明实施例提供的一种运动感知模型的训练装置的结构示意图,如图4所示,该装置可以包括:
获取模块401用于获取训练图像组集合和每一训练图像组对应的标签光流信息;
构建模块402用于构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型;
目标特征图集确定模块403用于基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集;
预测光流信息确定模块404用于从每一目标特征图集中,确定每一训练图像组对应的预测光流信息;
损失信息确定模块405用于根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息;
调整模块406用于基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集;
模型确定模块407用于当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。
本申请实施例中,该装置还可以包括:
全连接处理模块,用于对相机参数信息进行全连接处理,得到相机参数信息对应的权重信息集合和偏置信息集合;
卷积信息确定模块,用于根据权重信息集合和偏置信息集合,确定卷积信息集合;卷积信息集合包括第一卷积信息和第二卷积信息中的至少一个。
本发明实施例中的装置与方法实施例基于同样的发明构思。
本发明实施例还提供的一种电子设备,电子设备可设置于服务器之中以保存用于实现方法实施例中的一种运动感知模型的训练方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该存储器加载并执行以实现上述的运动感知模型的训练方法。
本发明实施例还提供的一种存储介质,存储介质可设置于服务器之中以保存用于实现方法实施例中一种运动感知模型的训练方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述运动感知模型的训练方法。
可选的,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于包括:U盘、只读存储器(ROM,Read-only Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本发明实施例提供的运动感知模型的训练方法、装置、电子设备或存储介质的实施例可见,包括获取训练图像组集合和每一训练图像组对应的标签光流信息,构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型,基于当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集,从每一目标特征图集中,确定每一训练图像组对应的预测光流信息,根据标签光流信息和预测光流信息,确定每一目标特征图集对应的损失信息,基于每一目标特征图集对应的损失信息对当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型,重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集,当对当前机器学习模型的参数进行调整的次数大于预设阈值时,将当前机器学习模型确定为运动感知模型,将损失信息对应的模型参数确定为运动感知模型的参数。基于本申请实施例,可以监督中间的特征层的采样所得到感知信息,可以提高模型输出的运动状态的精确性。
在本发明中,除非另有明确的规定和限定,术语“相连”、“连接”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的相连或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是:上述本发明实施例的先后顺序仅仅为了描述,不代表实施例的优劣,且上述本说明书对特定的实施例进行了描述,其他实施例也在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或者步骤可以按照不同的实施例中的顺序来执行并且能够实现预期的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者而连接顺序才能够实现期望的结果,在某些实施方式中,多任务并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的均为与其他实施例的不同之处。尤其,对于装置的实施例而言,由于其基于相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种运动感知模型的训练方法,其特征在于,包括:
获取训练图像组集合和每一训练图像组对应的标签光流信息;
构建预设机器学习模型,将所述预设机器学习模型确定为当前机器学习模型;
基于所述当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集;
从每一目标特征图集中,确定每一训练图像组对应的预测光流信息;
根据所述标签光流信息和所述预测光流信息,确定每一目标特征图集对应的损失信息;
基于所述每一目标特征图集对应的损失信息对所述当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将所述更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集;
当对所述当前机器学习模型的参数进行调整的次数大于预设阈值时,将所述当前机器学习模型确定为所述运动感知模型,将所述损失信息对应的模型参数确定为所述运动感知模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述对每一训练图像组进行特征提取处理,确定多个目标特征图集,包括:
基于所述当前机器学习模型,对每一训练图像组进行特征提取处理,得到待处理特征图集;
对所述待处理特征图集进行特征提取处理,得到第一特征图集;
根据所述待处理特征图集和所述第一特征图集,确定第二特征图集;
基于所述第二特征图集,确定多个目标特征图集。
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理特征图集进行特征提取处理,得到第一特征图集之前,还包括:
对相机参数信息进行全连接处理,得到所述相机参数信息对应的权重信息集合和偏置信息集合;
根据所述权重信息集合和所述偏置信息集合,确定卷积信息集合;所述卷积信息集合包括第一卷积信息和第二卷积信息中的至少一个。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第二特征图集,确定多个目标特征图集,包括:
对所述第二特征图集进行特征提取处理,得到第三特征图集;
将所述第二特征图集和所述第三特征图集进行堆叠处理,得到第一候选特征图集;
对所述第一候选特征图集进行特征提取处理,得到所述多个目标特征图集。
5.根据权利要求4所述的方法,其特征在于,所述对所述候选特征图集进行特征提取处理,得到所述多个目标特征图集,包括:
基于第一预设卷积信息,对所述第一候选特征图集进行特征提取处理,得到第二候选特征图集,
基于第二预设卷积信息,对所述第二候选特征图集进行特征提取处理,得到第一目标特征图子集;
基于第三预设卷积信息,对所述第一候选特征图集进行特征提取处理,得到第二目标特征图子集;
对所述第一目标特征图子集和所述第二目标特征图子集进行采样处理,得到所述多个目标特征图集。
6.根据权利要求4所述的方法,其特征在于,若所述卷积信息集合包括第一卷积信息和第二卷积信息,
所述对所述待处理特征图集进行特征提取处理,得到第一特征图集,包括:
基于所述第一卷积信息,对所述待处理特征图集进行特征提取处理,得到所述第一特征图集;
所述对所述第二特征图集进行特征提取处理,得到第三特征图集,包括:
基于所述第二卷积信息,对所述第二特征图集进行特征提取处理,得到所述第三特征图集。
7.一种运动感知模型的训练装置,其特征在于,包括:
获取模块,用于获取训练图像组集合和每一训练图像组对应的标签光流信息;
构建模块,用于构建预设机器学习模型,将所述预设机器学习模型确定为当前机器学习模型;
目标特征图集确定模块,用于基于所述当前机器学习模型,对每一训练图像组进行特征提取处理,确定多个目标特征图集;
预测光流信息确定模块,用于从每一目标特征图集中,确定每一训练图像组对应的预测光流信息;
损失信息确定模块,用于根据所述标签光流信息和所述预测光流信息,确定每一目标特征图集对应的损失信息;
调整模块,用于基于所述每一目标特征图集对应的损失信息对所述当前机器学习模型的参数进行调整,得到更新后的机器学习模型,将所述更新后的机器学习模型重新确定为当前机器学习模型;重复步骤:对每一训练图像组进行特征提取处理,多个目标特征图集;
模型确定模块,用于当对所述当前机器学习模型的参数进行调整的次数大于预设阈值时,将所述当前机器学习模型确定为所述运动感知模型,将所述损失信息对应的模型参数确定为所述运动感知模型的参数。
8.根据权利要求7所述的装置,其特征在于,还包括:
全连接处理模块,用于对相机参数信息进行全连接处理,得到所述相机参数信息对应的权重信息集合和偏置信息集合;
卷积信息确定模块,用于根据所述权重信息集合和所述偏置信息集合,确定卷积信息集合;所述卷积信息集合包括第一卷积信息和第二卷积信息中的至少一个。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-6任意一项所述的运动感知模型的训练方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任意一项所述的运动感知模型的训练方法。
CN202110223264.3A 2021-02-26 2021-02-26 一种运动感知模型的训练方法、装置、电子设备及存储介质 Active CN112966584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110223264.3A CN112966584B (zh) 2021-02-26 2021-02-26 一种运动感知模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110223264.3A CN112966584B (zh) 2021-02-26 2021-02-26 一种运动感知模型的训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112966584A true CN112966584A (zh) 2021-06-15
CN112966584B CN112966584B (zh) 2024-04-19

Family

ID=76276014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110223264.3A Active CN112966584B (zh) 2021-02-26 2021-02-26 一种运动感知模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112966584B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN109376696A (zh) * 2018-11-28 2019-02-22 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN112396074A (zh) * 2019-08-15 2021-02-23 广州虎牙科技有限公司 基于单目图像的模型训练方法、装置及数据处理设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064507A (zh) * 2018-08-21 2018-12-21 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
WO2020037965A1 (zh) * 2018-08-21 2020-02-27 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN109376696A (zh) * 2018-11-28 2019-02-22 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
WO2020108023A1 (zh) * 2018-11-28 2020-06-04 北京达佳互联信息技术有限公司 视频动作分类的方法、装置、计算机设备和存储介质
CN112396074A (zh) * 2019-08-15 2021-02-23 广州虎牙科技有限公司 基于单目图像的模型训练方法、装置及数据处理设备

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
ACHAL DAVE ET AL.: "Towards Segmenting Anything That Moves", 《ARXIV》, pages 1 - 12 *
FU-CHUN HSU ET AL.: "Head detection using motion features and multilevel pyramid architecture", 《COMPUTER VISION AND IMAGE UNDERSTANDING》, pages 38 - 49 *
JOHAN VERTENS ET AL.: "SMSnet:Semantic Motion Segmentation using Deep Convolutional Neural Networks", 《2017 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》, pages 582 - 589 *
JOSE M.FACIL ET AL.: "CAM-Convs:Camera-Aware Multi-Scale Convolutions for Single-View Depth", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 11818 - 11827 *
PAVEL TOKMAKOV ET AL.: "Learning Motion Patterns in Videos", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 531 - 539 *
PAVEL TOKMAKOV ET AL.: "Learning to Segment Moving Objects", 《ARXIV》, pages 1 - 18 *
XIANSHUN WANG: "Richer Aggregated Features for Optical Flow Estimation with Edge-aware Refinement", 《2020 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS 》, pages 5761 - 5768 *
周泳 等: "基于 FlowNet2.0网络的目标光流检测方法", 《龙岩学院学报》, vol. 38, no. 2, pages 37 - 42 *
王思乐 等: "基于时空加权的多特征融合动作识别算法", 《河北大学学报(自然科学版)》, vol. 39, no. 1, pages 93 - 98 *

Also Published As

Publication number Publication date
CN112966584B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109242013B (zh) 一种数据标注方法、装置、电子设备及存储介质
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN109614867A (zh) 人体关键点检测方法和装置、电子设备、计算机存储介质
CN110610140B (zh) 人脸识别模型的训练方法、装置、设备及可读存储介质
CN115393633A (zh) 数据处理方法、电子设备、存储介质及程序产品
CN114565092A (zh) 一种神经网络结构确定方法及其装置
CN111985616B (zh) 一种图像特征提取方法、图像检索方法、装置及设备
CN112766288B (zh) 图像处理模型构建方法、装置、电子设备和可读存储介质
CN117932455A (zh) 一种基于神经网络的物联网资产识别方法和系统
CN114240770A (zh) 一种图像处理方法、装置、服务器及存储介质
CN113255441A (zh) 图像处理方法、装置、电子设备及介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN111027376A (zh) 一种确定事件图谱的方法、装置、电子设备及存储介质
CN112966584A (zh) 一种运动感知模型的训练方法、装置、电子设备及存储介质
CN115112661B (zh) 一种缺陷检测方法、装置、计算机设备和存储介质
CN114820755B (zh) 一种深度图估计方法及系统
CN116433899A (zh) 图像分割方法、训练图像分割模型的方法及装置
CN115311680A (zh) 人体图像质量检测方法、装置、电子设备及存储介质
CN111061774B (zh) 搜索结果准确性判断方法、装置、电子设备及存储介质
CN114708429A (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
CN114596435A (zh) 语义分割标签的生成方法、装置、设备及存储介质
CN113033397A (zh) 目标跟踪方法、装置、设备、介质及程序产品
CN114926471B (zh) 一种图像分割方法、装置、电子设备及存储介质
CN115880486B (zh) 一种目标检测网络蒸馏方法、装置、电子设备及存储介质
CN116612371B (zh) 基于边云解耦的神经网络推理方法、装置及设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant