CN110264455B - 图像处理、神经网络训练方法及装置、存储介质 - Google Patents

图像处理、神经网络训练方法及装置、存储介质 Download PDF

Info

Publication number
CN110264455B
CN110264455B CN201910533433.6A CN201910533433A CN110264455B CN 110264455 B CN110264455 B CN 110264455B CN 201910533433 A CN201910533433 A CN 201910533433A CN 110264455 B CN110264455 B CN 110264455B
Authority
CN
China
Prior art keywords
optical flow
movable position
target object
movable
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910533433.6A
Other languages
English (en)
Other versions
CN110264455A (zh
Inventor
詹晓航
潘新钢
刘子纬
林达华
吕健勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201910533433.6A priority Critical patent/CN110264455B/zh
Publication of CN110264455A publication Critical patent/CN110264455A/zh
Application granted granted Critical
Publication of CN110264455B publication Critical patent/CN110264455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像处理、神经网络训练方法及装置、存储介质,其中,所述图像处理方法包括:根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流;其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值;基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,其中,所述目标对象的可活动部件包含所述第一可活动位置。本公开可以从静态图像中定位出目标对象的可活动部件。

Description

图像处理、神经网络训练方法及装置、存储介质
技术领域
本公开涉及计算机视觉领域,尤其涉及一种图像处理、神经网络训练方法及装置、存储介质。
背景技术
目前在图像理解领域,一般倾向于让机器理解物体的语义,例如图像分类、分割、检测等任务都是基于给定图像中物体的语义来进行的,不太关注对物体的物理结构的理解。
相关技术中,理解物体的物理结构的工作主要包括人体姿态识别和人脸关键点识别。这些任务通常使用预定义好的人体和人脸关键点,因而只能应用于人体、人脸这种结构特征统一的对象上,无法应用于通用物体。
发明内容
有鉴于此,本公开提供了一种图像处理方案和神经网络训练方案。
根据本公开实施例的第一方面,提供一种图像处理方法,所述方法包括:根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流;其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值;基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,其中,所述目标对象的可活动部件包含所述第一可活动位置。
在一些可选实施例中,所述基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,包括:基于所述至少一个第一稠密光流,确定所述目标对象中的多个位置中每个位置的光流方差;基于所述多个位置中每个位置的光流方差,确定所述目标对象的所述第一可活动位置。
在一些可选实施例中,所述基于所述多个位置中每个位置的光流方差,确定所述目标对象的第一可活动位置,包括:对所述多个位置中每个位置的所述光流方差进行归一化处理,获得所述每个位置的归一化光流方差;将所述多个位置中归一化光流方差的最大值在所述第一静态图像中所对应的位置作为所述目标对象的所述第一可活动位置。
在一些可选实施例中,所述第一稀疏光流包含所述已知可活动位置的坐标信息和所述已知可活动位置的目标速度。
在一些可选实施例中,如果所述已知可活动位置集合中包含的所述已知可活动位置的个数为0,则所述第一稀疏光流为空。
在一些可选实施例中,所述方法还包括:将所述第一可活动位置添加到所述已知可活动位置集合中,进行下一循环预测,得到所述目标对象的第二可活动位置。
在一些可选实施例中,所述将所述第一可活动位置添加到所述已知可活动位置集合中,包括:响应于所述第一可活动位置对应的所述光流方差低于预设阈值,将所述第一可活动位置添加到所述已知可活动位置集合中。
在一些可选实施例中,所述根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流之前,所述方法还包括:对所述第一静态图像和/或所述第一稀疏光流进行降维处理。
在一些可选实施例中,所述根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流之前,所述方法还包括:基于预设分布进行随机采样,获得所述至少一个第一随机向量。
在一些可选实施例中,所述基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置之后,所述方法还包括:获取所述目标对象的可活动部件中每个可活动位置的预测速度;基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像。
在一些可选实施例中,所述基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像,包括:根据所述第二静态图像、所述可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量,得到第二稠密光流;基于所述第二稠密光流和所述第二静态图像,得到所述目标图像。
在一些可选实施例中,所述获取所述目标对象的可活动部件中每个可活动位置的预测速度,包括:建立用于对所述可活动部件进行运动预测的速度分布模型;基于所述速度分布模型,对所述可活动部件的每个可活动位置进行抽样,获得所述每个可活动位置的预测速度。
根据本公开实施例的第二方面,提供一种神经网络训练方法,所述方法包括:获取第一稠密光流样本;根据样本图像、所述第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,确定预设分布参数;将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量输入所述神经网络,获得所述神经网络输出的第二稠密光流样本;基于所述第一稠密光流样本和所述第二稠密光流样本,调整所述神经网络的网络参数值。
在一些可选实施例中,所述预设分布参数包括高斯分布的均值和方差中的至少一项。
根据本公开实施例的第三方面,提供一种图像处理装置,所述装置包括:第一确定模块,用于根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流;其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值;第二确定模块,用于基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,其中,所述目标对象的可活动部件包含所述第一可活动位置。
在一些可选实施例中,所述第二确定模块包括:
第一确定子模块,用于基于所述至少一个第一稠密光流,确定所述目标对象中的多个位置中每个位置的光流方差;第二确定子模块,用于基于所述多个位置中每个位置的光流方差,确定所述目标对象的所述第一可活动位置。
在一些可选实施例中,所述第二确定子模块包括:处理单元,用于对所述多个位置中每个位置的所述光流方差进行归一化处理,获得所述每个位置的归一化光流方差;确定单元,用于将所述多个位置中归一化光流方差的最大值在所述第一静态图像中所对应的位置作为所述目标对象的所述第一可活动位置。
在一些可选实施例中,所述第一稀疏光流包含所述已知可活动位置的坐标信息和所述已知可活动位置的目标速度。
在一些可选实施例中,如果所述已知可活动位置集合中包含的所述已知可活动位置的个数为0,则所述第一稀疏光流为空。
在一些可选实施例中,所述装置还包括:第三确定模块,用于将所述第一可活动位置添加到所述已知可活动位置集合中,进行下一循环预测,得到所述目标对象的第二可活动位置。
在一些可选实施例中,所述第三确定模块包括:执行子模块,用于响应于所述第一可活动位置对应的所述光流方差低于预设阈值,将所述第一可活动位置添加到所述已知可活动位置集合中。
在一些可选实施例中,所述装置还包括:处理模块,用于对所述第一静态图像和/或所述第一稀疏光流进行降维处理。
在一些可选实施例中,所述装置还包括:第一获取模块,用于基于预设分布进行随机采样,获得所述至少一个第一随机向量。
在一些可选实施例中,所述装置还包括:第二获取模块,用于获取所述目标对象的可活动部件中每个可活动位置的预测速度;第四确定模块,用于基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像。
在一些可选实施例中,所述第四确定模块包括:第一生成子模块,用于根据所述第二静态图像、所述可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量,得到第二稠密光流;第二生成子模块,用于基于所述第二稠密光流和所述第二静态图像,得到所述目标图像。
在一些可选实施例中,所述第二获取模块包括:模型建立子模块,用于建立用于对所述可活动部件进行运动预测的速度分布模型;获取子模块,用于基于所述速度分布模型,对所述可活动部件的每个可活动位置进行抽样,获得所述每个可活动位置的预测速度。
根据本公开实施例的第四方面,提供一种神经网络训练装置,所述装置包括:第三获取模块,用于获取第一稠密光流样本;第五确定模块,用于根据样本图像、所述第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,确定预设分布参数;第四获取模块,用于将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量输入所述神经网络,获得所述神经网络输出的第二稠密光流样本;训练模块,用于基于所述第一稠密光流样本和所述第二稠密光流样本,调整所述神经网络的网络参数值。
在一些可选实施例中,所述预设分布参数包括高斯分布的均值和方差中的至少一项。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面任一所述的图像处理方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第二方面任一所述的神经网络训练方法。
根据本公开实施例的第七方面,提供一种图像处理装置,所述装置包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现上述第一方面任一项所述的图像处理方法。
根据本公开实施例的第八方面,提供一种神经网络训练装置,所述装置包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现上述第二方面任一所述的神经网络训练方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,可以根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,来确定至少一个第一稠密光流。其中,第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值。进一步地,可以基于至少一个第一稠密光流,确定目标对象的第一可活动位置。目标对象的可活动部件中包括了第一可活动位置。通过上述过程,可以从静态图像中定位出目标对象的可活动部件。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种图像处理方法流程图;
图2是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图3是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图4是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图5是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图6是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图7是本公开根据一示例性实施例示出的一种图像处理框架示意图;
图8是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图9是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图10是本公开根据一示例性实施例示出的另一种图像处理方法流程图;
图11A至11E是本公开根据一示例性实施例示出的一种建立速度分布模型时的场景示意图;
图12是本公开根据一示例性实施例示出的一种神经网络训练方法流程图;
图13是本公开根据一示例性实施例示出的一种神经网络训练框架示意图;
图14是本公开根据一示例性实施例示出的一种图像处理装置框图;
图15是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图16是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图17是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图18是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图19是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图20是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图21是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图22是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图23是本公开根据一示例性实施例示出的另一种图像处理装置框图;
图24是本公开根据一示例性实施例示出的一种神经网络训练装置框图;
图25是本公开根据一示例性实施例示出的一种用于图像处理装置的一结构示意图;
图26是本公开根据一示例性实施例示出的一种用于神经网络训练装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开运行的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所运行的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开实施例提供了一种图像处理方法,适用于各种类型的物体。可以应用于电子设备,例如无人机、无人驾驶车辆、可移动机器人、安防监控设备等。电子设备可以从包含目标对象的第一静态图像中确定目标对象的第一可活动位置,实现了从静态图像中定位出目标对象的可活动部件。本公开实施例提供的图像处理方法可以应用在安防监控、物体运动建模、人体解析等多个方面。
参见图1,在101中,根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流。
其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值。可选地,第一数值可以无限接近于零,则第一稀疏光流就可以使得目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度为零。
其中,目标对象可以是可活动物体,例如机器人、人的至少一部分或可活动的动物等。目标对象的部分部件可活动,例如手、胳膊、头部等等。
本公开一些实施例中,可以将第一静态图像、第一稀疏光流和至少一个第一随机向量输入预先训练好的神经网络进行处理,该神经网络输出至少一个第一稠密光流。
其中,输入神经网络的随机向量的数目和该神经网络输出的第一稠密光流的数目相同。例如将第一静态图像、第一稀疏光流和M个第一随机向量输入神经网络,则该神经网络输出M个第一稠密光流。可选地,M可以为大于1的整数。
在102中,基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置。
由于神经网络针对静态图像中目标对象的可活动位置,预先建立了稀疏光流和稠密光流之间的关联关系,因此,电子设备可以基于得到的至少一个第一稠密光流来确定目标对象的第一可活动位置。
这样,通过对以上过程的多次循环执行,可以得到目标对象的多个可活动位置,从而得到目标对象的可活动部件。
在一些可选实施例中,例如图2所示,102可以包括:
在102-1中,基于所述至少一个第一稠密光流,确定所述目标对象中的多个位置中每个位置的光流方差。
电子设备可以基于神经网络输出的至少一个第一稠密光流,计算目标对象中的多个位置的每个位置的光流方差。例如,目标对象为人,则可以计算人体上每个位置的第一稠密光流之间的光流方差。
在102-2中,基于所述多个位置中每个位置的光流方差,确定所述目标对象的所述第一可活动位置。
本公开实施例中,电子设备可以根据之前计算得到的每个位置的光流方差,确定出最可能属于可活动部件的第一可活动位置。
上述实施例中,可以根据至少一个第一稠密光流确定目标对象中的多个位置中每个位置的光流方差,进一步确定出最可能属于目标对象的可活动部件的第一可活动位置,可用性高。
在一些可选实施例中,例如图3所示,102-2可以包括:
在102-21中,对所述多个位置中每个位置的所述光流方差进行归一化处理,获得所述每个位置的归一化光流方差。
本公开实施例中,可以计算每个位置的光流方差,并进行归一化处理,使得光流方差可以归一化到一个区间范围例如(0,1)内,得到每个位置的归一化光流方差。
在102-22中,将所述多个位置中归一化光流方差的最大值在所述第一静态图像中所对应的位置作为所述目标对象的所述第一可活动位置。
本公开实施例中,电子设备为了查找到最可能属于目标对象的可活动部件的第一可活动位置,可以将归一化光流方差的最大值在所述第一静态图像中所对应的位置作为最有可能的第一可活动位置。
上述实施例中,可以将归一化光流方差的最大值在静态图像中所对应的位置作为第一可活动位置,提高了确定第一可活动位置的准确性。
在一些可选实施例中,第一稀疏光流包含了已知可活动位置已知可活动位置在第一静态图像中的坐标信息,另外,还包括了已知可活动位置的目标速度。可选地,目标速度可以为零。
让已知可活动位置的目标速度为零,相当于在第一静态图像中固定住已知可活动位置,便于后续去测量其他的可活动位置。
例如在第一静态图像中固定住目标对象的已知可活动位置(手腕),移动另一个可活动位置(手肘)。
上述实施例中,在固定了一个可活动位置之后,再去移动其他可活动位置,可以更加准确地确定出目标对象的所有可活动位置。
在一些可选实施例中,如果所述已知可活动位置集合中包含的所述已知可活动位置的个数为0,则所述第一稀疏光流为空。也就是说,如果在第一静态图像中还未确定出目标对象的任何可活动位置,则可以让首次输入神经网络的第一稀疏光流为空。
在一些可选实施例中,例如图4所示,上述图像处理方法还可以包括:
在103中,将所述第一可活动位置添加到所述已知可活动位置集合中,进行下一循环预测,得到所述目标对象的第二可活动位置。
本公开实施例中,可以在确定了第一可活动位置之后,将第一可活动位置,例如手腕添加到已知可活动位置集合中,再次将第一静态图像、当前的第一稀疏光流和至少一个第一随机向量输入神经网络,获得该神经网络输出的至少一个第一稠密光流。当前的第一稀疏光流使得目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值,这时的已知可活动位置集合中包括了之前确定的第一可活动位置。
根据神经网络当前输出的至少一个第一稠密光流,再次得到所述目标对象的第二可活动位置。
不断重复上述过程,直到在第一静态图片中确定出目标对象的所有可活动位置为止。
上述实施例中,通过不断循环预测,得到静态图片中的可活动位置,实现了从静态图像中定位出目标对象的可活动部件的目的。
在一些可选实施例中,可以在第一可活动位置对应的所述光流方差低于预设阈值时,确定已经获得了第一可活动位置所包括的所有位置,此时电子设备将所述第一可活动位置添加到所述已知可活动位置集合中。
在一些可选实施例中,例如图5所示,在执行101之前,上述图像处理方法还可以包括:
在100-1中,对所述第一静态图像和/或所述第一稀疏光流进行降维处理。
在本公开实施例中,可以通过图像编码器对第一静态图像进行降维处理,可选地,图像编码器可以采用带有相对卷积的ResNet(残差网络)-50。
另外,电子设备还可以通过稀疏运动编码器对第一稀疏光流进行降维处理,可选地,稀疏运动编码器可以采用shallow(浅层)CNN(Convolutional Neural Networks,卷积神经网络),具有2个堆叠的Conv(convolution,卷积层)-BN(Batch Normalization,批量归一化层)-ReLU(Rectified Linear Unit,线性整流函数层)-Pooling(池化层)模块。稀疏运动编码器可以将第一稀疏光流编码为16维特征向量。
上述实施例中,在将第一静态图像和第一稀疏光流输入神经网络之前,可以先对第一静态图像和所述第一稀疏光流中的至少一项进行降维处理,从而降低图像处理的复杂度。
在一些可选实施例中,例如图6所示,在执行101之前,上述图像处理方法还可以包括:
在100-2中,基于预设分布进行随机采样,获得所述至少一个第一随机向量。
本公开实施例中,预设分布可以是高斯分布,电子设备在该高斯分布中进行随机采样,从而得到至少一个随机向量。
在一些可选实施例中,例如图7所示,提供了一种图像处理框架示意图。
在第一次迭代预测过程中,由于没有已知可活动位置,则第一稀疏光流为空,第一稀疏光流通过稀疏光流运动编码器进行降维处理。第一静态图像经过图像编码器进行降维处理,从高斯分布中随机采样得到至少一个第一随机向量,将上述三者输入预先训练好的神经网络,由神经网络输出至少一个第一稠密光流。
基于所述至少一个第一稠密光流,计算第一静态图像所有位置的光流方差,然后进行归一化处理,得到归一化光流方差值,组成方差图,将该方差图的峰值点,即归一化光流方差的最大值所对应的位置作为第一可活动位置中的一个位置。
然后将此次确定出的归一化光流方差值最大的光流点的速度设置为零,并添加到第一稀疏光流中。重复上述迭代过程,将包括一个光流点的第一稀疏光流、第一静态图像和从高斯分布中随机采样得到至少一个第一随机向量再次输入神经网络,得到新的至少一个第一稠密光流,基于神经网络再次输出的所述至少一个第一稠密光流,计算第一静态图像所有位置的光流方差,然后进行归一化处理,得到归一化光流方差值,将归一化光流方差的最大值所在的位置作为第一可活动位置中的另一个光流点,重复上述过程,直到归一化光流方差的最大值小于预设阈值为止。每次确定出的归一化光流方差的最大值对应的光流点就组成了第一可活动位置。
在本公开实施例中,在确定了第一可活动位置之后,可以将所述第一可活动位置添加到所述已知可活动位置集合中。例如图7中确定出的第一可活动位置为小腿,则可以将第一可活动位置添加到已知可活动位置集合中。
再次按照上述方式进行下一次迭代预测,再预测得到目标对象的第二可活动位置,例如得到的第二可活动位置为大腿。
不断重复上述迭代过程,直到确定出第一静态图像中的所有可活动位置。例如图7中所有可活动位置包括两个人的头、大腿、小腿、手部等等。
上述实施例中,通过不断循环预测,得到静态图片中的可活动位置,实现了从静态图像中定位出目标对象的可活动部件的目的。
在一些可选实施例中,例如图8所示,完成102之后,上述方法还可以包括:
在104中,获取所述目标对象的可活动部件中每个可活动位置的预测速度。
本公开实施例中,电子设备可以预先建立对目标对象的可活动部件进行运动预测的速度分布模型,基于该速度分布模型,获得第一静态图像中每个可活动位置的预测速度。
在105中,基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像。
本公开实施例中,可以基于所述可活动部件中每个可活动位置的预测速度确定第二稀疏光流,将第二稀疏光流、第一静态图像和从预设分布中采样得到的第二随机向量输入神经网络,得到该神经网络输出的第二稠密光流。
进一步地,可以基于该第二稠密光流映射得到包括目标对象的第二静态图像,基于该第二静态图像和稠密光流可以得到表征第一静态图像中目标对象的每个可活动位置在下一时刻的运动情况的目标图像。
在一些可选实施例中,例如图9所示,105可以包括:
在105-1中,根据所述第二静态图像、所述可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量,得到第二稠密光流。
可以将第二静态图像、基于可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量输入神经网络,得到该神经网络输出的第二稠密光流。其中,第二稀疏光流包括每个可活动位置,第二随机向量是从预设分布中采样得到的随机向量。
在105-2中,基于所述第二稠密光流和所述第二静态图像,得到所述目标图像。
将得到的第二稠密光流映射得到包括目标对象的第二静态图像和所述第二稠密光流输入预先训练好的残差网络,由残差网络生成目标图像。该残差神经网络可以采用L1损失函数和Perceptual Loss(感知损失)函数进行监督训练。
该目标图像可以表征每个可活动位置在下一时刻的运动情况。不断重复上述过程,可以得到多个时序排列的目标图像,通过多个目标图像生成一段视频。
上述实施例生成的视频可以直接反应出第一静态图像中每个可活动位置在下一个时间段内的运动情况,从而可以基于静态图像生成显示目标对象每个可活动位置的运动情况的视频。提升了对图像中可活动部件的运动情况的预知性,使得生成视频的内容也更加丰富和多样。
在一些可选实施例中,例如图10所示,104可以包括:
在104-1中,建立用于对所述可活动部件进行运动预测的速度分布模型。
本公开实施例中,电子设备在确定了第一静态图像中的每个可活动位置之后,可以建立该速度分布模型。
在建立速度分布模型时,可以让输入神经网络的随机向量为零,将第一静态图像、每个可活动位置对应的第二稀疏光流和向量值为零的随机向量输入神经网络,获得神经网络输出的第三稠密光流,该第三稠密光流就对应了每个可活动位置在下一时刻最大概率的运动情况。该运动情况包括速度方向和速度值。
另外,将第一静态图像、每个可活动位置对应的第二稀疏光流和至少一个随机向量输入神经网络,得到至少一个第四稠密光流。根据至少一个第四稠密光流在每个可活动位置上计算出的均值可以作为每个可活动位置在下一时刻的速度方向,根据至少一个第四稠密光流在每个可活动位置上计算出的方差向量的方差值可以作为每个可活动位置在下一时刻的速度值,最终得到速度分布模型。
以图11A所示的第一静态图像为例,对建立速度分布模型的过程进行进一步说明。
采用本公开实施例提供的上述图像处理方法已经在第一静态图像中确定了目标对象的可活动位置,如图11B所示。此时可以让输入神经网络的随机向量为零,将第一静态图像、每个可活动位置对应的第二稀疏光流和向量值为零的随机向量输入神经网络,获得神经网络输出的第三稠密光流,输出的第三稠密光流如图11C所示,此时可以认为目标对象概率最大的运动趋势是图11A中左侧的人物的手部进行运动,以及右侧人物脚部进行运动。
将第一静态图像、每个可活动位置对应的第二稀疏光流和至少一个随机向量输入神经网络,得到至少一个第四稠密光流,至少一个第四稠密光流,例如图11D中右侧的图像。此时可以根据至少一个第四稠密光流在每个可活动位置上计算出的均值可以作为每个可活动位置在下一时刻的速度方向,例如左侧人物手部向上方运动,速度方向向上,同样的右侧人物的脚步对应的速度方向为水平方向。再根据至少一个第四稠密光流在每个可活动位置上计算出的方差向量的方差值可以作为每个可活动位置在下一时刻的速度值,例如左侧人物的上抬的速度值,右侧人物的腿部上抬的速度值。最终可以确定图11A对应的速度分布模型如图11E所示。
在104-2中,基于所述速度分布模型,对所述可活动部件的每个可活动位置进行抽样,获得所述第一静态图像每个可活动位置的预测速度。
电子设备可以基于上速度分布模型,对目标对象可活动部件的每个可活动位置进行抽样,得到所述第一静态图像每个可活动位置的预测速度,该预测速度包括速度方向和速度值。
本公开实施例提供了一种上述涉及到的神经网络的训练方法,可以应用于神经网络的训练平台,例如云训练平台或端训练平台,其中,该训练平台可以包括一个或多个设备,相应地,神经网络训练方法可以由云端设备、网络设备或终端设备等执行,本公开实施例对此不做限定。为了便于理解,下面以训练方法由训练设备为例进行描述。
本公开实施例中,训练设备可以先获取第一稠密光流样本。进一步地,可以根据样本图像、第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,获得预设分布参数。将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量作为神经网络的输入值,获得所述神经网络输出的第二稠密光流样本。训练设备比较神经网络输出的第二稠密光流样本与第一稠密光流样本的差异,从而调整神经网络每一层的参数值,获得所需要的神经网络。上述训练过程属于无监督过程,且最终获得的神经网络可以建立同一图像的可活动位置的稀疏光流与稠密光流之间的关联性。
如图12所示,图12示出了根据本公开实施例的神经网络训练方法的一个例子,该方法包括:
在201中,获取第一稠密光流样本。
本公开实施例中,可以通过光流解码器直接根据样本图像获得第一稠密光流样本。可选地,光流解码器可以跳过图层,逐步引入进行图像编码器进行降维处理后的样本图像中的浅层特征,从而帮助生成样本图像的第一稠密光流样本。
在202中,根据样本图像、所述第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,确定预设分布参数。
训练设备可以从第一稠密光流样本中进行抽样,可选地,可以从每个可活动位置进行抽样,从而得到第一稀疏光流样本。进一步地,训练设备可以将样本图像、所述第一稠密光流样本和第一稀疏光流样本输入光流编码器,获得预设分布参数。可选地,预设分布参数可以是满足高斯分布的参数。
光流编码器采用VAE(Variational Autoencoder,变分自编码器),带有5个堆叠的Conv-BN-ReLU-Pooling模块。
在203中,将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量输入所述神经网络,获得所述神经网络输出的第二稠密光流样本。
训练设备可以基于之前得到的预设分布参数进行抽样,从而得到满足预设分布的随机向量,进而将样本图像、第一稀疏光流样本和该随机向量作为神经网络输入值,获得神经网络输出的第二稠密光流样本。
在204中,基于所述第一稠密光流样本和所述第二稠密光流样本,调整所述神经网络的网络参数值。
训练设备可以比较第一稠密光流样本和所述第二稠密光流样本之间的差异,调整神经网络每一层的网络参数值,最小化损失函数,从而得到所需要的神经网络。
在本公开实施例中,神经网络采用的损失函数Loss如以下公式所示:
Figure BDA0002100450520000171
其中,λ是损失权重,N是像素点的数目,P是softmax函数的概率值,Q是量化标签,
Figure BDA0002100450520000172
(*)代表指示功能。F,I,S分别代表光流,图像和稀疏运动。给定样本z,光流解码器从条件分布pθ(z|F,I,S)中解码光流F,DKL是Kullback-Leibler散度,pθ(z)是假定为多变量的先验分布,具有零均值和单位方差的高斯分布,qΦ(z|F,I,S)是变分分布,C是水平和垂直的两个并行的分类任务的类别数。
上述实施例训练得到的神经网络可以针对目标对象的每个可活动位置,在静态图像的稀疏光流和稠密光流之间建立关联,进一步地,在本公开实施例中,可以利用上述的神经网络,对电子设备采集的第一静态图像进行物理结构方面的理解,确定出目标对象的每个可活动位置。
在一些可选实施例中,所述预设分布参数包括高斯分布的均值和方差中的至少一项。
在一些可选实施例中,例如图13所示,提供了一种神经网络的训练框架。
其中,训练框架可以包括图像编码器,该图像编码器可以采用带有相对卷积的ResNet(残差网络)-50。通过图像编码器对样本图像进行降维处理。
该训练框架还可以包括光流编码器,光流解码器可以跳过图层,逐步引入图像编码器中的浅层特征,从而基于样本图像生成第一稠密光流样本。
另外,该训练框架可以从第一稠密光流样本中进行抽样,得到第一稀疏光流样本。进一步地,通过稀疏运动编码器对第一稀疏光流样本进行降维处理,将样本图像的第一稀疏光流样本编码为16维特征向量。稀疏运动编码器可以采用shallow CNN,具有2个堆叠的Conv-BN-ReLU-Pooling模块。
训练框架还可以包括光流编码器,光流编码器采用VAE,带有5个堆叠的Conv-BN-ReLU-Pooling模块,可以将第一稀疏光流样本、样本图像和第一稠密光流样本作为光流编码器的输入值,通过光流编码器获得两个输出值,分别对应均值向量和方差向量,即预设分布参数。均值向量和方差向量是128维向量,方差是对数形式。满足高斯分布的随机向量z从均值向量和方差向量中采样。
训练框架可以将第一稀疏光流样本、样本图像和满足高斯分布的随机向量z作为神经网络的输入值,获得神经网络输出的第二稠密光流样本。通过比较第一稠密光流样本和第二稠密光流样本,调整神经网络每一层的参数值,让第二稠密光流样本与第一稠密光流样本之间的损失函数最小。最终训练得到的神经网络即本公开实施例所需要的神经网络。
与前述方法实施例相对应,本公开还提供了装置的实施例。
如图14所示,图14是本公开根据一示例性实施例示出的一种图像处理装置框图,装置包括:
第一确定模块310,用于根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流;其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值;
第二确定模块320,用于基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,其中,所述目标对象的可活动部件包含所述第一可活动位置。
在一些可选实施例中,例如图15所示,所述第二确定模块320包括:
第一确定子模块321,用于基于所述至少一个第一稠密光流,确定所述目标对象中的多个位置中每个位置的光流方差;
第二确定子模块322,用于基于所述多个位置中每个位置的光流方差,确定所述目标对象的所述第一可活动位置。
在一些可选实施例中,例如图16所示,所述第二确定子模块322包括:
处理单元3221,用于对所述多个位置中每个位置的所述光流方差进行归一化处理,获得所述每个位置的归一化光流方差;
确定单元3222,用于将所述多个位置中归一化光流方差的最大值在所述第一静态图像中所对应的位置作为所述目标对象的所述第一可活动位置。
在一些可选实施例中,所述第一稀疏光流包含所述已知可活动位置的坐标信息和所述已知可活动位置的目标速度。
在一些可选实施例中,如果所述已知可活动位置集合中包含的所述已知可活动位置的个数为0,则所述第一稀疏光流为空。
在一些可选实施例中,例如图17所示,所述装置还包括:
第三确定模块330,用于将所述第一可活动位置添加到所述已知可活动位置集合中,进行下一循环预测,得到所述目标对象的第二可活动位置。
在一些可选实施例中,例如图18所示,所述第三确定模块330包括:
执行子模块331,用于响应于所述第一可活动位置对应的所述光流方差低于预设阈值,将所述第一可活动位置添加到所述已知可活动位置集合中。
在一些可选实施例中,例如图19所示,所述装置还包括:
处理模块340,用于对所述第一静态图像和/或所述第一稀疏光流进行降维处理。
在一些可选实施例中,例如图20所示,所述装置还包括:
第一获取模块350,用于基于预设分布进行随机采样,获得所述至少一个第一随机向量。
在一些可选实施例中,例如图21所示,所述装置还包括:
第二获取模块360,用于获取所述目标对象的可活动部件中每个可活动位置的预测速度;
第四确定模块370,用于基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像。
在一些可选实施例中,例如图22所示,所述第四确定模块370包括:
第一生成子模块371,用于根据所述第二静态图像、所述可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量,得到第二稠密光流;
第二生成子模块372,用于基于所述第二稠密光流和所述第二静态图像,得到所述目标图像。
在一些可选实施例中,例如图23所示,所述第二获取模块360包括:
模型建立子模块361,用于建立用于对所述可活动部件进行运动预测的速度分布模型;
获取子模块362,用于基于所述速度分布模型,对所述可活动部件的每个可活动位置进行抽样,获得所述每个可活动位置的预测速度。
如图24所示,图24是本公开根据一示例性实施例示出的一种神经网络训练装置框图,装置包括:
第三获取模块410,用于获取第一稠密光流样本;
第五确定模块420,用于根据样本图像、所述第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,确定预设分布参数;
第四获取模块430,用于将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量输入所述神经网络,获得所述神经网络输出的第二稠密光流样本;
训练模块440,用于基于所述第一稠密光流样本和所述第二稠密光流样本,调整所述神经网络的网络参数值。
在一些可选实施例中,所述预设分布参数包括高斯分布的均值和方差中的至少一项。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的图像处理方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的神经网络训练方法。
本公开实施例还提供了一种图像处理装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现任一项所述的图像处理方法。
如图25所示,图25是一些实施例提供的一种图像处理装置2500的一结构示意图。例如,装置2500可以被提供为一图像处理装置。参照图25,装置2500包括处理组件2522,其进一步包括一个或多个处理器,以及由存储器2532所代表的存储器资源,用于存储可由处理部件2522的执行的指令,例如应用程序。存储器2532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件2522被配置为执行指令,以执行上述任一的图像处理方法。
装置2500还可以包括一个电源组件2526被配置为执行装置2500的电源管理,一个有线或无线网络接口2550被配置为将装置2500连接到网络,和一个输入输出(I/O)接口2558。装置2500可以操作基于存储在存储器2532的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeB SDTM或类似。
本公开实施例还提供了一种神经网络训练装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现上述任一所述的神经网络训练方法。
如图26所示,图26是一些实施例提供的一种神经网络训练装置2600的一结构示意图。例如,装置2600可以被提供为一神经网络训练装置。参照图26,装置2600包括处理组件2622,其进一步包括一个或多个处理器,以及由存储器2632所代表的存储器资源,用于存储可由处理部件2622的执行的指令,例如应用程序。存储器2632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件2622被配置为执行指令,以执行上述任一的神经网络训练方法。
装置2600还可以包括一个电源组件2626被配置为执行装置2600的电源管理,一个有线或无线网络接口2650被配置为将装置2600连接到网络,和一个输入输出(I/O)接口2658。装置2600可以操作基于存储在存储器2632的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeB SDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (32)

1.一种图像处理方法,其特征在于,所述方法包括:
根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流;其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值;
基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,其中,所述目标对象的可活动部件包含所述第一可活动位置。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,包括:
基于所述至少一个第一稠密光流,确定所述目标对象中的多个位置中每个位置的光流方差;
基于所述多个位置中每个位置的光流方差,确定所述目标对象的所述第一可活动位置。
3.根据权利要求2所述的方法,其特征在于,所述基于所述多个位置中每个位置的光流方差,确定所述目标对象的第一可活动位置,包括:
对所述多个位置中每个位置的所述光流方差进行归一化处理,获得所述每个位置的归一化光流方差;
将所述多个位置中归一化光流方差的最大值在所述第一静态图像中所对应的位置作为所述目标对象的所述第一可活动位置。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述第一稀疏光流包含所述已知可活动位置的坐标信息和所述已知可活动位置的目标速度。
5.根据权利要求4所述的方法,其特征在于,如果所述已知可活动位置集合中包含的所述已知可活动位置的个数为0,则所述第一稀疏光流为空。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
将所述第一可活动位置添加到所述已知可活动位置集合中,进行下一循环预测,得到所述目标对象的第二可活动位置。
7.根据权利要求6所述的方法,其特征在于,所述将所述第一可活动位置添加到所述已知可活动位置集合中,包括:
响应于所述第一可活动位置对应的光流方差低于预设阈值,将所述第一可活动位置添加到所述已知可活动位置集合中。
8.根据权利要求1-3任一项所述的方法,其特征在于,所述根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流之前,所述方法还包括:
对所述第一静态图像和/或所述第一稀疏光流进行降维处理。
9.根据权利要求1-3任一项所述的方法,其特征在于,所述根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流之前,所述方法还包括:
基于预设分布进行随机采样,获得所述至少一个第一随机向量。
10.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置之后,所述方法还包括:
获取所述目标对象的可活动部件中每个可活动位置的预测速度;
基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像。
11.根据权利要求10所述的方法,其特征在于,所述基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像,包括:
根据所述第二静态图像、所述可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量,得到第二稠密光流;
基于所述第二稠密光流和所述第二静态图像,得到所述目标图像。
12.根据权利要求10所述的方法,其特征在于,所述获取所述目标对象的可活动部件中每个可活动位置的预测速度,包括:
建立用于对所述可活动部件进行运动预测的速度分布模型;
基于所述速度分布模型,对所述可活动部件的每个可活动位置进行抽样,获得所述第一静态图像每个可活动位置的预测速度。
13.一种神经网络训练方法,其特征在于,所述方法包括:
获取第一稠密光流样本;
根据样本图像、所述第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,确定预设分布参数;
将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量输入所述神经网络,获得所述神经网络输出的第二稠密光流样本;
基于所述第一稠密光流样本和所述第二稠密光流样本,调整所述神经网络的网络参数值。
14.根据权利要求13所述的方法,其特征在于,所述预设分布参数包括高斯分布的均值和方差中的至少一项。
15.一种图像处理装置,其特征在于,所述装置包括:
第一确定模块,用于根据包含目标对象的第一静态图像、第一稀疏光流和至少一个第一随机向量,确定至少一个第一稠密光流;其中,所述第一稀疏光流用于使得所述目标对象的已知可活动位置集合中的已知可活动位置在所述第一稠密光流中的速度低于第一数值;
第二确定模块,用于基于所述至少一个第一稠密光流,确定所述目标对象的第一可活动位置,其中,所述目标对象的可活动部件包含所述第一可活动位置。
16.根据权利要求15所述的装置,其特征在于,所述第二确定模块包括:
第一确定子模块,用于基于所述至少一个第一稠密光流,确定所述目标对象中的多个位置中每个位置的光流方差;
第二确定子模块,用于基于所述多个位置中每个位置的光流方差,确定所述目标对象的所述第一可活动位置。
17.根据权利要求16所述的装置,其特征在于,所述第二确定子模块包括:
处理单元,用于对所述多个位置中每个位置的所述光流方差进行归一化处理,获得所述每个位置的归一化光流方差;
确定单元,用于将所述多个位置中归一化光流方差的最大值在所述第一静态图像中所对应的位置作为所述目标对象的所述第一可活动位置。
18.根据权利要求15-17任一项所述的装置,其特征在于,所述第一稀疏光流包含所述已知可活动位置的坐标信息和所述已知可活动位置的目标速度。
19.根据权利要求18所述的装置,其特征在于,如果所述已知可活动位置集合中包含的所述已知可活动位置的个数为0,则所述第一稀疏光流为空。
20.根据权利要求15-17任一项所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于将所述第一可活动位置添加到所述已知可活动位置集合中,进行下一循环预测,得到所述目标对象的第二可活动位置。
21.根据权利要求20所述的装置,其特征在于,所述第三确定模块包括:
执行子模块,用于响应于所述第一可活动位置对应的光流方差低于预设阈值,将所述第一可活动位置添加到所述已知可活动位置集合中。
22.根据权利要求15-17任一项所述的装置,其特征在于,所述装置还包括:
处理模块,用于对所述第一静态图像和/或所述第一稀疏光流进行降维处理。
23.根据权利要求15-17任一项所述的装置,其特征在于,所述装置还包括:
第一获取模块,用于基于预设分布进行随机采样,获得所述至少一个第一随机向量。
24.根据权利要求15-17任一项所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述目标对象的可活动部件中每个可活动位置的预测速度;
第四确定模块,用于基于所述可活动部件中每个可活动位置的预测速度和包括所述目标对象的第二静态图像,得到目标图像。
25.根据权利要求24所述的装置,其特征在于,所述第四确定模块包括:
第一生成子模块,用于根据所述第二静态图像、所述可活动部件中每个可活动位置的预测速度对应的第二稀疏光流和第二随机向量,得到第二稠密光流;
第二生成子模块,用于基于所述第二稠密光流和所述第二静态图像,得到所述目标图像。
26.根据权利要求24所述的装置,其特征在于,所述第二获取模块包括:
模型建立子模块,用于建立用于对所述可活动部件进行运动预测的速度分布模型;
获取子模块,用于基于所述速度分布模型,对所述可活动部件的每个可活动位置进行抽样,获得所述每个可活动位置的预测速度。
27.一种神经网络训练装置,其特征在于,所述装置包括:
第三获取模块,用于获取第一稠密光流样本;
第五确定模块,用于根据样本图像、所述第一稠密光流样本和从所述第一稠密光流样本中抽样得到的第一稀疏光流样本,确定预设分布参数;
第四获取模块,用于将所述样本图像、所述第一稀疏光流样本和基于所述预设分布参数抽样得到的随机向量输入所述神经网络,获得所述神经网络输出的第二稠密光流样本;
训练模块,用于基于所述第一稠密光流样本和所述第二稠密光流样本,调整所述神经网络的网络参数值。
28.根据权利要求27所述的装置,其特征在于,所述预设分布参数包括高斯分布的均值和方差中的至少一项。
29.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1至12任一所述的图像处理方法。
30.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求13或14所述的神经网络训练方法。
31.一种图像处理装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求1至12中任一项所述的图像处理方法。
32.一种神经网络训练装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求13或14所述的神经网络训练方法。
CN201910533433.6A 2019-06-19 2019-06-19 图像处理、神经网络训练方法及装置、存储介质 Active CN110264455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910533433.6A CN110264455B (zh) 2019-06-19 2019-06-19 图像处理、神经网络训练方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910533433.6A CN110264455B (zh) 2019-06-19 2019-06-19 图像处理、神经网络训练方法及装置、存储介质

Publications (2)

Publication Number Publication Date
CN110264455A CN110264455A (zh) 2019-09-20
CN110264455B true CN110264455B (zh) 2021-07-23

Family

ID=67919601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910533433.6A Active CN110264455B (zh) 2019-06-19 2019-06-19 图像处理、神经网络训练方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN110264455B (zh)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229242B2 (en) * 2010-03-25 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. Method for reconstructing surfaces of specular object from sparse reflection correspondences
EP2701093B1 (en) * 2012-08-20 2016-06-22 Honda Research Institute Europe GmbH Sensing system and method for detecting moving objects
CN103761737B (zh) * 2014-01-22 2016-08-31 北京工业大学 基于稠密光流的机器人运动估计方法
CN105261042A (zh) * 2015-10-19 2016-01-20 华为技术有限公司 光流估计的方法及装置
CN107465911B (zh) * 2016-06-01 2019-03-15 东南大学 一种深度信息提取方法及装置
US10547871B2 (en) * 2017-05-05 2020-01-28 Disney Enterprises, Inc. Edge-aware spatio-temporal filtering and optical flow estimation in real time
CN108229282A (zh) * 2017-05-05 2018-06-29 商汤集团有限公司 关键点检测方法、装置、存储介质及电子设备
CN107527358B (zh) * 2017-08-23 2020-05-12 北京图森智途科技有限公司 一种稠密光流估计方法及装置
CN107657644B (zh) * 2017-09-28 2019-11-15 浙江大华技术股份有限公司 一种移动环境下稀疏场景流检测方法和装置
US10469768B2 (en) * 2017-10-13 2019-11-05 Fyusion, Inc. Skeleton-based effects and background replacement
CN109615593A (zh) * 2018-11-29 2019-04-12 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN109819229B (zh) * 2019-01-22 2021-02-26 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110264455A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
Tang et al. Long-term human motion prediction by modeling motion context and enhancing motion dynamic
US11769259B2 (en) Region-based stabilized face tracking
CN110062934A (zh) 使用神经网络确定图像中的结构和运动
CN111950638B (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
CN108764107B (zh) 基于人体骨架序列的行为与身份联合识别方法及装置
CN111414797B (zh) 用于估计对象的姿势和姿态信息的系统和方法
CN112200165A (zh) 模型训练方法、人体姿态估计方法、装置、设备及介质
US20220254157A1 (en) Video 2D Multi-Person Pose Estimation Using Multi-Frame Refinement and Optimization
CN113963087A (zh) 图像处理方法、图像处理模型训练方法、装置及存储介质
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
KR102440385B1 (ko) 멀티 인식모델의 결합에 의한 행동패턴 인식방법 및 장치
US11185980B2 (en) Machine learning-based systems and methods for controlling robotic object picking and placement in training and run time environments
KR20220160066A (ko) 이미지 처리 방법 및 장치
CN116958584B (zh) 关键点检测方法、回归模型的训练方法、装置及电子设备
CN116052276A (zh) 一种人体姿态估计行为分析方法
CN114973097A (zh) 电力机房内异常行为识别方法、装置、设备及存储介质
CN114677572B (zh) 对象描述参数的生成方法、深度学习模型的训练方法
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
Ahn et al. Can we use diffusion probabilistic models for 3d motion prediction?
CN113379045A (zh) 数据增强方法和装置
CN110264455B (zh) 图像处理、神经网络训练方法及装置、存储介质
CN111028346B (zh) 一种视频对象的重建方法和装置
Macesanu et al. A time-delay control approach for a stereo vision based human-machine interaction system
CN116977663A (zh) 图像数据处理方法、装置、设备以及介质
Wang et al. Ssim prediction for h. 265/hevc based on convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 1101-1117, floor 11, No. 58, Beisihuan West Road, Haidian District, Beijing 100080

Applicant after: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

Address before: 100084, room 7, floor 3, building 1, No. 710-712, Zhongguancun East Road, Beijing, Haidian District

Applicant before: BEIJING SENSETIME TECHNOLOGY DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant