CN111368787A - 视频处理方法及装置、设备和计算机可读存储介质 - Google Patents

视频处理方法及装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111368787A
CN111368787A CN202010185357.7A CN202010185357A CN111368787A CN 111368787 A CN111368787 A CN 111368787A CN 202010185357 A CN202010185357 A CN 202010185357A CN 111368787 A CN111368787 A CN 111368787A
Authority
CN
China
Prior art keywords
human body
designated
image
joint point
point coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010185357.7A
Other languages
English (en)
Inventor
李玺
田�健
吴昊潜
覃鑫
吴飞
董霖
叶新江
方毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Meiri Interdynamic Network Technology Co ltd
Zhejiang University ZJU
Original Assignee
Zhejiang Meiri Interdynamic Network Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Meiri Interdynamic Network Technology Co ltd, Zhejiang University ZJU filed Critical Zhejiang Meiri Interdynamic Network Technology Co ltd
Priority to CN202010185357.7A priority Critical patent/CN111368787A/zh
Publication of CN111368787A publication Critical patent/CN111368787A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种视频处理方法、装置、设备和计算机可读存储介质,该方法包括:获取视频图像序列,视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像;通过预定的人体姿态估计算法,获取每个图像中的第一人体关节点坐标集合;将视频图像序列对应的多个第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合;对多个第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。通过本发明的技术方案,以携带有时序信息的人体关节点坐标集合取代步态能量图作为步态识别模型的样本输入数据,有提升了步态识别模型的有效性,使得步态识别模型输出的步态识别结果更为精确可靠。

Description

视频处理方法及装置、设备和计算机可读存储介质
【技术领域】
本发明涉及神经网络技术领域,尤其涉及一种视频处理方法、装置、设备和计算机可读存储介质。
【背景技术】
在视频步态识别中,可在视频中提取人体图像序列进行人体步态识别,具体来说,可在视频中提取人体轮廓图序列,并基于人体轮廓图序列的多个图像叠加得到步态能量图,最终将步态能量图作为步态识别模型的输入训练样本,训练步态识别模型。
然而,由于每个图像本身是携带有时序信息的,生成步态能量图后,由于多图层叠加融合,则会导致每个图像本身的时序信息不再有意义,造成了时序信息的浪费,而少了时序信息这一至关重要的内容,则会影响所训练的步态识别模型的有效性及其识别结果的准确性。
因此,如何在步态识别过程中有效利用时序信息,成为目前亟待解决的技术问题。
【发明内容】
本发明实施例提供了一种视频处理方法、装置、设备和计算机可读存储介质,旨在解决相关技术中步态识别模型的训练样本未有效利用时序信息的技术问题。
第一方面,本发明实施例提供了一种视频处理方法,包括:获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像;通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合;将所述视频图像序列对应的多个所述第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合;对多个所述第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。
在本发明上述实施例中,可选地,所述初始对齐处理包括:对于每个所述图像,基于所述第一人体关节点坐标集合与指定坐标区域的相对位置关系,将所述图像中的目标人体关节点平移至所述指定坐标区域内。
在本发明上述实施例中,可选地,在所述初始对齐处理之前,还包括:根据第一设置信息,设置所述指定坐标区域。
在本发明上述实施例中,可选地,所述初始对齐处理还包括:确定第一参照图像中所述指定坐标区域内的多个第一指定关节点的第一间距;对每个所述图像中所述指定坐标区域内的关节点集合进行整体缩放,以使每个所述图像中所述多个第一指定关节点的第二间距调整至所述第一间距。
在本发明上述实施例中,可选地,所述主轴对齐处理包括:获取第二参照图像中所述指定坐标区域内的两个第二指定关节点的第一中点,以及获取每个所述图像中所述指定坐标区域内的所述两个第二指定关节点的第二中点;移动每个所述图像中所述指定坐标区域内的关节点集合,以使所述第二中点与所述第一中点对齐。
在本发明上述实施例中,可选地,在所述初始对齐处理之前,还包括:根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;在所述主轴对齐处理之前,还包括:根据第三设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第二参照图像。
在本发明上述实施例中,可选地,在所述初始对齐处理之前,还包括:根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;在所述主轴对齐处理之前,还包括:根据第四设置信息,将所述目标人体基于所述指定角度被拍摄得到的任一视频图像序列中的随机图像或指定图像设置为所述第二参照图像;则所述获取视频图像序列的步骤,包括:获取多个所述视频图像序列;所述初始对齐处理的步骤,包括:基于所述第一参照图像,对单个所述视频图像序列进行序列内的初始对齐处理;所述主轴对齐处理的步骤,包括:基于所述第二参照图像,对完成所述初始对齐处理后的多个所述视频图像序列,执行序列间的主轴对齐处理。
第二方面,本发明实施例提供了一种视频处理装置,包括:视频图像序列获取单元,用于获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像;关节点坐标获取单元,用于通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合;第一对齐单元,用于将所述视频图像序列对应的多个所述第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合;第二对齐单元,用于对多个所述第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。
在本发明上述实施例中,可选地,所述第一对齐单元用于:对于每个所述图像,基于所述第一人体关节点坐标集合与指定坐标区域的相对位置关系,将所述图像中的目标人体关节点平移至所述指定坐标区域内。
在本发明上述实施例中,可选地,还包括:第一设置单元,用于在所述第一对齐单元进行所述初始对齐处理之前,根据第一设置信息,设置所述指定坐标区域。
在本发明上述实施例中,可选地,所述第一对齐单元还用于:确定第一参照图像中所述指定坐标区域内的多个第一指定关节点的第一间距;对每个所述图像中所述指定坐标区域内的关节点集合进行整体缩放,以使每个所述图像中所述多个第一指定关节点的第二间距调整至所述第一间距。
在本发明上述实施例中,可选地,所述第二对齐单元用于:获取第二参照图像中所述指定坐标区域内的两个第二指定关节点的第一中点,以及获取每个所述图像中所述指定坐标区域内的所述两个第二指定关节点的第二中点;移动每个所述图像中所述指定坐标区域内的关节点集合,以使所述第二中点与所述第一中点对齐。
在本发明上述实施例中,可选地,还包括:第二设置单元,用于在所述第一对齐单元进行所述初始对齐处理之前,根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;第三设置单元,用于在所述第二对齐单元进行所述主轴对齐处理之前,根据第三设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第二参照图像。
在本发明上述实施例中,可选地,还包括:第二设置单元,用于在所述第一对齐单元进行所述初始对齐处理之前,根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;第四设置单元,用于在所述第二对齐单元进行所述主轴对齐处理之前,根据第四设置信息,将所述目标人体基于所述指定角度被拍摄得到的任一视频图像序列中的随机图像或指定图像设置为所述第二参照图像;则所述视频图像序列获取单元用于:获取多个所述视频图像序列;所述第一对齐单元用于:基于所述第一参照图像,对单个所述视频图像序列进行序列内的初始对齐处理;所述第二对齐单元用于基于所述第二参照图像,对完成所述初始对齐处理后的多个所述视频图像序列,执行序列间的主轴对齐处理。
第三方面,本发明实施例提供了一种设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
以上技术方案,针对相关技术中步态识别模型的训练样本未有效利用时序信息的技术问题,可将携带有时序信息的人体关节点坐标集合作为步态识别模型的输入样本数据。
最初,可获取多个不同人体的视频图像序列作为样本输入数据,其中,每个视频图像序列均包括由一个目标人体附有指定衣着和/或指定配饰,且于指定角度被拍摄的多个图像。由于这多个图像是人体在移动中被拍摄的,每个图像中人体与拍摄装置的距离不同,相应的,人体大小、人体位置也就不同。对此,需要将多个图像中的人体大小进行调整,使其具有相同或相近的位置及大小。
具体来说,可通过预定的人体姿态估计算法,获取视频图像序列内每个图像中的第一人体关节点坐标集合。
视频图像序列的多个图像大小相同,且其中具有同一个目标人体,因此,可建立平面坐标系,使图像中目标人体的每个点均处于该坐标系中。进一步地,对于该目标人体,可提取其多个人体关节点坐标,形成第一人体关节点坐标集合。其中,人体关节点的数量可根据实际训练需要灵活设置和更改,人体关节点包括但不限于鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝和右踝等人体关节位置。在获取过程中,可为每种人体关节点设置对应的标识,此标识包括但不限于数字序号、字母序号等。而在不同的视频图像序列之间,相同的人体关节点均对应同样的标识,以方便样本的统计和训练。
获取人体关节点坐标是基于预定的人体姿态估计算法实现的,而预定的人体姿态估计算法包括但不限于Alphapose、OpenPose、DeepCut等。其中,Alphapose用于自顶向下进行单人姿态估计,DeepCut和OpenPose则是用于自底向上进行多人人体姿态估计。
接着,对于通过预定的人体姿态估计算法所提取出的第一人体关节点坐标集合,可进行初始对齐处理。
具体地,初始对齐处理主要用于将视频图像序列的各图像中的目标人体关节点进行粗略对齐,其对齐方式包括但不限于平移和/或缩放,由于第一人体关节点坐标集合限定了视频图像序列中各图像的目标人体位置,则进行初始对齐处理后,相当于对第一人体关节点坐标集合中的各坐标进行了调整,得到具有调整后限定目标人体位置的第二人体关节点坐标集合。
在进行初始对齐处理后,每个图像中的目标人体关节点的位置差异并不能完全抹除,对此,为进一步提升样本输入数据的有效性,可采取主轴对齐处理的方式,对第二人体关节点坐标集合中的多个图像进行精细化对齐处理。
主轴对齐处理指的是为不同图像中的人体设定相同的主轴,而由于人体在行走过程中,主要是迈动腿部,上半身比下半身变化小,因此,可选择目标人体的左肩关节点与右肩关节点的连线作为主轴,最终,将第二人体关节点坐标集合中的多个图像均进行主轴的对齐,得到第三人体关节点坐标集合。
最终,得到的所有第三人体关节点坐标集合均有相同的主轴,至此,即可将第三人体关节点坐标集合加入步态识别模型的样本输入数据。由此,可对作为训练样本的视频图像序列中的目标人体关节点进行多次调整,最大限度地使其处于相近的坐标位置,从而便于依此训练有效的步态识别模型。
以上技术方案,以携带有时序信息的人体关节点坐标集合取代步态能量图作为步态识别模型的样本输入数据,有提升了步态识别模型的有效性,使得步态识别模型输出的步态识别结果更为精确可靠,同时,对步态识别模型的样本输入数据进行了同质化处理,使得样本输入数据处于相同或相近的步态表现水平,从整体上提升了步态识别的实用性和准确性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本发明的一个实施例的视频处理方法的流程图;
图2示出了根据本发明的另一个实施例的视频处理方法的流程图;
图3示出了根据本发明的再一个实施例的视频处理方法的流程图;
图4示出了根据本发明的一个实施例的视频处理装置的框图;
图5示出了根据本发明的一个实施例的设备的框图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
图1示出了根据本发明的一个实施例的视频处理方法的流程图。
如图1所示,根据本发明的一个实施例的视频处理方法的流程包括:
步骤102,获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像。
最初,可获取多个不同人体的视频图像序列作为样本输入数据,其中,每个视频图像序列均包括由一个目标人体附有指定衣着和/或指定配饰,且于指定角度被拍摄的多个图像。由于这多个图像是人体在移动中被拍摄的,每个图像中人体与拍摄装置的距离不同,相应的,人体大小、人体位置也就不同。对此,需要将多个图像中的人体大小进行调整,使其具有相同或相近的位置及大小。
步骤104,通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合。
视频图像序列的多个图像大小相同,且其中具有同一个目标人体,因此,可建立平面坐标系,使图像中目标人体的每个点均处于该坐标系中。进一步地,对于该目标人体,可提取其多个人体关节点坐标,形成第一人体关节点坐标集合。其中,人体关节点的数量可根据实际训练需要灵活设置和更改,人体关节点包括但不限于鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝和右踝等人体关节位置。在获取过程中,可为每种人体关节点设置对应的标识,此标识包括但不限于数字序号、字母序号等。而在不同的视频图像序列之间,相同的人体关节点均对应同样的标识,以方便样本的统计和训练。
获取人体关节点坐标是基于预定的人体姿态估计算法实现的,而预定的人体姿态估计算法包括但不限于Alphapose、OpenPose、DeepCut等。其中,Alphapose用于自顶向下进行单人姿态估计,DeepCut和OpenPose则是用于自底向上进行多人人体姿态估计。
由于视频中的人体是动态的,随着人体移动,其与摄像装置之间的距离变化,这就造成提取的视频图像序列中各图像内关节点坐标集合的位置不一致,而步态识别模型则对自身输入,也就是对图像内关节点坐标集合的位置变动非常敏感,各图像内关节点坐标集合的位置带来的偏差造成了步态识别模型训练样本的不稳定性,从而严重影响步态识别结果的精确性。由此可知,相关技术中步态识别模型的训练样本不足以支撑步态识别结果的精确性的技术问题。对此,在本申请中,可对图像内关节点坐标集合的位置进行调整,以使其在保留步态区别的基础上,尽可能具有相近的坐标位置,从而便于依此训练准确有效的步态识别模型。
步骤106,将所述视频图像序列对应的多个所述第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合。
具体地,初始对齐处理主要用于将视频图像序列的各图像中的目标人体关节点进行粗略对齐,其对齐方式包括但不限于平移和/或缩放,由于第一人体关节点坐标集合限定了视频图像序列中各图像的目标人体位置,则进行初始对齐处理后,相当于对第一人体关节点坐标集合中的各坐标进行了调整,得到具有调整后限定目标人体位置的第二人体关节点坐标集合。
在进行初始对齐处理后,每个图像中的目标人体关节点的位置差异并不能完全抹除,对此,为进一步提升样本输入数据的有效性,可采取主轴对齐处理的方式,对第二人体关节点坐标集合中的多个图像进行精细化对齐处理。
步骤108,对多个所述第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。
主轴对齐处理指的是为不同图像中的人体设定相同的主轴,而由于人体在行走过程中,主要是迈动腿部,上半身比下半身变化小,因此,可选择目标人体的左肩关节点与右肩关节点的连线作为主轴,最终,将第二人体关节点坐标集合中的多个图像均进行主轴的对齐,得到第三人体关节点坐标集合。
最终,得到的所有第三人体关节点坐标集合均有相同的主轴,至此,即可将第三人体关节点坐标集合加入步态识别模型的样本输入数据。由此,可对作为训练样本的视频图像序列中的目标人体关节点进行多次调整,最大限度地使其处于相近的坐标位置,从而便于依此训练有效的步态识别模型。
以上技术方案,以携带有时序信息的人体关节点坐标集合取代步态能量图作为步态识别模型的样本输入数据,有提升了步态识别模型的有效性,使得步态识别模型输出的步态识别结果更为精确可靠,同时,对步态识别模型的样本输入数据进行了同质化处理,使得样本输入数据处于相同或相近的步态表现水平,从整体上提升了步态识别的实用性和准确性。
图2示出了根据本发明的另一个实施例的视频处理方法的流程图。
如图2所示,根据本发明的另一个实施例的视频处理方法的流程包括:
步骤202,获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像。
最初,可获取多个不同人体的视频图像序列作为样本输入数据,其中,每个视频图像序列均包括由一个目标人体附有指定衣着和/或指定配饰,且于指定角度被拍摄的多个图像。
步骤204,通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合。
视频图像序列的多个图像大小相同,且其中具有同一个目标人体,因此,可建立平面坐标系,使图像中目标人体的每个点均处于该坐标系中。进一步地,对于该目标人体,可提取其多个人体关节点坐标,形成第一人体关节点坐标集合。其中,人体关节点的数量可根据实际训练需要灵活设置和更改,人体关节点包括但不限于鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝和右踝等人体关节位置。在获取过程中,可为每种人体关节点设置对应的标识,此标识包括但不限于数字序号、字母序号等。而在不同的视频图像序列之间,相同的人体关节点均对应同样的标识,以方便样本的统计和训练。
获取人体关节点坐标是基于预定的人体姿态估计算法实现的,而预定的人体姿态估计算法包括但不限于Alphapose、OpenPose、DeepCut等。其中,Alphapose用于自顶向下进行单人姿态估计,DeepCut和OpenPose则是用于自底向上进行多人人体姿态估计。
步骤206,对于每个所述图像,基于所述第一人体关节点坐标集合与指定坐标区域的相对位置关系,将所述图像中的目标人体关节点平移至所述指定坐标区域内。
由于这多个图像是人体在移动中被拍摄的,每个图像中人体与拍摄装置的距离不同,相应的,人体大小、人体位置也就不同。对此,需要将多个图像中的人体大小进行调整,使其具有相同或相近的位置及大小。
而在调整过程中,首先应将每个所述图像中的目标人体关节点调整至同一位置,才能进一步采取细微调整。
具体来说,可根据第一设置信息,设置指定坐标区域。其中,第一设置信息可由用户设置,也可由系统根据目标人体的大小自动评估得到,指定坐标区域的高度应大于多个图像中目标人体关节点集合中各关节点间的最大纵向距离,指定坐标区域的宽度应大于多个图像中目标人体关节点集合中各关节点间的最大横向距离,从而无论依照多个图像中的哪个图像进行缩放,均不会超出指定坐标区域的范围。
由于已给出第一人体关节点坐标集合,那么可基于指定坐标区域的边缘坐标,确定第一人体关节点坐标集合平移后在指定坐标区域内所处的新坐标。
步骤208,确定第一参照图像中所述指定坐标区域内的多个第一指定关节点的第一间距。
步骤210,对每个所述图像中所述指定坐标区域内的关节点集合进行整体缩放,以使每个所述图像中所述多个第一指定关节点的第二间距调整至所述第一间距,得到第二人体关节点坐标集合。
在每个图像的目标人体关节点均处于指定坐标区域内的情况下,由于对第一人体关节点坐标集合平移后在指定坐标区域内生成新坐标集合,则基于新坐标集合进入关节点坐标调整。
具体地,可在新坐标集合对应的多个人体关节点中选择多个第一关节点,多个第一关节点可为鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝和右踝等人体关节位置中的任意多个。
例如,选择左腕和右腕两个人体关节点,则可计算第一参照图像中左腕和右腕的第一间距,接着,将第一图像序列的每个图像中的目标人体关节点中左腕和右腕的间距均缩放至第一间距,则缩放的同时,每个图像及其中的关节点集合等比缩放,从而实现了按照左腕和右腕两个人体关节点对齐每个图像中指定坐标区域内的关节点集合的目的。
当然,所选择的第一关节点的数量不限于两个,还可以是三个或者更多,在选择三个或三个以上的第一关节点的情况下,还可基于第一参照图像对每个图像中指定坐标区域内的关节点集合进行仿射变换,从而实现多个图像间关节点集合的对齐。
上述的第一参照图像可在初始对齐处理之前根据第二设置信息进行设置,第二设置信息可由用户设置,也可由系统在视频图像序列中选择随机图像或指定图像作为第一参照图像时生成。
需要知晓,上述平移对齐的步骤和按照多个第一关节点进行缩放对齐的步骤可以循环进行,循环次数越多,最终得到的第二人体关节点坐标集合越具有实用性。
步骤212,获取第二参照图像中所述指定坐标区域内的两个第二指定关节点的第一中点,以及获取每个所述图像中所述指定坐标区域内的第二人体关节点坐标集合中所述两个第二指定关节点的第二中点。
应当指出的是,在实际应用中,在确定中点时,可以依据三个甚至更多的第二指定关节点,而不仅限于根据确定两个第二指定关节点的中点。
在进行初始对齐处理后,每个图像中的目标人体关节点的位置差异并不能完全抹除,对此,为进一步提升样本输入数据的有效性,可采取主轴对齐处理的方式,对第二人体关节点坐标集合进行精细化对齐处理。
在所述主轴对齐处理之前,还包括:根据第三设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第二参照图像。
具体地,第二参照图像可在主轴对齐处理之前根据第三设置信息进行设置,第三设置信息可由用户设置,也可由系统在视频图像序列中选择随机图像或指定图像作为第二参照图像时生成。
步骤214,移动每个所述图像中所述指定坐标区域内的关节点集合,以使所述第二中点与所述第一中点对齐。
主轴对齐处理指的是为不同图像中的人体设定相同的主轴,而由于人体在行走过程中,主要是迈动腿部,上半身比下半身变化小,因此,可选择目标人体的左肩关节点与右肩关节点的连线作为主轴。
选择主轴后,将各关节点集合已主轴的中点也就是第二中点对齐,得到第三人体关节点坐标集合,得到的所有第三人体关节点坐标集合均有相同的主轴。
至此,即可将第三人体关节点坐标集合加入步态识别模型的样本输入数据。由此,可对作为训练样本的视频图像序列中的目标人体关节点进行多次调整,最大限度地使其处于相近的坐标位置,从而便于依此训练有效的步态识别模型。
图3示出了根据本发明的再一个实施例的视频处理方法的流程图。
如图3所示,根据本发明的再一个实施例的视频处理方法的流程包括:
步骤302,获取多个视频图像序列。
最初,可获取多个不同目标人体的视频图像序列作为样本输入数据,其中,对于每个目标人体,可获取多个视频图像序列,每个视频图像序列内的目标人体可附有指定衣着和/或指定配饰且于指定角度被拍摄的多个图像。
比如,将对第一数量的目标人体作为训练样本,对于每个目标人体,均设置第二数量的视频图像序列,第二数量的视频图像序列可包括第三数量的单衣视频图像序列、第四数量的大衣视频图像序列和第五数量的背包视频图像序列。而在每个视频图像序列内,包括在第六数量的角度下拍摄得到的目标人体行走图像。
在一种可能的设计中,第一数量、第二数量、第三数量、第四数量、第五数量和第六数量分别为124、10、6、2、2和11,当然,第一数量、第二数量、第三数量、第四数量、第五数量和第六数量分也可为任何根据实际需求设置的数值。
步骤304,通过预定的人体姿态估计算法,获取所述视频图像序列内每个图像中的第一人体关节点坐标集合。
步骤306,基于第一参照图像,对单个所述视频图像序列进行序列内的初始对齐处理。
初始对齐处理的过程与图2实施例所述一致,在此不再赘述。
步骤308,基于第二参照图像,对完成所述初始对齐处理后的多个所述视频图像序列,执行序列间的主轴对齐处理。
主轴对齐处理的过程与图2实施例所述基本一致,在此不再赘述。
然而,与图2实施例的区别在于,此时的第二参照图像是根据第四设置信息,将所述目标人体基于所述指定角度被拍摄得到的任一视频图像序列中的随机图像或指定图像设置而成的。为进一步提升步态识别模型的样本输入数据的有效性,可在对同一目标人体的每个视频图像序列进行述初始对齐处理后,对于得到的所有关节点集合,进行统一的主轴对齐处理,从而使得同一目标人体对应的全部图像均具有相同主轴。
换言之,可使得同一目标人体对应的全部样本输入数据在人体步态以外的特征上均具有同质性,从而大大提升了样本输入数据的实用性,有助于训练更为准确有效的步态识别模型。
在神经网络设计过程中,可将第三人体关节点坐标集合输入到基于动态时序的长短期记忆神经网络层中,得到加入了时序信息作为进一步限定条件的分类结果,极大地提高了步态识别模型的精度,有助于更好地区分不同行人之间的步态。
图4示出了根据本发明的一个实施例的视频处理装置的框图。
如图4所示,根据本发明的一个实施例的视频处理装置400包括:视频图像序列获取单元402,用于获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像;关节点坐标获取单元404,用于通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合;第一对齐单元406,用于将所述视频图像序列对应的多个所述第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合;第二对齐单元408,用于对多个所述第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。
在本发明上述实施例中,可选地,所述第一对齐单元406用于:对于每个所述图像,基于所述第一人体关节点坐标集合与指定坐标区域的相对位置关系,将所述图像中的目标人体关节点平移至所述指定坐标区域内。
在本发明上述实施例中,可选地,还包括:第一设置单元,用于在所述第一对齐单元406进行所述初始对齐处理之前,根据第一设置信息,设置所述指定坐标区域。
在本发明上述实施例中,可选地,所述第一对齐单元406还用于:确定第一参照图像中所述指定坐标区域内的多个第一指定关节点的第一间距;对每个所述图像中所述指定坐标区域内的关节点集合进行整体缩放,以使每个所述图像中所述多个第一指定关节点的第二间距调整至所述第一间距。
在本发明上述实施例中,可选地,所述第二对齐单元408用于:获取第二参照图像中所述指定坐标区域内的两个第二指定关节点的第一中点,以及获取每个所述图像中所述指定坐标区域内的所述两个第二指定关节点的第二中点;移动每个所述图像中所述指定坐标区域内的关节点集合,以使所述第二中点与所述第一中点对齐。
在本发明上述实施例中,可选地,还包括:第二设置单元,用于在所述第一对齐单元406进行所述初始对齐处理之前,根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;第三设置单元,用于在所述第二对齐单元408进行所述主轴对齐处理之前,根据第三设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第二参照图像。
在本发明上述实施例中,可选地,还包括:第二设置单元,用于在所述第一对齐单元406进行所述初始对齐处理之前,根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;第四设置单元,用于在所述第二对齐单元408进行所述主轴对齐处理之前,根据第四设置信息,将所述目标人体基于所述指定角度被拍摄得到的任一视频图像序列中的随机图像或指定图像设置为所述第二参照图像;则所述视频图像序列获取单元402用于:获取多个所述视频图像序列;所述第一对齐单元406用于:基于所述第一参照图像,对单个所述视频图像序列进行序列内的初始对齐处理;所述第二对齐单元408用于:基于所述第二参照图像,对完成所述初始对齐处理后的多个所述视频图像序列,执行序列间的主轴对齐处理。
该视频处理装置400使用图1至图3示出的实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
图5示出了根据本发明的一个实施例的设备的框图。
如图5所示,本发明的一个实施例的设备500,包括至少一个存储器502;以及,与所述至少一个存储器502通信连接的处理器504;其中,所述存储器存储有可被所述至少一个处理器504执行的指令,所述指令被设置为用于执行上述图1至图3实施例中任一项所述的方案。因此,该设备500具有和图1至图3实施例中任一项相同的技术效果,在此不再赘述。
本发明实施例的设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述图1至图3实施例中任一项所述的方法流程。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,以携带有时序信息的人体关节点坐标集合取代步态能量图作为步态识别模型的样本输入数据,有提升了步态识别模型的有效性,使得步态识别模型输出的步态识别结果更为精确可靠。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种视频处理方法,其特征在于,包括:
获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像;
通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合;
将所述视频图像序列对应的多个所述第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合;
对多个所述第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。
2.根据权利要求1所述的视频处理方法,其特征在于,所述初始对齐处理包括:
对于每个所述图像,基于所述第一人体关节点坐标集合与指定坐标区域的相对位置关系,将所述图像中的目标人体关节点平移至所述指定坐标区域内。
3.根据权利要求2所述的图像序列处理方法,其特征在于,在所述初始对齐处理之前,还包括:
根据第一设置信息,设置所述指定坐标区域。
4.根据权利要求2所述的视频处理方法,其特征在于,所述初始对齐处理还包括:
确定第一参照图像中所述指定坐标区域内的多个第一指定关节点的第一间距;
对每个所述图像中所述指定坐标区域内的关节点集合进行整体缩放,以使每个所述图像中所述多个第一指定关节点的第二间距调整至所述第一间距。
5.根据权利要求4所述的视频处理方法,其特征在于,所述主轴对齐处理包括:
获取第二参照图像中所述指定坐标区域内的两个第二指定关节点的第一中点,以及获取每个所述图像中所述指定坐标区域内的所述两个第二指定关节点的第二中点;
移动每个所述图像中所述指定坐标区域内的关节点集合,以使所述第二中点与所述第一中点对齐。
6.根据权利要求5所述的视频处理方法,其特征在于,在所述初始对齐处理之前,还包括:
根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;
在所述主轴对齐处理之前,还包括:
根据第三设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第二参照图像。
7.根据权利要求5所述的视频处理方法,其特征在于,在所述初始对齐处理之前,还包括:
根据第二设置信息,将所述视频图像序列中的随机图像或指定图像设置为所述第一参照图像;
在所述主轴对齐处理之前,还包括:
根据第四设置信息,将所述目标人体基于所述指定角度被拍摄得到的任一视频图像序列中的随机图像或指定图像设置为所述第二参照图像;
则所述获取视频图像序列的步骤,包括:
获取多个所述视频图像序列;
所述初始对齐处理的步骤,包括:
基于所述第一参照图像,对单个所述视频图像序列进行序列内的初始对齐处理;
所述主轴对齐处理的步骤,包括:
基于所述第二参照图像,对完成所述初始对齐处理后的多个所述视频图像序列,执行序列间的主轴对齐处理。
8.一种视频处理装置,其特征在于,包括:
视频图像序列获取单元,用于获取视频图像序列,所述视频图像序列包括目标人体在指定衣着和/或指定配饰下基于指定角度被拍摄得到的多个图像;
关节点坐标获取单元,用于通过预定的人体姿态估计算法,获取每个所述图像中的第一人体关节点坐标集合;
第一对齐单元,用于将所述视频图像序列对应的多个所述第一人体关节点坐标集合进行初始对齐处理,得到多个第二人体关节点坐标集合;
第二对齐单元,用于对多个所述第二人体关节点坐标集合进行主轴对齐处理,得到多个第三人体关节点坐标集合。
9.一种设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法流程。
CN202010185357.7A 2020-03-17 2020-03-17 视频处理方法及装置、设备和计算机可读存储介质 Pending CN111368787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010185357.7A CN111368787A (zh) 2020-03-17 2020-03-17 视频处理方法及装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010185357.7A CN111368787A (zh) 2020-03-17 2020-03-17 视频处理方法及装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111368787A true CN111368787A (zh) 2020-07-03

Family

ID=71210562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010185357.7A Pending CN111368787A (zh) 2020-03-17 2020-03-17 视频处理方法及装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111368787A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686196A (zh) * 2021-01-07 2021-04-20 每日互动股份有限公司 图像选择方法、电子设备和计算机可读存储介质
CN113362324A (zh) * 2021-07-21 2021-09-07 上海脊合医疗科技有限公司 一种基于视频图像的骨骼健康检测方法及系统
CN115546174A (zh) * 2022-10-20 2022-12-30 数坤(北京)网络科技股份有限公司 图像处理方法、装置、计算设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN110059522A (zh) * 2018-01-19 2019-07-26 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备
WO2020015752A1 (zh) * 2018-07-20 2020-01-23 华为技术有限公司 一种对象属性识别方法、装置、计算设备及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243058A1 (en) * 2014-10-28 2017-08-24 Watrix Technology Gait recognition method based on deep learning
CN110059522A (zh) * 2018-01-19 2019-07-26 北京市商汤科技开发有限公司 人体轮廓关键点检测方法、图像处理方法、装置及设备
WO2020015752A1 (zh) * 2018-07-20 2020-01-23 华为技术有限公司 一种对象属性识别方法、装置、计算设备及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
余涛: "基于深度学习的人体步态识别算法研究", pages 21 - 22 *
廖日军: "基于人体姿态特征的步态识别研究", pages 21 - 23 *
李长云: "《智能感知技术及在电气工程中的应用》", 成都电子科技大学出版社, pages: 142 - 144 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686196A (zh) * 2021-01-07 2021-04-20 每日互动股份有限公司 图像选择方法、电子设备和计算机可读存储介质
CN113362324A (zh) * 2021-07-21 2021-09-07 上海脊合医疗科技有限公司 一种基于视频图像的骨骼健康检测方法及系统
CN115546174A (zh) * 2022-10-20 2022-12-30 数坤(北京)网络科技股份有限公司 图像处理方法、装置、计算设备及存储介质
CN115546174B (zh) * 2022-10-20 2023-09-08 数坤(北京)网络科技股份有限公司 图像处理方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
WO2020228389A1 (zh) 一种创建脸部模型的方法、装置、电子设备及计算机可读存储介质
WO2021169839A1 (zh) 一种基于骨骼关键点的动作还原方法以及装置
CN111368787A (zh) 视频处理方法及装置、设备和计算机可读存储介质
CN110705390A (zh) 基于lstm的形体姿态识别方法、装置及存储介质
CN111414839B (zh) 基于姿态的情感识别方法及装置
CN110688929B (zh) 一种人体骨架关节点定位方法及装置
CN108829233B (zh) 一种交互方法及装置
CN110399794B (zh) 基于人体的姿态识别方法、装置、设备及存储介质
CN110147737B (zh) 用于生成视频的方法、装置、设备和存储介质
CN112287865B (zh) 一种人体姿态识别的方法及装置
CN112419388A (zh) 深度检测方法、装置、电子设备和计算机可读存储介质
CN110633004A (zh) 基于人体姿态估计的交互方法、装置和系统
CN115035546B (zh) 三维人体姿态检测方法、装置及电子设备
CN109740511B (zh) 一种人脸表情匹配方法、装置、设备及存储介质
CN113297919A (zh) 基于姿态识别的康复动作检测方法、装置、设备及介质
CN111639615B (zh) 一种虚拟建筑物的触发控制方法及装置
WO2016021152A1 (ja) 姿勢推定方法および姿勢推定装置
CN117115922A (zh) 坐位体前屈评测方法、系统、电子设备和存储介质
CN115223240B (zh) 基于动态时间规整算法的运动实时计数方法和系统
CN112733704B (zh) 图像处理方法、电子设备和计算机可读存储介质
JP2020198019A (ja) 骨格抽出方法、装置およびプログラム
CN116246343A (zh) 轻量化的人体行为识别方法及装置
CN113544701B (zh) 关联对象的检测方法及装置、电子设备及存储介质
Li Badminton motion capture with visual image detection of picking robotics
CN113842622A (zh) 一种运动教学方法、装置、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination