CN113784059A

CN113784059A - 用于服装生产的视频生成与拼接方法、设备及存储介质

Info

Publication number: CN113784059A
Application number: CN202110887863.5A
Authority: CN
Inventors: 孙熠; 孙凯; 杨晓刚; 陈柯玮; 苏吉普; 方无迪
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-12-10
Anticipated expiration: 2041-08-03
Also published as: CN113784059B

Abstract

本申请实施例提供一种用于服装生产的视频生成与拼接方法、设备及存储介质。在本申请实施例中，针对服装制造类智能场景中一些包含标准动作的教学视频片段，结合这些教学视频片段的拍摄视角以及视频片段中的人体关键点和人体姿态变化，对这些教学视频片段进行合理拼接，得到将多个标准动作的教学视频片段衔接起来且具有较好视觉连贯性的完整教学视频。由此，在视频播放过程中，可以减少视频切换次数，提高视频播放效率；进一步，因为对拍摄视角进行了归一化处理，教学视频中不同标准动作之间切换较为自然流畅，教学视频的质量较高。

Description

用于服装生产的视频生成与拼接方法、设备及存储介质

技术领域

本申请涉及智能制造技术领域，尤其涉及一种用于服装生产的视频生成与拼接方法、设备及存储介质。

背景技术

随着云计算、物联网、人工智能等技术的不断发展，涌现出越来越多的智能工厂。智能工厂能够按照柔性制造模式进行生产制造。其中，柔性制造模式是指通过系统结构、人员组织、运作方式和市场营销等方面的改革，使生产系统能对市场需求变化作出快速地适应，同时消除冗余无用的损耗，力求企业获得更大的效益。在柔性制造模式下，智能工厂以消费者需求为核心，重构传统以产定销的生产模式，实现按需智造。以服装生产领域为例，智能工厂可以满足服装品牌商的小批量个性化定制需求。例如，服装品牌商经常需要进行爆款测试，也即测试哪个款式的衣服在未来可能成为爆款。

目前，服装智能工厂出于标准化生产的需求，对服装生产工序中的生产动作进行了标准化，并且需要针对生产人员进行标准动作的培训。为了提高生产效率，针对一些服装生产工序中的标准动作，特别是重点工序环节中的标准动作，可以制作教学视频。教学视频里，富有经验的教练按照该工序要求的标准动作进行生产作业。生产人员通过观看教学视频，掌握该工序需要的标准动作。

实际应用中，一个工序可能涉及多个标准动作，通过制作多个教学视频片段，并按需播放不同教学视频片段，供生产人员对各视频片段包含的标准动作进行学习。在此过程中，对于不同标准动作的学习，需要在不同视频片段之间切换，视频播放效率较低。

发明内容

本申请的多个方面提供一种用于服装生产的视频生成与拼接方法、设备及存储介质，用以生产人员减少视频切换操作，提高视频播放效率。

本申请实施例提供一种用于服装生产的视频生成方法，包括：针对服装生产中的目标工序，根据目标工序所需的多个标准动作，获取分别包含标准动作的教学视频片段；分别对教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组；结合教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组；结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频。

本申请实施例还提供一种视频拼接方法，包括：获取多个包含不同动作的视频片段；分别对视频片段中的图像帧进行对象关键点检测，以得到标记有对象关键点的第一图像组；结合视频片段的拍摄视角，在多个视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有对象关键点的第二图像组；结合相邻第二图像组之间的对象姿态变化，对多个第二图像组进行拼接，以生成目标视频。

本申请实施例还提供一种视频处理设备，包括：获取模块，用于针对服装生产中的目标工序，根据目标工序所需的多个标准动作，获取分别包含标准动作的教学视频片段；关键点检测模块，用于分别对教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组；视角归一化模块，用于结合教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组；拼接模块，用于结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频。

本申请实施例还提供一种视频处理设备，包括：获取模块，用于获取多个包含不同动作的视频片段；关键点检测模块，用于分别对视频片段中的图像帧进行对象关键点检测，以得到标记有对象关键点的第一图像组；视角归一化模块，用于结合视频片段的拍摄视角，在多个视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有对象关键点的第二图像组；拼接模块，用于结合相邻第二图像组之间的对象姿态变化，对多个第二图像组进行拼接，以生成目标视频。

本申请实施例还提供一种计算机设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器耦合至存储器，用于执行计算机程序以用于执行本申请实施例提供的服装生产视频生成方法中的步骤或者视频拼接方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器执行本申请实施例提供的服装生产视频生成方法中的步骤或者视频拼接方法中的步骤。

在本申请实施例中，针对服装智造场景中一些包含标准动作的教学视频片段，结合这些教学视频片段的拍摄视角以及视频片段中的人体关键点和人体姿态变化，对这些教学视频片段进行合理拼接，得到将多个标准动作的教学视频片段衔接起来且具有较好视觉连贯性的完整教学视频。由此，在视频播放过程中，可以减少视频切换次数，提高视频播放效率；进一步，因为对拍摄视角进行了归一化处理，教学视频中不同标准动作之间切换较为自然流畅，教学视频的质量较高。另外，从生产人员的角度来看，能够对照教学视频进行连贯学习，无需来回切换视频片段，提升了教学视频观看效率。而且因为对拍摄视角进行了归一化处理，生产人员也不需要对不同拍摄视角进行转换和思考，完整的教学视频的动作连贯性更好，可以减少相邻两个标准动作切换时给生产人员带来视觉跳变的观看体验，可提高学习效率，降低学习理解成本。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的用于服装生产的视频生成方法的流程示意图；

图2为本申请实施例提供的在一个实际应用中教学视频生成方法的过程图；

图3为本申请实施例适用的一种服装智造场景下教学视频生成系统的结构示意图；

图4为本申请实施例适用的另一种服装智造场景下教学视频生成系统的结构示意图；

图5为本申请一示例性实施例提供的视频拼接方法的流程示意图；

图6为本申请一示例性实施例提供的一种视频处理设备的结构示意图；

图7为本申请一示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有服装智能领域中，生产人员根据教学视频片段进行学习时，存在学习效率低，理解成本高，学习效果不理想等问题。针对这些技术问题，在本申请实施例中，针对服装制造类智能工厂出于标准化生产需求而生成的一些包含标准动作的教学视频片段，结合这些教学视频片段的拍摄视角以及视频片段中的人体关键点和人体姿态变化，对这些教学视频片段进行合理拼接，得到将多个标准动作的教学视频片段衔接起来且具有较好视觉连贯性的完整教学视频。由此，在视频播放过程中，可以减少视频切换次数，提高视频播放效率；进一步，因为对拍摄视角进行了归一化处理，教学视频中不同标准动作之间切换较为自然流畅，教学视频的质量较高。另外，从生产人员的角度来看，能够对照教学视频进行连贯学习，无需来回切换视频片段，提升了教学视频观看效率。且因为对拍摄视角进行了归一化处理，生产人员也不需要对不同拍摄视角进行转换和思考，完整的教学视频的动作连贯性更好，可以减少相邻两个标准动作切换时给生产人员带来视觉跳变的观看体验，可提高学习效率，降低学习理解成本。

为便于本领域技术人员更好地理解本申请实施例的技术方案，下面首先对本申请下述实施例涉及的服装智造领域中的一些技术用语进行简单介绍。

1、标准动作，是指在生产作业中，由若干个标准动素组成的标准化动作，是组成工序的基本单位，也即若干个标准动作可以组成一个工序。需要指出的是，标准动作可以定义工序的标准操作方式以及量化标准，也即标准动作和其对应的操作方式具有唯一性，因此，可以采用一系列的标准动作组合定义某个工序的操作标准。

2、标准动素，是指标准化的动作的基本要素(action basic factor)，也即不能再进行动作拆解的最小粒度的动作。例如，在服装智造领域中，标准动素包括但不限于拿、握、推、挤压、连接、分离、松开、递送等。

3、工序，是指制造、生产某种东西或达到某一特定结果的特定步骤，是组成生产过程的基本单位。例如，在服装智造领域，工序包括但不限于验布、裁剪、印绣花、缝制、整烫、检验以及包装等。

下面结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的用于服装生产的视频生成方法的流程示意图。该方法可以由视频处理设备来执行，该装置可以由硬件和/或软件来实现，该装置可以集成在电子设备中。

如图1所示，该用于服装生产的视频生成方法可以包括以下步骤：

101、针对服装生产中的目标工序，根据目标工序所需的多个标准动作，获取分别包含标准动作的教学视频片段。

102、分别对教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组。

103、结合教学视频片段的拍摄视角，在多个教学视频片段对应的多个的第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组；

104、结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频。

本实施例中，目标工序是服装生产流程中涉及的任一工序，目标工序可以是验布、裁剪、印绣花、缝制、整烫、检验以及包装中的任一工序。

目标工序所需的标准动作由智能工厂的技术人员定义，或者通过解析服装行业的相关加工规则等自动获得。目标工序可以包括一个或多个标准动作。在生产人员执行目标工序的生产作业时，生产人员需要依次执行目标工序的第一个标准动作直至目标工序的最后一个标准动作。

在确定目标工序包括多个标准动作后，针对每个标准动作，获取该标准动作的教学视频片段。应理解，在每个教学视频片段中，教练按照相应的标准动作进行生产作业。另外，教学视频片段中的教练可以是真人教练，也可以是虚拟教练。

在获取包含标准动作的教学视频片段时，可以采用但不限于以下方式：

第一种方式：预先生成各标准动作对应的教学视频片段，对每个教学视频片段添加动作标识，之后将添加动作标识的教学视频片段存储至数据库中。其中，动作标识具有唯一标识性。基于此，在确定目标工序之后，可以根据目标工序所需的标准动作的动作标识，查询已存储的教学视频片段，获得目标工序所需的标准动作的教学视频片段。

实际应用中，不同的工序可能都涉及相同的标准动作。因此，在为每个标准动作制作出相应的教学视频片段之后，将该标准动作的动作标识和对应的教学视频片段进行关联存储。这样，若后续需要制作涉及相同标准动作的其他工序的教学视频时，可以直接获取已存储的教学视频片段，无需重复针对该标准动作制作教学视频片段，实现了教学视频片段的资源复用，减少了资源消耗。

另外，可以理解的是，复用已存储的教学视频片段，无需教练重复按照相应标准动作进行生产作业，减轻教练的工作负担。同时，复用已存储的教学视频片段，生产人员可以不用重新学习该标准动作，降低生产人员的学习难度和理解成本，有利于提升学习效果。

第二种方式：在确定目标工序之后，可以针对目标工序所需的各个标准动作，利用摄像头对教练按照该标准动作进行生产作业的过程进行拍摄，以获取包括该标准动作的教学视频片段。

实际应用中，考虑工序涉及的标准动作可能不断地进行升级改造，或者工序可能需要新增加一些标准动作。针对这些升级改造或新的标准动作，可以利用诸如摄像头对教练按照标准动作进行生产作业的过程进行拍摄，以获取包括该标准动作的教学视频片段。需要说明的是，在第二种方式中，无论是已有标准动作还是改造升级或新的标准动作，都可以在需要该标准动作的教学视频片段时进行实时拍摄。可选地，在拍摄出教学视频片段之后，还可以将拍摄的教学视频片段进行存储，以便供后续需要相同标准动作的其他工序直接复用该教学视频片段。另外，针对这些升级改造或新的标准动作，拍摄对应的教学视频片段并存储，可以不断丰富已有教学视频片段。

本申请实施例中，在获取目标工序的多个教学视频片段之后，并不直接对多个教学视频片段进行视频拼接，而是结合服装智造场景下标准动作的特点以及拍摄视角问题，先对多个教学视频片段依次进行人体关键点检测和视角归一化；之后，再进行视频拼接等处理，最终获得目标工序的目标教学视频。

其中，人体关键点是指人体上执行标准动作所依赖的主要关节部位，以服装智造领域为例，与标准动作相关的人体关键点包括但不限于：手、手臂、手肘、手腕等。人体关键点的姿态信息与标准动作的执行过程息息相关，为了使得后续生成的目标工序的教学视频中能够呈现出目标工序所需的各个标准动作的执行过程，在获取多个教学视频片段之后，先对多个教学视频片段中的图像帧进行人体关键点检测，以得到多个包含人体关键点的第一图像组。其中，每个教学视频片段包括多帧图像，可选地，可以对教学视频片段中的每个图像帧均进行人体关键点检测，或者，可以从教学视频片段中选择部分图像帧，对所选择的部分图像帧进行人体关键点检测，最终得到该教学视频片段对应的一组图像。

进一步，为了便于描述和区分，将对每个教学视频片段进行人体关键点检测得到的一组图像称为第一图像组。应理解，不同的教学视频片段对应不同的第一图像组，每个第一图像组中包括一张或多张人体关键点图像。其中，在每张人体关键点图像中至少包括执行对应标准动作的人体关键点及其位置信息。

人体关键点检测(Human Keypoints Detection)，也可以称为人体姿态识别，旨在准确定位图像之中人体关关键点的位置和对人体关键点进行分类，是人体动作识别、人体行为分析、人机交互的前置任务。实际应用中，针对每个教学视频片段，可以首先对该教学视频片段中的图像帧进行人体关键点检测，获取人体关键点检测结果，其中，人体关键点检测结果可以包括图像帧中人体关键点的位置信息和类别信息；接着，基于人体关键点检测结果获取该图像帧对应的人体关键点图像；最后，由所得到的人体关键点图像得到第一图像组。其中，基于类别信息可以获知检测到的人体关键点是哪种人体关键点。

本申请实施例对基于人体关键点检测结果获取图像帧对应的人体关键点图像的方式不做限制。例如，根据人体关键点检测结果将图像帧中不属于人体关键点的像素点的灰度值设置为0，以将原始图像帧变换为仅包括人体关键点特征的人体关键点图像。又如，根据原始图像帧中人体关键点的位置信息对原始图像帧进行图像分割，以得到仅包括人体关键点的人体关键点图像。又如，根据原始图像帧中人体关键点的位置信息进行图像绘制，以得到仅包括人体关键点的人体关键点图像。又如，根据人体关键点检测结果在图像帧标记出人体关键点，进而得到标记有人体关键点的人体关键点图像。

在本申请实施例中，人体关键点来自于指定人体部位，例如手和手臂。基于此，只要图像帧中包含指定人体部位，如手和手臂，即可检测出指定人体部位上的人体关键点。进一步可选地，图像帧中可以包含指定人体部位之外的其它人体部位，例如人体躯干，当然，也可以不包含指定人体部位之外的其它人体部位。

在本申请实施例中，可以采用人体关键点检测模型，对图像帧进行人体关键点检测。可选地，若采用的教学视频片段中包含指定人体部位以及人体躯干，则可以预先利用包含指定人体部位和人体躯干的训练图像进行模型训练，得到一种能够对包含指定人体部位以及人体躯干的图像帧进行人体关键点检测的模型。或者，可选地，若采用的教学视频片段中仅包含指定人体部位，则可以预先利用仅包含指定人体部位训练图像进行模型训练，得到一种能够仅包含指定人体部位的图像帧进行人体关键点检测的模型。或者，还可以在训练人体关键点检测模型时，可以准备包括指定人体部位和人体躯干的训练图片和仅包含指定人体部位的训练图片，进而基于这两种训练图片训练出一种人体关键点检测模型，该人体关键点模型既能从包含指定人体部位以及人体躯干的图像帧中检测出人体关键点，又能从仅包含指定人体部位的图像帧中检测出人体关键点。

在服装生产领域，工序执行过程中会涉及到频繁的衣服操作，这意味着教练执行标准动作过程中可能会使人体躯干被衣服或制衣设备等遮挡，进而导致拍摄到的教学视频片段中往往会出现一些缺失人体躯干的图像帧，同时也包含一些不缺失人体躯干的图像帧，则在这种情况下可以使用上述第三种方式训练出的人体关键点检测模型。

实际应用中，在拍摄多个教学视频片段时可能采用不完全相同的拍摄视角，可能是不同教学视频片段分别对应不同拍摄视角，也可能是部分教学视频片段对应同一拍摄视角但所有教学视频片段整体上对应多个拍摄视角。特别是教学视频片段的获取来源于已存储的教学视频片段时，很容易出现多个教学视频片段对应多个拍摄视角的情形。

可以理解的是，由于不同拍摄视角下教练的人体姿态朝向不同，相邻两个不同拍摄视角的教学视频片段在切换时，生产人员能够察觉到执行标准动作的教练的人体姿态朝向发生了改变，并明显可以察觉到标准动作切换时动作连贯性差。可以理解的是，生产人员观看教学视频时会出现视角跳变的观看体验，这种观看体验并不理想。在本实施例中，为了使得目标工序的教学视频可以向生产人员呈现动作连贯性的视觉体验，降低因标准动作切换时视角跳变带来的理解成本，提高学习效果，在得到多个标记有人体关键点的第一图像组之后，对多个标记有人体关键点的第一图像组进行视角归一化处理，得到多个标记有人体关键点的第二图像组。应理解，在视角归一化处理之后，多个第二图像组的拍摄视角都相同。

在得到多个第二图像组之后，可以对多个第二图像组进行拼接，得到包含多个标准动作的完整教学视频。其中，视频拼接是指将若干个视频片段拼接成一个完整的视频的操作。可以理解的是拼接得到的视频给观看者带来的视觉连贯性好于独立播放的若干个视频片段。实际应用中，相邻两个教学视频片段中教练的人体姿态可能不同，即使是在同一拍摄视角下教练在执行不同标准动作时的姿态也可能是不一样的。也就是说，在同一拍摄视角下，相邻两个第二图像组中教练的人体姿态有可能是不同的。若不考虑相邻两个第二图像组中教练的人体姿态变化，而是直接将相邻第二图像组进行视频拼接，在得到的教学视频中可能出现人体姿态的明显变化，动作连贯性差，这样生产人员在观看拼接得到的教学视频时，能够察觉到人体姿态的变化，生产人员需要变换人体姿态去理解标准动作，增加了生产人员对标准动作的学习理解难度。

因此，在对多个第二图像组进行拼接时，可以结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接以得到包含多个标准动作的目标教学视频。这样可以避免拼接得到的教学视频中出现因人体姿态变化造成的相邻两个标准动作切换时的视觉跳变，保证教学视频中不同标准动作之间切换的连贯自然，提高教学视频的质量，同时还可降低生产人员的学习难度，提高学习效率。

本申请实施例提供的用于服装生产的视频生成方法，针对服装制造类智能工厂出于标准化生产需求而生成的一些包含标准动作的教学视频片段，结合这些教学视频片段的拍摄视角以及视频片段中的人体关键点和人体姿态变化，对这些教学视频片段进行合理拼接，得到将多个标准动作的教学视频片段衔接起来且具有较好视觉连贯性的完整教学视频。由此，在视频播放过程中，可以减少视频切换次数，提高视频播放效率；进一步，因为对拍摄视角进行了归一化处理，教学视频中不同标准动作之间切换较为自然流畅，教学视频的质量较高。

另外，由于多个教学视频片段独立播放会使得视觉连贯性较差，影响了教学视频观看效率，增加了学习难度，生产人员需要付出较多理解成本，学习效果不理想。相对于多个教学视频片段独立播放存在的上述问题，完整教学视频还可以使得生产人员能够对照教学视频进行连贯学习，无需来回切换视频片段，提升了教学视频观看效率。且因为对拍摄视角进行了归一化处理，生产人员也不需要对不同拍摄视角进行转换和思考，完整的教学视频的动作连贯性更好，可以减少相邻两个标准动作切换时给生产人员带来视觉跳变的观看体验，可提高学习效率，降低学习理解成本。

再者，在实际的服装生产中，用户日益增长的定制化需求为服装厂的转款效率提出了越来越高的挑战。而转款、新款生产效率的瓶颈之一即在于因为不同的或者新的生产工序，需要教练对生产人员进行重新培训，而教练的数量往往极为有限并且由于场地以及生产设备等的限制，教练的单次实际操作过程，也一般只能供单个或者几个员工进行观摩学习，无法一次性对大批员工进行培训。而采用本申请实施例提供的服装生产视频生成方法制作教学视频时，在需要进行新工序培训时，仅需要教练一次性对新工序中涉及的新标准动作进行操作并录制成视频片段，便可以自动生成完整连续的教学视频，供生产人员对照教学视频进行学习，达到大批量培训的目的，进而促进转款、新款生产效率，满足用户日益增长的定制化需求。

再者，在出现新工序的情况下，新工序一般不会全部由新的标准动作组成，更多的是由已有标准动作进行不同的排列组合，并结合少数的新标准动作而来。而在本申请实施例中，以包含标准动作的教学视频片段为基础对视频片段拼接得到完整教学视频的方式，可以复用已有标准动作的教学视频片段，可以减少教学视频片段的制作成本，减少资源消耗。

本申请上述或下述实施例中，并不限定教学视频片段中图像帧的类型，例如教学视频片段中的图像帧可以是RGB图像或者RGB-D图像。其中，RGB图像是采用R(red，红色)、G(green，绿色)以及B(blue，蓝色)三个颜色通道合成的彩色图像。RGB-D图像包括一个RGB图像和深度(Depth)图像，通常RGB图像和Depth图像是配准的，也即RGB图像和Depth图像的像素点之间具有一对一的对应关系。其中，Depth图像中每个像素值表示摄像头距离真实物体之间的实际距离。

若教学视频片段中的图像帧为RGB图像，则该图像帧的人体关键点检测结果中的位置坐标为二维位置坐标(X,Y)。若教学视频片段中的图像帧为RGB-D图像，则该图像帧的人体关键点检测结果中的位置坐标为三维位置坐标(X,Y,Z)。其中，Z坐标表示人体关键点到摄像头的距离信息。

实际应用中，可以采用普通摄像头对教练执行标准动作的过程进行拍摄，则得到的教学视频片段中包括RGB图像；或者，采用RGB-D摄像头对教练执行标准动作的过程进行拍摄，则得到的教学视频片段中包括RGB-D图像。其中，除了采用RGB-D摄像头获取RGB-D图像之外，也可以采用RGB摄像头与IoT(Internet of things，物联网)设备相结合的方式来获取RGB-D图像。例如，拍摄教学视频片段的拍摄设备为RGB摄像头，由RGB摄像头对教练执行标准动作的过程进行拍摄，得到的教学视频片段中包括RGB图像；进一步，教练可以佩戴IOT设备，该IOT设备可以是手环、位置/运动传感器等，该IOT设备可记录教练在执行标准动作时的运动轨迹；进一步，结合教练佩戴的IOT设备相对拍摄设备即RGB摄像头的初始位置关系以及IOT设备记录的运动轨迹，可以计算出教练在执行标准动作过程中运动轨迹上不同位置点与拍摄设备之间的距离信息也即RGB图像的深度信息。应理解，由于IoT设备佩戴在教练身上，基于IoT设备记录的教练的运动轨迹和IOT设备相对拍摄设备的初始位置关系可以准确地定位出教练与拍摄设备之间的距离信息。

基于上述，在本申请一可选实施例中，分别对多个教学视频片段中的图像帧进行人体关键点检测，以得到多个标记有人体关键点的第一图像组的过程可以是：针对每个教学视频片段，若教学视频片段中的图像帧为RGB图像，结合教学视频片段中的教练佩戴的IOT设备相对拍摄设备的初始位置关系，计算RGB图像的深度信息；将RGB图像和RGB图像的深度信息输入人体关键点检测模型，以得到教学视频片段对应的标记有人体关键点的第一图像组。

本申请上述或下述实施例中，在结合教学视频片段的拍摄视角，对多个教学视频片段对应的多个第一图像组之间进行视角归一化处理时，首先选定一个基准视角，再将各个第一图像组的拍摄视角依次变换为基准视角。其中，可以灵活选择基准视角。例如，随意选择一个拍摄视角，如正面拍摄视角或侧面拍摄视角作为基准视角。又如，可以将约定成俗的拍摄视角，如正面拍摄视角或侧面拍摄视角作为基准视角。其中，正面拍摄视角是是指摄像机与被摄对象正面成垂直角度的拍摄位置；侧面拍摄视角是是指摄像机与被摄对象侧面成垂直角度的拍摄位置。除了正面和侧面拍摄视角之外，还可以选择斜侧向射击的拍摄视角或背射视角作为基准视角。又如，还可以从多个教学视频片段的拍摄视角中选择基准视角，这样只需对除基准视角的教学视频片段之外的其他教学视频片段进行视角变换，无需对基准视角的教学视频片段进行视角变换，减少了视角变换的计算量，提升了视角变换的效率。

在一可选实施例中，上述或下述实施例中结合教学视频片段的拍摄视角，在多个教学视频片段对应多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组的一种实施过程可以是：从多个教学视频片段的拍摄视角中选择基准视角，并确定与基准视角对应的第一图像组作为基准图像组；以基准图像组为基准，确定多个第一图像组中其它第一图像组相对于基准图像组的视角变换矩阵；基于视角变换矩阵，将其它第一图像组对应的拍摄视角变换为基准视角，以得到第二图像组。

应理解，多个第一图像组被划分为基准图像组和其它第一图像组。其中，基准图像组的拍摄视角为基准视角，其它第一图像组的拍摄视角均需要变换至基准视角，每个变换后具有基准视角的其它第一图像组为一个第二图像组，当然，基准图像组也是一个第二图像组。

在本申请实施例中，视角变换矩阵本质是位置坐标变换矩阵，视角变换矩阵中存储的是多个坐标变换参数，因此，利用视角变换矩阵对其它第一图像组进行视角变换时，实质是利用相应的坐标变换参数对其它第一图像组中的人体关键点的当前位置坐标进行调整，在其它第一图像组中的人体关键点的位置坐标均得到调整后，也即实现了将其它第一图像组对应的拍摄视角变换为基准视角。

假设人体关键点的数量为K个，其它第一图像组变换前对应的位置序列为G＝[g₀,g₁,…,g_K]，视角变换矩阵记为M＝[λ₀,λ₁,…,λ_K]^T，则其它第一图像组变换后对应的位置序列为G′＝[λ₀×g₀,λ₁×g₁,…,λ_K×g_K]。应理解，K个人体关键点在变换前拍摄视角下的位置坐标分别为g₀、g₁、…、g_K，K个人体关键点在变换后拍摄视角下的位置坐标分别为λ₀×g₀、λ₁×g₁、…、λ_K×g，也即，对人体关键点的位置坐标进行变换能够实现人体关键点对应的拍摄视角进行变换。

针对同一人体关键点，针对任意两个拍摄视角(例如拍摄视角1和拍摄视角2)，若任意两个拍摄视角之间的角度差值越小，则基于拍摄视角1拍摄的图像检测出的人体关键点的位置坐标与基于拍摄视角2的图像检测出的人体关键点的位置坐标之间的差值越小。基于此，若能够寻找使视角变换后的其它第一图像组中人体关键点的位置坐标与基准图像组中对应的人体关键点的位置坐标之间的差值最小的视角变换矩阵，则便可使得其它第一图像组变换后的拍摄视角越接近基准视角。

于是，在一可选实施例中，上述或下述实施例中以基准图像组为基准，计算多个包含人体关键点的第一图像组中其它第一图像组相对于基准图像组的视角变换矩阵的一种实施过程可以是：根据基准图像组中的至少部分人体关键点图像，计算第一位置序列，第一位置序列包括K个人体关键点的第一位置坐标，K是正整数；针对任一其它第一图像组，根据任一其它第一图像组中的至少部分人体关键点图像，计算第二位置序列，第二位置序列包括K个人体关键点的第二位置坐标；以任一其它第一图像组对应的视角变换矩阵作为待求量，构建第二位置序列与视角变换矩阵的乘积与第一位置序列之差作为目标函数；以使目标函数最小为求解条件对目标函数进行求解，以得到任一其他第一图像组对应的视角变换矩阵。

在计算第一位置序列时，首先，从基准图像组中,选择N帧人体关键点图像，N是小于等于M的正整数，M是基准图像组的总帧数。接着，针对K个人体关键点中的任一人体关键点，从N帧人体关键点图像的人体关键点检测结果中获取该体关键点的N个位置坐标；接着，对N个位置坐标进行求平均运算，以得到该人体关键点的第一位置坐标；最后，将K个人体关键点的第一位置坐标分别作为第一位置序列中的K个元素，以获得第一位置序列。

在计算任一其它第一图像组的第二位置序列时，首先，从该其它第一图像组中,选择T帧人体关键点图像，T是小于等于R的正整数，R是其它第一图像组的总帧数。接着，针对K个人体关键点中的任一人体关键点，从T帧人体关键点图像的人体关键点检测结果中获取该体关键点的T个位置坐标；接着，对T个位置坐标进行求平均运算，以得到该人体关键点的第二位置坐标；最后，将K个人体关键点的第二位置坐标分别作为第二位置序列中的K个元素，以获得第二位置序列。其中，T和N可以相同，也可以不相同。

对其它第一图像组与基准图像组而言，在K个人体关键点的位置坐标被平均后，可以认为这两个图像组之间的视角变换矩阵主要是由两个图像组的视角不同决定的，两个图像组中人体姿态的差异对视角变换矩阵的影响可忽略不计。因此，求得视角变换矩阵是实现两个图像组之间视角归一化的关键。

为了便于理解，假设第一位置序列记为C^d、第二位置序列记为C^′d以及视角变换矩阵记为M_C,C′。其中，C^d＝[c₀ ^d,c₁ ^d,…,c_K ^d]以及C^′d＝[c′₀ ^d,c′₁ ^d,…,c′_K ^d]。

其中，k∈K，d∈{L,R}。L代表左边，R代表右边。在d为L时，c_k ^d为左边的第k个人体关键点的位置坐标。在d为R时，c_k ^d为右边的第k个人体关键点的位置坐标。c_k ^d为第k个人体关键点的第一位置坐标，c′_k ^d为第k个人体关键点的第二位置坐标。其中，M_C,C′是一个K×1的矩阵，也即K行1列的矩阵。

按照上述构建目标函数的原则，目标函数记可以记为

可以理解的是，M_C,C′中第k个元素的元素值与c′_k ^d的乘积，可以认为是第k个人体关键点的视角变换后的第二位置坐标，也即第k个人体关键点在基准视角下的第二位置坐标。若c_k ^d-M_C,C′×c′_k ^d的差值之和越小，说明各个人体关键点的视角变换后的第二位置坐标均与各自对应的第一位置坐标很接近，此时，相应图像组的变换后的拍摄视角越接近基准视角。

可选的，在求解视角变换矩阵时，可以采用ICP(Iterative Closest Point，最近点搜索法)算法。ICP算法是基于数据配准法，利用最近点搜索法，从而解决基于自由形态曲面的一种算法。

在本申请上述或下述实施例中，在得到视角归一化后的多个第二图像组之后，可以结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频。考虑到实际应用中，针对相邻的两个标准动作，前一个标准动作结束时和后一个标准动作开始时，人体姿态(例如手或手臂的位置、朝向)可能会发生变化，有些情况下人体姿态变化可能还比较大，如果直接对第二图像组进行视频拼接，得到的教学视频中可能会出现人体姿态变化比较突兀的情况。鉴于此，如果相邻第二图像组之间的人体姿态变化较为明显，则可以在相邻第二图像组之间插入一些中间态图像，以使得相邻第二图像组之间的人体姿态切换过程相对平滑些，避免标准动作切换时的视觉跳变。

因此，在一可选实施例中，上述结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频的一种实施过程可以是：按照目标工序所需标准动作之间的执行顺序，确定两两相邻的第二图像组；针对任意相邻两个第二图像组，判断两个第二图像组之间的人体姿态发生变化且变化幅度是否超过设定幅度阈值；若两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值，则生成两个第二图像组之间的中间态图像；按序对多个第二图像组中的图像以及需要插入中间态图像的相邻两个第二图像组之间的中间态图像进行拼接，获得拼接视频。

应理解，若两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值，说明相邻第二图像组之间的人体姿态变化比较大，需要在相邻第二图像组之间插入一些中间态图像。若两个第二图像组之间的人体姿态变化幅度未超过设定幅度阈值，说明相邻第二图像组之间的人体姿态变化较小，这时可以不用在相邻第二图像组之间插入一些中间态图像。其中，设定幅度阈值可以视具体情形而定。

作为一可选实现方式，为了准确识别相邻两个第二图像组的人体姿态变化是否较大，可以基于相邻两个第二图像组各自的人体关键点的位置差异信息来判断相邻两个第二图像组的人体姿态变化是否较大。可选的，设定幅度阈值包括设定的差值下限值。若前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值大于设定的差值下限值，确定相邻两个第二图像组的人体姿态变化较大。反之，若前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值不大于设定的差值下限值，确定相邻两个第二图像组的人体姿态变化较小。其中，差值下限值可以根据实际应用需求灵活设置。

因此，“判断两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值”的一种实施过程可以是：针对任意相邻两个第二图像组，计算前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值；若差值大于设定的差值下限值，确定两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值。

在一可选实施例中，在计算中间态图像的过程中，可以基于第二图像组中的人体关键点的位置坐标和插值算法来估计中间态图像所需的人体关键点的位置坐标，以及基于估计出来的人体关键点的位置坐标生成中间态图像。

在一可选实施例中，针对任意相邻两个第二图像组，若前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值大于设定的差值下限值，则可以采用插值算法生成两个第二图像组之间的中间态图像。具体地，采用插值算法生成两个第二图像组之间的中间态图像的过程可以是：若差值大于或等于第一差值阈值，基于两个第二图像组中的图像，采用线性插值模型计算出中间态图像；若差值大于或等于第二差值阈值且小于第一差值阈值，基于两个第二图像组中的图像，采用二次插值模型计算出中间态图像；若差值小于第二差值阈值，基于两个第二图像组中的图像，采用计算出中间态图像；其中，第二差值阈值大于差值下限值，且小于第一差值阈值。其中，差值下限值、第二差值阈值以及第一差值阈值均可以根据实际应用需求灵活设置。

也就是说，相邻两个第二图像组的人体姿态变化相差越大，采用的插值模型的阶数越小。其中，线性插值模型的公式为：y＝ax+b，二次插值模型的公式为：y＝ax²+bx+c以及三次插值模型的公式为：y＝ax³+bx²+cx+d；a、b、c、d分别为常系数。关于采用插值模型进行数据估计的方法可以参见相关技术，在此不再赘述。

在本申请上述或下述实施例中，考虑到实际应用中，在拍摄教练执行标准动作过程中的教学视频片段时，教练的一些人体部位可能被服装、制衣设备等遮挡，如果被遮挡的人体部位是包含人体关键点的指定人体部位，则拍摄出的图像帧中会缺失部分人体关键点。基于此，在得到每个第一图像组之后，在对每个第一图像组进行视角归一化之前，还可以对每个第一图像组中的图像是否缺失人体关键点进行识别，以及对缺失人体关键点的图像进行人体关键点的补充。

在一可选实现方式中，针对任一第一图像组，检测第一图像组中是否存在缺失人体关键点的待补充图像；若是，基于待补充图像前后相邻的多帧图像中的人体关键点对待补充图像中缺失的人体关键点进行补充。

具体而言，针对任一第一图像组中的任一图像帧，通过分析该任一图像帧的人体关键点检测结果判断该图像帧是否存在缺失人体关键点的待补充图像。在确定出待补充图像之后，可以对该待补充图像中的前后相邻的多帧图像中的人体关键点的位置坐标进行插值计算，获取待补充图像中缺失的人体关键点的位置坐标，并基于缺失的人体关键点的位置坐标在待补充图像中补充缺失的人体关键点，以完成对缺失人体关键点的图像帧进行人体关键点补充的操作。

在进行插值计算时，可以根据实际应用需求灵活选择插值模型。可选的，可以引入前后帧判断机制选择插值模型。例如，前后有效图像帧的帧数越多，缺失人体关键点的图像帧的帧数越少，采用越阶数越高的插值模型。其中，有效图像帧指未缺失人体关键点的图像帧。

在一可选实现方式中，可以分析任一第一图像组的人体关键点检测结果，确定连续出现人体键点缺失的图像帧的第一总帧数、位于连续出现人体关键点缺失的图像帧之前的有效图像帧的第二总帧数以及位于连续出现人体关键点缺失的图像帧之后的有效图像帧的第三总帧数；根据第二总帧数与第三总帧数之和与第一总帧数的比值，选择插值模型。

例如，根据第二总帧数与第三总帧数之和与第一总帧数的比值，选择插值模型具体是：若比值大于第一阈值，则采用三次插值模型；若比值大于等于第二阈值且小于等于第一阈值，则采用二次插值模型；若比值小于第二阈值，则采用线性插值模型。其中，第一阈值大于第二阈值，第一阈值和第二阈值根据实际应用需求设置。例如，第一阈值为9，第二阈值为4。若比值大于9，则采用三次插值模型；若比值落在[4,9]取值范围内，则采用二次插值模型；若比值小于4，则采用线性插值模型。

例如，按照拍摄时间从早到晚的顺序，任一第一图像组分别包括第1帧图像、第2帧图像、第3帧图像……第100帧图像。若第21帧图像至第23帧图像均出现缺失人体关键点，第10帧图像至第20帧图像均未缺失人体关键点，以及第24帧图像至第44帧图像均未缺失人体关键点，此时，第一总帧数为3帧，第二总帧数为10帧，第三总帧数为20帧，此时，计算比值(10+20)/3＝10，采用三次插值模型进行插值计算。

若第21帧图像至第23帧图像均出现缺失人体关键点，第20帧图像未缺失人体关键点，第19帧图像缺失人体关键点，以及第24帧图像至第44帧图像均未缺失人体关键点，此时，第一总帧数为3帧，第二总帧数为1帧，第三总帧数为20帧，此时，计算比值(1+20)/3＝7，采用二次插值模型进行插值计算。

若第21帧图像至第23帧图像均出现缺失人体关键点，第20帧图像未缺失人体关键点，第19帧图像缺失人体关键点，以及第24帧图像至第34帧图像均未缺失人体关键点，第35帧图像均未缺失人体关键点，此时，第一总帧数为3帧，第二总帧数为1帧，第三总帧数为10帧，此时，计算比值(1+10)/3＝3.7，采用线性插值模型进行插值计算。

在应用本申请实施例提供的方法处理目标工序的多个教学视频片段以生成目标教学视频的过程中，可以仅仅对多个教学视频片段中图像帧的拍摄视角以及人体姿态进行改变，对多个教学视频片段中图像帧的渲染效果不做改变。基于此，在得到标记有人体关键点的第一图像组时，可以在对应的教学视频片段的图像帧中标记出人体关键点，也即第一图像组中的图像帧可以看成是教学视频片段中的标记有人体关键点的图像帧。若后续不对第一图像组中的图像帧的渲染效果进行改变的话，基于第一图像组得到目标教学视频中的图像帧的渲染效果与教学视频片段对应的图像帧的渲染效果基本相同。应理解，目标教学视频中的图像帧与教学视频片段对应的图像帧相比，改变的是拍摄视角和人体姿态等信息，而渲染效果未做改变。

考虑到实际应用中，可能存在教学视频渲染效果定制化需求。为满足上述需求，在得到标记有人体关键点的第一图像组时，可以在对应的教学视频片段的图像帧中获取仅仅包括人体关键点的图像数据，将仅仅包括人体关键点的图像数据作为第一图像组中标记有人体关键点的图像帧。应理解，在上述情况下获取的标记有人体关键点的图像帧可以理解为没有图像背景信息的图像，这种标记有人体关键点的图像帧为后续定制化教学视频的渲染效果提供了可能。基于此，在本申请上述或下述实施例中，结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频的一种实施过程是：结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，得到拼接视频；对拼接视频进行渲染，得到目标工序对应的目标教学视频。

其中，渲染处理的方式包括但不限于：可以直接对对拼接视频进行渲染，生成目标工序对应的目标教学视频。也可以先采用动作迁移技术处理拼接视频再进行渲染，以生成目标工序对应的目标教学视频。基于此，在本申请一些可选实施例中，结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频的一种实施过程是：获取包括目标对象的初始教学视频；结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，得到拼接视频；将拼接视频对应的标准动作迁移至初始教学视频中的目标对象上；对动作迁移后的初始教学视频进行渲染，以得到目标工序对应的目标教学视频。其中，动作迁移技术指的是将初始运动视频中初始对象的动作迁移到目标对象上，以生成目标运动视频。

在本申请上述可选实施例中，拼接视频为初始运动视频，将拼接视频中人体关键点的标准动作迁移至初始教学视频中的目标对象上，渲染动作迁移后的初始教学视频所得到的目标运动视频即为目标工序对应的目标教学视频。需要指出的是，目标对象可以是整个人体对象，也可以是人体关键点。在目标对象为整个人体对象时，将标准动作迁移至整个人体对象中的人体关键点上。在目标对象为人体关键点时，将标准动作迁移至人体关键点上。

实际应用中，对渲染方案不做限制，例如可以采用真实人体渲染方案，也可以采用虚拟人体渲染方案。在采用真实人体渲染方案时，初始教学视频中的目标对象为真实人体对象或真实人体关键点。在采用虚拟人体渲染方案时，初始教学视频中的目标对象为2D或3D的虚拟人体对象或虚拟人体关键点。

实际应用中，在将拼接视频中的全部标准动作迁移至初始教学视频之后，对动作迁移后的初始教学视频中的图像帧，为了保证视觉一致性，可以基于图像帧的环境信息或图像帧中目标对象的衣着信息对目标对象进行渲染，以得到最终的教学视频。

为了便于本领域技术人员更好地理解，介绍一个实际应用中的服装生产视频生成方法。图2为本申请实施例提供的在一个实际应用中教学视频生成方法的过程图。参见图2，整个教学视频生产过程包括五个步骤，分别是：标准动作教学视频片段获取步骤、人体关键点检测步骤、视角归一化步骤、教学视频片段拼接步骤以及可视化渲染步骤。

第一步：执行标准动作教学视频片段获取步骤。

具体的，确定待生成教学视频的目标工序对应的标准动作序列。其中，标准动作序列中包括目标工序所需依次完成的标准动作的动作标识，标准动作序列中的标准动作按照执行先后顺序进行排序。标准动作序列例如为1-2-3-4-6-4-5，1、2、3、4、5、6分别标识不同的标准动作。在确定标准动作序列之后，查询已存储的标准动作教学视频片段，获取目标工序所需的各个标准动作的教学视频片段。若查询不到目标工序所需的标准动作，则可以由教练对该标准动作单独进行操作并录制相应的教学视频片段。

实际应用中，可以由服装生产技术人员定义工序所需的标准动作及标识标准动作唯一性的动作标识。例如，针对某种面料或款式的衣服，服装生产技术人员确定该衣服制作的某个工序的标准动作序列，并将面料或款式与标准动作序列进行关联存储。后续，需要制作该工序的教学视频时，可以以面料或款式作为输入，查询关联存储的面料或款式与标准动作序列，确定该衣服在对应工序下的标准动作序列。

实际应用中，不同衣物对应的标准动作不一样，但是标准动作名称相同，为了区分不同标准动作，可以结合标准动作名称和衣物的信息区分不同衣服对应的标准动作。

第二步：执行人体关键点检测步骤。

在本应用场景中，所需检测的人体关键点为手和手臂。对动作1的教学视频片段中的图像帧进行人体关键点检测，分别得到多张人体关键点图像，多张人体关键点图像组成一个第一图像组。依次类推，生成动作2的教学视频片段对应的一个第一图像组，以及生成动作3的教学视频片段对应的一个第一图像组。

分析图2可知，动作3对应的第一图像组中有的图像帧中缺失了人体关键点，此时，需要利用前后帧的人体关键点的位置坐标计算缺失的人体关键点的位置坐标，并基于缺失人体关键点的位置坐标对缺失人体关键点的图像帧进行补充人体关键点。在计算缺失的人体关键点的位置坐标时，前后帧对应的人体关键点的位置坐标进行插值计算，确定缺失人体关键点的位置坐标。

第三步：执行视角归一化步骤。

为了便于理解，图2中示出了一个参考坐标系，该参考坐标系指示了四个方向。从图2可知，在未执行视角归一化操作之前，动作1对应的人体姿态朝向为面向左方向，动作2对应的人体姿态朝向为面向右方向，动作3对应的人体姿态朝向为面向下方向。显然，因为拍摄视角不同，造成各个动作的人体姿态朝不同。若不进行视角归一化，后续教学视频的动作连贯性将较差，标准动作之间的视角跳变将严重影响生产人员对标准动作的理解。

在执行视角归一化后，动作1、动作2以及动作3的人体姿态朝向为面向上方向。

第四步：教学视频片段拼接步骤。

由于标准动作视频片段在录制时，很可能并非以一个完整工序的形式进行录制。所以连续两个标准动作视频片段间一定会存在着某种程度上的动作出入，或者说前一标准动作视频片段结尾与后一片段标准动作视频片段开头的人体姿态一定会存在不同。如果将两段视频片段直接连续播放，则在标准动作切换的部分一定会出现明显的动作跳变，影响学习理解效率。

因此，为了得到相对更为平滑的人体姿态切换过程，避免了标准动作切换时的视觉跳变，在拼接时，在动作1与动作2之间插入了中间态图像，以及在动作2与动作3之间也插入了中间态图像。插入中间态图像之后，按序对多个第二图像组中的图像以及中间态图像进行拼接，获得拼接视频。

第五步：可视化渲染步骤。

根据实际需要，可以选择真实人体渲染方案或者虚拟人体渲染。在渲染之前，首先将拼接视频中的所有标准动作迁移至初始教学视频中的真实人体或虚拟人体上，接着，基于图像环境信息、真实人体或虚拟人体的衣着信息对动作迁移后的真实人体或虚拟人体进行渲染，以得到最终的教学视频。

需要指出的是，图2中的真实人体或虚拟人体均为部分人体，也即为手和手臂。

本申请实施例除了提供一种用于服装生产的视频生成方法之外，还提供了一种服装智造场景下教学视频生成系统。图3为本申请实施例适用的一种服装智造场景下教学视频生成系统的结构示意图。参见图3，该系统包括摄像头10、播放终端20和视频处理设备30。其中，视频处理设备30分别与摄像头10和播放终端20通信连接。

其中，摄像头10部署在数字化工厂环境的车间中，用于采集教练按照标准动作执行生产任务时的视频数据，也即采集标准动作对应的教学视频片段。实际应用中，可以在车间中部署多个摄像头10，多个摄像头10可以提高教学视频片段的采集效率，另外，不同摄像头10可以有不同拍摄视角。如图3所示，一个摄像头10用于采集标准动作1的教学视频片段，另一个摄像头10用于采集标准动作2的教学视频片段，两个摄像头10的拍摄视角可以相同，也可以不同。摄像头10采集的标准动作对应的教学视频片段可以直接发送给视频处理设备30，也可以进行存储，后续视频处理设备30可以按需获取存储的标准动作对应的教学视频片段。可选的，如图3所示，该系统还可以包括第一数据库，用于存储摄像头10采集的标准动作对应的教学视频片段。这样，视频处理设备30便可按需从第一数据库获取标准动作对应的教学视频片段。

可选的，为了便于查询，摄像头10可以将采集的标准动作的教学视频片段以及动作标识关联存储至第一数据库中，以便后续视频处理设备30基于动作标识便可从第一数据库中查询所需的标准动作对应的教学视频片段。

进一步的，如图3所示，该系统还可以包括播放终端20。播放终端20可以根据生产人员的学习需求，播放视频处理设备30生成的某个生产工序对应的目标教学视频。播放终端20可以是任意具有播放功能的终端设备，例如包括但不限于电视终端、电脑以及手机。应当理解，图3中仅仅示出了笔记本电脑，但不意味着本申请实施例限制电脑的类型，电脑例如还可以包括但不限于台式电脑以及平板电脑。

进一步的，如图3所示，该系统还可以视频处理设备30，该视频处理设备30可以承担将多个教学视频片段生成完整的教学视频的任务。参见图3，视频处理设备30在获取到多个教学视频片段之后，可以对多个教学视频片段依次执行人体关键点检测、视角归一化以及拼接处理等步骤，生成完整的教学视频。关于视频处理设备30的视频生成过程可以参见上述实施例的相关内容，在此不再赘述。其中，本申请实施例对视频处理设备30的设备形态不做限制。例如，视频处理设备30可以是个人数字处理(personal digital assistant，简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称PC))等；又如，视频处理设备30也可以是集中式服务器、分布式服务器以及云端服务器。

尽管图3中示出了两个摄像头10、一个数字化工厂环境、一个车间、一个视频处理设备30、一个电视终端、一个电脑、一个手机以及一个第一数据库，但不意味着本申请实施例限制上述设备、数字化工厂环境以及车间的数量，依据不同场景需求，可以是不同数量的设备、数字化工厂环境以及车间。

下面结合图3所示具体场景，对本实施例提供的服装智造场景下教学视频生成系统的工作原理进行详细说明。

参见图3，在存在针对工序1的教学视频的生成需求时，车间管理人员可以向视频处理设备30下发针对工序1的教学视频生成任务，视频处理设备30接收到针对工序1的教学视频生成任务之后，根据该工序1包括的多个标准动作(例如标准动作1、标准动作2和标准动作3)的类型，确定获取多个标准动作的教学视频片段的渠道。其中，标准动作分为新的标准动作和已有的标准动作两种，新的标准动作可以理解为历史没有在数字化生产环境中采用过的标准动作，已有的标准动作可以理解为历史在数字化生产环境中采用过的标准动作。由于标准动作1和标准动作2为新的标准动作，视频处理设备30确定标准动作1和标准动作2的教学视频片段需要来源于摄像头10，此时，视频处理设备30通过与摄像头10的交互获取摄像头10采集的标准动作1和标准动作2的教学视频片段。另外，摄像头10还可以将标准动作1和标准动作2的教学视频片段存储至第一数据库。由于标准动作3为已有的标准动作，视频处理设备30通过第一数据库交互，获取标准动作3的教学视频片段。当然，若第一数据库无法提供标准动作3的教学视频片段，视频处理设备30还可以控制摄像头10采集并发送标准动作3的教学视频片段。视频处理设备30获取到工序1的三个教学视频片段后，对多个教学视频片段依次执行人体关键点检测、视角归一化以及拼接处理等步骤，生成完整的教学视频。

在生产人员存在学习工序1的教学视频的学习需求时，视频处理设备30可以向播放设备发送工序1的教学视频，以供生产人员进行学习。生产人员可与播放终端20进行交互，对工序1的教学视频进行诸如播放、暂停、快进和倒放等播放控制。

视频处理设备30在生成工序1对应的目标教学视频之后，除了将目标教学视频直接发送给生产人员使用的播放终端20之外，还可以将目标教学视频以及其对应的工序标识存储至第二数据库中，如图4所示。在图4所示服装智造场景下教学视频生成系统中，生产人员需要学习工序1的标准动作时，可以向其播放终端20发起学习指令，指令中携带工序1的标识，如图4中的①所示；其中，生产人员发起学习指令的方式包括但不限于：语音交互方式、遥控器遥控方式以及触控交互方式等。播放终端20收到该学习指令之后，生成教学视频查询请求，请求中携带工序1的标识，发送给第二数据库，如图4中的②所示；第二数据库根据工序1的标识查询获取工序1的教学视频并返回给播放终端20，如图4中的③所示；接收到工序1的教学视频后，播放终端20播放工序1的教学视频。在播放过程中，生产人员可以对工序1的教学视频进行诸如播放、暂停、快进和倒放等播放控制。

在本申请上述实施例中，以服装智造场景中生成完整教学视频为例对本申请实施例提供的视频拼接过程进行了详细说明，但并不限于服装智造场景。本实施例提供的视频拼接方法可以应用到各种涉及视频片段拼接成完整视频的场景中，例如，在健身运动场景中，一个健身单元往往包括多个健身动作。一般来说，在健身教练执行每个健身动作的过程中进行拍摄，以得到每个健身动作的教学视频片段。为使得学员可以观看到完整的教学视频，需要对多个健身动作的教学视频片段进行拼接，获取完整健身视频。又例如，在仿人类机器人推介场景中，仿人类机器人可以模拟真实人类做出不同动作。一般来说，在仿人类机器人执行每个动作的过程中进行拍摄，以获得每个动作的视频片段。为使得参与推介会的观众可以了解到仿人类机器人能做出的全部动作，需要对每个动作的视频片段进行拼接，获得完整视频。又例如，在仿动物机器人推介场景中，仿动物机器人可以模拟真实动物做出不同动作。一般来说，在仿动物机器人执行每个动作的过程中进行拍摄，以获得每个动作的视频片段。为使得参与推介会的观众可以了解到仿动物机器人能做出的全部动作，需要对每个动作的视频片段进行拼接，获得完整视频。

基于此，本申请下述实施例还提供能一种视频拼接方法，该方法的实施过程可参见图5所示实施例的描述。图5为本申请一示例性实施例提供的视频拼接方法的流程示意图。该方法可以由视频处理设备来执行，该设备可以由硬件和/或软件来实现，该设备可以集成在电子设备中。参见图5，该方法可以包括以下步骤：

501、获取多个包含不同动作的视频片段。

502、分别对视频片段中的图像帧进行对象关键点检测，以得到多个标记有对象关键点的第一图像组。

503、结合视频片段的拍摄视角，在多个视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有对象关键点的第二图像组。

504、结合相邻第二图像组之间的对象姿态变化，对多个第二图像组进行拼接，以生成目标视频。

在本申请实施例中，对执行动作的对象不做限制。例如，执行动作的对象可以是真实人体、仿人类机器人以及仿动物机器人中至少一种。

对象执行哪些动作由对象提供的服务决定。例如，对象为健身教练时，对象执行的动作为健身动作。又例如，仿人类机器人为提供舞蹈服务的舞蹈机器人时，对象执行的动作为舞蹈动作。仿人类机器人为提供迎宾服务的迎宾机器人时，对象执行的动作为迎宾动作。又例如，仿动物机器人为提供挖掘服务的螃蟹机器人时，对象执行的动作为挖掘动作。仿动物机器人为机器狗时，对象执行的动作为奔跑、走路以及弹跳等。

对象关键点可以视对象的类型灵活定义。例如，在对象为真实人体时，对象关键点可以是指人体各个主要关节部位，例如手、手臂、手肘、手腕、肩膀、头、脖子、脚踝、膝盖等。又如，在对象为仿人类机器人或仿动物机器人时，对象关键点可以是是指仿人类或仿动物的各个主要关节部位，例如仿生手、仿生手臂、仿生手肘、仿生手腕、仿生肩膀、仿生头、仿生脖子、仿生脚踝以及仿生膝盖等。

在执行不同应用场景的视频拼接方法中，涉及到的视频片段获取步骤的具体实现方式与上述实施例介绍的视频片段获取步骤的具体实现方式相同，在此不再赘述。涉及到的对象关键点检测步骤的具体实现方式与上述实施例介绍的人体关键点检测步骤的具体实现方式相同，在此不再赘述。涉及到的视角归一化步骤的具体实现方式与上述实施例介绍的视角归一化步骤的具体实现方式相同，在此不再赘述。涉及到的结合对象姿态变化进行视频拼接步骤的具体实现方式与上述实施例介绍的结合人体姿态变化进行视频拼接步骤的具体实现方式相同，在此不再赘述。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤105的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤103的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图6为本申请一示例性实施例提供的一种视频处理设备的结构示意图。如图6所示，该装置包括：

获取模块601，用于针对服装生产中的目标工序，根据目标工序所需的多个标准动作，获取分别包含标准动作的教学视频片段。

关键点检测模块602，用于分别对教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组。

视角归一化模块603，用于结合教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组。

拼接模块604，用于结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频。

在一些可选的实施例中，视角归一化模块603，具体用于：从多个教学视频片段的拍摄视角中选择基准视角，并确定与基准视角对应的第一图像组作为基准图像组；以基准图像组为基准，确定多个第一图像组中其它第一图像组相对于基准图像组的视角变换矩阵；基于视角变换矩阵，将其它第一图像组对应的拍摄视角变换为基准视角，以得到第二图像组。

在一些可选的实施例中，视角归一化模块603在计算视角变换矩阵时，具体用于：根据基准图像组中的至少部分人体关键点图像，计算第一位置序列，第一位置序列包括K个人体关键点的第一位置坐标，K是正整数；针对任一其它第一图像组，根据任一其它第一图像组中的至少部分人体关键点图像，计算第二位置序列，第二位置序列包括K个人体关键点的第二位置坐标；以任一其它第一图像组对应的视角变换矩阵作为待求量，构建第二位置序列与视角变换矩阵的乘积与第一位置序列之差作为目标函数；以使目标函数最小为求解条件对目标函数进行求解，以得到任一其他第一图像组对应的视角变换矩阵。

在一些可选的实施例中，拼接模块604，具体用于：按照目标工序所需标准动作之间的执行顺序，确定两两相邻的第二图像组；针对任意相邻两个第二图像组，若两个第二图像组之间的人体姿态发生且变化幅度超过设定幅度阈值时，则生成两个第二图像组之间的中间态图像；按序对多个第二图像组中的图像以及中间态图像进行拼接，以生成目标工序对应的目标教学视频。

在一些可选的实施例中，拼接模块604，还用于：针对任意相邻两个第二图像组，计算前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值；若差值大于设定的差值下限值，确定两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值。

在一些可选的实施例中，拼接模块604在生成两个第二图像组之间的中间态图像时，具体用于：若差值大于或等于第一差值阈值，基于两个第二图像组中的图像，采用线性插值模型计算出中间态图像；若差值大于或等于第二差值阈值且小于第一差值阈值，基于两个第二图像组中的图像，采用二次插值模型计算出中间态图像；若差值小于第二差值阈值，基于两个第二图像组中的图像，采用三次插值模型计算出中间态图像；其中，第二差值阈值大于差值下限值，且小于第一差值阈值。

在一些可选的实施例中，关键点检测模块602在触发视角归一化模块603之前，还用于：针对任一第一图像组，检测第一图像组中是否存在缺失人体关键点的待补充图像；若是，对待补充图像前后相邻的多帧图像中的人体关键点进行插值计算，以得到待补充图像中缺失的人体关键点，并将计算得到的人体关键点补充到待补充图像中。

在一些可选的实施例中，关键点检测模块602，具体用于：针对每个教学视频片段，若教学视频片段中的图像帧为RGB图像，结合教学视频片段中的教练佩戴的IOT设备相对拍摄设备的初始位置关系，计算RGB图像的深度信息；将RGB图像和RGB图像的深度信息输入人体关键点检测模型，以得到教学视频片段对应的标记有人体关键点的第一图像组。

在一些可选的实施例中，拼接模块604，具体用于：获取包括目标对象的初始教学视频；结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，得到拼接视频；将拼接视频对应的标准动作迁移至初始教学视频中的目标对象上；对动作迁移后的初始教学视频进行渲染，得到目标工序对应的目标教学视频。

图6的视频处理设备可以执行图1所示实施例的服装生产视频生成方法，其实现原理和技术效果不再赘述。对于上述实施例中的视频处理设备其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请实施例还提供一种视频处理设备，该视频处理设备的结构和图6的视频处理设备的结构相同。该视频处理设备与图6的视频处理设备执行的方法不同。具体而言，该视频处理设备，包括：

获取模块，用于获取多个包含不同动作的视频片段；关键点检测模块，用于分别对视频片段中的图像帧进行对象关键点检测，以得到标记有对象关键点的第一图像组；视角归一化模块，用于结合视频片段的拍摄视角，在多个视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有对象关键点的第二图像组；拼接模块，用于结合相邻第二图像组之间的对象姿态变化，对多个第二图像组进行拼接，得到拼接视频，以生成目标视频。

上述视频处理设备可以执行图5所示实施例的视频拼接方法，其实现原理和技术效果不再赘述。对于上述实施例中的视频处理设备其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7为本申请一示例性实施例提供的一种计算机设备的结构示意图。如图7所示，该计算机设备包括存储器701和处理器702。

存储器701，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算机设备上的操作。这些数据的示例包括用于在计算机设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器701可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器702，耦合至存储器701，用于执行计算机程序，以用于：针对服装生产中的目标工序，根据目标工序所需的多个标准动作，获取分别包含标准动作的教学视频片段；分别对教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组；结合教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组；结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，以生成目标工序对应的目标教学视频。

在一些可选的实施例中，处理器702在进行视角归一化处理，具体用于：从多个教学视频片段的拍摄视角中选择基准视角，并确定与基准视角对应的第一图像组作为基准图像组；以基准图像组为基准，确定多个第一图像组中其它第一图像组相对于基准图像组的视角变换矩阵；基于视角变换矩阵，将其它第一图像组对应的拍摄视角变换为基准视角，以得到第二图像组。

在一些可选的实施例中，处理器702在计算视角变换矩阵时，具体用于：根据基准图像组中的至少部分人体关键点图像，计算第一位置序列，第一位置序列包括K个人体关键点的第一位置坐标，K是正整数；针对任一其它第一图像组，根据任一其它第一图像组中的至少部分人体关键点图像，计算第二位置序列，第二位置序列包括K个人体关键点的第二位置坐标；以任一其它第一图像组对应的视角变换矩阵作为待求量，构建第二位置序列与视角变换矩阵的乘积与第一位置序列之差作为目标函数；以使目标函数最小为求解条件对目标函数进行求解，以得到任一其他第一图像组对应的视角变换矩阵。

在一些可选的实施例中，处理器702在拼接视频时，具体用于：按照目标工序所需标准动作之间的执行顺序，确定两两相邻的第二图像组；针对任意相邻两个第二图像组，若两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值时，则生成两个第二图像组之间的中间态图像；按序对多个第二图像组中的图像以及中间态图像进行拼接，以生成目标工序对应的目标教学视频。

在一些可选的实施例中，处理器702在确定两个第二图像组之间的人体姿态变化满足设定变化条件时，具体用于：针对任意相邻两个第二图像组，计算前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值；若差值大于设定的差值下限值，确定两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值。

在一些可选的实施例中，处理器702生成两个第二图像组之间的中间态图像时，具体用于：若差值大于或等于第一差值阈值，基于两个第二图像组中的图像，采用线性插值模型计算出中间态图像；若差值大于或等于第二差值阈值且小于第一差值阈值，基于两个第二图像组中的图像，采用二次插值模型计算出中间态图像；若差值小于第二差值阈值，基于两个第二图像组中的图像，采用三次插值模型计算出中间态图像；其中，第二差值阈值大于差值下限值，且小于第一差值阈值。

在一些可选的实施例中，处理器702在结合多个教学视频片段的拍摄视角，在多个包含人体关键点的第一图像组之间进行视角归一化处理之前，还用于：针对任一第一图像组，检测第一图像组中是否存在缺失人体关键点的待补充图像；若是，对待补充图像前后相邻的多帧图像中的人体关键点进行插值计算，以得到待补充图像中缺失的人体关键点，并将计算得到的人体关键点补充到待补充图像中。

在一些可选的实施例中，处理器702进行人体关键点检测时，具体用于：针对每个教学视频片段，若教学视频片段中的图像帧为RGB图像，结合教学视频片段中的教练佩戴的IOT设备相对拍摄设备的初始位置关系，计算RGB图像的深度信息；将RGB图像和RGB图像的深度信息输入人体关键点检测模型，以得到教学视频片段对应的标记有人体关键点的第一图像组。

在一些可选的实施例中，处理器702对拼接视频时，具体用于：获取包括目标对象的初始教学视频；结合相邻第二图像组之间的人体姿态变化，对多个第二图像组进行拼接，得到拼接视频；将拼接视频对应的标准动作迁移至初始教学视频中的目标对象上；对动作迁移后的初始教学视频进行渲染，以得到目标工序对应的目标教学视频。

进一步，如图7所示，该计算机设备还包括：通信组件703、显示器704、电源组件705、音频组件706等其它组件。图7中仅示意性给出部分组件，并不意味着计算机设备只包括图7所示组件。

上述图7中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、7G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图7中的显示器包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述图7中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图7中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本申请实施例还提供一种计算机设备，该计算机设备的结构和图7所示的计算机设备的结构相同，该计算机设备的存储器所存储的计算机程序和处理器所执行的计算机程序均与图7所示的计算机设备不同。具体而言，该计算机设备包括存储器和处理器。存储器，用于存储计算机程序。处理器，耦合至存储器，用于执行计算机程序，以用于：

获取多个包含不同动作的视频片段；分别对多个视频片段中的图像帧进行对象关键点检测，以得到多个包含对象关键点的第一图像组；结合多个视频片段的拍摄视角，在多个第一图像组之间进行视角归一化处理，得到多个包含对象关键点的第二图像组；结合相邻第二图像组之间的对象姿态变化，按序对多个第二图像组进行拼接，得到拼接视频；对拼接视频进行渲染，生成目标视频。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器能够实现上述方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时，致使处理器能实现上述方法实施例中的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用于服装生产的视频生成方法，其特征在于，包括：

针对服装生产中的目标工序，根据所述目标工序所需的多个标准动作，获取分别包含所述标准动作的教学视频片段；

分别对所述教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组；

结合所述教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组；

结合相邻第二图像组之间的人体姿态变化，对所述多个第二图像组进行拼接，以生成所述目标工序对应的目标教学视频。

2.根据权要求1所述的方法，其特征在于，结合所述教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组包括：

从所述多个教学视频片段的拍摄视角中选择基准视角，并确定与所述基准视角对应的第一图像组作为基准图像组；

以所述基准图像组为基准，确定所述多个第一图像组中其它第一图像组相对于基准图像组的视角变换矩阵；

基于所述视角变换矩阵，将所述其它第一图像组对应的拍摄视角变换为所述基准视角，以得到第二图像组。

3.根据权要求2所述的方法，其特征在于，以所述基准图像组为基准，计算所述多个第一图像组中其它第一图像组相对于基准图像组的视角变换矩阵，包括：

根据基准图像组中的至少部分人体关键点图像，计算第一位置序列，所述第一位置序列包括K个人体关键点的第一位置坐标，K是正整数；

针对任一其它第一图像组，根据所述任一其它第一图像组中的至少部分人体关键点图像，计算第二位置序列，所述第二位置序列包括K个人体关键点的第二位置坐标；

以所述任一其它第一图像组对应的视角变换矩阵作为待求量，构建第二位置序列与视角变换矩阵的乘积与第一位置序列之差作为目标函数；

以使所述目标函数最小为求解条件对所述目标函数进行求解，以得到所述任一其他第一图像组对应的视角变换矩阵。

4.根据权要求1所述的方法，其特征在于，结合相邻第二图像组之间的人体姿态变化，对所述多个第二图像组进行拼接，以生成所述目标工序对应的目标教学视频，包括：

按照所述目标工序所需标准动作之间的执行顺序，确定两两相邻的第二图像组；

针对任意相邻两个第二图像组，若所述两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值时，则生成所述两个第二图像组之间的中间态图像；

按序对所述多个第二图像组中的图像以及所述中间态图像进行拼接，以生成所述目标工序对应的目标教学视频。

5.根据权要求4所述的方法，其特征在于，还包括：

针对任意相邻两个第二图像组，计算前一图像组中的最后一帧图像中人体关键点的位置坐标与后一图像组中的第一帧图像中人体关键点的位置坐标的差值；

若所述差值大于设定的差值下限值，确定所述两个第二图像组之间的人体姿态发生变化且变化幅度超过设定幅度阈值。

6.根据权要求1-5任一项所述的方法，其特征在于，结合所述教学视频片段的拍摄视角，在多个教学视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有人体关键点的第二图像组之前，还包括：

针对任一第一图像组，检测所述第一图像组中是否存在缺失人体关键点的待补充图像；

若是，对所述待补充图像前后相邻的多帧图像中的人体关键点进行插值计算，以得到所述待补充图像中缺失的人体关键点，并将计算得到的人体关键点补充到所述待补充图像中。

7.根据权要求1-5任一项所述的方法，其特征在于，分别对所述教学视频片段中的图像帧进行人体关键点检测，以得到标记有人体关键点的第一图像组包括：

针对每个教学视频片段，若所述教学视频片段中的图像帧为RGB图像，结合所述教学视频片段中人体上佩戴的IOT设备相对拍摄设备的初始位置关系，计算所述RGB图像的深度信息；

将所述RGB图像和所述RGB图像的深度信息输入人体关键点检测模型，以得到所述教学视频片段对应的标记有人体关键点的第一图像组。

8.一种视频拼接方法，其特征在于，包括：

获取多个包含不同动作的视频片段；

分别对所述视频片段中的图像帧进行对象关键点检测，以得到标记有对象关键点的第一图像组；

结合所述视频片段的拍摄视角，在多个视频片段对应的多个第一图像组之间进行视角归一化处理，得到多个标记有对象关键点的第二图像组；

结合相邻第二图像组之间的对象姿态变化，对所述多个第二图像组进行拼接，以生成目标视频。

9.一种计算机设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储计算机程序；所述处理器耦合至所述存储器，用于执行所述计算机程序，以用于执行权利要求1-8任一项所述方法中的步骤。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-8任一项所述方法中的步骤。