CN112887792A

CN112887792A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112887792A
Application number: CN202110091306.2A
Authority: CN
Inventors: 李嵩
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-01
Anticipated expiration: 2041-01-22
Also published as: CN112887792B

Abstract

本申请公开了一种视频处理方法、装置、电子设备及存储介质，属于通信技术领域。该方法包括：确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，该人体姿态关键点用于表征人体动作；根据第一待选图像帧，确定第一视频中的动作图像帧；依据动作图像帧，将第一视频划分为至少一个第一视频片段；将第二视频中与第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；输出第一视频片段以及第二视频片段。这样，本申请实施例中，通过确定表征人体动作的人体姿态关键点，将第一视频与第二视频中人物动作匹配的视频片段进行输出，实现了视频的快速、自动剪辑处理，简化了用户的操作，节省了用户的时间。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本发明属于通信技术领域，具体涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

随着互联网视频技术和视频应用的兴起，越来越多的用户在上传视频之前需要进行视频的剪辑处理。在一些场景中，需要剪辑出两个视频中人物动作相似的片段，组成最终的视频。

现有技术中，往往是用户手动对视频进行裁剪，操作较为繁琐，耗费用户时间较多。

发明内容

本申请实施例的目的是提供一种视频处理方法、装置、电子设备及存储介质，能够解决现有技术中用户手动剪辑视频时操作较为繁琐、耗费时间较多的技术问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频处理方法，该方法包括：

确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，所述人体姿态关键点用于表征人体动作；

根据所述第一待选图像帧，确定所述第一视频中的动作图像帧；

依据所述动作图像帧，将所述第一视频划分为至少一个第一视频片段；

将第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；

输出所述第一视频片段以及所述第二视频片段。

第二方面，本申请实施例提供了一种视频处理装置，该装置包括：

第一确定模块，用于确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，所述人体姿态关键点用于表征人体动作；

第二确定模块，用于根据所述第一待选图像帧，确定所述第一视频中的动作图像帧；

划分模块，用于依据所述动作图像帧，将所述第一视频划分为至少一个第一视频片段；

第三确定模块，用于将第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；

输出模块，用于输出所述第一视频片段以及所述第二视频片段。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的视频处理方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的视频处理方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的视频处理方法。

在本申请实施例中，确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，该人体姿态关键点用于表征人体动作；根据第一待选图像帧，确定第一视频中的动作图像帧；依据动作图像帧，将第一视频划分为至少一个第一视频片段；将第二视频中与第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；输出第一视频片段以及第二视频片段。这样，本申请实施例中，通过确定表征人体动作的人体姿态关键点，将第一视频与第二视频中人物动作匹配的视频片段进行输出，实现了视频的快速、自动剪辑处理，简化了用户的操作，节省了用户的时间。

附图说明

图1示出了本申请实施例的一种视频处理方法的步骤流程图；

图2示出了本申请实施例的另一种视频处理方法的步骤流程图；

图3示出了本申请实施例的一种第一待选图像帧与第二待选图像帧匹配的示意图；

图4示出了本申请实施例的一种第一视频片段与第二视频片段匹配的示意图；

图5示出了本申请实施例的一种第一视频片段与第二视频片段对齐的示意图；

图6示出了本申请实施例的一种视频处理方法的流程示意图；

图7示出了本申请实施例的一种视频处理装置的结构框图；

图8示出了本申请实施例的一种电子设备的结构框图；

图9示出了实现本申请各个实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的一种视频处理方法、装置、电子设备及存储介质进行详细地说明。

参照图1，示出了本申请实施例的一种视频处理方法的步骤流程图。该视频处理方法的执行主体可以是电子设备，例如可以是智能手机、笔记本、平板电脑、车载电脑，也可以是服务器等，本申请实施例对此不作限定。该方法具体可以包括：

步骤101、确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，所述人体姿态关键点用于表征人体动作。

本申请实施例中，第一视频可以是指待剪辑的视频，具体可以是用户拍摄的视频，也可以是用户从互联网上下载的视频，本申请实施例对此不作限定。人体姿态关键点可以是指图像帧中人体的各个关节，例如鼻子、左右眼、左右肩、左右腕、左右臀、左右膝、左右脚踝等。第一待选图像帧可以是指第一视频中检测到人体姿态关键点的图像帧。

具体的，本申请实施例可以通过人体姿态估计即人体关键点检测算法(HumanKeypoints Detection)实现对于图像帧的关键点检测。通过该人体关键点检测算法，能够确定出各个图像帧中的人体姿态关键点，进而能够表征各个图像帧中的人物动作，后续可以通过该人体姿态关键点进行匹配来确定人物动作相似的视频片段。需要注意的是，第一视频中可能存在纯背景的图像帧，该图像帧中不包括人物动作，无法作为后续判断人物动作是否相似的依据，本步骤中仅需确定包含人体姿态关键点即包括有人物动作的第一待选图像帧即可，这样能够减少运算量，提高剪辑效率。

步骤102、根据所述第一待选图像帧，确定所述第一视频中的动作图像帧。

本申请实施例中，动作图像帧可以是指人体运动有代表性的图像帧，该动作图像帧可以包括人体运动过程中的关键动作，例如，动作图像帧可以是指一段动作的开始或者结束所对应的图像帧。动作图像帧能够表征人体运动的关键节点，可以作为后续第一视频分段的参考依据。

步骤103、依据所述动作图像帧，将所述第一视频划分为至少一个第一视频片段。

本申请实施例中，第一视频片段可以是指将第一视频进行划分后得到的视频片段。示例性地，若第一视频中存在3个动作图像帧A1、A2、A3，则可以将动作图像帧A1、A2之间的视频片段划分为第一视频片段A1A2，将动作图像帧A2、A3之间的视频片段划分为第一视频片段A2A3。

步骤104、将第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段。

本申请实施例中，第二视频与第一视频相对应，可以是指待剪辑的视频，具体可以是用户拍摄的视频，也可以是用户从互联网上下载的视频，本申请实施例对此不作限定。第二视频片段可以是指第二视频中与第一视频片段人体动作相匹配的视频片段。

在一种场景中，第一视频可以是当前用户从互联网上下载的其他用户拍摄的舞蹈视频，第二视频可以是当前用户模仿第一视频中的各个舞蹈动作拍摄的视频。本申请实施例中，通过从第一视频、第二视频中裁剪出动作相同的视频片段，再将动作相同的第一视频片段和第二视频片段进行拼接合成，实现合成后的视频中当前用户模仿舞蹈动作的效果。当然，本申请实施例的视频处理方法也可以应用于其他的场景中，本申请实施例对此不作限定。

具体的，本步骤中，在依据动作图像帧将第一视频划分为至少一个第一视频片段之后，可以将每个第一视频片段分别与第二视频进行匹配，依次确定出第二视频中是否存在与第一视频片段的人体姿态关键点相匹配的视频片段。这样，本申请实施例中基于人体姿态关键点的匹配，能够实现第一视频、第二视频中人物动作相似的视频片段的确定。

步骤105、输出所述第一视频片段以及所述第二视频片段。

本申请实施例中，在确定出第一视频片段及其匹配的第二视频片段后，可以将该第一视频片段以及第二视频片段输出给用户，方便用户的后续操作。具体的，本步骤中，该视频处理方法的执行主体为电子设备时，电子设备在确定出第一视频片段以及第一视频片段后，可以将其裁剪后显示给用户。该视频处理方法的执行主体为服务器时，服务器可以裁剪出第一视频片段以及第二视频片段并发送至电子设备，电子设备再将其显示给用户。

综上所述，本申请实施例提供的一种视频处理方法，确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，该人体姿态关键点用于表征人体动作；根据第一待选图像帧，确定第一视频中的动作图像帧；依据动作图像帧，将第一视频划分为至少一个第一视频片段；将第二视频中与第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；输出第一视频片段以及第二视频片段。这样，本申请实施例中，通过确定表征人体动作的人体姿态关键点，将第一视频与第二视频中人物动作匹配的视频片段进行输出，实现了视频的快速、自动剪辑，简化了用户的操作，节省了用户的时间。

参照图2，示出了本申请实施例另一种视频处理方法的步骤流程图。该方法具体可以包括：

步骤201、确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，所述人体姿态关键点用于表征人体动作。

具体的，本步骤的实现方式可以参照前述步骤101，本申请实施例在此不做赘述。

步骤202、根据所述第一待选图像帧，确定所述第一视频中的动作图像帧。

可选地，本申请实施例中，步骤202可以通过以下子步骤2021或者子步骤2022实现：

子步骤2021、将所述第一视频中包含人体姿态关键点的第一待选图像帧确定为所述动作图像帧。

本申请实施例中，在使用人体姿态估计算法对第一视频中的各个图像帧进行检测之后，能够确定出包括有人体姿态关键点的第一待选图像帧。之后可以直接将该第一待选图像帧作为动作图像帧，这样，能够使得第一视频后续的分段更加精细化，进而能够提高人物动作相似的视频片段匹配的精度。

子步骤2022、确定所述第一待选图像帧中人体姿态关键点相对于前一帧或后一帧第一待选图像帧中人体姿态关键点的移动距离；在所述移动距离大于预设距离阈值的情况下，将所述第一待选图像帧确定为所述动作图像帧。

本申请实施例中，移动距离可以是指当前第一待选图像帧中相对于相邻第一待选图像帧的同一人体姿态关键点的距离；该相邻第一待选图像帧可以是与当前第一待选图像帧相邻的前一帧第一待选图像帧或者后一帧第一待选图像帧，本申请实施例对此不作限定。

具体在确定移动距离时，可以基于图像帧的分辨率，设置二维坐标系，以二维坐标的形式表示各个人体姿态关键点的位置。之后计算第一待选图像帧相对于相邻第一待选图像帧、代表人体相同部位的人体姿态关键点的欧式距离，最后可以将各个人体部位对应的人体姿态关键点的欧式距离进行加和，得到第一待选图像帧相对于相邻第一待选图像帧的移动距离。例如，当前第一待选图像帧中左手腕关键点的坐标为(3，3)，右手腕关键点坐标为(6，3)；上一帧第一待选图像帧中左手腕关键点的坐标为(3，6)，右手腕关键点坐标为(6，6)，则可以得到当前第一待选图像帧相对于上一帧第一待选图像帧的移动距离为3+3＝6。

当然，移动距离的确定也可以是采用其他计算方式，例如将各个人体姿态关键点的移动距离取平均值等，本申请实施例对于移动距离的具体计算方式不作限定。

本申请实施例中，预设距离阈值可以是预先设置的移动距离的临界值，第一待选图像帧的移动距离大于该预设距离阈值则可以判定人物动作发生明显改变，该第一待选图像帧可以作为动作图像帧。该预设距离阈值可以基于用户的实际需求设置，也可以是默认的数值，本申请实施例对此不作限定。

本步骤中，第一视频中可能存在人物的多种动作，对应有多种人体姿态。例如可以是人物由静止到运动，即在当前第一待选图像帧之前，人体姿态不变或者变化幅度很小，在当前第一待选图像帧之后，人体姿态发生明显改变，移动距离明显增大；也可以是人物由运动到静止，即在当前第一待选图像帧之前，人体姿态存在较大变化，移动距离较大，在当前第一待选图像帧之后，人体姿态不变或者变化幅度很小；还可以是人物增大运动幅度，开始剧烈运动等。对于各种情况下的人体运动，可以基于人体姿态关键点的移动距离来确定人体运动情况发生明显变化的动作图像帧，确定出人体运动的关键节点，以此为依据执行后续的视频分段过程。

本申请实施例中，确定第一待选图像帧中人体姿态关键点相对于前一帧或后一帧第一待选图像帧中人体姿态关键点的移动距离；在移动距离大于预设距离阈值的情况下，将第一待选图像帧确定为动作图像帧。这样，能够使得后续第一视频的分段更符合视频中人物的实际运动情况，视频的分段更加合理，能够避免出现视频片段内人物动作不连贯的情况。

步骤203、依据所述动作图像帧，将所述第一视频划分为至少一个第一视频片段。

具体的，本步骤的实现方式可以参照前述步骤103，本申请实施例在此不做赘述。

步骤204、将第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段。

可选地，本申请实施例中，步骤204可以通过以下子步骤2041至子步骤2044实现：

子步骤2041、确定所述第二视频中包含人体姿态关键点的第二待选图像帧。

本申请实施例中，第二待选图像帧可以是指第二视频中检测到人体姿态关键点的图像帧，后续可以基于该第二待选图像与第一视频中的第一视频片段进行匹配。

子步骤2042、对于所述第一视频片段中的每个第一待选图像帧，根据第一待选图像帧中的人体姿态关键点及每个所述第二待选图像帧中的人体姿态关键点，计算所述第一待选图像帧与每个所述第二待选图像帧的相似度。

本申请实施例中，相似度可以是指第一待选图像帧中的人体姿态关键点与第二待选图像帧中人体姿态关键点的相似程度。具体的，人体不同部位的对应的各个人体姿态关键点可以用特征向量的方式表示，本步骤中可以基于第一待选图像帧与第二待选图像帧中相同人体部位的人体姿态关键点对应的特征向量，计算特征向量之间的余弦相似度，得到两个相同部位的人体姿态关键点之间的相似度，之后将各个人体部位对应的关键点的相似度取平均值来得到图像帧的相似度。

当然，本步骤中也可以采用其他算法例如欧式距离、马氏距离等计算第一待选图像帧与第二待选图像帧中人体姿态关键点的相似度，本申请实施例对此不作限定。

子步骤2043、将所述相似度大于第一预设阈值的第二待选图像帧，确定为与所述第一待选图像帧相匹配的匹配图像帧。

本申请实施例中，第一预设阈值可以是指相似度的临界阈值，大于该第一预设阈值时，可以判定第一待选图像帧与第二待选图像帧匹配。第一预设阈值可以90％、95％等，具体可以依据用户的实际需求进行设置，也可以是默认的数值，本申请实施例对此不作限定。匹配图像帧可以是指第二视频中与第一待选图像帧的人物动作相匹配的图像帧。

示例性地，图3示出了本申请实施例的一种第一待选图像帧与第二待选图像帧匹配的示意图。如图3所示出的，第一视频中包括有3个动作图像帧A1、A2、A3，将第一视频划分为了两个第一视频片段，分别为第一视频片段A1A2、第一视频片段A2A3。对于第一视频片段中的第一个第一待选图像帧A1，在第二视频中搜索人体姿态关键点相匹配的帧，例如图中所示出的，A1可以分别与第二视频中的第二待选图像帧B1、B2、B3进行相似度匹配，在相似度大于第一预设阈值时，则确定出第一待选图像帧在第二视频中的匹配图像帧，之后继续对第一视频片段中A1A2的下一个第一待选图像帧进行搜索匹配，直至第一视频片段A1A2中所有的第一待选图像帧均搜索匹配完成。

需要注意的是，第一视频片段在第二视频中，可能存在一个相匹配的视频片段，也可能存在多个相匹配的视频片段。用户基于实际需要，可以设置第一待选图像帧在确定出第二视频中存在的一个匹配图像帧后，不再进行该第一待选图像帧与后续第二待选图像帧的相似度匹配计算，直接开始执行下一个第一待选图像帧的搜索匹配，这样可以减少计算量，提高匹配速度；也可以设置第一待选图像帧与第二视频中所有的第二待选图像帧进行相似度匹配计算，确定出第一待选图像帧在第二视频中存在的所有匹配图像帧，这样，后续可以同时确定出第二视频中与第一视频片段匹配的多个片段，保证相似人物动作的视频片段搜索匹配的全面性。本申请实施例对于第一待选图像帧与第二待选图像帧的具体相似度计算过程不作限定。

子步骤2044、若匹配数量与所述第一视频片段的第一待选图像帧总数量的比值大于第二预设阈值，则将所述匹配图像帧组成的视频片段作为所述第二视频片段；所述匹配数量为所述第一视频片段中存在相匹配的匹配图像帧的第一待选图像帧的数量。

本申请实施例中，匹配数量可以是指第一视频片段中在第二视频中能够找到匹配图像帧的第一待选图像帧的数量。第二预设阈值可以是指匹配数量占第一视频片段中第一待选图像帧总数量的临界阈值，大于该第二预设阈值时，可以确定第二视频中存在与第一视频片段匹配的视频片段。第二预设阈值可以是80％、90％、100％等，具体可以依据用户的实际需求进行设置，也可以是默认的数值，本申请实施例对此不作限定。匹配图像帧组成的视频片段可以是指将匹配图像帧按照时间序列进行排列，第一个匹配图像帧与最后一个匹配图像帧之间的图像帧均划分至该视频片段中。

需要注意的是，由于第二预设阈值的数值不一定为100％，第二视频片段中也可能存在不与第一视频片段中的第一待选图像帧相匹配的第二待选图像帧，也可能存在不包括人体姿态关键点的图像帧，因此，第一视频片段与第二视频片段的图像帧数量以及时间长度可能相同，也可能不同。

本步骤中，在确定出与当前第一视频片段匹配的第二视频片段后，可以继续执行下一个第一视频片段的匹配过程，直至第一视频中所有的第一视频片段均匹配完成，之后再执行后续的第一视频片段与第二视频片段的输出过程。

本申请实施例中，确定第二视频中包含人体姿态关键点的第二待选图像帧；对于第一视频片段中的每个第一待选图像帧，根据第一待选图像帧中的人体姿态关键点及每个第二待选图像帧中的人体姿态关键点，计算第一待选图像帧与每个第二待选图像帧的相似度；将相似度大于第一预设阈值的第二待选图像帧，确定为与第一待选图像帧相匹配的匹配图像帧；若匹配数量与第一视频片段的第一待选图像帧总数量的比值大于第二预设阈值，则将所述匹配图像帧组成的视频片段作为所述第二视频片段；匹配数量为所述第一视频片段中存在相匹配的匹配图像帧的第一待选图像帧的数量。这样，相较于手动裁剪时通过人眼判断视频中人物动作是否相似的过程，本申请实施例中能够依据第一待选图像与第二待选图像中人体姿态关键点的相似度确定出相匹配的第一视频片段与第二视频片段，使得人物动作相似的视频片段的确定过程更加精准，提高了匹配的准确度，使得最终合成的视频人物动作的衔接更加流畅，优化了视频播放效果。

示例性地，图4示出了本申请实施例的一种第一视频片段与第二视频片段匹配的示意图。如图4中所示出的，第一视频中基于动作图像帧A2、动作图像帧A3划分得到第一视频片段A2A3，动作图像帧A2在第二视频中的存在匹配图像帧B1，动作图像帧A3在第二视频中的存在匹配图像帧B2。第一视频片段A2A3中在第二视频中存在匹配图像帧的第一待选图像帧的匹配数量占比大于第二预设阈值，则将第二视频中对应的匹配图像帧组成的视频片段B1B2确定为第二视频片段。

步骤205、从所述第一视频中提取所述第一视频片段以及从所述第二视频中提取所述第二视频片段。

本申请实施例中，在确定出第一视频片段以及与该第一视频片段中的第二视频片段后，可以将相匹配的两个视频片段分别从第一视频与第二视频中裁剪出来，之后再对裁剪出的第一视频片段与第二视频片段进行后续编辑操作。

本步骤中具体在提取时，可以确定出第一视频片段的起始帧对应的视频播放起始时刻和末尾帧对应的的视频播放终止时刻，依据该起止时刻从第一视频中裁剪出第一视频片段。示例性地，假设第一视频片段在第一视频中的起止时刻分别为第11秒和第20秒，则可以依据该起止时刻裁剪出时长为10秒的第一视频片段。

本申请实施例中，在依据人体姿态关键点确定出相匹配的第一视频片段和第二视频片段后，再自动从第一视频、第二视频中分别提取出第一视频片段和第二视频片段，这样能够避免手动裁剪视频时裁剪点定位不准确的问题，减少了裁剪的误差，提高了人物动作相似的视频片段裁剪的精准度，使得最终得到的视频中人物动作能够很好的衔接，人物动作更加流畅，优化了视频播放效果。

可选地，在步骤205之后，本申请实施例还可以包括以下步骤(1)至(3)中的一种、两种或多种：

步骤(1)、确定所述第一视频片段的起始帧在所述第一视频中的第一播放时刻，以及，确定与所述第一视频片段相匹配的第二视频片段的起始帧在所述第二视频中的第二播放时刻；将所述第一播放时刻及所述第二播放时刻设置为同一播放时刻。

本申请实施例中，起始帧可以是视频片段中的第一个图像帧。第一播放时刻可以是第一视频片段的起始帧在第一视频中的播放时刻。第二播放时刻可以是第二视频片段的起始帧在第二视频中的播放时刻。

本步骤中，从第一视频中裁剪出第一视频片段，从第二视频中裁剪出第二视频片段之后，可以将第一视频片段与第二视频片段在时间轴上对齐，使得二者的起始帧在同一时刻开始。当然，也可以同时将第一视频片段与第二视频片段的音频片段在时间轴上对齐，使得二者的图像帧序列、音频序列均在同一时刻开始播放。

示例性地，图5示出了本申请实施例的一种第一视频片段与第二视频片段对齐的示意图。如图5中所示出的，第一视频片段A2A3与第二视频片段B1B2匹配。在对视频片段进行编辑之前，可以将第一视频片段A2A3从第一视频中裁剪出来，将第二视频片段B1B2从第二视频中裁剪出来，将第一视频片段A2A3、第二视频片段B1B2在时间轴上对齐，同时将音频片段A2A3与音频片段B1B2对齐，使得第一视频片段A2A3与第二视频片段B1B2的音频序列、图像帧序列对齐，在同一时刻开始播放。

步骤(2)、确定第一待选图像帧中的人体姿态关键点所在的第一相对位置；确定匹配图像帧中的人体姿态关键点所在的第二相对位置；所述匹配图像帧与所述第一待选图像帧相匹配；在所述第一相对位置与所述第二相对位置不一致的情况下，在所述匹配图像帧中将所述人体姿态关键点移动至所述第一相对位置。

本申请实施例中，第一相对位置可以是第一待选图像帧中的人体姿态关键点的坐标位置。具体可以是某个人体部位对应的人体姿态关键点所在的坐标位置，例如可以是左脚踝关键点坐标等；也可以是两个或者多个人体部位对应的人体姿态关键点的坐标的平均值，例如可以是左右脚踝关键点坐标的平均值，即左右脚踝关键点连线中点的坐标位置。

相应的，第二相对位置可以是与第一待选图像帧匹配的匹配图像帧中的人体姿态关键点的坐标位置。该第二相对位置的对应的人体部位以及计算方式与第一相对位置的人体部位以及计算方式相同，以实现第一待选图像帧与匹配图像帧之间的坐标对比。

本步骤中，在确定出第一待选图像帧中的第一相对位置以及匹配图像帧中的第二相对位置之后，可以判断二者是否一致，即是否为同一坐标。若二者不同，表明在第一待选图像帧与匹配图像帧人物的坐标位置并不相同，此时可以在匹配图像帧中，将匹配图像帧中的人体姿态关键点移动至第一相对位置的坐标位置，使得匹配图像帧中的人物与第一待选图像帧中的人物对齐。

示例性地，第一待选图像帧中人体姿态关键点的第一相对位置为(2，2)，匹配图像帧中人体姿态关键点的第二相对位置为(4，4)，第一相对位置与第二相对位置不一致，此时可以在第二视频的匹配图像帧中将人体姿态关键点裁剪并平移至(2，2)坐标，使得第一待选图像帧与匹配图像帧中的人物在图像帧中的位置相同。

步骤(3)、将所述第一视频片段以及与所述第一视频片段相匹配的第二视频片段调整至相同的时长。

本申请实施例中，第一视频片段与第二视频片段的帧数和时长不一定相同，这样，人物的运动速度并不相同，时长大的视频片段中的人物运动速度相对于时长小的视频片段中的人物运动速度慢，使得后续合成视频的播放效果不够理想。此时，可以将时长较长的视频片段进行压缩处理，也可以将时长较短的视频片段进行扩充处理，使得第一视频片段与第二视频片段中的时长相同，以优化视频播放效果。具体在调整时长时，可以是调整视频片段的播放倍速，例如0.5倍速、2倍速等，实现视频片段时长的调整。

需要注意的是，上述步骤(1)至(3)中的视频处理方式，用户可以采用其中一种，也可以将两种或者多种方式结合使用，本申请实施例对此不作限定。

本申请实施例中，在从第一视频中提取出第一视频片段、从第二视频中提取出第二视频片段后，可以对第一视频片段以及与该第一视频片段匹配的第二视频片段进行对齐处理，使得二者具有相同的起始播放时刻；也可以将第一待选图像帧中的人体姿态关键点的第一相对位置与匹配图像帧中人体姿态关键点的第二相对位置进行对比，若第一相对位置与第二相对位置不一致，则在匹配图像帧中将人体姿态关键点移动至第一相对位置；也可以将第一视频片段、与第一视频片段匹配的第二视频片段调整至相同的时长。这样，本申请实施例中可以对第一视频片段、第二视频片段进行对齐，也可以将人物在图像中的位置进行对齐，也可以将两个视频片段调整至相同的人体运动速度，这样，通过设置多样化的视频片段处理方式，为用户提供了更多的选择，使得用户视频处理的方式更加多样化，优化了视频的播放效果。

步骤206、将所述第一视频片段以及所述第二视频片段输出给用户，或者，将所述第一视频片段以及所述第二视频片段以预设方式拼接后输出给用户。

本申请实施例中，预设方式可以是预先设置的视频拼接方式，具体可以是首尾顺序拼接，也可以是将两个视频片同时对比播放等，具体可以基于用户的实际需求进行设置，本申请实施例对此不作限定。

本步骤中，在提取出第一视频片段以及第二视频片段后，可以将裁剪出的视频片段直接作为独立的片段输出给用户，用户可以进行自主编辑，满足用户的个性化需求；也可以是将第一视频片段与第二视频片段按照用户预先设置的预设方式进行拼接后再输出给用户，这样能够进一步简化用户的操作，提高视频处理的效率。

具体的，本步骤中，在获取到独立的相匹配的第一视频片段A和第二视频片段B后，用户可以设置各种视频播放特效。示例性地，用户可以编辑在视频播放的某一时刻使用A中的动作还是B中的动作，实现“换装”、“变身”效果；用户也可以将A中的图像帧与B中的图像帧进行交叉播放，实现视频播放时图像帧快速切换的效果；用户也可以编辑视频播放的某一时刻使用A的图像帧，搭配B的音频，实现视频画面变声的效果。

当然，用户也可以设置其他的视频特效，具体可以依据用户实际的剪辑需求确定，本申请实施例对此不作限定。

示例性地，图6示出了本申请实施例的一种视频处理方法的流程示意图。如图6所示出的，先确定出第一视频中包含人体姿态关键点的第一待选图像帧，之后在第一待选图像帧中确定出代表人体关键动作的动作图像帧；再依据动作图像帧将第一视频划分为至少一个第一视频片段；之后依次搜索第二视频中是否存在与第一视频片段匹配的视频片段；若存在，则将匹配的第一视频片段与第二视频片段裁剪后输出给用户；若不存在，则继续对下一个第一视频片段进行搜索匹配，直至所有的第一视频片段搜索匹配完成。

综上所述，本申请实施例提供的视频处理方法，确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，该人体姿态关键点用于表征人体动作；根据第一待选图像帧，确定第一视频中的动作图像帧；依据动作图像帧，将第一视频划分为至少一个第一视频片段；将第二视频中与第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；从第一视频中提取第一视频片段以及从第二视频中提取第二视频片段；再将第一视频片段以及第二视频片段输出给用户，或者，将第一视频片段所述第二视频片段以预设方式拼接后输出给用户。这样，本申请实施例中，通过确定表征人体动作的人体姿态关键点，将第一视频与第二视频中人物动作匹配的视频片段进行输出，实现了视频的快速、自动剪辑，简化了用户的操作，节省了用户的时间；同时，根据人体姿态关键点对视频片段进行自动匹配、裁剪，提高了人物动作相似的视频片段裁剪的准确度，使得视频衔接更加流畅，保证了视频播放效果。

需要说明的是，本申请实施例提供的视频处理方法，执行主体可以为视频处理装置，或者该视频处理装置中的用于执行加载视频处理方法的控制模块。本申请实施例中以视频处理装置执行视频处理方法为例，说明本申请实施例提供的视频处理装置。

参照图7，示出了本申请实施例的一种视频处理装置的结构框图，具体，该视频处理装置70可以包括如下模块：

第一确定模块701，用于确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，所述人体姿态关键点用于表征人体动作。

第二确定模块702，用于根据所述第一待选图像帧，确定所述第一视频中的动作图像帧。

划分模块703，用于依据所述动作图像帧，将所述第一视频划分为至少一个第一视频片段。

第三确定模块704，用于将第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段。

输出模块705，用于输出所述第一视频片段以及所述第二视频片段。

可选地，所述第二确定模块702，具体用于：

将所述第一视频中包含人体姿态关键点的第一待选图像帧确定为所述动作图像帧；或者，

确定所述第一待选图像帧中人体姿态关键点相对于前一帧或后一帧第一待选图像帧中人体姿态关键点的移动距离；在所述移动距离大于预设距离阈值的情况下，将所述第一待选图像帧确定为所述动作图像帧。

可选地，所述第三确定模块704，具体用于：

确定所述第二视频中包含人体姿态关键点的第二待选图像帧；

对于所述第一视频片段中的每个第一待选图像帧，根据第一待选图像帧中的人体姿态关键点及每个所述第二待选图像帧中的人体姿态关键点，计算所述第一待选图像帧与每个所述第二待选图像帧的相似度；

将所述相似度大于第一预设阈值的第二待选图像帧，确定为与所述第一待选图像帧相匹配的匹配图像帧；

若匹配数量与所述第一视频片段的第一待选图像帧总数量的比值大于第二预设阈值，则将所述匹配图像帧组成的视频片段作为所述第二视频片段；所述匹配数量为所述第一视频片段中存在相匹配的匹配图像帧的第一待选图像帧的数量。

可选地，所述装置70还用于：

确定所述第一视频片段的起始帧在所述第一视频中的第一播放时刻，以及，确定与所述第一视频片段相匹配的第二视频片段的起始帧在所述第二视频中的第二播放时刻；将所述第一播放时刻及所述第二播放时刻设置为同一播放时刻；和/或，

确定第一待选图像帧中的人体姿态关键点所在的第一相对位置；确定匹配图像帧中的人体姿态关键点所在的第二相对位置；所述匹配图像帧与所述第一待选图像帧相匹配；在所述第一相对位置与所述第二相对位置不一致的情况下，在所述匹配图像帧中将所述人体姿态关键点移动至所述第一相对位置；和/或，

将所述第一视频片段以及与所述第一视频片段相匹配的第二视频片段调整至相同的时长。

可选地，所述输出模块705，具体用于：

从所述第一视频中提取所述第一视频片段以及从所述第二视频中提取所述第二视频片段；将所述第一视频片段以及所述第二视频片段输出给用户，或者，将所述第一视频片段以及所述第二视频片段以预设方式拼接后输出给用户。

综上所述，本申请实施例提供的视频处理装置，，确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，该人体姿态关键点用于表征人体动作；根据第一待选图像帧，确定第一视频中的动作图像帧；依据动作图像帧，将第一视频划分为至少一个第一视频片段；将第二视频中与第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；输出第一视频片段以及第二视频片段。这样，本申请实施例中，通过确定表征人体动作的人体姿态关键点，将第一视频与第二视频中人物动作匹配的视频片段进行输出，实现了视频的快速、自动剪辑处理，简化了用户的操作，节省了用户的时间。

本申请实施例中的视频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频处理装置能够实现图1至图6的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图8所示，本申请实施例还提供一种电子设备80，包括处理器801，存储器802，存储在存储器802上并可在所述处理器801上运行的程序或指令，该程序或指令被处理器801执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

参照图9，示出了实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备90包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。

本领域技术人员可以理解，电子设备90还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器910，用于确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，所述人体姿态关键点用于表征人体动作。

处理器910，用于根据所述第一待选图像帧，确定所述第一视频中的动作图像帧。

处理器910，用于依据所述动作图像帧，将所述第一视频划分为至少一个第一视频片段。

处理器910，用于将第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段。

处理器910，用于输出所述第一视频片段以及所述第二视频片段。

本申请实施例中，电子设备可以确定第一视频中包含人体姿态关键点的第一待选图像帧；其中，该人体姿态关键点用于表征人体动作；根据第一待选图像帧，确定第一视频中的动作图像帧；依据动作图像帧，将第一视频划分为至少一个第一视频片段；将第二视频中与第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段；输出第一视频片段以及第二视频片段。这样，本申请实施例中，通过确定表征人体动作的人体姿态关键点，将第一视频与第二视频中人物动作匹配的视频片段进行输出，实现了视频的快速、自动剪辑处理，简化了用户的操作，节省了用户的时间。

应理解的是，本申请实施例中，输入单元904可以包括图形处理器(GraphicsProcessing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器909可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频处理方法，其特征在于，包括：

输出所述第一视频片段以及所述第二视频片段。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待选图像帧，确定所述第一视频中的动作图像帧，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述将所述第二视频中与所述第一视频片段的人体姿态关键点相匹配的视频片段，确定为第二视频片段，包括：

4.根据权利要求3所述的方法，其特征在于，在所述输出所述第一视频片段以及所述第二视频片段的步骤之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述输出所述第一视频片段以及所述第二视频片段，包括：

从所述第一视频中提取所述第一视频片段以及从所述第二视频中提取所述第二视频片段；

将所述第一视频片段以及所述第二视频片段输出给用户，或者，将所述第一视频片段以及所述第二视频片段以预设方式拼接后输出给用户。

6.一种视频处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第二确定模块，具体用于：

8.根据权利要求6或7所述的装置，其特征在于，所述第三确定模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述装置还用于：

10.根据权利要求6所述的装置，其特征在于，所述输出模块，具体用于：

11.一种电子设备，其特征在于，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5任一项所述的视频处理方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5任一项所述的视频处理方法的步骤。