CN111104837A

CN111104837A - 移动设备和相关视频编辑方法

Info

Publication number: CN111104837A
Application number: CN201910380675.6A
Authority: CN
Inventors: 庄世荣; 任正隆; 蒋智中; 柯心滢
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2018-10-29
Filing date: 2019-05-08
Publication date: 2020-05-05
Also published as: US20200135236A1; TW202016691A

Abstract

本发明公开了一种移动设备及视频编辑方法。移动设备包括：处理硬件；存储器，耦合到处理硬件；以及显示器，其中处理硬件用于：响应于用户命令，从视频的帧中识别人物的关键点，用户命令进一步指示关键点的给定关键点的目标位置；生成包括目标人体姿势的目标帧，目标人体姿势的给定关键点在目标位置；以及在显示器上生成包括目标帧的编辑的帧序列，编辑的帧序列示出了人体姿势过渡为目标人体姿势的运动。本发明的移动设备及视频编辑方法可以方便的进行人体动作编辑。

Description

移动设备和相关视频编辑方法

【技术领域】

本发明的实施例涉及在移动设备上识别和编辑视频中的人体姿势。

【背景技术】

人体姿势检测是指检测图像中人物的关键点。关键点的位置描述了人体姿势。每个关键点与身体部位相关联，例如头部、肩部、髋关节、膝盖和脚。人体姿势检测使得能够确定在图像中检测到的人是否踢腿、抬起肘部、站立或坐下。

传统上，通过在几个关键位置上具有嵌入式跟踪传感器的标记套装来装配人类对象来捕获人体姿势。这种方法累赘、耗时且昂贵。已经开发了用于姿势估计的无标记方法，但是需要大量的计算能力，这是受计算资源限制的设备(例如移动设备)的障碍。

【发明内容】

本发明的一个实施例公开了一种移动设备，可操作以在视频中生成目标人体姿势，其特征在于，包括：处理硬件；存储器，耦合到处理硬件；以及显示器，其中处理硬件用于：响应于用户命令，从视频的帧中识别人物的关键点，用户命令进一步指示关键点的给定关键点的目标位置；生成包括目标人体姿势的目标帧，目标人体姿势的给定关键点在目标位置；以及在显示器上生成包括目标帧的编辑的帧序列，编辑的帧序列示出了人体姿势过渡为目标人体姿势的运动。

本发明的另一个实施例公开了一种视频编辑方法，其特征在于，包括：响应于用户命令，从视频的帧中识别人物的关键点，用户命令进一步指示关键点的给定关键点的目标位置；生成包括目标人体姿势的目标帧，目标人体姿势的给定关键点在目标位置；以及在显示器上生成包括目标帧的编辑的帧序列，编辑的帧序列示出了人体姿势过渡为目标人体姿势的运动。

本发明的移动设备及视频编辑方法可以方便的进行人体动作编辑。

【附图说明】

图1示出了根据一个实施例的在移动设备上编辑视频中的人体姿势的示例。

图2示出了根据一个实施例的视频中的编辑帧序列的示例。

图3是示出根据一个实施例的由诸如图1的移动设备的移动设备执行的用于编辑视频中的人体姿势的操作的图。

图4是示出根据一个实施例的CNN加速器的主要组件的图。

图5示出了根据一个实施例的结合人体姿势编辑执行的逆运动学变换。

图6示出了根据一个实施例的结合人体姿势编辑执行的全局扭曲。

图7示出了根据一个实施例的移动设备的示例。

图8是示出根据一个实施例的用于移动设备在视频中生成目标人体姿势的方法的流程图。

【具体实施方式】

在以下描述中，阐述了许多具体细节。然而，应该理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下，没有详细示出公知的电路、结构和技术，以免模糊对本说明书的理解。然而，本领域技术人员将理解，可以在没有这些具体细节的情况下实践本发明。通过所包括的描述，本领域普通技术人员将能够实现适当的功能而无需过多的实验。

本发明的实施例使得能够编辑在视频中捕获的人体姿势。在一个实施例中，在视频中识别人物的姿势，其中姿势由描述关节位置和关节方向(joint orientations)的多个关键点限定。诸如智能手机用户的用户可以在智能手机的显示器上观看视频并编辑视频的帧中的关键点的位置。用户编辑的关键点位置称为目标位置。响应于用户输入，在视频中自动修改人体姿势，包括显示目标位置处的关键点的目标帧以及在目标帧之前和/或之后的相邻帧。例如，人物可以在视频的原始帧序列中延伸他的手臂，并且用户可以编辑视频中的一个帧以弯曲手臂。开发了一种方法和系统，以基于原始帧序列和编辑的关键点的目标位置自动生成编辑的帧序列。在编辑的帧序列中，人物形象显示为以自然平滑的运动弯曲他的手臂。

在一个实施例中，视频编辑应用程序可以由用户的智能手机提供和执行，其根据用户命令自动生成编辑的帧序列，其具有平滑过渡(transition)进出目标帧。

尽管在本公开中使用术语“智能手机”和“移动设备”，但应理解，本文描述的方法适用于能够显示视频、识别人体姿势和关键点、根据用户命令编辑一个或多个关键点，并生成编辑过的视频的任何计算和/或通信设备。应当理解，术语“移动设备”包括智能电话、平板电脑、网络连接设备、游戏设备等。要在移动设备上编辑的视频可以由同一移动设备捕获，或者由不同的设备捕获然后下载到移动设备。在一个实施例中，用户可以编辑视频的帧中的人体姿势，在移动设备上运行视频编辑应用以生成编辑的视频，然后在社交媒体上共享编辑的视频。

图1示出了根据一个实施例的在移动设备100上编辑视频中的人体姿势的示例。在图1的左侧是移动设备100显示伸展他的左臂的人形。用户130可以编辑人物的姿势，如图1的右侧所示，使得人物图示为向上弯曲他的左臂。在一个实施例中，用户130可以通过向上移动关键点120(表示左手)来编辑所显示图像中的姿势，如虚线箭头所示。在一个实施例中，每个关键点可根据用户命令(例如，触摸屏上的用户指导的运动)在显示器上移动。在一个实施例中，所显示的图像可以是视频的帧。如下面将详细描述的，移动设备100包括使用户能够以用户友好的方式编辑视频中的人体姿势的硬件和软件。

图2示出了根据一个实施例的视频中的编辑帧序列的示例。该视频包括原始帧序列210，其中人物图形向上延伸其左臂。可以理解，原始帧序列210可以包含两个或更多个视频帧；在该示例中，仅示出了原始帧序列210的开始帧(F1)和结束帧(Fn)。

作为示例，可以在图1的移动设备100上显示和编辑视频。移动设备100的用户可能希望改变原始帧序列210中的人物的左臂移动，这样人物向上弯曲他的左臂而不是向上伸展他的左臂。在该示例中，用户首先选择帧(例如，帧(F1))以输入用户的编辑，或者选择要替换的帧序列(例如，原始帧序列210)。移动设备100识别并显示帧(F1)中人物的关键点。在一个实施例中，用户可以在触摸屏上在帧(F1)中向上拖动人物的左手(例如，左手上的关键点)。用户的输入定义了左手上的关键点的目标位置。响应于用户的输入，移动设备100自动生成目标帧(F4)，以及用户选择的帧(帧(F1))和目标帧(F4)之间的中间帧(帧(F2)和(F3))。每个中间帧(帧(F2)和(F3))示出人物姿势的运动的增量进展(incrementalprogression)，其在目标帧中转变为目标人类姿势。帧(F1)-(F4)形成编辑的帧序列220，其替换原始帧序列210以形成编辑的视频。当重放编辑的视频时，人物的左臂移动如帧(F1)-(F4)所示，没有显示器上显示的关键点。

在一个实施例中，在移动设备100接收到用户编辑视频的命令之后(例如，当用户开始在移动设备100上运行视频编辑应用程序时)，在显示器上显示人物的关键点。用户可以选择要由编辑的帧序列220替换的帧序列(例如，原始帧序列210)。用户可以在所选择的帧序列的第一帧中输入他的编辑，以定义编辑的帧序列220的最后一帧(即，目标帧)中的目标姿势。可以通过预定设置或用户可配置设置(例如，1-2秒的帧(例如30-60帧))和/或可以取决于原始姿势和目标姿势之间的移动量控制由移动设备100在原始姿势(帧(F1)中)和目标姿势(帧(F4)中)之间生成的中间帧的数量，以产生平滑的移动。在一个实施例中，还可以在目标帧(例如，帧(F4))之后生成并添加附加帧，以产生人物的平滑移动。

图3是示出根据一个实施例的由诸如图1的移动设备100的移动设备执行的用于编辑视频中的人体姿势的操作的图。视频可以被捕获、下载或以其他方式存储在移动设备100中。在一个实施例中，移动设备100执行图像分割310以从视频中的图像的背景中提取(即，裁剪)感兴趣的人物，然后执行人体姿势估计320以识别人物的姿势(即，关键点)。在一个实施例中，可以通过卷积神经网络(convolution neural network，简写为CNN)计算来计算图像分割310和人体姿势估计320。在一个实施例中，移动设备100包括硬件加速器，其也被称为用于执行CNN计算的CNN加速器。将参考图4提供CNN加速器的进一步细节。

关于人体姿势估计320，移动设备100可以通过执行基于CNN的部件识别和部件关联(parts identification and parts association)来从人物图像识别人体姿势的关键点。部件识别是指识别人物的关键点，而部件关联是指将关键点与人体的身体部位相关联。可以对从背景图像裁剪的人物执行人体姿势估计320，并且执行CNN计算以将所识别的关键点与裁剪的人物的身体部位相关联。用于图像分割和人体姿势估计的基于CNN的算法在本领域中是已知的，故本公开不对这些算法做具体描述。注意，移动设备100可以根据广泛的算法执行CNN计算以识别人体姿势。

在识别并在移动设备100上显示人物的关键点之后，移动设备100的用户可以输入命令以移动显示器上的任何关键点。用户命令可以包括触摸屏上的用户指导的动作以将关键点移动到目标位置。用户可以通过用户界面移动一个或多个关键点；例如，通过手动或通过触控笔在移动设备100的触摸屏或触摸板上将关键点(称为给定关键点)拖动到目标位置。移动设备100基于给定的关键点的编辑的坐标(例如，在笛卡尔空间(Cartesian space)中)计算人物的相应关节角度。在一个实施例中，移动设备100通过应用逆运动学变换(inverse kinematics transformation)330将笛卡尔坐标转换为对应的关节角度。从关节角度，移动设备100计算定义目标姿势的得到的(resulting)关键点，其中得到的关键点包括由用户移动的给定关键点以及由给定关键点的移动引起的从其各自原始位置移动的其他关键点。

在计算得到的关键点之后，移动设备100应用全局扭曲(global warping)340以将原始人物像素(具有原始姿势)变换为目标人物像素(具有目标姿势)。原始人物像素处于原始坐标系中，而目标人物像素处于新的坐标系中。全局变形340将原始坐标系中的人物的每个像素值映射到新的坐标系，使得人物图形被示出在编辑的视频中具有目标姿势。例如，如果Q和P是在原始姿势中定义手臂的两个关键点的原始坐标，并且Q'和P'是目标姿势中相应的得到的关键点的新坐标，则可以从线对(line-pairs)Q-P和Q'-P'计算变换(transformation，简写为T)。该变换(T)可用于扭曲手臂上的像素。如果X是原始姿势中手臂上的一个像素或多个像素，则X'＝T·X是目标姿势中手臂上的对应的一个像素或多个像素。

在一个实施例中，逆运动学变换330和全局扭曲340也在每个中间帧(在目标帧之前)的人体姿势的每个中间状态上执行，以产生人物的平滑运动路径。利用逆运动学变换330计算平滑的模拟运动路径，并且中间帧的时间窗内的姿势根据呈现的自然人体姿势而扭曲。每个中间帧示出人物姿势的运动的增量进展，其在目标帧中转变为目标人类姿势。

图4是示出根据一个实施例的CNN加速器400的主要组件的图。CNN加速器400包括多组分解卷积层(factorized convolutional layers)(这里称为分解层组410)。与传统的卷积层相比，CNN加速器400执行深度可分离(depth-wise separable)的卷积，其中每个分解层组410包括第一分解层(factorized layer)(3×3深度方向卷积411)和第二分解层(1×1卷积414)。每个分解层之后是批量归一化(batch normalization，简写为BN)(412,415)和整流器线性单元(rectifier linear unit，简写为ReLU)(413,416)。CNN加速器400还可以包括附加的神经网络层，例如全连接(fully-connected)层、合并(pooling)层、softmax层等。CNN加速器400包括专用于加速神经网络操作的硬件组件，包括卷积操作、深度卷积操作、扩张卷积操作、反卷积(deconvolutional)操作、全连接操作、激活、合并、归一化、双线性插值法调整大小(bi-linear resize)和元素数学计算。更具体地，CNN加速器400包括多个计算单元和存储器(例如，静态随机存取存储器(SRAM))，其中每个计算单元还包括乘法器和加法器电路，用于执行诸如乘法和累加(MAC)操作的数学运算，以加速卷积、激活、合并、归一化和其他神经网络操作。CNN加速器400执行固定和浮点神经网络操作。结合本文描述的人体姿势编辑，CNN加速器400执行图3中的图像分割310和人体姿势估计320。

图5示出了根据一个实施例的结合人体姿势编辑执行的逆运动学变换330(f^-1)。逆运动学变换330可以由移动设备(例如，图1或图7的移动设备)的一个或多个通用处理器或专用电路执行。逆运动学变换330将笛卡尔空间中的输入变换为关节空间(joint space)；更具体地，逆运动学变换330计算使得末端执行器(例如，人物)达到用户编辑的目标状态的关节自由度(degree-of-freedoms，简写为DOF)的矢量。给定表示编辑的关键点的目标位置的一组输入坐标，逆运动学变换330输出定义目标姿势的一组关节角度。

图6示出了根据一个实施例的结合人体姿势编辑执行的全局扭曲340。全局扭曲340可以由移动设备(例如，图1或图7的移动设备)的一个或多个通用处理器或专用电路执行。全局扭曲340是投影变换，其至少具有以下属性：原点不一定映射到原点，线映射到线，平行线不一定保持平行，比率不保留，在组合下闭合(closed under composition)，以及模型改变基础(models change of basis)。在一个实施例中，全局扭曲340可以实现为矩阵变换。

图7示出了根据一个实施例的移动设备700的示例。移动设备700可以是图1的移动设备100的示例，其为视频中的前述人体姿势编辑提供平台。移动设备700包括处理硬件710，处理硬件710还包括处理器711(例如，中央处理单元(CPU)、图形处理单元(GPU)、数字处理单元(DSP)、多媒体处理器，其他通用和/或特殊目的处理电路)。在一些系统中，处理器711可以与“核心”或“处理器核心”相同，而在一些其他系统中，处理器可以包括多个核。每个处理器711可以包括算术和逻辑单元(ALU)、控制电路、高速缓冲存储器和其他硬件电路。处理硬件710还包括用于执行CNN计算的CNN加速器400(图4)。移动设备700的非限制性示例包括智能手机、智能手表、平板电脑和其他便携式和/或可穿戴电子设备。

移动设备700还包括耦合到处理硬件710的存储器和存储硬件720。存储器和存储硬件720可以包括存储器设备，诸如动态随机存取存储器(DRAM)、静态RAM(SRAM)、闪存和其他易失性或非易失性存储设备。存储器和存储硬件720还可以包括存储设备，例如，任何类型的固态或磁存储设备。

移动设备700还可以包括显示器730，以显示诸如图片、视频、消息、网页、游戏、文本和其他类型的文本、图像和视频数据之类的信息。在一个实施例中，显示器730和触摸屏可以集成在一起。

移动设备700还可以包括用于捕获图像和视频的相机740，然后可以在显示器730上查看。视频可以通过用户界面(例如键盘、触摸板、触摸屏、鼠标等)编辑。移动设备700还可以包括音频硬件750，例如麦克风和扬声器，用于接收和产生声音。移动设备700还可以包括电池760，以向移动设备700的硬件组件提供操作电力。

移动设备700还可以包括天线770和数字和/或模拟射频(RF)收发器780，以发送和/或接收语音、数字数据和/或媒体信号，包括上述具有编辑的人物姿势的视频。

应理解，图7的实施例是为了说明目的而简化的。可以包括附加的硬件组件。例如，移动设备700还可以包括用于连接到网络(例如，个人区域网络、局域网、广域网等)的网络硬件(例如，调制解调器)。网络硬件以及天线770和RF收发器780使用户能够在线共享上述编辑的人体姿势的视频；例如，在社交媒体或其他网络论坛(例如，因特网上的网站)上。在一个实施例中，移动设备700可以经由网络硬件、天线770和/或RF收发器780将编辑的帧序列上载到服务器(例如，云服务器)，以由其他移动设备获取。

图8是示出根据一个实施例的用于移动设备在视频中生成目标人体姿势的方法800的流程图。方法800可以由图1的移动设备100、图7的移动设备700或另一计算或通信设备执行。在一个实施例中，移动设备700包括电路(例如，图7的处理硬件710)和机器可读介质(例如，存储器720)，其在被执行时存储指令使得移动设备700执行方法800。

方法800开始于步骤810，其中移动设备响应于用户命令从视频的帧中识别人物的关键点。用户命令还指示关键点的给定关键点的目标位置。在步骤820，移动设备生成包括目标人体姿势的目标帧。目标人体姿势的给定关键点位于目标位置。在步骤830，移动设备在显示器上生成包括目标帧的编辑的帧序列。编辑的帧序列显示人体姿势过渡到目标人体姿势的运动。

已经参考图1和图7的示例性实施例描述了图8的流程图的操作。然而，应该理解，除了图1和图7的实施例之外，图8的流程图的操作可以由本发明的实施例执行，并且图1和图7的实施例可以执行与参考流程图所讨论的操作不同的操作。虽然图8的流程图示出了由本发明的某些实施例执行的特定操作顺序，但是应该理解，这种顺序是示例性的(例如，替代实施例可以以不同的顺序执行操作，组合某些操作，重叠某些操作等)。

呈现上述描述以使得本领域技术人员能够在特定应用及其要求的上下文中实施本发明。对所描述的实施例的各种修改对于本领域技术人员将是显而易见的，并且本文定义的一般原理可以应用于其他实施例。因此，本发明不旨在限于所示出和描述的特定实施例，而是符合与本文公开的原理和新颖特征相一致的最广范围。在上述详细描述中，示出了各种具体细节以便提供对本发明的透彻理解。然而，本领域技术人员将理解，可以实施本发明。

在不脱离本发明的精神或基本特征的情况下，本发明可以以其他具体形式实施。所描述的例子仅在所有方面被认为是说明性的而不是限制性的。因此，本发明的范围由权利要求书而不是前面的描述来指示。在权利要求的等同物的含义和范围内的所有变化将被包括在其范围内。

Claims

1.一种移动设备，可操作以在视频中生成目标人体姿势，其特征在于，包括：

处理硬件；

存储器，耦合到该处理硬件；以及

显示器，其中该处理硬件用于：

响应于用户命令，从该视频的帧中识别人物的关键点，该用户命令进一步指示该关键点的给定关键点的目标位置；

生成包括该目标人体姿势的目标帧，该目标人体姿势的该给定关键点在该目标位置；以及

在该显示器上生成包括该目标帧的编辑的帧序列，该编辑的帧序列示出了该人体姿势过渡为该目标人体姿势的运动。

2.如权利要求1所述的移动设备，其特征在于，该处理硬件还包括：

卷积神经网络加速器，用于执行卷积神经网络计算以从背景图像中裁剪该人物。

3.根据权利要求2所述的移动装置，其特征在于，该卷积神经网络加速器可操作以执行卷积神经网络计算以将该关键点与裁剪的人物的身体部位相关联。

4.根据权利要求1所述的移动设备，其特征在于，还包括：电路，用于将该编辑的帧序列上载到服务器以由其他移动设备获取。

5.如权利要求1所述的移动设备，其特征在于，每个关键点可根据该用户命令在该显示器上移动。

6.如权利要求1所述的移动设备，还包括触摸屏，其特征在于，该用户命令包括在该触摸屏上的用户指导的动作，以将该关键点移动到该目标位置。

7.如权利要求1所述的移动设备，其特征在于，该用户命令选择要由该编辑的帧序列替换的该视频中的帧序列。

8.如权利要求1所述的移动设备，其特征在于，该用户命令选择该视频中的该帧以指示该关键点的该目标位置，并且该处理硬件用于：

生成中间帧以跟随该编辑的帧序列中的所选帧，每个中间帧示出该人类姿势的运动的增量进展，其在该目标帧中转变为该目标人类姿势。

9.如权利要求1所述的移动设备，其特征在于，该处理硬件还用于：

执行逆运动学变换以获得对应于该目标位置处的该目标人体姿势的关节角度。

10.如权利要求9所述的移动设备，其特征在于，该处理硬件还用于：

根据该关节角度计算该人像像素的全局扭曲变换；以及

对该人像像素进行该全局扭曲变换，以将该人像从原始人体姿态变换为该目标人体姿势。

11.一种视频编辑方法，其特征在于，包括：

在显示器上生成包括该目标帧的编辑的帧序列，该编辑的帧序列示出了该人体姿势过渡为该目标人体姿势的运动。

12.如权利要求11所述的视频编辑方法，其特征在于，识别该关键点还包括：

执行卷积神经网络计算以从背景图像中裁剪该人物。

13.根据权利要求12所述的视频编辑方法，其特征在于，执行该卷积神经网络计算以将该关键点与裁剪的人物的身体部位相关联。

14.根据权利要求11所述的视频编辑方法，其特征在于，还包括：将该编辑的帧序列上载到服务器以由其他移动设备获取。

15.如权利要求11所述的视频编辑方法，其特征在于，每个关键点可根据该用户命令在该显示器上移动。

16.如权利要求11所述的视频编辑方法，其特征在于，该移动设备包括触摸屏，且该用户命令包括在该触摸屏上的用户指导的动作，以将该关键点移动到该目标位置。

17.如权利要求11所述的视频编辑方法，其特征在于，该用户命令选择要由该编辑的帧序列替换的该视频中的帧序列。

18.如权利要求11所述的视频编辑方法，其特征在于，该用户命令选择该视频中的该帧以指示该关键点的该目标位置，该方法进一步包含：

19.如权利要求11所述的视频编辑方法，其特征在于，更包含：

20.如权利要求19所述的视频编辑方法，其特征在于，更包含：

根据该关节角度计算该人像像素的全局扭曲变换；以及