CN111429338B

CN111429338B - 用于处理视频的方法、装置、设备和计算机可读存储介质

Info

Publication number: CN111429338B
Application number: CN202010193393.8A
Authority: CN
Inventors: 王超; 刘云峰; 李远杭; 贠挺; 陈国庆
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2023-08-01
Anticipated expiration: 2040-03-18
Also published as: CN111429338A

Abstract

根据本公开的实施例，提供了用于处理视频的方法、装置、设备和计算机可读存储介质，涉及数据处理领域。该方法包括接收用于调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括第二对象的目标部304第一对象的目标部位相对应的特征模板，特征模板包括第一对象的目标部位的特征的属性。该方法还包括基于位置信息和特征模板，确定针对第一对象的目标部位的至少一个替换图像。该方法还包括利用至少一个替换图像，调整至少一个帧中的第一对象的目标部位。通过该方法，可以使得用户能够快速方便地调整视频中的对象的目标部位，提高了视频处理效率。

Description

用于处理视频的方法、装置、设备和计算机可读存储介质

技术领域

本公开的实施例主要涉及数据处理领域，并且更具体地，涉及用于处理视频的方法、装置、设备和计算机可读存储介质。

背景技术

随着计算机技术的快速发展，计算机被越来越多的应用于生活的各个方面。随着计算机处理的数据量变大，越来越多的云平台被用于处理这种增加的数据。通过云平台，可以在实现相同功能的同时实现成本的降低。

此外，随着网络通信技术的发展，终端设备也开始被频繁的用于和服务器或云平台交换数据。因此，在终端设备处开发的应用也超来越多。现在随着视频应用的增加，视频在终端设备或计算机设备上通过网络可随时获得。然而，在视频的处理过程中还有许多问题需要解决。

发明内容

根据本公开的示例实施例，提供了一种用于处理视频的方案。

在本公开的第一方面中，提供了一种用于处理视频的方法。该方法包括接收用于调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括第二对象的目标部位的特征在至少一个参考图像中的位置信息。该方法还包括获取与第一对象的目标部位相对应的特征模板，特征模板包括第一对象的目标部位的特征的属性。该方法还包括基于位置信息和特征模板，确定针对第一对象的目标部位的至少一个替换图像。该方法还包括利用至少一个替换图像，调整至少一个帧中的第一对象的目标部位。

在本公开的第二方面中，提供了一种用于处理视频的方法。该方法包括获取与待调整视频相对应的参考视频，待调整视频的至少一个帧包括第一对象的目标部位，参考视频的至少一个帧包括第二对象的目标部位。该方法还包括在参考视频的至少一个帧中确定第二对象的目标部位的至少一个参考图像。该方法还包括确定第二对象的目标部位的特征在至少一个参考图像中的位置信息。该方法还包括向计算设备发送用于调整待调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括位置信息。

在本公开的第三方面中，提供了一种用于处理视频的装置。该装置包括接收模块，被配置为接收用于调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括第二对象的目标部位的特征在至少一个参考图像中的位置信息；第一获取模块，被配置为获取与第一对象的目标部位相对应的特征模板，特征模板包括第一对象的目标部位的特征的属性；替换图像确定模块，被配置为基于位置信息和特征模板，确定针对第一对象的目标部位的至少一个替换图像；以及调整模块，被配置为利用至少一个替换图像，调整至少一个帧中的第一对象的目标部位。

在本公开的第四方面中，提供了一种用于处理视频的装置。该装置包括获取模块，被配置为获取与待调整视频相对应的参考视频，待调整视频的至少一个帧包括第一对象的目标部位，参考视频的至少一个帧包括第二对象的目标部位；参考图像确定模块，被配置为在参考视频的至少一个帧中确定第二对象的目标部位的至少一个参考图像；位置信息确定模块，被配置为确定第二对象的目标部位的特征在至少一个参考图像中的位置信息；以及发送模块，被配置为向计算设备发送用于调整待调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括位置信息。

在本公开的第五方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第六方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第二方面的方法。

在本公开的第七方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第八方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第二方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图；

图2示出了根据本公开的一些实施例的用于处理视频的方法200的流程图；

图3示出了根据本公开的一些实施例的用于获取特征模板的方法300的流程图；

图4示出了根据本公开的一些实施例的用于处理视频的方法400的流程图；

图5示出了根据本公开的一些实施例的用于处理视频的装置500的框图；

图6示出了根据本公开的一些实施例的用于处理视频的装置600的框图；以及

图7示出了能够实施本公开的多个实施例的设备700的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

随着当前短视频的兴起以及新一代通信技术的出现，视频这种表达形式将越来越多的出现在百姓的生活中。传统上，在观赏视频时，用户与视频提供方之间的互动形式基本局限于文字这种较为基础的表达方式，并不支持其他个性化的表达方式。例如，在观看一段视频的过程中，如果用户希望能够按照自己的设想改变某些片段，传统的方案是无法实现的。根据本公开的实施例，提出一种处理视频的改进方案。在该方案中，首先接收用于调整视频中的第一对象的目标部位的请求，该请求包括第二对象的目标部位的特征在参考图像中的位置信息。然后获取与第一对象的目标部位相对应的特征模板。利用位置信息和特征模板，可以确定针对第一对象的目标部位的至少一个替换图像。然后利用至少一个替换图像来调整第一对象的目标部位，从而实现视频的调整。通过该方法，可以使得用户能够快速方便地调整视频中的对象的目标部位，提高了视频处理效率。以此方式，用户能够按照自己的设想改变某些片段，从而有效提高了用户观看视频的交互性和趣味性。通过这种观赏与创作的有效结合，能够有效提高用户活跃度与平台活跃度。

图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。在该示例环境100中，在该示例环境100中包括终端设备104和计算设备108。计算设备108基于来自终端设备104的请求来调整视频112。视频112至少包括第一对象(例如，某个演员)的目标部位。目标部位是第一对象的一部分，例如面部、头部、四肢等。

终端设备104基于视频112获取包括第二对象(例如用户102)的视频，以下称为参考视频。该参考视频可以是用户102对视频112中的第一对象(例如，演员)的目标部位进行再创作而获得的。

在一些实施例中，终端设备104可以录制第二对象的参考视频。在一些实施例中，终端设备104可以从其他设备获得第二对象的参考视频。

终端设备104在获得第二对象的参考视频后，能够从第二对象的参考视频的帧中识别出第二对象的目标部位。然后终端设备104确定出第二对象的目标部位的特征的位置信息106。一些实施例中，该位置信息106是目标部位的特征在参考图像中的坐标。

在一些实施例中，目标部位为面部，目标部位的特征为面部内的五官或五官的一部分。备选地，在一些实施例中，第二对象的目标部位为身体，目标部位的特征为四肢。上述示例仅是用于描述本公开的实施例，而非对本公开的实施例的具体限定。

终端设备104在录制参考视频时可以向第二对象显示视频112或正在录制的参考视频。在一些实施例中，终端设备104向第二对象显示视频112，以便于第二对象能够对着视频112进行创作。在一些实施例中，终端设备104向第二对象显示参考视频，以便于第二对象可以参照参考视频查看自己的表演动作。在一些实施例中，终端设备104同时向第二对象显示视频112和正在录制的参考视频。例如，终端设备为手机时，手机的屏幕分成上下两部分，上下两部分分别显示视频112和正在录制的参考视频。在一些实施例中，终端设备104可以获取调整的视频110，此时可以在终端设备104上同时显示视频112和调整的视频110。在另一些实施例中，终端设备104可以获取调整的视频110时，此时可以在终端设备104上同时显示调整的视频110和参考视频。在又一些实施例中，终端设备104可以获取调整的视频110，此时可以在终端设备104上同时显示视频112、调整的视频110和参考视频。上述示例仅是用于描述本公开的实施例，而非对本公开的实施例的具体限定。

终端设备104可以为各种移动电子设备，包括但不限于移动电话、个人数字助理(PDA)、媒体播放器、便携式媒体播放器等。图1中示出的利用终端设备104获取第二对象的参考视频仅是示例，本领域技术人员可以采用任意合适类型的计算设备来实现，包括但不限于膝上型计算机、电子书(电子书)阅读器、机顶盒(STB)、智能电视(TV)、个人计算机、膝上型计算机、车载计算机(例如，导航单元)、多处理器系统、消费电子产品、小型计算机、大型计算机等。

计算设备108用于基于来自第二对象的目标部位的特征的位置信息106，调整视频112中的第一对象的目标部位。计算设备108包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境、云平台中的虚拟机或其他计算设备等。

计算设备108利用来自第二对象的目标部位的特征的位置信息106来调整特征模板114以生成经调整的替换图像。然后利用替换图像替换视频112中的目标部位的原始图像从而生成与第二对象有关的调整的视频110。

特征模板114是用于描述第一对象的目标部位的，其包括第一对象的目标部位的特征的属性。

在一个实施例中，在目标部位是面部时，特征模板114可以是视频112中的第一对象的面部模板。目标部位的特征为第一对象的五官或五官的一部分，特征的属性则为嘴的大小、嘴唇的厚度等。在一个实施例中，目标部位是身体时，特征模板114可以是视频112中的第一对象的身体模板，目标部位的特征为四肢或四肢的一部分，则特征的属性为四肢中的每一个的长度等。上述示例仅是用于描述本公开，而非对本公开的具体限定。

特征模板114是通过利用模板神经网络模型处理第一对象的目标部位的图像来得到的。通过将视频112中的每帧中的第一对象的目标部位的图像输入该模板神经网络模型来获得第一对象的目标部位的特征模板114。该模板神经网络模型是通过利用包括目标对象的目标部位的样本图像以及该目标对象的目标部位的样本特征模板训练神经网络模型而被得到的。

计算设备108采用经调整的替换图像来替换视频112中的至少一个帧中的第一对象的目标部位来生成经调整的视频110。计算设备108在生成经调整的视频110时可以通知第二对象。在一些实施例中，计算设备108不向第二对象返回经调整的视频110。例如，向第二对象发送通知。备选地或附加地，该通知中包括经调整的视频110中的查询地址。在一些实施例中，计算设备108将调整的视频110发送给终端设备104。上述示例仅是用于描述本公开，而非对本公开的具体限定。

对视频112进行处理可应用于多人录制场景中，例如录制参考视频的第二对象的数目可以为多个。在一些实施例中，当多个第二对象对视频112中的第一对象的目标部位进行调整时，每个第二对象利用各自的终端设备104来录取视频。然后将从各自的视频获取的目标部位的特征的位置信息传送到计算设备104以生成多个调整的视频110，然后对这些视频进行剪辑处理。在一些实施列中，在视频112中存在多个第一对象，且第一对象的目标部位不重叠时，可以使用多个第二对象分别调整视频112中的对应第一对象的目标部位。在此过程中，第二对象利用自己的终端设备104录取对应的视频。然后第二对象的目标部位的特征的位置信息被传送到计算设备104以调整对应的第一对象。上述示例仅是用于描述本公开，而非对本公开的具体限定。

计算设备108在视频编辑场景中可以使用第二对象的目标部位的特征的位置信息来调整视频112中的第一对象的目标部位。在一些实施例中，当多个第二对象调整视频112中的同一对象的目标部位时，计算设备108可以根据接收的每个第二对象的请求来生成与其对应的调整的视频110，然后对多个调整的视频110进行剪辑处理来生成多个第二对象调整第一对象的目标部位的视频。在一些实施例中，在视频112中存在多个第一对象，且多个第一对象的目标部位不重叠时，计算设备108在接收到多个第二对象的用于调整视频112中的对应的第一对象的请求时，可以针对每个第二对象生成与其对应的第一对象的替换图像，然后利用对应的第一对象的替换图像调整视频112中对应的第一对象。上面图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的用于处理视频的方法200的流程图。方法200可以由图1中的计算设备108或其它任意合适的设备来实现。

在框202处，计算设备108接收用于调整视频112的至少一个帧中的第一对象的目标部位的请求，请求包括第二对象的目标部位的特征在至少一个参考图像中的位置信息106。第一对象为视频112中的演员。在第二对象通过终端设备104发出用于调整视频112中的第一对象的目标部位的请求时，会将包括第二对象的目标部位的特征在至少一个参考图像中的位置信息106发送给计算设备108。

在一些实施例中，目标部位为面部，目标部位的特征为五官或五官的一部分，目标部位的特征的位置信息106就指五官或五官的一部分在面部图像中的坐标位置。在一些实施例中，目标部位为身体，目标部位的特征为四肢，目标部位的特征的位置信息106是指四肢在中身体图中的坐标位置。上述示例仅是用于描述本公开，而非对本公开的具体限定。本领域技术人员可以依据需要将目标部位、目标部位的特征及其坐标位置设置为任意合适的内容。

在框204处，计算设备108获取与第一对象的目标部位相对应的特征模板114，特征模板114包括第一对象的目标部位的特征的属性。特征模板114可以离线预先生成或在线生成。生成特征模板114的具体过程将在图3中进行详细描述。

在一些实施例中，在特征模板114已经生成的情况下，计算设备108接收的请求中包括第一对象的标识。计算设备108在接收到请求后，从请求中提取第一对象的标识。计算设备108基于第一对象的标识，从预定义的模板集合中获取特征模板114。与通过利用第一对象的标识，可以快速和准确的确定出特征模板114。

在一些实施例中，计算设备108可以从本地的存储器获得特征模板114。在一些实施例中，计算设备108从其他设备获得特征模板114。

在框206处，计算设备108基于位置信息106和特征模板114，确定针对第一对象的目标部位的至少一个替换图像。计算设备108对位置信息106和特征模板114进行处理来获得第一对象的目标部位的至少一个替换图像。

在一些实施例中，计算设备108利用位置信息106，首先确定出第二对象的目标部位的特征在至少一个参考图像中的坐标。然后计算设备108利用特征的坐标来调整特征模板114中的特征的属性，以获得至少一个替换图像。

在一些实施例中，上述确定替换图像的过程在经训练的神经网络模型中生成，通过将位置信息106和特征模板114输入该经训练的神经网络模型，然后生成第一对象的目标部位的替换图像。该经训练的神经网络模型通过利用包括目标对象的目标部位的特征的样本位置信息和针对目标对象的目标部位的样本特征模板以及样本替换图像训练神经网络模型而被生成。在一些实施例中，该神经网络模型可以是对抗神经网络模型或者其他适当的模型。

在一些实施例中，在目标部位为面部时，计算设备108利用面部的多个特征的坐标，确定面部的多个特征之间的至少两个距离。例如，计算设备108利用面部的特征的坐标确定面部的鼻子与嘴巴之间的第一距离和眼睛与鼻子之间的第二距离。然后计算设备108基于至少两个距离之间的比值确定特征模板中的特征的位置。例如，依据第一距离和第二距离的比值来调整特征模板中的鼻子与嘴巴之间距离和眼睛与鼻子之间距离的关系以调整特征模板中的特征的位置。计算设备108将特征模板的特征与确定的位置相关联。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框208处，计算设备108利用至少一个替换图像，调整至少一个帧中的第一对象的目标部位。在获得了替换图像后，计算设备108然后用替换图像来替换视频112中的至少一个帧的目标部位。

在一些实施例中，在利用至少一个替换图像调整目标部位时，需要确定至少一个帧的第一数目和至少一个替换图像的第二数目。在一个实施例中，如果在至少一个帧的第一数目和至少一个替换图像的第二数目相同，则计算设备108使用至少一个替换图像来替换目标部位在至少一个帧中的原始图像。例如，视频112中有25帧图像，25帧图像中包括第一对象的目标部位。替换图像也是25个。由于视频112中的帧是按时间顺序排列的，且参考图像也是按顺序排列的，因此，采用顺序上一一对应的方式使用替换图像来替换帧中的目标部位。

在一些实施例中，至少一个帧包括多个帧。在利用至少一个替换图像调整目标部位时，如果多个帧的第一数目大于至少一个替换图像的第二数目，计算设备108通过对至少一个替换图像执行扩展操作来获得第一数目的替换图像。然后，计算设备108使用第一数目的替换图像来替换目标部位在多个帧中的原始图像。

在一个示例中，对至少一个替换图像执行扩展操作来获得第一数目的替换图像包括对至少一个替换图像执行插值操作来获得第一数目的替换图像。备选地或附加地，插值操作为内插或外插等。在一个示例中，对至少一个替换图像执行扩展操作来获得第一数目的替换图像包括对至少一个替换图像中的一些替换图像执行复制操作来获得第一数目的替换图像。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一些实施例中，在利用至少一个替换图像调整目标部位时，如果至少一个帧的第一数目小于多个替换图像的第二数目，计算设备108从多个替换图像中选择第一数目的替换图像。然后计算设备108使用第一数目的替换图像来替换目标部位在至少一个帧中的原始图像。

在一些实施例中，计算设备108识别至少一个帧中的替换图像的边缘。然后计算设备108对边缘执行融合处理。在一些实施例中，利用添加通道模蒙版来进行融合处理。在一些实施例中，可以采用本领域的其他任意合适的融合处理方法来进行融合处理。在一些实施例中，可以采用泊松融合或利用深度神经网络完成融合。上述示例仅是用于描述本公开，而非对本公开的具体限定。

通过对边缘执行融合处理，可以使得替换图像的边缘和原来的帧内的图像内容平滑连接。

在一些实施例中，计算设备108在调整完至少一个帧中的第一对象的目标部位后，还向第二对象提供用于访经调整的视频110的信息。例如，向第二对象的动动终端104发送调整的视频110的链接地址。

在一些实施例中，在视频编辑场景中，如果该视频中的至少一个帧中具有第二对象的目标部位且与第一对象的目标部位不重叠，则计算设备108还可以接收调整视频中的第二对象的目标部位的另一请求，该另一请求包括第二对象的目标部位的特征在至少一个参考图像中的位置信息。此时计算设备108获取与第二对象的目标部位相对应的另一特征模板，另一特征模板包括第二对象的目标部位的特征的属性。然后计算设备108利用位置信息和另一特征模板来生成针对第二对象的目标部位的至少一个替换图像。然后计算设备108利用该至少一个替换图像来调整至少一个帧中的第二对象的目标部位。

在一些实施例中，在视频编辑场景中，在该视频中的至少一个帧中具有第二对象的目标部位且与第一对象的目标部位不重叠的情况下，如果同时接收到两个用户调整视频的第一对象和第二对象的两个请求时，则计算设备108分别获取与第一对象和第二对象相对应的两个特征模板。然后计算设备108分别利用与两个用户的目标部位的特征有关的位置信息结合两个特征模板生成对应的两组替换图像。计算设备108用两组替换图像各自替换至少一个帧中对应的两个对象的目标部位。上述示例仅是用于描述本公开，而非对本公开的具体限定，本领域技术人员可以基于需要针对具有多个人物的目标部位的视频生成由多个用户调整的视频。

在一些实施例中，在视频编辑场景中，在多个用户中的每个用户表演视频中的同一人物时，可以分别生成与多个用户相对应的多个调整的视频，然后拼接在一起形成多用户的表演片段。

通过该方法，由于在调整过程中仅使用第二对象的目标部位的特征的位置信息调整特征模板，然后用得到的替换图像来调整视频中的对象的目标部位，因此不需要考虑参考图像的分辨率和尺寸就可实现图像的快速调整，同时减少了上传到计算设备或云平台的数据量，提高了视频处理效率。

上面结合图2描述了根据本公开的一些实施例的用于处理视频的方法200的流程图。下面结合图3详细描述图2中的框204处的获取特征模板的过程。图3示出了根据本公开的一些实施例的用于获取特征模板的方法300的流程图。图3中的方法300可以图1中的计算设备108或其它任意合适的设备来执行。

在框302处，计算设备108从视频112的帧中获取第一对象的目标部位的原始图像。计算设备108将从视频112的每个帧中识别出第一对象的目标部位的原始图像。例如，在目标部位为面部时，如果选取的包括第一对象的面部的视频112具有多个帧，从这些帧中选取出面部的原始图像。其中，面部图像是通过人脸识别和特征提取模块来获得的。

在框304处，计算设备108从原始图像中确定目标部位的特征的属性。在一些实施例中，计算设备108在获得原始图像后，会利用神经网络模型来处理原始图像，然后获得目标部位的特征的属性信息。该神经网络模型是通过目标部位的样本图像和目标部位的特征的样本属性来训练得到的。

在一些实施例中，目标部位是面部，计算设备108从所述原始图像提取所述面部的特征的属性。特征包括以下至少一项：嘴巴、鼻子、眉毛、眼睛、耳朵以及牙齿。属性包括以下至少一项：长度、宽度、厚度、形状、亮度以及颜色。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在一个示例中，在目标部位是面部时，目标部位的特征是指面部的五官或五官的一部分，而其属性例如为嘴巴大小、眼睛大小等描述五官的信息。在一些实施例中，在目标部位是身体时，目标部位的特征可以指四肢，而其属性例如四肢的长度等。上述示例仅是用于描述本公开，而非对本公开的具体限定。

在框306处，计算设备108至少基于特征的属性，生成特征模板114。计算设备108利用获得的这些特征的属性便可确定出特征模板114。

通过上述方法，可以准确快速的确定出特征模板。并且由于生成特征模板可以长时间使用，减少了以后计算特征模板的时间，提高了效率。

上面结合图3描述了根据本公开的一些实施例的用于获得特征模板的方法300的流程图。下面图4示出了根据本公开的一些实施例的用于生处理视频的方法400的流程图。图4中的方法400可以图1中的终端设备104或其它任意合适的设备来执行。

在框402处，终端设备104获取与待调整视频112相对应的参考视频，待调整视频112的至少一个帧包括第一对象的目标部位，参考视频的至少一个帧包括第二对象的目标部位。为了调整视频112中第一对象的目标部位，终端设备104需要获得包括第二对象的目标部位的参考视频。

在一些实施例中，可以直接使用终端设备104的相机来采集所述参考视频。作为备选方式，在一些实施例中，终端设备104可以通过网络或蓝牙方式等从其他设备获得所述参考视频。例如，用户的手机拍摄功能不可用时，可以从拍摄参考视频的其它手机接收参考视频。在另外的备选实施例中，终端设备104可以从存储所述参考视频的服务器或云平台中下载所述参考视频，例如用户的参考视频已提前存储在服务器或云平台中，当使用时从服务器或云平台中获取。

在一些实施例中，终端设备104确定待调整视频112所包括的帧的数目。然后终端设备104基于确定的数目，采集与第二对象的目标部位相关联的视频，以作为参考视频。在一些实施例中，终端设备104可以基于待调整视频112的时长来采集与第二对象的目标部位相关联的视频，例如，采集相同时长的视频。

在框404处，终端设备104在参考视频的至少一个帧中确定第二对象的目标部位的至少一个参考图像。在获得参考视频后，终端设备104可以识别出目标部位的图像。例如，如果目标部位是面部，可以通过人脸识别模块识别出面部图像。

在框406处，终端设备104确定第二对象的目标部位的特征在至少一个参考图像中的位置信息106。在确定参考图像后，终端设备104确定出参考图像中的特征的位置信息106。在一些实施例中，位置信息106是第二对象的目标部位的特征在至少一个参考图像中的坐标。

在框408处，终端设备104向计算设备108发送用于调整待调整视频112的至少一个帧中的第一对象的目标部位的请求，请求包括位置信息106。在获得至少一个参考图像的位置信息106后，终端设备104将其发送到计算设备108以用于调整视频112。

在一些实施例中，终端设备104还接收用于访问调整的视频110的信息。例如，计算设备108向终端设备104发送的调整视频110的地址。

在一些实施例中，终端设备104可以同时呈现视频112、调整的视频110或参考视频中的至少两项。例如，在终端设备104的屏幕上同时呈现视频112和参考视频，以方便第二对象比较自己的表演。

通过上述方法，终端设备可以快速的生成第二对象的目标部位的特征的位置信息。通过传输位置信息，减少了数据传输量，提高了数据传输效率和处理数率。

在一些实施例中，计算设备108可以先获得待调整视频，例如选取好的影视片段。然后计算设备108对待调整视频进行面部检测和关键点检测。检测待调整视频中的面部可以离线进行。在该过程中将获得的面部信息接照不同人物进行截取。然后按照人物归类，此时的面部数据具有相同的分辨率且包含该人物的一个序列的各种表情或姿态变化。获得的同一个人物的多张面部图像用于面部特征提取处理以获取面部特征模板。这些模板可以被保存在云中。该过程可以离线进行。

在第二对象要通过其表演来调整待调整视频时，第二对象用终端设备104先录制参考视频。在录制参考视频时第二对象可以在终端设备104同时观看待调整视频和正在录制的参考视频。终端设备104实时对参考视频进行面部检测和关键点检测。在该过程中，先在参考视频的帧中检测出面部所在位置，并取出面部像素，对面部做面部特征检测，生成面部特征坐标数组。面部特征坐标的数量例如为150点，其包括了绝大部分面部轮廓信息，可以清晰的反应出面部的角度与空间位置、以及表情变化。终端设备104将面部特征坐标数组传送至计算设备108。

计算设备108对接收到的面部特征坐标数组和对应的面部特征模板进行处理，利用神经网络模型来将面部特征模板拟合到用户关键点样式面部以生成面部替换图像。然后计算设备108将面部替换图像与待调整视频进行融合处理以调整待调整视频。面部融合模块可以通过在检测框边缘添加一个alpha通道蒙版，使该蒙版由四周向中心过度。通过这种渐进的方式融合生成结果，将边缘虚化，从而解决边缘过于生硬、色差明显的问题，同时很好的保证了处理速度与生成结果不受影响。

图5示出了根据本公开实施例的用于处理视频的装置500的示意性框图。如图5所示，装置500可以包括接收模块502，被配置为接收用于调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括第二对象的目标部位的特征在至少一个参考图像中的位置信息。装置500还包括第一获取模块504，被配置为获取与第一对象的目标部位相对应的特征模板，特征模板包括第一对象的目标部位的特征的属性。装置500还包括替换图像确定模块506，被配置为基于位置信息和特征模板114，确定针对第一对象的目标部位的至少一个替换图像。装置500还包括调整模块508，被配置为利用至少一个替换图像，调整至少一个帧中的第一对象的目标部位。

在一些实施例中，调整模块508包括替换图像替换模块，被配置为根据确定至少一个帧的第一数目和至少一个替换图像的第二数目相同，使用至少一个替换图像来替换目标部位在至少一个帧中的原始图像。

在一些实施例中，其中至少一个帧包括多个帧，并且调整模块508包括扩展模块，被配置为根据确定多个帧的第一数目大于至少一个替换图像的第二数目，扩展至少一个替换图像，以获得第一数目的替换图像；以及扩展的替换图像替换模块，被配置为使用第一数目的替换图像来替换目标部位在多个帧中的原始图像。

在一些实施例中，扩展模块包括插值模块，被配置为对至少一个替换图像执行插值操作，以获得第一数目的替换图像。

在一些实施例中，其中至少一个替换图像包括多个替换图像，并且调整模块508包括选择模块，被配置为根据确定至少一个帧的第一数目小于多个替换图像的第二数目，从多个替换图像中选择第一数目的替换图像；以及选择的替换图像替换模块，被配置为使用第一数目的替换图像来替换目标部位在至少一个帧中的原始图像。

在一些实施例中，装置500还包括识别模块，被配置为识别至少一个帧中的替换图像的边缘；以及融合模块，被配置为对边缘执行融合处理。

在一些实施例中，第一获取模块504包括提取模块，被配置为从请求中提取第一对象的标识；以及第二获取模块，被配置为基于第一对象的标识，从预定义的模板集合中获取特征模板。

在一些实施例中，第一获取模块504包括原始图像获取模块，被配置为从视频的帧中获取第一对象的目标部位的原始图像；属性确定模块，被配置为从原始图像中确定目标部位的特征的属性；以及生成模块，被配置为至少基于特征的属性，生成特征模板。

在一些实施例中，其中目标部位是面部，其中属性确定模块包括提取模块，被配置为从原始图像提取面部的特征的属性，特征包括以下至少一项：嘴巴、鼻子、眉毛、眼睛、耳朵以及牙齿，属性包括以下至少一项：长度、宽度、厚度、形状、亮度以及颜色。

在一些实施例中，替换图像确定模块506包括坐标确定模块，被配置为基于位置信息，确定第二对象的目标部位的特征在至少一个参考图像中的坐标；以及替换图像获取模块，被配置为利用特征的坐标来调整特征模板中的特征的属性，以获得至少一个替换图像。

在一些实施例中，其中目标部位是面部，替换图像获得模块包括距离确定模块，被配置为基于所述面部的所述多个特征的坐标，确定所述面部的所述多个特征之间的至少两个距离；特征位置确定模块，被配置为基于所述至少两个距离之间的比值确定所述特征模板中的所述特征的位置；以及关联模块，被配置为将所述特征模板的所述特征与确定的所述位置相关联。在一些实施例中，装置500还包括提供模块，被配置为提供用于访问经调整的视频的信息。

图6示出了根据本公开实施例的用于处理语音信号的装置600的示意性框图。如图6所示，装置600可以包括获取模块602，被配置为获取与待调整视频相对应的参考视频，待调整视频的至少一个帧包括第一对象的目标部位，参考视频的至少一个帧包括第二对象的目标部位。装置600还包括参考图像确定模块604，被配置为在参考视频的至少一个帧中确定第二对象的目标部位的至少一个参考图像。装置600还包括位置信息确定模块606，被配置为确定第二对象的目标部位的特征在至少一个参考图像中的位置信息。装置600还包括发送模块608，被配置为向计算设备发送用于调整待调整视频的至少一个帧中的第一对象的目标部位的请求，请求包括位置信息。

在一些实施例中，获取模块602包括数目确定模块确定待调整视频所包括的帧的数目；以及采集模块，被配置为基于确定的数目，采集与第二对象的目标部位相关联的视频，以作为参考视频。

在一些实施例中，位置信息确定模块606包括坐标确定模块，被配置为确定第二对象的目标部位的特征在至少一个参考图像中的坐标。在一些实施例中，装置600还包括接收模块，被配置为接收用于访问经调整的视频的信息。

一些实施例中，装置600还包括呈现模块，被配置为同时呈现待调整视频、经调整的视频和参考视频中的至少两项。

图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。设备700可以用于实现图1中的终端设备104和计算设备108。如图所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如方法200、300和400。例如，在一些实施例中，方法200、300和400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的方法200、300和400的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法700。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于处理视频的方法，包括：

接收用于调整所述视频的至少一个帧中的第一对象的目标部位的请求，所述请求包括第二对象的所述目标部位的特征在参考视频的至少一个参考图像中的位置信息；

获取与所述第一对象的目标部位相对应的特征模板，所述特征模板包括所述第一对象的所述目标部位的特征的属性；

基于所述位置信息和所述特征模板，确定针对所述第一对象的目标部位的至少一个替换图像；以及

利用所述至少一个替换图像，调整所述至少一个帧中的所述第一对象的所述目标部位。

2.根据权利要求1所述的方法，其中调整所述第一对象的所述目标部位包括：

根据确定所述至少一个帧的第一数目和所述至少一个替换图像的第二数目相同，使用所述至少一个替换图像来替换所述目标部位在所述至少一个帧中的原始图像。

3.根据权利要求1所述的方法，其中所述至少一个帧包括多个帧，并且其中调整所述第一对象的所述目标部位包括：

根据确定所述多个帧的第一数目大于所述至少一个替换图像的第二数目，扩展所述至少一个替换图像，以获得第一数目的替换图像；以及

使用所述第一数目的替换图像来替换所述目标部位在所述多个帧中的原始图像。

4.根据权利要求3所述的方法，其中扩展所述至少一个替换图像包括：

对所述至少一个替换图像执行插值操作，以获得所述第一数目的替换图像。

5.根据权利要求1所述方法，其中所述至少一个替换图像包括多个替换图像，并且其中调整所述第一对象的所述目标部位包括：

根据确定所述至少一个帧的第一数目小于所述多个替换图像的第二数目，从所述多个替换图像中选择第一数目的替换图像；以及

使用所述第一数目的替换图像来替换所述目标部位在所述至少一个帧中的原始图像。

6.根据权利要求2-5中任一项所述的方法，还包括：

识别所述至少一个帧中的替换图像的边缘；以及

对所述边缘执行融合处理。

7.根据权利要求1所述的方法，其中获取所述特征模板包括：

从所述请求中提取所述第一对象的标识；以及

基于所述第一对象的标识，从预定义的模板集合中获取所述特征模板。

8.根据权利要求1所述的方法，其中获取所述特征模板包括：

从所述视频的帧中获取所述第一对象的所述目标部位的原始图像；

从所述原始图像中确定所述目标部位的特征的属性；以及

至少基于所述特征的所述属性，生成所述特征模板。

9.根据权利要求8所述的方法，其中所述目标部位是面部，其中确定所述目标部位的特征的属性包括：

从所述原始图像提取所述面部的特征的属性，所述特征包括以下至少一项：嘴巴、鼻子、眉毛、眼睛、耳朵以及牙齿，所述属性包括以下至少一项：长度、宽度、厚度、形状、亮度以及颜色。

10.根据权利要求1所述的方法，其中确定所述至少一个替换图像包括：

基于所述位置信息，确定第二对象的所述目标部位的特征在所述至少一个参考图像中的坐标；以及

利用所述特征的所述坐标来调整所述特征模板中的所述特征的位置，以获得所述至少一个替换图像。

11.根据权利要求10所述的方法，其中所述目标部位是面部，所述面部包括多个特征，其中调整所述特征的位置包括：

基于所述面部的所述多个特征的坐标，确定所述面部的所述多个特征之间的至少两个距离；

基于所述至少两个距离之间的比值确定所述特征模板中的所述特征的位置；以及

将所述特征模板的所述特征与确定的所述位置相关联。

12.根据权利要求1所述的方法，还包括：

提供用于访问经调整的所述视频的信息。

13.一种用于处理视频的方法，包括：

获取与待调整视频相对应的参考视频，所述待调整视频的至少一个帧包括第一对象的目标部位，所述参考视频的至少一个帧包括第二对象的所述目标部位；

在所述参考视频的所述至少一个帧中确定所述第二对象的所述目标部位的至少一个参考图像；

确定所述第二对象的所述目标部位的特征在所述至少一个参考图像中的位置信息；以及

向计算设备发送用于调整所述待调整视频的至少一个帧中的第一对象的目标部位的请求，所述请求包括所述位置信息。

14.根据权利要求13所述的方法，其中获取所述参考视频包括：

确定所述待调整视频所包括的帧的数目；以及

基于确定的所述数目，采集与所述第二对象的所述目标部位相关联的视频，以作为所述参考视频。

15.根据权利要求13所述的方法，其中确定所述位置信息包括：

所述第二对象的所述目标部位的所述特征在所述至少一个参考图像中的坐标。

16.根据权利要求13所述的方法，还包括：

接收用于访问经调整的所述视频的信息。

17.根据权利要求16所述的方法，所述方法还包括：

同时呈现所述待调整视频、经调整的所述视频和所述参考视频中的至少两项。

18.一种用于处理视频的装置，包括：

接收模块，被配置为接收用于调整所述视频的至少一个帧中的第一对象的目标部位的请求，所述请求包括第二对象的所述目标部位的特征在参考视频的至少一个参考图像中的位置信息；

第一获取模块，被配置为获取与所述第一对象的目标部位相对应的特征模板，所述特征模板包括所述第一对象的所述目标部位的特征的属性；

替换图像确定模块，被配置为基于所述位置信息和所述特征模板，确定针对所述第一对象的目标部位的至少一个替换图像；以及

调整模块，被配置为利用所述至少一个替换图像，调整所述至少一个帧中的所述第一对象的所述目标部位。

19.根据权利要求18所述的装置，其中所述调整模块包括：

替换图像替换模块，被配置为根据确定所述至少一个帧的第一数目和所述至少一个替换图像的第二数目相同，使用所述至少一个替换图像来替换所述目标部位在所述至少一个帧中的原始图像。

20.根据权利要求18所述的装置，其中所述至少一个帧包括多个帧，并且其中所述调整模块包括：

扩展模块，被配置为根据确定所述多个帧的第一数目大于所述至少一个替换图像的第二数目，扩展所述至少一个替换图像，以获得第一数目的替换图像；以及

扩展的替换图像替换模块，被配置为使用所述第一数目的替换图像来替换所述目标部位在所述多个帧中的原始图像。

21.根据权利要求20所述的装置，其中所述扩展模块包括：

插值模块，被配置为对所述至少一个替换图像执行插值操作，以获得所述第一数目的替换图像。

22.根据权利要求18所述装置，其中所述至少一个替换图像包括多个替换图像，并且其中所述调整模块包括：

选择模块，被配置为根据确定所述至少一个帧的第一数目小于所述多个替换图像的第二数目，从所述多个替换图像中选择第一数目的替换图像；以及

选择的替换图像替换模块，被配置为使用所述第一数目的替换图像来替换所述目标部位在所述至少一个帧中的原始图像。

23.根据权利要求19-22中任一项所述的装置，还包括：

识别模块，被配置为识别所述至少一个帧中的替换图像的边缘；以及

融合模块，被配置为对所述边缘执行融合处理。

24.根据权利要求18所述的装置，其中所述第一获取模块包括：

提取模块，被配置为从所述请求中提取所述第一对象的标识；以及

第二获取模块，被配置为基于所述第一对象的标识，从预定义的模板集合中获取所述特征模板。

25.根据权利要求18所述的装置，其中第一获取模块包括：

原始图像获取模块，被配置为从所述视频的帧中获取所述第一对象的所述目标部位的原始图像；

属性确定模块，被配置为从所述原始图像中确定所述目标部位的特征的属性；以及

生成模块，被配置为至少基于所述特征的所述属性，生成所述特征模板。

26.根据权利要求25所述的装置，其中所述目标部位是面部，其中所述属性确定模块包括：

提取模块，被配置为从所述原始图像提取所述面部的特征的属性，所述特征包括以下至少一项：嘴巴、鼻子、眉毛、眼睛、耳朵以及牙齿，所述属性包括以下至少一项：长度、宽度、厚度、形状、亮度以及颜色。

27.根据权利要求18所述的装置，其中所述替换图像确定模块包括：

坐标确定模块，被配置为基于所述位置信息，确定第二对象的所述目标部位的特征在所述至少一个参考图像中的坐标；以及

替换图像获得模块，被配置为利用所述特征的所述坐标来调整所述特征模板中的所述特征的位置，以获得所述至少一个替换图像。

28.根据权利要求27所述的装置，其中所述目标部位是面部，所述替换图像获得模块包括：

距离确定模块，被配置为基于所述面部的所述多个特征的坐标，确定所述面部的所述多个特征之间的至少两个距离；

特征位置确定模块，被配置为基于所述至少两个距离之间的比值确定所述特征模板中的所述特征的位置；以及

关联模块，被配置为将所述特征模板的所述特征与确定的所述位置相关联。

29.根据权利要求18所述的装置，还包括：

提供模块，被配置为提供用于访问经调整的所述视频的信息。

30.一种用于处理视频的装置，包括：

获取模块，被配置为获取与待调整视频相对应的参考视频，所述待调整视频的至少一个帧包括第一对象的目标部位，所述参考视频的至少一个帧包括第二对象的所述目标部位；

参考图像确定模块，被配置为在所述参考视频的所述至少一个帧中确定所述第二对象的所述目标部位的至少一个参考图像；

位置信息确定模块，被配置为确定所述第二对象的所述目标部位的特征在所述至少一个参考图像中的位置信息；以及

发送模块，被配置为向计算设备发送用于调整所述待调整视频的至少一个帧中的第一对象的目标部位的请求，所述请求包括所述位置信息。

31.根据权利要求30所述的装置，其中所述获取模块包括：

数目确定模块，被配置为确定所述待调整视频所包括的帧的数目；以及

采集模块，被配置为基于确定的所述数目，采集与所述第二对象的所述目标部位相关联的视频，以作为所述参考视频。

32.根据权利要求30所述的装置，其中所述位置信息确定模块包括：

坐标确定模块，被配置为确定所述第二对象的所述目标部位的所述特征在所述至少一个参考图像中的坐标。

33.根据权利要求30所述的装置，还包括：

接收模块，被配置为接收用于访问经调整的所述视频的信息。

34.根据权利要求33所述的装置，还包括：

呈现模块，被配置为同时呈现所述待调整视频、经调整的所述视频和所述参考视频中的至少两项。

35.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-12中任一项所述的方法。

36.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求13-17中任一项所述的方法。

37.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。

38.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求13-17中任一项所述的方法。