CN114550293A

CN114550293A - 动作修正方法和装置、存储介质及电子设备

Info

Publication number: CN114550293A
Application number: CN202210165010.5A
Authority: CN
Inventors: 陈盛福
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明公开了一种动作修正方法和装置、存储介质及电子设备。其中，该方法包括在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板，其中，动作模板列表中包括至少一个动作模板，目标动作模板中包括与目标模板音频匹配的一组目标动作序列；获取客户端采集到的场景画面，其中，场景画面中包括根据目标模板音频执行候选动作的主播对象；基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面，其中，在目标画面中，候选动作已被修正为目标动作序列中的目标动作；将目标画面推送给主播账号关联的观众账号。本发明解决了现有方法无法对直播场景中的主播的舞蹈动作进行修正的技术问题。

Description

动作修正方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种动作修正方法和装置、存储介质及电子设备。

背景技术

如今很多直播场景中的主播，经常会在直播间进行舞蹈表演，以吸引众多网络用户的关注，从而便于从中获得收益。然而，新舞蹈中的动作往往存在一定难度，很多主播需要经过长时间的学习和训练才可以完成。

也就是说，目前提供舞蹈类内容的主播为了实现定期开播，不得不在短时间内快速地学成一支完整的舞蹈。但由于学习时间短，就很容易出现动作不到位，舞蹈呈现效果不佳的情况，这将使得该主播的粉丝用户产生大量流失。即，相关技术中尚未提供一种方式对直播场景中的主播的舞蹈动作进行及时修正的方法。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种动作修正方法和装置、存储介质及电子设备，以至少解决现有方法无法对直播场景中的主播的舞蹈动作进行修正的技术问题。

根据本申请实施例的一个方面，提供了一种动作修正方法，包括：在主播账号所在的客户端中显示的动作模板列表中，确定出上述主播账号选中的目标动作模板，其中，上述动作模板列表中包括至少一个动作模板，上述目标动作模板中包括与目标模板音频匹配的一组目标动作序列；获取上述客户端采集到的场景画面，其中，上述场景画面中包括根据上述目标模板音频执行候选动作的主播对象；基于上述目标动作模板对上述场景画面中上述主播对象的上述候选动作进行修正，以生成待推送的目标画面，其中，在上述目标画面中，上述候选动作已被修正为上述目标动作序列中的目标动作；将上述目标画面推送给上述主播账号关联的观众账号。

根据本申请实施例的另一方面，还提供了一种动作修正装置，包括：确定单元，用于在主播账号所在的客户端中显示的动作模板列表中，确定出上述主播账号选中的目标动作模板，其中，上述动作模板列表中包括至少一个动作模板，上述目标动作模板中包括与目标模板音频匹配的一组目标动作序列；获取单元，用于获取上述客户端采集到的场景画面，其中，上述场景画面中包括根据上述目标模板音频执行候选动作的主播对象；修正单元，用于基于上述目标动作模板对上述场景画面中上述主播对象的上述候选动作进行修正，以生成待推送的目标画面，其中，在上述目标画面中，上述候选动作已被修正为上述目标动作序列中的目标动作；推送单元，用于将上述目标画面推送给上述主播账号关联的观众账号。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述动作修正方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的动作修正方法。

在本发明实施例中，通过在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板；获取客户端采集到的场景画面，其中，场景画面中包括根据目标模板音频执行候选动作的主播对象；基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面，其中，在目标画面中，候选动作已被修正为目标动作序列中的目标动作；将目标画面推送给主播账号关联的观众账号，从而实现了根据主播账号选择的动作模板自动修正主播对象的舞蹈动作，并生成修正后的主播舞蹈直播画面，从而解决了现有技术中无法对主播对象的舞蹈动作进行修正的技术问题，实现了主播在主播端表演，表演的动作能够实时修正，替换成标准动作，避免了直播时主播动作不熟练的情况，提升了舞蹈直播的画面展示效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的动作修正方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的动作修正方法的流程图；

图3是根据本发明实施例的一种可选的动作修正方法的示意图；

图4是根据本发明实施例的另一种可选的动作修正方法的示意图；

图5是根据本发明实施例的又一种可选的动作修正方法的示意图；

图6是根据本发明实施例的另一种可选的动作修正方法的流程图；

图7是根据本发明实施例的一种可选的动作修正装置的结构示意图；

图8是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种动作修正方法，可选地，作为一种可选的实施方式，上述方法可以但不限于应用于如图1所示的环境中。

根据本发明实施例的一个方面，提供了一种动作修正方法，可选地，作为一种可选的实施方式，上述动作修正方法可以但不限于应用于如图1所示的硬件环境中的动作修正系统。其中，该动作修正系统可以包括但不限于终端设备102、网络104、服务器106、数据库108及终端设备109。终端设备102中运行有目标客户端(如图1所示的直播界面，该目标客户端可以是一款直播平台的主播版本客户端)。上述终端设备102包括人机交互屏幕，处理器及存储器。人机交互屏幕用于显示主播客户端的直播界面(如图1所示的一种主播客户端的直播界面)；还用于提供人机交互接口以接收用于用户使用直播软件进行网络直播的人机交互操作。处理器用于响应上述人机交互操作生成交互指令，并将该交互指令发送给服务器106。存储器用于存储相关属性数据，如客户端采集到的场景画面及所要播放的直播画面等。上述终端设备109同样包括人机交互屏幕，处理器及存储器，其中，人机交互屏幕用于显示观众客户端的直播界面。

此外，服务器106用于与数据库108进行数据交互，从而实现基于获取到的动作模板的模板标识，从数据库108中读取目标动作模板。

具体过程如以下步骤：如步骤S102-S104，在终端设备102内运行的主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板，然后获取客户端采集到的场景画面。接着，执行步骤S106，终端设备102通过网络104发送目标动作目标的模板标识及场景画面至服务器106。服务器106在接收到上述模板标识及场景画面的情况下，执行步骤S108至S110，获取目标动作模板，并基于目标模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面。最后执行步骤S112，服务器106通过网络104发送目标画面至终端设备109以及终端设备102。可以理解的是，在本实施例中，上述终端102中运行的是与主播对象账号对应的客户端，上述终端109中运行的是与观众对象账号对应的客户端。

作为另一种可选的实施方式，在终端设备102具备较强大的计算处理能力时，上述步骤S106-S112也可以由终端设备102来完成。这里为示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述动作修正方法包括：

S202，在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板，其中，动作模板列表中包括至少一个动作模板，目标动作模板中包括与目标模板音频匹配的一组目标动作序列；

S204，获取客户端采集到的场景画面，其中，场景画面中包括根据目标模板音频执行候选动作的主播对象；

S206，基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面，其中，在目标画面中，候选动作已被修正为目标动作序列中的目标动作；

S208，将目标画面推送给主播账号关联的观众账号。

以如图3所示的界面为例对上述方法的应用场景进行说明，可以理解的是，上述方法可以应用于如图3所示的直播应用中，直播画面为应用于终端的主播客户端上进行直播时显示的界面。该界面可以分为五个显示区域，包括采集区301：用于显示上述对主播对象采集到的场景画面；直播区302，用于显示上述已进行动作修正处理后的目标画面；互动区303：用于显示观众用户的互动信息；搜索区304：用于显示搜索动作模板的控件；设置区305：用于显示用于设置直播参数的控件。其中，如采集区301所示，在该区域中，显示通过客户端采集到的主播对象跟随目标音频进行表演的实时舞蹈场景画面，画面中主播对象做了一个错误的舞蹈姿势，即采集区301中所示的主播对象抬起了右边的手臂，而正确的动作应该为抬起画面左边的手臂。假设该主播对象在家里的卧室进行舞蹈表演，如采集区301中显示的内容，在该实时舞蹈场景中还包括了场景中的画面干扰对象，如画面右下角的一个柜子。在直播区302中显示了已进行动作修正处理后的目标画面，在直播区302中显示的主播对象的修正后的正确的舞蹈姿势，即图中所示的抬起了画面左边的手臂。

可选地，上述获取客户端采集到的场景画面的方式可以是通过如图1中所示的终端设备102通过设备自带的拍摄装置获取得到的包含了主播对象表演内容的场景画面，也可以是主播对象在通过终端设备102直播过程中，使用的第三方设备对主播对象的表演进行拍摄，再将视频数据传输至终端设备102。上述两种获取主播对象的第一视频的方式仅为示例，在此不作限定。

可以理解的是，上述获取的场景画面，可以是主播对象跟随音乐进行舞蹈表演的视频片段，也可是主播对象进行武术表演的视频片段，还可以是主播对象进行广播体操表演的视频片段。也就是说，上述第一视频可以包括的是主播对象通过肢体动作进行表演的视频，并不对具体表演类型进行限定。

可选地，在主播账号从客户端显示的动作模板列表中选择了目标动作模板的情况下，指示主播对象准备根据目标动作模板中的表演动作进行直播表演。可以理解的是，主播对象仅需要大致表演出模板中的相关动作，至于动作细节与模板中的动作存在出入的情况下，可以通过本方法根据目标动作模板对采集到的表演画面进行修正，再将修正后的表演画面在客户端进行展示。比如通过动作修正将主播对象做反的动作(如本应该抬左手但主播对象抬了右手的情况)进行修正，或者如图4所示，将主播对象做得不到位的动作(如本应该抬手到180°左边的主播对象只抬到90°)进行修正。如图3所示，在主播账号的客户端上，可以同时对采集到的表演画面和修正后的表演画面进行展示。在另一种可选的实施例中，如图5所示，可以在模板区501中展示动作模板画面，在采集区502中展示采集到的表演画面，在直播区503中展示修正后的表演画面，即在直播客户端中将动作模板画面、采集到的主播表演画面以及修正后的主播表演画面进行同时展示。可以理解的是，在观众客户端中只对修正后的表演画面进行展示。

作为一种可选的方式，上述对主播对象的动作进行修正的方式可以是对存在错误动作的视频帧进行图像处理，以实现表演画面的修正。可以是通过以下图像处理方式以实现表演画面的修正：

在识别到视频帧中主播对象的动作做反的情况下，可以进一步识别出发出动作的身体部位，将做反动作的部位进行镜像处理。具体地：假设正确动作为抬起右手，而主播对象抬起了左手，通过将主播对象的左右手臂进行镜像处理，以显示主播对象抬起了右手，即做出了准确的动作；

在识别到视频帧中主播动作做得不到位的动作的情况下，可以进一步识别出发出动作的身体部位，将动作得不到位的身体部位进行旋转处理。具体地：假设正确动作需要抬手到180°，主播对象只抬到90°的情况下，通过控制对主播对象的手臂绕肩部进行旋转90°处理，以显示主播对象做出了准确的动作；

在识别到视频帧中主播蹦跳高度不足的情况下，可以进一步识别出发出主播的身体区域，将主播对象的身体部位进行平移处理。具体地：假设准确动作为蹦跳0.3m，而主播对象的蹦跳高度为0.1m，通过将主播对象的身体区域整体向上平移0.2m，以显示主播对象的蹦跳高度达到标准高度。

可以理解的是，上述修正方式仅为示例性说明，实际修正过程中可以结合以上一种或者多种方式进行修正。此处不对具体修正方式进行限制。

在一种具体地方式中，可以通过以上一种或者多种修正方式的组合以实现对主播对象的动作修正。具体流程可以如下：

S1，比对当前帧目标动作模板与当前帧表演画面，以确定主播对象的动作误差；

S2，确定发生误差动作的身体部位信息以及误差种类信息；比如，通过画面比对以确定主播对象在当前视频帧中哪些身体部位出现了动作误差以及误差种类，误差种类可以包括但不限于：旋转角度不足、蹦跳高度不足、动作做反等；

S3，根据识别确定的发生误差动作的身体部位信息以及误差种类信息，对主播对象的动作进行修正。可以理解的是，具体修正方式可以是在识别出具体身体部位的情况下，对应于误差种类，对相应的身体部位进行旋转处理、平移处理、镜像处理等处理方式中的一种或多种处理。

在本发明实施例中，通过在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板；获取客户端采集到的场景画面，其中，场景画面中包括根据目标模板音频执行候选动作的主播对象；基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面，其中，在目标画面中，候选动作已被修正为目标动作序列中的目标动作；将目标画面推送给主播账号关联的观众账号，从而实现了根据主播账号选择的动作模板自动修正主播对象的舞蹈动作，并生成修正后的主播舞蹈直播画面，从而解决了现有技术中无法对主播对象的舞蹈动作进行修正的技术问题，提升了舞蹈直播的画面展示效果。

作为一种可选的实施方式，上述基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面包括：将场景画面及目标动作模板输入动作生成网络中，以得到目标画面，其中，动作生成网络为利用多个样本动作视频进行训练后得到的神经网络模型，样本动作视频中包括按照样本音频执行样本动作序列的样本对象，动作生成网络用于生成主播对象按照目标动作模板中的目标动作序列执行动作的画面。

需要理解的是，在接收到场景画面的情况下，需要对场景画面中的主播对象所在的区域进行提取，并基于提取的结果进行动作修正，并将修正后的主播对象画面作为待推送的目标画面元素。基于原画面进行动作修正可能会出现修正动作扭曲或者显示模糊等技术问题，为解决上述问题，本实施例采用训练好的动作生成网络对上述画面进行修正。

可选地，上述动作生成网络可以为一种通过训练得到的对抗网络(GAN，Generative Adversarial Networks)网络。其中包括了至少两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)。其中生成模型用以接收输入的场景画面中的候选动作特征以及目标动作模板中的标准动作序列特征，并基于上述特征生成目标画面，其中判别模型用以判断上述生成模型输出的目标画面的真实程度。在训练过程中，通过训练集的训练使得生成模型生成的目标画面尽可能真实，并通过训练集的训练使得判别模型的判别能力尽可能提升。也就是说，通过生成模型和判别模型的联合训练，提升上述动作生成模型生成的目标画面的真实程度。可以理解的是，上述动作生成模型的训练集为多个样本动作视频，其中，样本动作视频中包括按照样本音频执行样本动作序列的样本对象，比如，可以是根据音乐伴奏进行跳舞表演的舞蹈视频，还可以是根据音乐伴奏进行武术表演的武术视频，还可以是根据音乐伴奏进行体操表演的体操表演视频，在此不对上述具体的训练视频集进行限定。

通过本实施例，将场景画面及目标动作模板输入动作生成网络中，以得到目标画面，从而解决了现有的画面修正方法中存在的画面显示不真实的技术问题，实现了提升目标画面显示的真实性的技术效果。

作为一种可选的实施方式，上述将场景画面及目标动作模板输入动作生成网络中，以得到目标画面包括：

S1，从场景画面中提取主播对象的目标肢体关键点，并从目标动作模板的目标动作序列中提取各个目标动作的参考肢体关键点；

S2，在动作生成网络中，基于参考肢体关键点的位置调整主播对象的目标肢体关键点的位置，以生成包含执行目标动作的主播对象的目标画面。

需要说明的是，从场景画面中提取主播对象的目标肢体关键点的方法，可以是对于视频画面中的一个动作进行3D关键点进行深层特征提取，由于不同的人，肢体长度不同，所以可以采用对肢体长度敏感度较低的角度当作动作特征。以一个主播对象为例，可选地，可以将左肩-左肘，右肩-右肘，左肘-左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀-右膝，左膝-左脚踝，右膝-右脚踝，上述关键点组合成为10个感兴趣肢体，并以距离身体中心近的点作为原点(如：左肩-左肘以肩为原点，左肘-左手腕以肘为原点)，计算另一个关键点坐标距离原点的三维坐标，而后求其在球坐标系中的θ和ψ，以及帧间的角度变化参数，由此可以得到10*3个深层动作特征，即上述方法中所述的关键点特征集。

在另一种可选的实施例中，可以将上述左肩-左肘，右肩-右肘，左肘-左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀-右膝，左膝-左脚踝，看做18个关键点，并分别用空间直角坐标系中的三个坐标表示上述18个关键点的位置，从而得到18*3维的关键点特征集。可以理解的是，上述提取关键点特征集的方法仅为一种示例。在实际应用中，可以根据应用的需要选取适当的关键点，以及以适当的坐标系对上述关键点的特征进行表示，在此不作限定。

在确定出提取的主播对象的目标关键点特征的情况下，结合目标动作中的参考关键点特征对目标关键点特征进行修正，进而确定出目标画面中的主播对象的相关肢体的位置信息以及表现姿态，进一步生成包含了执行目标动作的主播对象的目标画面。

通过本实施例，从场景画面中提取主播对象的目标肢体关键点，并从目标动作模板的目标动作序列中提取各个目标动作的参考肢体关键点；在动作生成网络中，基于参考肢体关键点的位置调整主播对象的目标肢体关键点的位置，以生成包含执行目标动作的主播对象的目标画面，从而实现了对主播对象的肢体动作的精细化调整，实现了对主播对象的舞蹈动作的修正的技术效果。

作为一种可选的实施方式，上述将场景画面及目标动作模板输入动作生成网络中，以得到目标画面还包括：

S1，从场景画面中提取主播对象的目标人脸关键点，并从目标动作模板中提取参考对象的参考人脸关键点；

S2，在动作生成网络中，基于参考人脸关键点的位置调整主播对象的目标人脸关键点的位置，以生成包含呈现参考对象的表情的主播对象的目标画面。

可以理解的是，对应于不同类型和风格的直播表演，主播对象会表现出相应的情绪以提升表演效果。在本实施例中，还可以根据目标动作模板中的人物表情对应地对主播对象的表情进行同步调整。为实现对人脸图像的表情调整，可以通过提取人脸图像的面部关键点的位置信息以及变化特征，以同步调整主播对象的表情。

可选地，在本实施例中，可以利用得到的主播人脸关键点构造网格，并将关键点数据作为图形渲染的纹理坐标。然后利用主播人脸前后帧关键点的位置计算偏移量。接着更新目标画面中的人脸的关键点位置，并将更新后的关键点数据作为图形渲染的顶点坐标。最终调用DirectX或者OpenGL的API生成渲染后的画面。

在本实施例中，从场景画面中提取主播对象的目标人脸关键点，并从目标动作模板中提取参考对象的参考人脸关键点；在动作生成网络中，基于参考人脸关键点的位置调整主播对象的目标人脸关键点的位置，以生成包含呈现参考对象的表情的主播对象的目标画面，从而实现根据动作模板对人脸表情进行适当调整，提升了直播表演的展示效果。

作为一种可选的实施方式，在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板之前，还包括：

S1，获取多个样本动作视频；

S2，按照目标采样率对每个样本动作视频分别进行采样，得到样本动作视频中的样本图像；

S3，从样本图像中提取样本对象的关键点信息，其中，关键点信息包括以下至少之一：肢体关键点、人脸关键点；

S4，基于样本对象的关键点信息对初始动作生成网络进行训练，直至达到收敛条件。

可选地，上述动作生成网络可以为一种通过训练得到的声称是对抗网络(GAN，Generative Adversarial Networks)网络。其中包括了至少两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)。其中生成模型用以接收输入的场景画面中的候选动作特征以及目标动作模板中的标准动作序列特征，并基于上述特征生成目标画面，其中判别模型用以判断上述生成模型输出的目标画面的真实程度。在训练过程中，通过训练集的训练使得生成模型生成的目标画面尽可能真实，并通过训练集的训练使得判别模型的判别能力尽可能提升。也就是说，通过生成模型和判别模型的联合训练，提升上述动作生成模型生成的目标画面的真实程度。可以理解的是，上述动作生成模型的训练集为多个样本动作视频，其中，样本动作视频中包括按照样本音频执行样本动作序列的样本对象，比如，可以是根据音乐伴奏进行跳舞表演的舞蹈视频，还可以是根据音乐伴奏进行武术表演的武术视频，还可以是根据音乐伴奏进行体操表演的体操表演视频，在此不对上述具体的训练视频集进行限定。

通过本实施例，获取多个样本动作视频；按照目标采样率对每个样本动作视频分别进行采样，得到样本动作视频中的样本图像；从样本图像中提取样本对象的关键点信息，其中，关键点信息包括以下至少之一：肢体关键点、人脸关键点；基于样本对象的关键点信息对初始动作生成网络进行训练，直至达到收敛条件，从而通过训练提高上述动作生成网络的输出的画面的真实程度，提高了直播展示的展示效果。

作为一种可选的实施方式，在将目标画面推送给主播账号关联的观众账号时，还包括：在客户端中的第一显示区域内显示场景画面，并在第二显示区域内显示目标画面。

可选地，上述场景画面是通过客户端采集到的包括了主播对象的真实画面。如图3、4所示，左侧的画面即为真实采集到的场景画面，在画面中显示了包括了主播对象的其他全部画面元素，如画面右下角还显示了一个柜子。右侧显示的是对主播对象进行动作纠正后的目标画面。

可以理解的是，在直播表演过程中，需要隐去主播对象的真实表演环境，因此在本实施例中，展示的真实目标画面中，仅包括了基于采集得到的场景画面的主播对象元素，其他背景元素被隐藏。作为一种可选的方式，还可以在合成目标画面的过程中添加与主播对象的表演相契合的背景元素，比如蓝天、白云等用于修饰直播画面的元素，在此不对目标画面中可以填充的相关背景元素进行限定。

通过本申请的上述实施例，通过在客户端中的第一显示区域内显示场景画面，并在第二显示区域内显示目标画面，从而使得主播对象在观察到自己的表演动作的同时，也能观察到向观众对象推送的目标画面，提升了直播展示效率。

以下结合图6对本申请的具体实施方式进行说明。

如图6所示，执行步骤S602，训练动作修正模型；

采集舞蹈视频，按一定采样率从视频中提取图像；提取图像的脸部关键点和肢体关键点，通过关键点和图像训练生成对应舞步的生成模型G1；

接着执行步骤S604，预设多种动作模板视频；

预设多种舞蹈模板视频，并对舞蹈模板视频中的每帧画面提取对应关键点。

如步骤S606，接收主播对象的模板选择操作；

如图3所示，接收主播对象对界面中搜索区304中的搜索控件的触控操作，显示模板列表，并接收主播对象对模板列表中的模板的选择操作，确定出目标舞蹈模板视频。

如步骤S608，采集表演视频流；

具体地，通过客户端采集当前主播的视频流，在采集到的视频中，主播只需摆大致的舞蹈动作即可。

执行步骤S610，通过模型进行动作修正；

具体地，可以将采集到的视频流的图像帧以及模板视频对应帧的关键点输入到生成模型G1，G1生成当前主播的修正舞蹈图以及修正的脸部表情，从而实现提升主播的跳舞效果。

最后执行步骤S612，推送视频流数据。

对采集到的视频流中的每一帧画面均执行上述S610中的修正操作，并合成得到目标视频，将目标视频推送至主播客户端以及观众客户端。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述动作修正方法的动作修正装置。如图7所示，该装置包括：

确定单元702，用于在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板，其中，动作模板列表中包括至少一个动作模板，目标动作模板中包括与目标模板音频匹配的一组目标动作序列；

获取单元704，用于获取客户端采集到的场景画面，其中，场景画面中包括根据目标模板音频执行候选动作的主播对象；

修正单元706，用于基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面，其中，在目标画面中，候选动作已被修正为目标动作序列中的目标动作；

推送单元708，用于将目标画面推送给主播账号关联的观众账号。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述动作修正方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图8所示，该电子设备包括显示器801、传输装置802、处理器803和存储器804，该存储器804中存储有计算机程序，该处理器803被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，在主播账号所在的客户端中显示的动作模板列表中，确定出主播账号选中的目标动作模板，其中，动作模板列表中包括至少一个动作模板，目标动作模板中包括与目标模板音频匹配的一组目标动作序列；

S2，获取客户端采集到的场景画面，其中，场景画面中包括根据目标模板音频执行候选动作的主播对象；

S3，基于目标动作模板对场景画面中主播对象的候选动作进行修正，以生成待推送的目标画面，其中，在目标画面中，候选动作已被修正为目标动作序列中的目标动作；

S4，将目标画面推送给主播账号关联的观众账号。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图8中所示更多或者更少的组件(如网络接口等)，或者具有与图8所示不同的配置。

其中，存储器804可用于存储软件程序以及模块，如本发明实施例中的动作修正方法和装置对应的程序指令/模块，处理器803通过运行存储在存储器804内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的动作修正方法。存储器804可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器804可进一步包括相对于处理器803远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图8所示，上述存储器804中可以但不限于包括上述动作修正装置中的确定单元702、获取单元704、修正单元706、推送单元708。此外，还可以包括但不限于上述动作修正装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置802用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置802包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置802为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器801，用于在当前直播画面中显示直播应用的直播界面。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述动作修正方方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S4，将目标画面推送给主播账号关联的观众账号。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种动作修正方法，其特征在于，包括：

在主播账号所在的客户端中显示的动作模板列表中，确定出所述主播账号选中的目标动作模板，其中，所述动作模板列表中包括至少一个动作模板，所述目标动作模板中包括与目标模板音频匹配的一组目标动作序列；

获取所述客户端采集到的场景画面，其中，所述场景画面中包括根据所述目标模板音频执行候选动作的主播对象；

基于所述目标动作模板对所述场景画面中所述主播对象的所述候选动作进行修正，以生成待推送的目标画面，其中，在所述目标画面中，所述候选动作已被修正为所述目标动作序列中的目标动作；

将所述目标画面推送给所述主播账号关联的观众账号。

2.根据权利要求1所述的方法，其特征在于，基于所述目标动作模板对所述场景画面中所述主播对象的所述候选动作进行修正，以生成待推送的目标画面包括：

将所述场景画面及所述目标动作模板输入动作生成网络中，以得到所述目标画面，其中，所述动作生成网络为利用多个样本动作视频进行训练后得到的神经网络模型，所述样本动作视频中包括按照样本音频执行样本动作序列的样本对象，所述动作生成网络用于生成所述主播对象按照所述目标动作模板中的所述目标动作序列执行动作的画面。

3.根据权利要求2所述的方法，其特征在于，将所述场景画面及所述目标动作模板输入动作生成网络中，以得到所述目标画面包括：

从所述场景画面中提取所述主播对象的目标肢体关键点，并从所述目标动作模板的所述目标动作序列中提取各个目标动作的参考肢体关键点；

在所述动作生成网络中，基于所述参考肢体关键点的位置调整所述主播对象的所述目标肢体关键点的位置，以生成包含执行所述目标动作的所述主播对象的所述目标画面。

4.根据权利要求3所述的方法，其特征在于，将所述场景画面及所述目标动作模板输入动作生成网络中，以得到所述目标画面还包括：

从所述场景画面中提取所述主播对象的目标人脸关键点，并从所述目标动作模板中提取参考对象的参考人脸关键点；

在所述动作生成网络中，基于所述参考人脸关键点的位置调整所述主播对象的所述目标人脸关键点的位置，以生成包含呈现所述参考对象的表情的所述主播对象的所述目标画面。

5.根据权利要求2所述的方法，其特征在于，在主播账号所在的客户端中显示的动作模板列表中，确定出所述主播账号选中的目标动作模板之前，还包括：

获取所述多个样本动作视频；

按照目标采样率对每个所述样本动作视频分别进行采样，得到所述样本动作视频中的样本图像；

从所述样本图像中提取所述样本对象的关键点信息，其中，所述关键点信息包括以下至少之一：肢体关键点、人脸关键点；

基于所述样本对象的关键点信息对初始动作生成网络进行训练，直至达到收敛条件。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在将所述目标画面推送给所述主播账号关联的观众账号时，还包括：

在所述客户端中的第一显示区域内显示所述场景画面，并在第二显示区域内显示所述目标画面。

7.一种动作修正装置，其特征在于，包括：

确定单元，用于在主播账号所在的客户端中显示的动作模板列表中，确定出所述主播账号选中的目标动作模板，其中，所述动作模板列表中包括至少一个动作模板，所述目标动作模板中包括与目标模板音频匹配的一组目标动作序列；

获取单元，用于获取所述客户端采集到的场景画面，其中，所述场景画面中包括根据所述目标模板音频执行候选动作的主播对象；

修正单元，用于基于所述目标动作模板对所述场景画面中所述主播对象的所述候选动作进行修正，以生成待推送的目标画面，其中，在所述目标画面中，所述候选动作已被修正为所述目标动作序列中的目标动作；

推送单元，用于将所述目标画面推送给所述主播账号关联的观众账号。

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至7任一项中所述的方法。

9.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。