CN114173142A

CN114173142A - 对象直播展示方法和装置、存储介质及电子设备

Info

Publication number: CN114173142A
Application number: CN202111408833.8A
Authority: CN
Inventors: 陈耀君; 蔡海军
Original assignee: Guangzhou Fanxing Huyu IT Co Ltd
Current assignee: Guangzhou Fanxing Huyu IT Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-11

Abstract

本发明公开了一种对象直播展示方法和装置、存储介质及电子设备。其中，该方法包括：获取对主播对象采集到的第一视频；对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征；基于参考动作特征生成参考动作序列的动作参数；控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频；将第一视频及第二视频推送给播放客户端进行展示，其中，播放客户端为与主播对象的主播账号关联的观众账号所登录的客户端。本发明解决了现有的直播展示方法提供的特效与直播展示的内容关联性较弱的技术问题。

Description

对象直播展示方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种对象直播展示方法和装置、存储介质及电子设备。

背景技术

在当前的直播领域中，主播为了吸引直播间的人气，经常会进行各种类型的表演，比如舞蹈、武术等形式，然后通过直播客户端将对上述表演采集到的直播画面推送给关注主播的观众，从而实现主播与观众之间的直播互动。

通常情况下，为了增加直播间的人气，主播往往会进行直播表演的同时，开启直播客户端提供的各种特效道具，比如美颜特效、美妆特效、或者虚拟饰品特效。目前市面上的直播特效道具功能都比较单一，仅仅是在现有的直播画面中直接增加用于装饰直播画面的元素，而无法与主播的直播内容形成实时呼应。也就是说，现有的直播展示方法存在提供的特效与直播内容关联性较弱的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种对象直播展示方法和装置、存储介质及电子设备，以至少解决现有的直播展示方法提供的特效与直播展示的内容关联性较弱的技术问题。

根据本发明实施例的一个方面，提供了一种对象直播展示方法，包括：获取对主播对象采集到的第一视频，其中，在第一视频中包括主播对象根据所播放的目标音频执行的目标动作序列；对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征；基于参考动作特征生成参考动作序列的动作参数；控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频；将第一视频及第二视频推送给播放客户端进行展示，其中，播放客户端为与主播对象的主播账号关联的观众账号所登录的客户端。

根据本发明实施例的另一方面，还提供了一种对象直播展示装置，包括：获取单元，用于获取对主播对象采集到的第一视频，其中，在第一视频中包括主播对象根据所播放的目标音频执行的目标动作序列；拼接单元，用于对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征；匹配单元，用于基于参考动作特征生成参考动作序列的动作参数；生成单元，用于控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频；推送单元，用于将第一视频及第二视频推送给播放客户端进行展示，其中，播放客户端为与主播对象的主播账号关联的观众账号所登录的客户端。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述对象直播展示方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的对象直播展示方法。

在本发明实施例中，通过获取对主播对象采集到的第一视频，并对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征，基于参考动作特征生成参考动作序列的动作参数，并控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频，最后将第一视频及第二视频推送给播放客户端进行展示，从而实现了根据主播对象的直播过程中的音频特征以及主播的动作特征匹配与主播对象的直播内容相适应的虚拟角色，并控制虚拟角色执行与直播内容相呼应的动作，从而实现了增强直播展示的趣味性的效果，解决了现有技术提供的特效与直播内容关联性较弱的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的对象直播展示方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的对象直播展示方法的流程图；

图3是根据本发明实施例的一种可选的对象直播展示方法的示意图；

图4是根据本发明实施例的又一种可选的对象直播展示方法的示意图；

图5是根据本发明实施例的又一种可选的对象直播展示方法的示意图；

图6是根据本发明实施例的又一种可选的对象直播展示方法的示意图；

图7是根据本发明实施例的一种可选的对象直播展示方法的流程图；

图8是根据本发明实施例的一种可选的对象直播展示装置的结构示意图；

图9是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种对象直播展示方法，可选地，作为一种可选的实施方式，上述。。方法可以但不限于应用于如图1所示的环境中。

根据本发明实施例的一个方面，提供了一种对象直播展示方法，可选地，作为一种可选的实施方式，上述对象直播展示方法可以但不限于应用于如图1所示的硬件环境中的对象直播展示系统。其中，该对象直播展示系统可以包括但不限于终端设备102、网络104、服务器106、数据库108及终端设备109。终端设备102中运行有目标客户端(如图1所示的直播界面，该目标客户端可以是一款直播平台的主播版本客户端)。上述终端设备102包括人机交互屏幕，处理器及存储器。人机交互屏幕用于显示主播客户端的直播界面(如图1所示的一种主播客户端的直播界面)；还用于提供人机交互接口以接收用于用户使用直播软件进行网络直播的人机交互操作。处理器用于响应上述人机交互操作生成交互指令，并将该交互指令发送给服务器106。存储器用于存储相关属性数据，如直播界面的界面特效信息、直播平台的不同虚拟礼物信息等。上述终端设备109同样包括人机交互屏幕，处理器及存储器，其中，人机交互屏幕用于显示观众客户端的直播界面。

具体过程如以下步骤：如步骤S102，在终端设备102内运行的客户端中接收对主播对象采集到的第一视频，其中，在第一视频中包括主播对象根据所播放的目标音频执行的目标动作序列；然后如步骤S104，终端设备102通过网络104发送第一视频至服务器106。服务器106将执行步骤S106-S112，获取对主播对象采集到的第一视频；对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征；基于参考动作特征生成参考动作序列的动作参数；控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频；然后服务器106通过网络104向终端设备102和终端设备109推送上述第一视频和第二视频；最后在终端设备102上播放上述第一视频和第二视频的合成视频。

作为另一种可选的实施方式，在终端设备102具备较强大的计算处理能力时，上述步骤S106-S112也可以由终端设备102来完成。这里为示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。

作为一种可选的实施方式，如图2所示，上述对象直播展示方法包括：

S202，获取对主播对象采集到的第一视频，其中，在第一视频中包括主播对象根据所播放的目标音频执行的目标动作序列；

S204，对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征；

S206，基于参考动作特征生成参考动作序列的动作参数；

S208，控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频；

S210，将第一视频及第二视频推送给播放客户端进行展示，其中，播放客户端为与主播对象的主播账号关联的观众账号所登录的客户端。

以如图3所示的界面为例对上述方法的应用场景进行说明，可以理解的是，上述方法可以应用于如图3所示的直播应用中，直播画面为应用于终端的主播客户端进行直播时显示的界面。该界面可以分为五个显示区域，包括直播区301：用于显示上述对主播对象采集到的第一视频；直播区302，用于显示上述为主播对象匹配的虚拟角色按照动作参数执行参考动作序列生成的第二视频；互动区303：用于显示观众用户的互动信息；搜索区304：用于显示用于获取目标音频的控件；设置区305：用于显示用于设置直播参数的控件。其中，如直播区301所示，在该区域中，显示主播对象跟随目标音频进行表演的场景，如主播对象在直播区301中跟随选择的音乐进行舞蹈表演。与此同时，在如图3所示的直播界面中，在直播区302显示一个根据主播对象的音频和动作相匹配的虚拟对象，比如在直播区302中显示一个与直播区301进行舞蹈表演的主播对象相匹配的伴舞虚拟对象。

可选地，上述获取对主播对象采集的第一视频的方式可以是通过如图1中所示的终端设备102通过设备自带的拍摄装置获取得到的包含了主播对象表演内容的视频片段，也可以是主播对象在通过终端设备102直播过程中，使用的第三方设备对主播对象的表演进行拍摄，再将视频数据传输至终端设备102。上述两种获取主播对象的第一视频的方式仅为示例，在此不作限定。

可以理解的是，上述包括了主播对象根据所播放的目标音频执行的目标动作序列的第一视频，可以是主播对象跟随音乐进行舞蹈表演的视频片段，也可是主播对象跟随伴奏进行武术表演的视频片段，还可以是主播对象跟随伴奏进行广播体操表演的视频片段。也就是说，上述第一视频可以包括的是主播对象跟随音乐通过肢体动作进行表演的视频，在此不对具体表演类型进行限定。

在获取到上述第一视频片段之后，可以将上述视频片段中的音频特征以及动作特征进行提取以及拼接，以得到参考动作特征。可以理解的是，上述参考动作特征可以用于表征上述第一视频的节奏特征，表演类型特征等特征，从而可以通过对上述特征的识别匹配得到相适应的动作序列。

进一步地，在得到上述参考动作特征后，基于上述参考动作特征生成参考动作序列的动作参数，并控制生成的虚拟角色根据上述动作参数执行上述参考动作序列，从而得到第二视频。可以理解的是，在这一步中，通过对第一视频的特征提取进而可以得到与第一视频相适应的动作序列，然后控制显示的虚拟角色执行上述动作序列，则可以得到生成一个与第一视频互相呼应的虚拟角色的表演视频。比如说，第一视频中的主播对象是在进行跳舞表演，则可以通过上述方法得到一个为主播对象进行伴舞的虚拟对象的视频；如果第一视频中的主播对象是在进行武术表演，则可以得到一个与主播对象共同进行武术表演的虚拟对象的视频，从而呈现一种与主播对象的表演内容的相呼应的表演效果。

最后，通过上述方法，通过获取到主播对象的第一视频以及与生成第一视频相呼应的第二视频，将上述两个视频进行渲染合成以得到最终的直播视频流数据，最终推送至观众账号所登录的客户端进行展示。可以理解的是，本实施例中的上述方法在实际应用中，可以通过控制推送延迟从而实现上述合成视频的实时展示。比如说，在主播侧的客户端获取到5秒的表演视频后，通过对上述表演视频进行提取和处理以得到与之对应的虚拟角色的5秒表演视频，将上述两个视频进行合成渲染后，再推送至观众客户端展示，而此时主播对象仍然在进行表演，主播侧的客户端获取得到的是第6秒的主播表演视频。也就是说，通过设置主播侧与观众侧客户端的响应延迟，从而实现合成视频的实时渲染与展示。可以理解的是，上述视频推送方法仅为一种实例，并不对本实施例进行任何限定。

作为一种可选的实施方式，上述对所述目标音频的音频特征及所述目标动作序列的目标动作特征进行拼接，以得到参考动作特征包括：

S1，从所述第一视频中分割出所述目标音频的音频数据，及包含所述目标动作序列的画面数据；

S2，从所述音频数据中提取出所述目标音频的音频特征，并从所述画面数据中提取所述目标动作序列的动作特征；

S3，对所述音频特征及所述目标动作特征进行拼接，以得到所述参考动作特征。

可以理解的是，在主播对象通过直播客户端进行表演直播的过程中，通过终端采集到的主播对象的表演视频中，通常是主播对象跟随音乐进行表演的视频。因此，其中既包含了音乐数据，也包含了画面数据。

进一步地，通过对上述第一视频进行分割，从而可以提取出音频数据以及画面数据，再分别对音频数据和画面数据进行特征提取，以得到上述第一视频的音频特征以及动作特征。

在得到上述音频特征以及动作特征后，将上述特征进行拼接，从而得到参考动作特征。可以理解的是，在上述音频特征以及动作特征表征为数据矩阵的情况下，上述拼接操作可以是直接将维度相同的两个矩阵进行拼接；在上述数据矩阵不是同维度的数据矩阵的情况下，可以将上述不同维度的数据矩阵进行预处理以得到同维度的数据矩阵，再进行拼接操作。可选的，上述拼接操作还可以是将上述特征进行联合傅里叶变换等数据操作，在此不做限定。

通过本实施例，通过对第一视频中的音频数据和视频数据进行分割，再分别进行特征提取操作，从而实现对上述第一视频中所包含的特征信息更精确提取的技术效果。在分别得到音频特征以及动作特征后，在拼接得到参考动作特征，从而实现通过同时考察第一视频中的音乐元素和动作原色确定虚拟角色的要执行的动作，提高了包含了虚拟角色的第二视频与第一视频的匹配程度。

作为一种可选的实施方式，上述提取音频特征和动作特征的方法，还可以包括：

S1，所述从所述音频数据中提取出所述目标音频的音频特征包括：提取所述目标音频的风格特征、节拍特征及频谱特征；

S2，所述从所述画面数据中提取所述目标动作序列的动作特征包括：从所述画面数据中提取所述目标动作序列中每个目标动作各自对应的关键点特征集，其中，所述关键点特征集中包括所述主播对象执行所述目标动作时各个关键部位对应的关键点特征；

S3，将所述关键点特征集确定为所述目标动作特征。

可以理解的是，从上述音频数据中提取得到的音频特征可以包括但不限于在提取得到上述音频数据中的频谱特征，风格特征以及节拍特征。具体而言，可以在通过上述音频数据中提取得到音频的频谱特征以后，进一步从上述频谱特征中提取得到chroma特征，mfcc特征，onset节拍特征以及音乐风格特征等。可以理解的是，上述音乐风格特征可以用于指示上述音频数据中的音乐为古风音乐，摇滚音乐，流行音乐等不同的音乐类型。

可选地，可以通过提取上述chroma特征，mfcc特征，onset节拍特征以及音乐风格特征共得到438维数据特征。需要理解的是，上述方法并不对提取上述音频特征的具体方式进行限定，具体而言，提取上述频谱特征，chroma特征，mfcc特征，onset节拍特征的方法可以是能达到相应的目的的任意形式，在此不对上述具体方法进行限定。

需要进一步理解的是，获取上述动作特征的方法，可以是对于视频画面中的一个动作进行3D关键点进行深层特征提取，由于不同的人，肢体长度不同，所以可以采用对肢体长度敏感度较低的角度当作动作特征。一一个主播对象为例，可选地，可以将左肩-左肘，右肩-右肘，左肘-左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀-右膝，左膝-左脚踝，右膝-右脚踝，上述关键点组合成为10个感兴趣肢体，并以距离身体中心近的点作为原点(如：左肩-左肘以肩为原点，左肘-左手腕以肘为原点)，计算另一个关键点坐标距离原点的三维坐标，而后求其在球坐标系中的θ和ψ，以及帧间的角度变化参数，由此可以得到10*3个深层动作特征，即上述方法中所述的关键点特征集。

在另一种可选的实施例中，可以将上述左肩-左肘，右肩-右肘，左肘-左手腕，右肘-右手腕，左肩-左臀，右肩-右臀，左臀-左膝，右臀-右膝，左膝-左脚踝，看做18个关键点，并分别用空间直角坐标系中的三个坐标表示上述18个关键点的位置，从而得到18*3维的关键点特征集。可以理解的是，上述提取关键点特征集的方法仅为一种示例。在实际应用中，可以根据应用的需要选取适当的关键点，以及以适当的坐标系对上述关键点的特征进行表示，在此不作限定。

通过本实施例，通过对音频数据和画面数据进行处理，以得到量化数据集合，并通过得到的量化数据集合表示上述音频特征和动作特征，进而实现对第一视频的参考动作特征的精确提取。

作为一种可选的实施方式，上述对所述音频特征及所述目标动作特征进行拼接，以得到所述参考动作特征包括：将所述目标音频的第i帧的所述音频特征，与第i帧的所述目标动作特征进行拼接，得到第i帧的所输出参考动作特征，其中，所述第一视频包括N帧，i为大于等于1，且小于等于N的整数。

可以理解的是，可以在将上述第一视频中提取出的音频数据和画面数据分别拆解为N帧。由于上述音频数据和画面数据是从同一视频中提取，因此对于音频数据中的每一帧数据，都有与之对应的一帧画面数据。进而在得到对应于上述每一帧数据的音频特征和画面特征以后，将第i帧的音频特征与第i帧的画面特征进行拼接，即可得到第i帧的参考动作特征。通过上述方法，对于被分解为n帧的第一视频，可以提取得到n帧的参考动作特征。

继续以上述方法中提取得到的音频特征以及画面特征为例进行说明。对应于第一视频的第10帧，提取得到438维的音频特征以及54(18*3)维画面特征，进而将上述两种特征进行直接拼接，得到对应于第一视频的第10帧的492维参考动作特征。在第一视频一共包括了1000帧音频以及画面的情况下，一共可以提取得到1000个参考动作特征。

通过本申请的上述实施例，通过对第一视频中的每一帧画面及音频提取特征并进行拼接，从而得到对应于每一帧的参考动作特征信息，实现了准确提取参考动作特征的技术效果。

作为一种可选的实施方式，在所述控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频之前，还包括：

S1，获取为所述主播对象匹配的所述虚拟角色；

S2，为所述虚拟角色确定与所述目标音频的风格特征相匹配的外观样式。

可以理解的是，上述获取为主播对象匹配的虚拟角色的方法，可以是在主播对象进行直播之前，在预设的虚拟形象库中进行选择确定出虚拟角色；也可以是预设一个虚拟角色形象数据库，在获取得到第一视频后，从数据库中匹配确定出虚拟角色；还可以是在获取第一视频后，直接根据主播对象的形象通过算法进行抽象化处理，从而获取得到虚拟角色。

可选地，上述为虚拟角色确定与所述音频的风格特征相匹配的外观样式的方法，同样可以根据在主播对象进行直播之前，从直播客户端界面中选择的外观样式；还可以是根据音频的风格特征确定出相匹配的外观样式。比如说，在通过音频特征提取确定出音频风格为嘻哈风格的情况下，为上述虚拟形象匹配潮流风格的外观样式，在确定出音频风格为民族风格的情况下，为上述虚拟形象匹配民族样式的服装和装饰等等。以上仅做示例性说明，在此不作限定。

以下结合图3，图4对上述方法进行具体说明。如图3所示，主播对象在开始直播前，没有通过直播客户端界面图3中所示的304搜索区控件的触控操作，从预设的虚拟形象库中确定出如图4中(a)图所示的虚拟角色401，可以观察到，主播对象仅选择了卡通化的虚拟形象，但是没有对虚拟形象的外观样式进行设定。因此图4中(a)图所示的虚拟角色401仅仅是将主播对象402进行卡通化后得到的虚拟形象，并没有在外观上发生显著变化。

在主播开始进行直播表演的情况下，通过获取第一视频中的音频数据和画面数据，确定主播所采用的音乐风格为J-Pop(日系流行)，从而确定出虚拟形象变化为如图4中的(b)图所示的虚拟角色403。如图所示，虚拟角色403适应于J-Pop的风格特点，将外观样式进行了卡通化，比如更换了眼镜以及更换了头饰。

通过本申请的上述实施例，在生成第二视频之前，通过获取为所述主播对象匹配的所述虚拟角色，并为所述虚拟角色确定与所述目标音频的风格特征相匹配的外观样式，实现了匹配得到与第一视频相呼应的虚拟角色形象，从而提高了直播展示的趣味性。

作为一种可选的实施方式，所述基于所述参考动作特征生成参考动作序列的动作参数包括：将所述参考动作特征输入目标动作匹配模型中，以得到所述参考动作序列的动作参数，其中，所述目标动作匹配模型是基于多个样本动作视频训练后得到的用于生成动作参数的神经网络模型。

可以理解的是，在本实施方式中，上述生成参考动作序列的方式是将参考动作特征输入训练好的目标动作匹配模型中，从而输出得到参考动作序列的动作参数。

通过本申请的上述实施例，通过将所述参考动作特征输入目标动作匹配模型中，以得到所述参考动作序列的动作参数，从而实现了输出与第一视频中的动作特征相匹配的动作序列的技术效果。

作为一种可选的实施方式，将所述参考动作特征输入目标动作匹配模型中，以得到所述参考动作序列的动作参数之前，还包括：

S1，获取所述多个样本动作视频，其中，所述样本动作视频中包括至少两个对象根据同一个音频执行的动作序列；

S2，利用所述多个样本动作视频对初始动作匹配模型进行训练，直至达到第一收敛条件；

S3，将达到所述第一收敛条件的动作匹配模型作为所述目标动作匹配模型。

可以理解的，上述目标匹配模型是通过多个样本动作视频训练得到的。可选地，上述样本动作视频中包括了多个对象根据同一个音频执行动作的画面信息。比如说，上述用于训练的样本视频，在视频类型为舞蹈视频的情况下，可以是双人舞蹈视频，也可以是多人舞蹈视频；在视频类型为武术类型的情况下，上述样本视频可以双人互搏的武术视频，也可是多人一齐打拳的武术视频；在视频类型为体操的情况下，上述样本视频可以是多人广播体操的视频，还可以是双人体操的比赛视频。以上列举仅为示例，在此不做限定。

进而，通过上述样本视频的训练，达到第一收敛条件的情况下，即可得到上述目标动作匹配模型。

通过本申请的上述实施例，通过获取所述多个样本动作视频，并利用所述多个样本动作视频对初始动作匹配模型进行训练，直至达到第一收敛条件，最后将达到所述第一收敛条件的动作匹配模型作为所述目标动作匹配模型，从而实现了根据样本视频训练得到可以根据一人或者多人的动作序列匹配得到相呼应的动作序列的动作匹配模型的技术效果。

作为一种可选的实施方式，所述利用所述多个样本动作视频对初始动作匹配模型进行训练，直至达到第一收敛条件包括：

依次从所述多个样本动作视频中获取第一个样本动作视频作为当前训练样本动作视频，并执行以下步骤，直至达到第一收敛条件：

S1，获取所述当前训练样本动作视频中的音频数据，并根据所述音频数据提取所述当前训练样本动作视频中样本音频的训练音频特征；

S2，获取所述当前训练样本动作视频中的视频数据，并根据所述视频数据提取所述当前训练样本动作视频中样本画面样本目标对象的训练动作特征，以及提取所述当前训练样本动作视频中样本画面样本参考对象的参考动作特征，其中，所述样本目标对象和所述样本参考对象为从所述当前训练样本动作视频内的多个对象中确定出的至少两个不同的对象；

S3，将所述训练音频特征与所述训练动作特征进行拼接，得到多个训练特征；

S4，将所述多个训练特征作为输入，并以所述参考动作特征作为标签，对当前动作匹配模型进行训练。

可以理解的是，用于训练的样本视频中包括了多个对象，在训练过程中，可以是通过提取音频数据以得到音频特征，再从多个对象中确定出一个目标对象，并提取目标对象的动作特征，将上述音频特征与该目标对象的动作特征拼接作为输入量，再以从多个对象中确定出的另一个参考对象的动作特征作为训练标签，对上述动作匹配模型进行训练。还可以是根据实际需要确定出多个目标对象的动作特征以及音频特征的拼接特征作为输入量，以多个参考对象的动作特征作为标签对上述动作匹配模型进行训练。上述参考对象和目标对象的数量可以根据需要进行选择，在此不对上述参考对象以及目标对象的数量进行限制。

以图5所示的网络结构对上述训练方法进行举例说明。上述动作匹配模型可以通过以下方式训练得到：首先，收集双人音乐舞蹈配对数据，通过收集双人音乐舞蹈匹配的舞蹈数据，可以得到每一时间帧上的音乐信号、两个人(舞者A，舞者B)的舞蹈动作参数；

然后进行特征提取，通过音乐特征的提取得到第n帧的438维音乐特征，以及动作特征提取提取，以得到两个人的舞蹈关节特征。具体地，每个人分别提取18个关键点，每个关键点具有3个位置参数。从而得到训练数据，即以当前帧音乐特征(438维)，以及舞者A的舞蹈关键点特征(18*3维)，将两个向量直接拼接起来，以得到(438+18*3维)输入向量；

接着进行模型训练，以上述(438+18*3维)输入向量作为输入，输入网络模型中，以舞者B的舞蹈关节点参数作为输出标签(18*3维)，对网络模型进行训练。

通过本申请上述实施例，通过对样本数据中的音频数据和画面数据的分析以及特征提取，并以样本视频中的一个对象的动作特征作为标签对模型进行训练，从而得到根据音乐以及动作特征的输入得到匹配的动作序列的动作匹配模型，进而解决了现有的直播展示方法提供的特效与直播展示的内容关联性较弱的技术问题。

作为一种可选的实施方式，上述控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频包括：

S1，在所述动作参数指示所述参考动作序列中的每个参考动作与所述目标动作序列中的每个目标动作分别一致的情况下，在生成的所述第二视频中所述虚拟角色将与所述第一视频中所述主播对象保持同步；

S2，在所述动作参数指示所述参考动作序列中的每个参考动作与所述目标动作序列中的每个目标动作为镜像关系的情况下，在生成的所述第二视频中所述虚拟角色将与所述第一视频中所述主播对象保持镜像相反。

可以理解的是，在音乐特征以及动作特征指示目标对象和参考对象在进行广播体操表演的情况下，通过训练可以确定出目标对象以及参考对象的动作实时保持一致。如图6所示，在动作匹配模型根据输入的音频特征以及动作特征确定该音乐以及动作为广播体操表演的情况下，控制虚拟角色601与主播对象602的动作保持一致。

进一步地，在音乐特征以及动作特征指示目标对象和参考对象在进行双人舞蹈表演的情况下，如图4中的(b)图所示，可以通过动作匹配模型输出与主播对象404镜像的动作序列，如虚拟角色403所示的动作。

通过本申请上述实施例，在动作匹配模型根据音频特征以及画面特征识别出主播对象在进行不同类型的表演的情况下，输出的动作序列类型也会适应性地调整，从而提高了直播展示的特效与直播展示的内容相呼应的技术效果。

作为一种可选的实施方式，所述将所述第一视频及所述第二视频推送给播放客户端进行展示包括：

S1，对所述第一视频及所述第二视频进行视频混合编码，以得到待推送的直播流数据；将所述直播流数据推送给所述播放客户端进行展示；或者，

S2，对所述第一视频进行视频编码，以得到第一视频流数据；对所述第二视频进行视频编码，以得到第二视频流数据；将所述第一视频流数据与所述第二视频流数据推送给所述播放客户端，以使所述播放客户端对解码后的所述第一视频及所述第二视频进行组合播放。

可以理解的是，在得到第一视频以及第二视频的情况下，可以适应于实际应用场景采用不同的编码以及推送策略。在一种方式中，可以将得到的上述第一视频以及第二视频直接进行混合编码以得到合成视频，并将包括了合成视频的直播数据流推送至用户客户端进行展示。

在另一种方式中，可以将上述第一视频和第二视频分别编码，分别推送。在用户客户端再进行解码合成，以在客户端播放得到如图5、图4所示的主播对象与虚拟角色共同进行表演的直播视频片段。

通过本申请上述实施例，可以根据网络状况以及硬件性能，根据实际需要选择不同的编码以及数据推送方式，从而实现提高网络直播推送响应的技术效果，避免网络状况以及硬件性能造成的直播卡顿的问题。

以下结合图7对本申请的具体实施方式进行说明。

如图9所示，执行步骤S702，训练动作匹配模型；

接着进行模型训练，以上述(438+18*3维)输入向量作为输入，输入网络模型中，以舞者B的舞蹈关节点参数作为输出标签(18*3维)，对网络模型进行训练，进而将达到预定收敛条件的网络模型作为动作匹配模型。

接着执行步骤S704，获取主播对象的第一视频；

在一个具体的实施例中，上述获取对主播对象采集的第一视频的方式可以是通过如图1中所示的终端设备102通过设备自带的拍摄装置获取得到的包含了主播对象伴随J-Pop音乐进行跳舞表演的视频片段。

如步骤S706，提取参考动作特征；

以上述实施例进一步说明，对应于第一视频的第10帧，可以提取得到438维的音频特征以及54(18*3)维画面特征，进而将上述两种特征进行直接拼接，得到对应于第一视频的第10帧的492维参考动作特征。在第一视频一共包括了1000帧音频以及画面的情况下，一共可以提取得到1000个参考动作特征。

如步骤S708，生成参考动作序列；

可以理解的是，在本实施方式中，上述生成参考动作序列的方式是将参考动作特征输入训练好的目标动作匹配模型中，从而输出得到参考动作序列的动作参数，对应于上述1000帧参考动作特征，根据上述动作匹配模型可以输出得到1000帧参考动作序列图像。

执行步骤S710，控制虚拟角色执行参考动作序列，得到第二视频；

以下结合图3，图4对上述方法进行具体说明。如图3所示，主播对象在开始直播前，没有通过直播客户端界面图3中所示的304搜索区控件的触控操作，从预设的虚拟形象库中确定出如图4中(a)图所示的虚拟角色401，可以观察到，主播对象仅选择了卡通化的虚拟形象，但是没有对虚拟形象的外观样式进行设定，因此图4中(a)图所示的虚拟角色401仅仅是对主播对象402进行了卡通化，并没有在外观上发生明显变化。

在主播开始进行直播表演的情况下，通过获取第一视频中的音频数据和画面数据，确定主播所采用的音乐风格为J-Pop(日系流行)，从而确定出虚拟形象变化为如图4中的(b)图所示的虚拟角色403。如图所示，虚拟角色403适应于J-Pop的特点，进一步将外观样式进行卡通化，比如更换了眼镜以及更换了发饰。

通过上述方法确定出虚拟角色形象后，控制虚拟角色执行上述参考动作序列。

接着执行步骤S712，推送视频流数据；

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述对象直播展示方法的对象直播展示装置。如图8所示，该装置包括：

获取单元802，用于获取对主播对象采集到的第一视频，其中，在所述第一视频中包括所述主播对象根据所播放的目标音频执行的目标动作序列；

拼接单元804，用于对所述目标音频的音频特征及所述目标动作序列的目标动作特征进行拼接，以得到参考动作特征；

匹配单元806，用于基于所述参考动作特征生成参考动作序列的动作参数；

生成单元808，用于控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频；

推送单元810，用于将所述第一视频及所述第二视频推送给播放客户端进行展示，其中，所述播放客户端为与所述主播对象的主播账号关联的观众账号所登录的客户端。

可选地，在本实施例中，上述各个单元模块所要实现的实施例，可以参考上述各个方法实施例，这里不再赘述。

根据本发明实施例的又一个方面，还提供了一种用于实施上述对象直播展示方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图9所示，该电子设备包括显示器901、传输装置902、处理器903和存储器904，该存储器904中存储有计算机程序，该处理器903被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取对主播对象采集到的第一视频，其中，在第一视频中包括主播对象根据所播放的目标音频执行的目标动作序列；

S2，对目标音频的音频特征及目标动作序列的目标动作特征进行拼接，以得到参考动作特征；

S3，基于参考动作特征生成参考动作序列的动作参数；

S4，控制为主播对象匹配的虚拟角色按照动作参数执行参考动作序列，以生成第二视频；

S5，将第一视频及第二视频推送给播放客户端进行展示，其中，播放客户端为与主播对象的主播账号关联的观众账号所登录的客户端。

可选地，本领域普通技术人员可以理解，图9所示的结构仅为示意，电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等)，或者具有与图9所示不同的配置。

其中，存储器904可用于存储软件程序以及模块，如本发明实施例中的对象直播展示方法和装置对应的程序指令/模块，处理器903通过运行存储在存储器904内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的对象直播展示方法。存储器904可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器904可进一步包括相对于处理器903远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图9所示，上述存储器904中可以但不限于包括上述对象直播展示装置中的获取单元802、拼接单元804、匹配单元806、生成单元808推送单元810。此外，还可以包括但不限于上述对象直播展示装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置902用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置902包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置902为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器901，用于在当前直播画面中显示直播应用的直播界面。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述对象直播展示方方法。

可选地，在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S3，基于参考动作特征生成参考动作序列的动作参数；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对象直播展示方法，其特征在于，包括：

获取对主播对象采集到的第一视频，其中，在所述第一视频中包括所述主播对象根据所播放的目标音频执行的目标动作序列；

对所述目标音频的音频特征及所述目标动作序列的目标动作特征进行拼接，以得到参考动作特征；

基于所述参考动作特征生成参考动作序列的动作参数；

控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频；

将所述第一视频及所述第二视频推送给播放客户端进行展示，其中，所述播放客户端为与所述主播对象的主播账号关联的观众账号所登录的客户端。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标音频的音频特征及所述目标动作序列的目标动作特征进行拼接，以得到参考动作特征包括：

从所述第一视频中分割出所述目标音频的音频数据，及包含所述目标动作序列的画面数据；

从所述音频数据中提取出所述目标音频的音频特征，并从所述画面数据中提取所述目标动作序列的动作特征；

对所述音频特征及所述目标动作特征进行拼接，以得到所述参考动作特征。

3.根据权利要求2所述的方法，其特征在于，

所述从所述音频数据中提取出所述目标音频的音频特征包括：提取所述目标音频的风格特征、节拍特征及频谱特征；

所述从所述画面数据中提取所述目标动作序列的动作特征包括：从所述画面数据中提取所述目标动作序列中每个目标动作各自对应的关键点特征集，其中，所述关键点特征集中包括所述主播对象执行所述目标动作时各个关键部位对应的关键点特征；

将所述关键点特征集确定为所述目标动作特征。

4.根据权利要求2所述的方法，其特征在于，所述对所述音频特征及所述目标动作特征进行拼接，以得到所述参考动作特征包括：

将所述目标音频的第i帧的所述音频特征，与第i帧的所述目标动作特征进行拼接，得到第i帧的所输出参考动作特征，其中，所述第一视频包括N帧，i为大于等于1，且小于等于N的整数。

5.根据权利要求3所述的方法，其特征在于，在所述控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频之前，还包括：

获取为所述主播对象匹配的所述虚拟角色；

为所述虚拟角色确定与所述目标音频的风格特征相匹配的外观样式。

6.根据权利要求1所述的方法，其特征在于，所述基于所述参考动作特征生成参考动作序列的动作参数包括：

将所述参考动作特征输入目标动作匹配模型中，以得到所述参考动作序列的动作参数，其中，所述目标动作匹配模型是基于多个样本动作视频训练后得到的用于生成动作参数的神经网络模型。

7.根据权利要求6所述的方法，其特征在于，所述将所述参考动作特征输入目标动作匹配模型中，以得到所述参考动作序列的动作参数之前，包括：

获取所述多个样本动作视频，其中，所述样本动作视频中包括至少两个对象根据同一个音频执行的动作序列；

利用所述多个样本动作视频对初始动作匹配模型进行训练，直至达到第一收敛条件；

将达到所述第一收敛条件的动作匹配模型作为所述目标动作匹配模型。

8.根据权利要求7所述的方法，其特征在于，所述利用所述多个样本动作视频对初始动作匹配模型进行训练，直至达到第一收敛条件包括：

获取所述当前训练样本动作视频中的音频数据，并根据所述音频数据提取所述当前训练样本动作视频中样本音频的训练音频特征；

获取所述当前训练样本动作视频中的视频数据，并根据所述视频数据提取所述当前训练样本动作视频中样本画面样本目标对象的训练动作特征，以及提取所述当前训练样本动作视频中样本画面样本参考对象的参考动作特征，其中，所述样本目标对象和所述样本参考对象为从所述当前训练样本动作视频内的多个对象中确定出的至少两个不同的对象；

将所述训练音频特征与所述训练动作特征进行拼接，得到多个训练特征；

将所述多个训练特征作为输入，并以所述参考动作特征作为标签，对当前动作匹配模型进行训练。

9.根据权利要求6所述的方法，其特征在于，所述控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频包括：

在所述动作参数指示所述参考动作序列中的每个参考动作与所述目标动作序列中的每个目标动作分别一致的情况下，在生成的所述第二视频中所述虚拟角色将与所述第一视频中所述主播对象保持同步；

在所述动作参数指示所述参考动作序列中的每个参考动作与所述目标动作序列中的每个目标动作为镜像关系的情况下，在生成的所述第二视频中所述虚拟角色将与所述第一视频中所述主播对象保持镜像相反。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述将所述第一视频及所述第二视频推送给播放客户端进行展示包括：

对所述第一视频及所述第二视频进行视频混合编码，以得到待推送的直播流数据；将所述直播流数据推送给所述播放客户端进行展示；或者，

对所述第一视频进行视频编码，以得到第一视频流数据；对所述第二视频进行视频编码，以得到第二视频流数据；将所述第一视频流数据与所述第二视频流数据推送给所述播放客户端，以使所述播放客户端对解码后的所述第一视频及所述第二视频进行组合播放。

11.一种对象直播展示装置，其特征在于，包括：

获取单元，用于获取对主播对象采集到的第一视频，其中，在所述第一视频中包括所述主播对象根据所播放的目标音频执行的目标动作序列；

拼接单元，用于对所述目标音频的音频特征及所述目标动作序列的目标动作特征进行拼接，以得到参考动作特征；

匹配单元，用于基于所述参考动作特征生成参考动作序列的动作参数；

生成单元，用于控制为所述主播对象匹配的虚拟角色按照所述动作参数执行所述参考动作序列，以生成第二视频；

推送单元，用于将所述第一视频及所述第二视频推送给播放客户端进行展示，其中，所述播放客户端为与所述主播对象的主播账号关联的观众账号所登录的客户端。

12.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至10任一项中所述的方法。

13.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至10任一项中所述的方法。