CN112153400B

CN112153400B - 直播互动方法、装置、电子设备及存储介质

Info

Publication number: CN112153400B
Application number: CN202011001739.6A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-12-06
Anticipated expiration: 2040-09-22
Also published as: CN112153400A; WO2022062896A1

Abstract

本公开关于一种直播互动方法、装置、电子设备及存储介质。所述方法包括：在直播间界面中显示直播场景；采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，在直播场景渲染第一显示形象；获取第二目标对象的第二显示形象，第二显示形象是根据第二目标对象的行为数据生成的；在直播场景中渲染第二显示形象。根据本公开的方案，预先建立直播场景，在主播端和观众端显示同一个直播场景；主播端和观众端同时采集各自用户的行为数据生成显示形象，并同时进行双向传播显示形象，使主播端和观众端能够在同一虚拟场景中以真实世界行为进行直播互动，从而可以使直播互动方式更加全面。

Description

直播互动方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种直播互动方法、装置、电子设备及存储介质。

背景技术

互动直播是视频直播的增强应用，是在视频直播中增加互动功能。

相关技术中，互动直播中的互动功能包括在视频直播中增加语音、视频的互动。但是，相关技术中，在互动过程中通常只能对主播端影像进行处理，并由主播端向观众端进行单向展示主播端影像，存在互动方式单一的问题。

发明内容

本公开提供一种直播互动方法、装置、电子设备及存储介质，以至少解决相关技术中直播互动方式单一的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播互动方法，包括：

在直播间界面中显示直播场景；

采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，在直播场景渲染第一显示形象；

获取第二目标对象的第二显示形象，第二显示形象是根据第二目标对象的行为数据生成的；

在直播场景中渲染第二显示形象。

在其中一个实施例中，采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，在直播场景渲染第一显示形象，包括：

采集第一目标对象的多帧行为图像，对每帧行为图像进行语义分割处理，得到每帧第一显示形象，在直播场景中渲染每帧第一显示形象。

在其中一个实施例中，对每帧行为图像进行语义分割处理，包括：

将多帧行为图像发送至服务器；

接收服务器发送的对每帧行为图像进行语音分割处理得到的每帧第一显示形象。

在其中一个实施例中，在直播场景渲染第一显示形象，包括：对多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息；根据第一目标对象的运动轨迹信息，在直播场景中渲染第一显示形象的运动轨迹；

在本实施例中，在直播场景中渲染第二显示形象，包括：获取第二目标对象的运动轨迹信息，根据第二目标对象的运动轨迹信息，在直播场景中渲染每帧第二显示形象的运动轨迹。

在其中一个实施例中，对多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息，包括：

将多帧行为图像发送至服务器；

接收服务器发送的对多帧行为图像进行跟踪处理得到的第一目标对象的运动轨迹信息。

在其中一个实施例中，在对每帧行为图像进行语义分割处理之前，还包括：

获取直播场景的场景显示参数以及图像采集设备的设备参数；

根据场景显示参数和设备参数，对每帧行为图像进行调整；

在本实施例中，对每帧行为图像进行语义分割处理，包括：对调整后的每帧行为图像进行语义分割处理。

在其中一个实施例中，在直播场景渲染第一显示形象，包括，对第一显示形象进行行为分析，得到第一显示形象的行为类别，按照与行为类别对应的渲染方式在直播场景中渲染第一显示形象；

在本实施例中，在直播场景中渲染第二显示形象，包括：

获取第二显示形象的行为类别，按照与第二显示形象的行为类别对应的渲染方式，在直播场景中渲染第二显示形象。

在其中一个实施例中，第一目标对象为主播，第二目标对象为观众；获取第二目标对象的第二显示形象，包括：

响应于第二目标对象的互动请求，根据互动请求获取第二目标对象的第二显示形象。

在其中一个实施例中，第一目标对象为观众，第二目标对象为主播或观众；采集第一目标对象的行为数据，包括：

响应于第一目标对象的互动请求，接收互动请求的确认消息，根据互动请求的确认消息采集第一目标对象的行为数据。

在其中一个实施例中，响应于第一目标对象的互动请求，接收互动请求的确认消息，根据互动请求的确认消息采集第一目标对象的行为数据，包括：

响应于第一目标对象的互动请求，获取直播场景中的显示形象数量；

当显示形象数量未达到数量阈值时，上传互动请求；

接收互动请求的确认消息，根据确认消息采集第一目标对象的行为数据。

在其中一个实施例中，采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，包括：

采集第一目标对象的行为数据；

当根据第一目标对象的行为数据识别出第一目标对象的全身形象时，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象。

根据本公开实施例的第二方面，提供一种直播互动装置，包括：

显示模块，被配置为执行在直播间界面中显示直播场景；

采集模块，被配置为执行采集第一目标对象的行为数据；

显示形象生成模块，被配置为执行根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象；

第一渲染模块，被配置为执行在直播场景渲染第一显示形象；

获取模块，被配置为执行获取第二目标对象的第二显示形象，第二显示形象是根据第二目标对象的行为数据生成的；

第二渲染模块，还被配置为执行在直播场景中渲染第二显示形象。

在其中一个实施例中，采集模块，被配置为执行采集第一目标对象的多帧行为图像；

所述装置还包括：图像分割模块，被配置为执行对每帧行为图像进行语义分割处理，得到每帧第一显示形象；

第一渲染模块，还被配置为执行在直播场景中渲染每帧第一显示形象。

在其中一个实施例中，图像分割模块，包括：

发送单元，被配置为执行将多帧行为图像发送至服务器；接收单元，被配置为执行接收服务器发送的对每帧行为图像进行语音分割处理得到的每帧第一显示形象。

在其中一个实施例中，第一渲染模块，包括：跟踪单元，被配置为执行对多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息；第一渲染单元，被配置为执行根据第一目标对象的运动轨迹信息，在直播场景中渲染第一显示形象的运动轨迹；

第二渲染模块，包括：轨迹信息获取单元，被配置为执行获取第二目标对象的运动轨迹信息；第二渲染单元，被配置为执行根据第二目标对象的运动轨迹信息，在直播场景中渲染每帧第二显示形象的运动轨迹。

在其中一个实施例中，跟踪单元，被配置为执行将多帧行为图像发送至服务器；接收服务器发送的对多帧行为图像进行跟踪处理得到的第一目标对象的运动轨迹信息。

在其中一个实施例中，获取模块，还被配置为执行获取直播场景的场景显示参数以及图像采集设备的设备参数；

所述装置还包括：图像调整模块，被配置为执行根据场景显示参数和设备参数，对每帧行为图像进行调整；

图像分割模块，被配置为执行对调整后的每帧行为图像进行语义分割处理。

在其中一个实施例中，第一渲染模块，包括：行为分析单元，被配置为执行对第一显示形象进行行为分析，得到第一显示形象的行为类别；第三渲染单元，被配置为执行按照与行为类别对应的渲染方式在直播场景中渲染第一显示形象；

第二渲染模块，包括：行为类别获取单元，被配置为执行获取第二显示形象的行为类别；第四渲染单元，被配置为执行按照与第二显示形象的行为类别对应的渲染方式，在直播场景中渲染第二显示形象。

在其中一个实施例中，第一目标对象为主播，第二目标对象为观众；获取模块，被配置为执行响应于第二目标对象的互动请求，根据互动请求获取第二目标对象的第二显示形象。

在其中一个实施例中，第一目标对象为观众，第二目标对象为主播或观众；采集模块，被配置为执行响应于第一目标对象的互动请求，接收互动请求的确认消息，根据互动请求的确认消息采集第一目标对象的行为数据。

在其中一个实施例中，采集模块，包括：

数量获取单元，被配置为执行响应于第一目标对象的互动请求，获取直播场景中的显示形象数量；

上传单元，被配置为执行当显示形象数量未达到数量阈值时，上传互动请求；

采集单元，被配置为执行接收互动请求的确认消息，根据确认消息采集第一目标对象的行为数据。

在其中一个实施例中，采集模块，被配置为执行采集第一目标对象的行为数据；当根据第一目标对象的行为数据识别出第一目标对象的全身形象时，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面的任一项实施例中所述的直播互动方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面的任一项实施例中所述的直播互动方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的直播互动方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过创建直播场景，在直播间界面中显示直播场景；采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，在直播场景渲染第一显示形象；获取第二目标对象的第二显示形象，第二显示形象是根据第二目标对象的行为数据生成的；在直播场景中渲染第二显示形象。根据本公开的方案，预先建立直播场景，在主播端和观众端显示同一个直播场景；主播端和观众端同时采集各自用户的行为数据生成显示形象，并同时进行双向传播显示形象，使主播端和观众端能够在同一虚拟场景中以真实世界行为进行直播互动，从而使直播互动方式更加全面。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种直播互动方法的应用环境图。

图2是根据一示例性实施例示出的一种直播互动方法的流程图。

图3是根据一示例性实施例示出的一种采集行为数据步骤的流程图。

图4是根据一示例性实施例示出的一种直播互动方法的流程图。

图5是根据一示例性实施例示出的一种直播场景的示意图。

图6是根据另一示例性实施例示出的一种直播互动方法的流程图。

图7是根据一示例性实施例示出的一种直播互动装置的框图。

图8是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的直播互动方法，可以应用于如图1所示的应用环境中。其中，主播端110和服务器120通过网络进行通信，至少一个观众端130和服务器120通过网络进行通信。观众端130中至少包含参与直播互动的观众端(以下称为互动观众端)。主播端110中安装有能够用于进行直播的应用程序。观众端130中安装有能够用于观看直播的应用程序。主播端110中安装的用于进行直播的应用程序和观众端130中安装的用于观看直播的应用程序可以是相同的应用程序。主播端110创建直播间时，可以获取主播选择的直播场景素材，建立直播间。主播端110进行直播的过程中，主播端110采集主播的行为数据，根据主播的行为数据生成主播对应的主播显示形象，在直播场景渲染主播显示形象。在主播端110进行直播的过程中，观众端130进入该直播间，并在观众端130的屏幕上显示包含主播显示形象的直播场景。观众端130中的部分或者全部观众端(互动观众端)可以向主播端110请求进行直播互动。互动观众端采集互动观众的行为数据，根据互动观众的行为数据生成互动观众对应的互动观众显示形象，在直播场景渲染互动观众显示形象。互动观众端将互动观众显示形象发送至服务器120，以使服务器120将互动观众显示形象发送至主播端110以及未参与互动的其他观众端，使主播端110以及未参与互动的其他观众端在直播场景中渲染互动观众显示形象。其中，主播端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑，服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现，观众端130可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。

图2是根据一示例性实施例示出的一种直播互动方法的流程图，如图2所示，直播互动方法用于图1中的主播端110或者观众端130中的互动观众端，包括以下步骤。

在步骤S210中，在直播间界面中显示直播场景。

其中，直播场景是指为直播间设置的虚拟场景。直播场景的素材可以预先配置，例如，可以是游戏场景、虚拟图像背景等，或者可以是用户在终端设备的相册中选择得到；或者通过图像采集设备实时拍摄图像得到，在此不做限定。具体地，主播可以通过主播端触发直播间的创建请求。主播端响应于直播间的创建请求，获取直播场景的素材；根据所获取的直播场景的素材创建直播场景。主播端显示已创建的直播场景。观众端可以通过搜索、热点推荐等方式进入该直播间，在观众端的屏幕上显示与主播端相同的直播场景。

在步骤S220中，采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，在直播场景渲染第一显示形象。

其中，第一目标对象可以是主播或者参与直播互动的互动观众。互动观众可以是正在观看直播的全部或者部分观众。具体地，对于第一目标对象对应的第一客户端，实时通过图像采集设备采集第一目标对象的行为数据。对第一目标对象的行为数据进行相应的处理，生成第一目标对象对应的第一显示形象，并在第一客户端的直播场景渲染第一显示形象。第一目标对象的行为数据不限于是第一目标对象的视频数据、语音数据或者文字评论数据等。第一目标对象对应的第一显示形象可以基于深度学习理论得到。

示例性地，若第一目标对象的行为数据是对第一目标对象进行拍摄得到的行为图像，第一显示形象则可以是对行为图像进行语义分割处理得到的第一目标对象图像，也可以是通过第一目标对象的人体姿态估计结果驱动的三维模型；若第一目标对象的行为数据是对第一目标对象进行语音采集得到的语音数据，第一显示形象则可以是对语音数据进行语音识别得到的相关文字内容。

在步骤S230中，获取第二目标对象的第二显示形象，第二显示形象是根据第二目标对象的行为数据生成的。

在步骤S240中，在直播场景中渲染第二显示形象。

其中，第二目标对象可以是主播或者参与直播互动的互动观众。当第一目标对象是主播时，第二目标对象可以是互动观众；当第一目标对象是互动观众时，第二目标对象可以是主播和/或其他互动观众。具体地，对于第二目标对象对应的第二客户端，可以参照步骤S220，根据第二目标对象的行为数据生成第二目标对象对应的第二显示形象，并在第二客户端显示的直播场景中渲染二显示形象。第二客户端将已获取的第二显示形象发送至服务器，通过服务器将第二目标对象对应的第二显示形象发送第一客户端。第一客户端接收服务器发送的第二目标对象的第二显示形象，在显示的直播场景中渲染第二显示形象。

同理，对于第二目标对象对应的第二客户端，可以从服务器接收第一目标对象对应的第一显示形象，并在第二客户端显示的直播场景中渲染第一显示形象，从而使第二客户端与第一客户端呈现相同的直播场景。

进一步地，对于未参与直播互动的账户对应的观众端，可以从服务器获取第一目标对象对应的第一显示形象，以及第二目标对象对应的第二显示形象，并在观众端显示的直播场景中渲染第一显示形象和第二显示形象，从而使未参与直播互动的观众端、第一客户端和第二客户端呈现相同的直播场景。

上述直播互动方法中，预先建立直播场景，在主播端和观众端显示同一个直播场景；主播端和观众端同时采集各自用户的行为数据生成显示形象，并同时进行双向传播显示形象，使主播端和观众端能够在同一虚拟场景中以真实世界行为进行直播互动，从而可以使直播互动方式更加全面。

在一示例性实施例中，在步骤S220中，采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，在直播场景渲染第一显示形象，包括：采集第一目标对象的多帧行为图像，对每帧行为图像进行语义分割处理，得到每帧第一显示形象，在直播场景中渲染每帧第一显示形象。

具体地，在本实施例中，第一目标对象的行为数据可以是通过图像采集设备实时采集到的第一目标对象的连续多帧行为图像。第一客户端每获取一帧行为图像，调用预先配置的已训练的语义分割模型。通过已训练的语义分割模型对每帧行为图像进行语音分割处理，得到第一目标对象图像，将所得到的第一目标对象图像作为第一显示形象。第一客户端在直播场景中渲染所获取的每帧第一显示形象。其中，语义分割模型不限于采用DeepLab(一种语义分割网络)、FCN(Fully Convolution Networks，全卷积网络)、SegNet(SementicSegmentation，语义分割网络)、BiSeNet(Bilateral Segmentation Network for Real-time Semantic Segmentation，一种双通道实时语义分割模型)等。在本实施例中，当第一目标对象是主播或者互动观众时，第一目标对象图像则可以是对应的真实主播人像或者真实互动观众人像。

进一步地，对于第一客户端所获取的第二目标对象的第二显示形象，同样可以上述方式对第二目标对象的每帧行为图像进行语义分割处理得到的第二显示形象。服务器将语义分割处理得到的第二显示形象发送至第一客户端，以使第一客户端能够在直播场景中渲染第二显示形象。

本实施例中，通过采集参与直播互动的主播和/或互动观众的行为图像，对所得到的行为图像进行语义分割处理，得到真实人像，并在直播场景中渲染所得到的真实人像，使得虚拟直播场景更接近真实世界场景，从而可以提升直播互动的真实性，有助于提升用户在直播间的停留时间、提高直播应用的用户留存率。

在一示例性实施例中，对每帧行为图像进行语义分割处理，包括：将多帧行为图像发送至服务器；接收服务器发送的对每帧行为图像进行语音分割处理得到的每帧第一显示形象。

具体地，对第一客户端和/或第二客户端采集到的多帧行为图像进行语义分割处理，还可以通过服务器端执行。在第一客户端和/或第二客户端获取各自的图像采集设备采集到的多帧行为图像后，第一客户端和/或第二客户端实时将所获取的多帧行为图像发送至服务器。服务器调用预先部署的语义分割模型。通过语义分割模型对每帧行为图像进行语音分割处理，得到第一目标对象图像和第二目标对象图像，将所得到的第一目标对象图像作为第一显示形象，将所得到的第二目标对象图像作为第二显示形象。服务器可以将第一显示形象和第二显示形象发送至直播间的关联客户端(可以是指已进入直播间的所有账户对应的客户端)，以使关联客户端能够在当前显示的直播场景中渲染第一显示形象和第二显示形象。

本实施例中，通过在服务器中预先部署语义分割模型，用于对第一客户端和第二客户端获取的多帧行为图像进行语义分割处理，可以减轻终端设备的运行压力，提升终端设备的响应速度。

在一示例性实施例中，在直播场景渲染第一显示形象，包括：对多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息；根据第一目标对象的运动轨迹信息，在直播场景中渲染第一显示形象的运动轨迹。

具体地，为了使直播场景中渲染的第一显示形象能够更加接近真实世界的人物行为，本实施例中，预先在第一客户端部署已训练的目标跟踪算法。通过目标跟踪算法对第一客户端采集多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息。进而根据第一目标对象的运动轨迹信息，在直播场景中渲染第一显示形象的运动轨迹。其中，目标跟踪算法可以采用基于相关滤波器的跟踪算法，例如KCF Tracker(Kernel CorrelationFilter，核相关滤波跟踪算法)、MOSSE Tracker(Minimum Output Sum of Squared ErrorTracker，误差最小平方和滤波器跟踪算法)等。

具体地，第一客户端还可以接收服务器发送的第二目标对象的运动轨迹信息。根据第二目标对象的运动轨迹信息，在当前显示的直播场景中渲染携第二显示形象的运动轨迹。第二目标对象的运动轨迹信息可以通过预先配置在第二客户端的目标跟踪算法，对第二目标对象的多帧行为图像进行跟踪处理得到。

进一步地，第一客户端和第二客户端还可以通过服务器将第一显示形象、第一目标对象的运动轨迹信息，以及第二显示形象、第二目标对象的运动轨迹信息发送至直播间的其他关联客户端，以使其他关联客户端在当前显示的直播场景中渲染第一显示形象、第一显示形象的运动轨迹，以及渲染第二显示形象、第二显示形象的运动轨迹。

本实施例中，通过预先部署目标跟踪算法，通过目标跟踪算法得到真实世界的目标对象的运动轨迹信息，并根据真实世界的目标对象的运动轨迹信息在直播场景中渲染显示形象的运动轨迹，使得直播场景中显示形象可按照真实世界人物的行为进行互动，可以使直播互动方式更加全面，且可以提高直播互动的真实性，有助于提高用户的停留时间。

在一示例性实施例中，对多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息，包括：将多帧行为图像发送至服务器；接收服务器发送的对多帧行为图像进行跟踪处理得到的第一目标对象的运动轨迹信息。

具体地，对第一客户端和/或第二客户端采集到的多帧行为图像进行跟踪处理，还可以通过服务器端执行。在第一客户端和/或第二客户端各自获取图像采集设备采集到的多帧行为图像后，第一客户端和/或第二客户端实时将所获取的多帧行为图像发送至服务器。服务器调用预先部署的目标跟踪算法。通过目标跟踪算法对多帧行为图像进行跟踪处理，得到第一目标对象和第二目标对象各自对应的运动轨迹信息。服务器可以将第一目标对象和第二目标对象各自对应的运动轨迹信息发送至直播间的关联客户端，以使关联客户端能够在当前显示的直播场景中渲染第一显示形象和第二显示形象各自对应的运动轨迹。

本实施例中，通过在服务器中预先部署已训练的目标跟踪算法，用于对第一客户端和第二客户端获取的多帧行为图像进行跟踪处理，可以减轻终端设备的运行压力，提升终端设备的响应速度。

在一示例性实施例中，在对每帧行为图像进行语义分割处理之前，还包括：获取直播场景的场景显示参数以及图像采集设备的设备参数；根据场景显示参数和设备参数，对每帧行为图像进行调整。

其中，直播场景的场景显示参数不限于包括直播场景的亮度、对比度等信息。直播场景的场景显示参数可以是主播在创建直播间时手动配置的，或者采用预先配置的默认参数。设备参数是指用于采集行为图像的图像采集设备的参数。设备参数不限于包括光照、对比度、摄像头分辨率、镜头畸变等系数。第一客户端和第二客户端各自对应的图像采集设备的设备参数可能不同。

具体地，第一客户端获取直播场景的场景显示参数。在采集第一目标对象的行为图像时，第一客户端获取图像采集设备的设备参数。第一客户端根据直播场景的场景显示参数，对所获取的每帧行为图像进行调整。示例性地，若已获取的直播场景的场景显示参数和图像采集设备的设备参数都包含亮度，且场景显示参数的亮度小于设备参数中的亮度，则可以根据场景显示参数的亮度，减小第一目标对象的行为图像的亮度。

同样地，对于第二客户端，在采集第二目标对象的行为图像时，第二客户端获取直播场景的场景显示参数以及图像采集设备的设备参数。第二客户端根据直播场景的场景显示参数，对所获取的每帧行为图像进行调整。

在本实施例中，对每帧行为图像进行语义分割处理，具体包括：对调整后的每帧行为图像进行语义分割处理。具体地，在对第一目标对象的每帧行为图像进行调整后，第一客户端调用预先部署的语义分割模型对第一目标对象的每帧行为图像进行语义分割处理，得到第一目标对象图像，并将所得到的第一目标对象图像作为第一显示形象。

本实施例中，通过根据直播场景的场景显示参数以及图像采集设备的设备参数对所获取的行为图像进行调整，可以使不同的客户端采集到的行为图像在直播场景中呈现的效果更加一致。

在一示例性实施例中，在直播场景渲染第一显示形象，包括，对第一显示形象进行行为分析，得到第一显示形象的行为类别，按照与行为类别对应的渲染方式在直播场景中渲染第一显示形象。

其中，行为类别不限于跳舞、对唱、跳跃、击掌、激励等。与行为类别对应的渲染方式可以是指与行为类别对应的相关特效渲染方式，例如，与行为类别为跳舞对应的渲染方式可以是灯光特效，与行为类别为击掌对应的渲染方式可以是将同为击掌的至少一个显示形象靠近，并在击掌部位增加相应的特效。

具体地，对第一显示形象进行行为分析可以基于深度学习理论执行。示例性地，若第一显示形象是对行为图像进行语义分割处理得到的第一目标对象图像，则可以采用深度学习模型对第一显示形象进行动作识别，得到第一显示形象的行为类别；若第一显示形象是对语音数据进行语音识别得到的相关文字内容，则可以对相关文字内容进行关键字识别，得到第一显示形象的行为类别。行为类别与渲染方式的对应关系可以预先配置在第一客户端。在第一客户端获取第一显示形象的行为类别后，可以从行为类别与渲染方式的对应关系中查找与行为类别对应的渲染方式，并按照与行为类别对应的渲染方式在直播场景中渲染第一显示形象。

在本实施例中，在直播场景中渲染第二显示形象，包括：获取第二显示形象的行为类别，按照与第二显示形象的行为类别对应的渲染方式，在直播场景中渲染第二显示形象。

同样地，对于第二客户端，在获取第二显示形象后，第二客户端可以基于深度学习理论对第二显示形象进行行为分析，得到第二显示形象的行为类别。第二客户端可以将第二显示形象的行为类别发送至服务器。通过服务器将第二显示形象的行为类别发送至第一客户端，以使第一客户端能够在直播场景中按照与第二显示形象的行为类别对应的渲染方式，在直播场景中渲染第二显示形象。

本实施例中，通过对直播场景中的显示形象进行行为分析，得到显示形象的行为类别，并按照与行为类别对应的渲染方式在直播场景中渲染显示形象，进一步丰富了直播互动方式，且可以使直播场景中的显示形象在视觉效果上更加生动形象，有助于增加直播间的观众数量，提高直播间观众的停留时长。

在一示例性实施例中，第一目标对象为主播，第二目标对象为观众；获取第二目标对象的第二显示形象，包括：响应于第二目标对象的互动请求，根据互动请求获取第二目标对象的第二显示形象。

其中，若第一目标对象为主播，则第二目标对象为参与直播互动的互动观众。具体地，第二目标对象可以通过第二客户端触发互动请求。第二客户端响应于互动请求，采集第二目标对象的行为数据，并根据第二目标对象的行为数据生成第二目标对象对应的第二显示形象。第二客户端可以通过服务器将第二显示形象发送至主播对应的第一客户端，以使第一客户端获取第二显示形象，并在当前显示的直播场景中渲染所获取的第二显示形象。

本实施例中，通过使观看直播间的观众能够参与直播互动；主播端和观众端同时采集各自用户的行为数据生成显示形象，并同时进行双向传播显示形象，使主播端和观众端能够在同一虚拟场景中以真实世界行为进行直播互动，从而可以使直播互动方式更加全面。

在一示例性实施例中，第一目标对象为观众，第二目标对象为主播或观众；采集第一目标对象的行为数据，包括：响应于第一目标对象的互动请求，接收互动请求的确认消息，根据互动请求的确认消息采集第一目标对象的行为数据。

其中，若第一目标对象为互动观众，则第二目标对象可以为参与直播互动的其他互动观众或者主播。具体地，第一目标对象可以通过第一客户端触发互动请求。第一客户端可以通过服务器将互动请求发送至主播对应的第二客户端。主播可以通过第二客户端触发许可指令。服务器响应于该许可指令，向第一客户端发送互动请求的确认消息，以使第一客户端能够根据互动请求的确认消息开始采集第一目标对象的行为数据。本实施例中，通过使观众端在接收到主播端的确认消息后，才能够采集观众的行为数据，便于主播对互动观众进行统一管理。

在一示例性实施例中，如图3所示，响应于第一目标对象的互动请求，接收互动请求的确认消息，根据互动请求的确认消息采集第一目标对象的行为数据，包括：

在步骤S310中，响应于第一目标对象的互动请求，获取直播场景中的显示形象数量。

在步骤S320中，当显示形象数量未达到数量阈值时，上传互动请求；

在步骤S330中，接收互动请求的确认消息，根据确认消息采集第一目标对象的行为数据。

其中，直播场景中的显示形象数量可以是指当前直播场景中互动观众对应的显示形象数量。数量阈值是指允许参与直播互动的最大互动观众数量。数量阈值可以是主播在创建直播间时手动配置的，也可以是预先配置的默认阈值。具体地，若第一目标对象为观众，则第二目标对象可以其他互动观众或者主播。第一目标对象可以通过第一客户端触发互动请求。第一客户端响应于互动请求，获取当前直播场景中的显示形象数量。将当前直播场景中的显示形象数量与预先获取的数量阈值进行比较。若显示形象数量未达到数量阈值，则通过服务器将第一客户端的互动请求发送至主播的第二客户端。主播可以通过第二客户端触发许可指令。服务器响应于该许可指令，向第一客户端发送互动请求的确认消息，以使第一客户端能够根据互动请求的确认消息采集第一目标对象的行为数据。本实施例中，通过为直播场景配置相应的数量阈值，控制参与直播互动的观众人数，可以改善直播场景中显示形象的展示效果。

在一示例性实施例中，在步骤S220中，采集第一目标对象的行为数据，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象，包括：采集第一目标对象的行为数据；当根据第一目标对象的行为数据识别出第一目标对象的全身形象时，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象。

具体地，若第一目标对象为观众，则第二目标对象可以为其他互动观众或者主播。第一目标对象可以通过第一客户端触发互动请求。第一客户端可以通过服务器将第一客户端的互动请求发送至主播的第二客户端。主播可以通过第二客户端触发许可指令。服务器响应于该许可指令，向第一客户端发送互动请求的确认消息，以使第一客户端能够根据互动请求的确认消息采集第一目标对象的行为数据。第一目标对象的行为数据中包含第一目标对象的行为图像。第一客户端可以对第一目标对象的行为图像进行识别，判断行为图像中是否包含第一目标对象的全身形象。若包含第一目标对象的全身形象，则获取第一显示形象，并将第一显示形象渲染至直播场景中。

本实施例中，通过在判断互动观众的客户端能够采集互动观众的全身形象后，再允许互动客户端继续采集互动观众的行为数据，可以提升直播互动的合规性。

图4是根据一示例性实施例示出的一种直播互动方法的流程图，如图4所示，直播互动方法用于主播端中，包括以下步骤。

在步骤S401中，主播端创建直播间，配置直播间的直播场景以及直播场景中的显示形象的数量阈值。

在步骤S402中，主播端在直播间界面中显示直播场景。

在步骤S403中，采集主播的行为数据，主播的行为数据可以是通过摄像头采集的连续多帧主播行为图像。

在步骤S404中，对每帧主播行为图像进行语义分割处理、跟踪处理以及行为分析，得到主播显示形象、主播的运动轨迹信息以及主播显示形象的行为类别。

具体地，通过语义分割模型对每帧主播行为图像进行语义分割处理，得到每帧主播人像的分割结果，作为每帧主播显示形象。通过动作识别模型对主播显示形象进行识别，得到主播显示形象的行为类别。通过目标跟踪算法对多帧主播行为图像进行跟踪处理，得到的运动轨迹信息。进一步地，主播显示形象的行为类别也可以通过目标跟踪算法对多帧主播行为图像进行行为检测得到，在此不做具体限定。

在步骤S405中，在主播端的直播场景中渲染主播显示形象以及主播显示形象的运动轨迹，并根据与主播显示形象的行为类别对应的渲染方式，对直播场景中的主播显示形象进行渲染。

在步骤S406中，将主播显示形象、主播的运动轨迹信息以及主播显示形象的行为类别发送至服务器，以使服务器将主播显示形象、主播的运动轨迹信息以及主播显示形象的行为类别发送至所有观众端。通过观众端在直播场景中渲染主播显示形象以及主播显示形象的运动轨迹，并根据与主播显示形象的行为类别对应的渲染方式，对直播场景中的主播显示形象进行渲染。

在步骤S407中，响应于互动观众端的互动请求，获取许可指令以及为互动观众端的观众显示形象分配的初始位置信息。

在步骤S408中，向互动观众端发送互动请求的确认消息。

在步骤S409中，获取互动观众的观众显示形象，根据初始位置信息将观众显示形象渲染至对应的初始位置。其中，互动观众的观众显示形象是互动观众端或者主播端在检测直播场景中的显示形象数量未超过数量阈值、且互动观众端确定摄像头可以采集到观众的全身图像时，根据采集的观众行为图像得到的。

在步骤S410中，继续获取观众显示形象、互动观众的运动轨迹信息以及观众显示形象的行为类别。其中，观众显示形象、互动观众的运动轨迹信息以及观众显示形象的行为类别可以参照步骤S404得到，在此不做具体阐述。

在步骤S411中，主播端在直播场景中渲染观众显示形象、观众显示形象的运动轨迹，并按照与观众显示形象的行为类别对应的渲染方式，对直播场景中的观众显示形象进行渲染。图5示例性示出了一个实施例中主播端显示的直播场景。其中，直播场景为预先选择的虚拟场景，主播显示形象和观众显示形象为通过语音分割模型得到的真实主播人像和真实观众人像。

图6是根据一示例性实施例示出的一种直播互动方法的流程图，如图5所示，直播互动方法用于互动观众端中，包括以下步骤。

在步骤S601中，互动观众端在直播间界面中显示直播场景。

在步骤S602中，获取主播显示形象、主播的运动轨迹信息以及主播显示形象的行为类别。

在步骤S603中，在直播场景中渲染主播显示形象以及主播显示形象的运动轨迹，并根据与主播显示形象的行为类别对应的渲染方式，对直播场景中的主播显示形象进行渲染。

在步骤S604中，响应于互动观众触发的互动请求，获取直播场景中的显示形象数量，并在显示形象数量未达到数量阈值时，向主播端发送互动请求。

在步骤S605中，接收主播端发送的互动请求的确认消息，确认消息携带初始位置信息，根据确认消息采集互动观众的行为数据。互动观众的行为数据可以是通过摄像头采集的互动观众的观众行为图像。

在步骤S606中，当根据观众行为图像能够识别出互动观众的全身形象时，对互动观众的行为图像进行语义分割处理，得到观众显示形象，并根据初始位置信息将观众显示形象渲染至对应的初始位置。

在步骤S607中，将观众显示形象发送至服务器，以使服务器将该观众显示形象发送至主播端和其他所有观众端。

在步骤S608中，继续采集观众的连续多帧观众行为图像。

在步骤S609中，对每帧观众行为图像进行语义分割处理、跟踪处理以及行为分析，得到观众显示形象、互动观众的运动轨迹信息以及观众显示形象的行为类别。

具体地，通过语义分割模型对每帧观众行为图像进行语义分割处理，得到每帧观众人像分割结果，作为每帧观众显示形象。通过动作识别模型对观众显示形象进行识别，得到观众显示形象的行为类别。通过目标跟踪算法对多帧观众行为图像进行跟踪处理，得到观众的运动轨迹信息。进一步地，观众形象的行为类别也可以通过目标跟踪算法对多帧观众行为图像进行行为检测得到，在此不做具体限定。

在步骤S610中，在直播场景中渲染观众显示形象以及观众显示形象的运动轨迹，并根据与观众显示形象的行为类别对应的渲染方式，对直播场景中的观众显示形象进行渲染。其中，互动观众端与主播端呈现相同的直播场景，具体可以参照图5的直播场景示意图。

在步骤S611中，将观众显示形象、互动观众的运动轨迹信息以及观众显示形象的行为类别发送至服务器，以使服务器将观众显示形象、观众的运动轨迹信息以及观众显示形象的行为类别发送至主播端和其他所有观众端。通过主播端和其他所有观众端在直播场景中渲染观众显示形象以及观众显示形象的运动轨迹，并根据与观众显示形象的行为类别对应的特效渲染方式，对直播场景中的观众显示形象进行渲染。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图7是根据一示例性实施例示出的一种直播互动装置700框图。参照图7，该装置700包括显示模块701、采集模块702、显示形象生成模块703、第一渲染模块704、获取模块705和第二渲染模块706。

显示模块701，被配置为执行在直播间界面中显示直播场景；采集模块702，被配置为执行采集第一目标对象的行为数据；显示形象生成模块703，被配置为执行根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象；第一渲染模块704，被配置为执行在直播场景渲染第一显示形象；获取模块705，被配置为执行获取第二目标对象的第二显示形象，第二显示形象是根据第二目标对象的行为数据生成的；第二渲染模块706，还被配置为执行在直播场景中渲染第二显示形象。

在一示例性实施例中，采集模块702，被配置为执行采集第一目标对象的多帧行为图像；所述装置700还包括：图像分割模块，被配置为执行对每帧行为图像进行语义分割处理，得到每帧第一显示形象；第一渲染模块704，还被配置为执行在直播场景中渲染每帧第一显示形象。

在一示例性实施例中，图像分割模块，包括：发送单元，被配置为执行将多帧行为图像发送至服务器；接收单元，被配置为执行接收服务器发送的对每帧行为图像进行语音分割处理得到的每帧第一显示形象。

在一示例性实施例中，第一渲染模块704，包括：跟踪单元，被配置为执行对多帧行为图像进行跟踪处理，得到第一目标对象的运动轨迹信息；第一渲染单元，被配置为执行根据第一目标对象的运动轨迹信息，在直播场景中渲染第一显示形象的运动轨迹；第二渲染模块706，包括：轨迹信息获取单元，被配置为执行获取第二目标对象的运动轨迹信息；第二渲染单元，被配置为执行根据第二目标对象的运动轨迹信息，在直播场景中渲染每帧第二显示形象的运动轨迹。

在一示例性实施例中，跟踪单元，被配置为执行将多帧行为图像发送至服务器；接收服务器发送的对多帧行为图像进行跟踪处理得到的第一目标对象的运动轨迹信息。

在一示例性实施例中，获取模块705，还被配置为执行获取直播场景的场景显示参数以及图像采集设备的设备参数；所述装置700还包括：图像调整模块，被配置为执行根据场景显示参数和设备参数，对每帧行为图像进行调整；图像分割模块，被配置为执行对调整后的每帧行为图像进行语义分割处理。

在一示例性实施例中，第一渲染模块704，包括：行为分析单元，被配置为执行对第一显示形象进行行为分析，得到第一显示形象的行为类别；第三渲染单元，被配置为执行按照与行为类别对应的渲染方式在直播场景中渲染第一显示形象；第二渲染模块706，包括：行为类别获取单元，被配置为执行获取第二显示形象的行为类别；第四渲染单元，被配置为执行按照与第二显示形象的行为类别对应的渲染方式，在直播场景中渲染第二显示形象。

在一示例性实施例中，第一目标对象为主播，第二目标对象为观众；获取模块705，被配置为执行响应于第二目标对象的互动请求，根据互动请求获取第二目标对象的第二显示形象。

在一示例性实施例中，第一目标对象为观众，第二目标对象为主播或观众；采集模块702，被配置为执行响应于第一目标对象的互动请求，接收互动请求的确认消息，根据互动请求的确认消息采集第一目标对象的行为数据。

在一示例性实施例中，采集模块702，包括：数量获取单元，被配置为执行响应于第一目标对象的互动请求，获取直播场景中的显示形象数量；上传单元，被配置为执行当显示形象数量未达到数量阈值时，上传互动请求；采集单元，被配置为执行接收互动请求的确认消息，根据确认消息采集第一目标对象的行为数据。

在一示例性实施例中，采集模块702，被配置为执行采集第一目标对象的行为数据；当根据第一目标对象的行为数据识别出第一目标对象的全身形象时，根据第一目标对象的行为数据生成第一目标对象对应的第一显示形象。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于直播互动的设备800的框图。例如，设备800可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图8，设备800可以包括以下一个或多个组件：处理组件802、存储器804、电源组件806、多媒体组件808、音频组件810、输入/输出(I/O)的接口812、传感器组件814以及通信组件816。

处理组件802通常控制设备800的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在设备800上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件806为设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为设备800的显示器和小键盘，传感器组件814还可以检测设备800或设备800一个组件的位置改变，用户与设备800接触的存在或不存在，设备800方位或加速/减速和设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件816被配置为便于设备800和其他设备之间有线或无线方式的通信。设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种直播互动方法，其特征在于，包括：

在直播间界面中显示直播场景；

采集第一目标对象的行为数据，所述第一目标对象的行为数据包括第一目标对象的连续多帧行为图像；

获取所述直播场景的场景显示参数以及图像采集设备的设备参数，根据所述场景显示参数和所述设备参数，对每帧行为图像进行调整；

对调整后的所述每帧行为图像进行语义分割处理，得到第一目标对象图像，将所述第一目标对象图像作为第一显示形象，对所述第一显示形象进行行为分析，得到所述第一显示形象的行为类别，按照与所述行为类别对应的特效渲染方式，以及所述第一目标对象的运动轨迹信息在所述直播场景渲染所述第一显示形象；

获取第二目标对象的第二显示形象，所述第二显示形象是根据对所述第二目标对象的调整后的多帧行为图像进行语义分割处理得到的第二目标对象图像生成的，所述第二目标对象的多帧行为图像的调整方式与所述第一目标对象的多帧行为图像的调整方式一致，所述第二显示形象与所述第一显示形象在所述直播场景中的显示效果具有一致性；

获取所述第二显示形象的行为类别，按照与所述第二显示形象的行为类别对应的特效渲染方式，以及所述第二目标对象的运动轨迹信息在所述直播场景中渲染所述第二显示形象，以使所述直播场景中的所述第一显示形象和所述第二显示形象按照真实世界的行为进行互动。

2.根据权利要求1所述的直播互动方法，其特征在于，所述对调整后的所述每帧行为图像进行语义分割处理，包括：

将调整后的所述多帧行为图像发送至服务器；

接收所述服务器发送的对调整后的所述每帧行为图像进行语音分割处理得到的每帧第一显示形象。

3.根据权利要求1所述的直播互动方法，其特征在于，所述第一目标对象的运动轨迹信息的获取方式，包括：对所述多帧行为图像进行跟踪处理，得到所述第一目标对象的运动轨迹信息。

4.根据权利要求3所述的直播互动方法，其特征在于，所述对所述多帧行为图像进行跟踪处理，得到所述第一目标对象的运动轨迹信息，包括：

将所述多帧行为图像发送至服务器；

接收所述服务器发送的对所述多帧行为图像进行跟踪处理得到的所述第一目标对象的运动轨迹信息。

5.根据权利要求1所述的直播互动方法，其特征在于，所述第一目标对象为主播，所述第二目标对象为观众；所述获取第二目标对象的第二显示形象，包括：

响应于第二目标对象的互动请求，根据所述互动请求获取第二目标对象的第二显示形象。

6.根据权利要求1所述的直播互动方法，其特征在于，所述第一目标对象为观众，所述第二目标对象为主播或观众；所述采集第一目标对象的行为数据，包括：

响应于第一目标对象的互动请求，接收所述互动请求的确认消息，根据所述互动请求的确认消息采集所述第一目标对象的行为数据。

7.根据权利要求6所述的直播互动方法，其特征在于，所述响应于第一目标对象的互动请求，接收所述互动请求的确认消息，根据所述互动请求的确认消息采集所述第一目标对象的行为数据，包括：

响应于所述第一目标对象的互动请求，获取所述直播场景中的显示形象数量；

当所述显示形象数量未达到数量阈值时，上传所述互动请求；

接收所述互动请求的确认消息，根据所述确认消息采集所述第一目标对象的行为数据。

8.根据权利要求6所述的直播互动方法，其特征在于，所述对调整后的所述每帧行为图像进行语义分割处理之前，还包括：

根据所述第一目标对象的行为数据识别出所述第一目标对象的全身形象。

9.一种直播互动装置，其特征在于，包括：

显示模块，被配置为执行在直播间界面中显示直播场景；

采集模块，被配置为执行采集第一目标对象的行为数据，所述第一目标对象的行为数据包括第一目标对象的连续多帧行为图像；

获取模块，被配置为执行获取所述直播场景的场景显示参数以及图像采集设备的设备参数；

图像调整模块，被配置为执行根据所述场景显示参数和所述设备参数，对每帧行为图像进行调整；

图像分割模块，被配置为执行对调整后的所述每帧行为图像进行语义分割处理，得到第一目标对象图像；

显示形象生成模块，被配置为执行，将所述第一目标对象图像作为第一显示形象；

第一渲染模块，被配置为执行对所述第一显示形象进行行为分析，得到所述第一显示形象的行为类别，按照与所述行为类别对应的特效渲染方式，以及所述第一目标对象的运动轨迹信息在所述直播场景渲染所述第一显示形象；

所述获取模块，还被配置为执行获取第二目标对象的第二显示形象，所述第二显示形象是根据对所述第二目标对象的调整后的多帧行为图像进行语义分割处理得到的第二目标对象图像生成的，所述第二目标对象的多帧行为图像的调整方式与所述第一目标对象的多帧行为图像的调整方式一致，所述第二显示形象与所述第一显示形象在所述直播场景中的显示效果具有一致性；

第二渲染模块，还被配置为执行获取所述第二显示形象的行为类别，按照与所述第二显示形象的行为类别对应的特效渲染方式，以及所述第二目标对象的运动轨迹信息在所述直播场景中渲染所述第二显示形象，以使所述直播场景中的所述第一显示形象和所述第二显示形象按照真实世界的行为进行互动。

10.根据权利要求9所述的直播互动装置，其特征在于，所述图像分割模块，包括：

发送单元，被配置为执行将调整后的所述多帧行为图像发送至服务器；

接收单元，被配置为执行接收所述服务器发送的对调整后的所述每帧行为图像进行语音分割处理得到的每帧第一显示形象。

11.根据权利要求9所述的直播互动装置，其特征在于，所述第一渲染模块，包括：

跟踪单元，被配置为执行对所述多帧行为图像进行跟踪处理，得到所述第一目标对象的运动轨迹信息。

12.根据权利要求11所述的直播互动装置，其特征在于，所述跟踪单元，被配置为执行将所述多帧行为图像发送至服务器；接收所述服务器发送的对所述多帧行为图像进行跟踪处理得到的所述第一目标对象的运动轨迹信息。

13.根据权利要求9所述的直播互动装置，其特征在于，所述第一目标对象为主播，所述第二目标对象为观众；所述获取模块，被配置为执行响应于第二目标对象的互动请求，根据所述互动请求获取第二目标对象的第二显示形象。

14.根据权利要求9所述的直播互动装置，其特征在于，所述第一目标对象为观众，所述第二目标对象为主播或观众；所述采集模块，被配置为执行响应于第一目标对象的互动请求，接收所述互动请求的确认消息，根据所述互动请求的确认消息采集所述第一目标对象的行为数据。

15.根据权利要求14所述的直播互动装置，其特征在于，所述采集模块，包括：

数量获取单元，被配置为执行响应于所述第一目标对象的互动请求，获取所述直播场景中的显示形象数量；

上传单元，被配置为执行当所述显示形象数量未达到数量阈值时，上传所述互动请求；

采集单元，被配置为执行接收所述互动请求的确认消息，根据所述确认消息采集所述第一目标对象的行为数据。

16.根据权利要求15所述的直播互动装置，其特征在于，所述采集模块，被配置为执行采集所述第一目标对象的行为数据；根据所述第一目标对象的行为数据识别出所述第一目标对象的全身形象。

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的直播互动方法。

18.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的直播互动方法。