CN115484466A

CN115484466A - 在线演唱视频的显示方法和服务器

Info

Publication number: CN115484466A
Application number: CN202110600999.3A
Authority: CN
Inventors: 曲磊; 陈维强; 高雪松; 孙萁浩; 张振铎; 李蕾; 翟世平; 矫佩佩
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-16

Abstract

本公开提供在线演唱视频的显示方法和服务器。包括：利用预设的展示对象数量与显示区域的属性的对应关系，确定当前展示对象的数量相对应的显示区域的属性，所述显示区域的属性包括各展示对象在待显示视频背景图像中所对应的显示区域的大小；针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，所述目标图像包含的前景图像为所述展示对象的轮廓，且所述目标图像大小与所述展示对象的显示区域的大小相同；基于所述显示区域的属性以及与各目标图像对应的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像。以此提高了演唱视频显示效果，提升用户体验。

Description

在线演唱视频的显示方法和服务器

技术领域

本发明涉及信息处理技术领域，特别涉及一种在线演唱视频的显示方法和服务器。

背景技术

随着社会的发展以及科技的进步，人们的生活水平得到了极大的提高，因此对休闲娱乐的追求也逐渐提升。由于在线演唱的方式简单便捷，所以，在线演唱已成为休闲娱乐项目中的重要组成部分。

现有技术中，在线演唱能提供实时的一人或多人的在线演唱服务，可实现多人同时演唱同一首歌，不论是一人在线演唱还是多人同时在线演唱同一首歌时，终端设备中显示的视频仅仅是类似视频通话的视频窗口，因此，使得在线演唱视频显示效果较差。

发明内容

本公开示例性的实施方式中提供一种在线演唱视频的显示方法和服务器，用于提高在线演唱视频的显示效果。

本公开的第一方面提供一种在线演唱视频的显示方法，所述方法包括：

利用预设的展示对象数量与显示区域的属性的对应关系，确定当前展示对象的数量相对应的显示区域的属性，所述显示区域的属性包括各展示对象在待显示视频背景图像中所对应的显示区域的大小；

针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，所述目标图像包含的前景图像为所述展示对象的轮廓，且所述目标图像大小与所述展示对象的显示区域的大小相同；

基于所述显示区域的属性以及各目标图像的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像。

本实施例中通过根据展示对象的数量来确定出显示区域的属性，以及根据展示对象的演唱视频图像得到目标图像，并利用显示区域的属性以及与各目标图像对应的视频时间戳，将各展示对象的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像。由此，本实施例中将展示对象合成在一个虚拟背景中进行显示，并不是仅仅是一个视频通话窗口，以此提高了演唱视频的显示效果，提升用户体验。

在一个实施例中，所述针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，包括：

按照所述展示对象在待显示视频背景图像中对应的显示区域的大小，以所述演唱视频图像中的所述展示对象为中心，对所述演唱视频图像进行裁剪，得到中间演唱视频图像；

基于所述中间演唱视频图像，得到所述目标图像。

本实施例通过将展示对象的演唱视频图像裁剪成与展示对象在待显示视频背景图像中对应的显示区域的大小，并根据裁剪后的演唱视频图像的大小得到目标图像，以此在目标图像与待显示视频场景合成的时候能够与显示区域的大小相等，使得合成后待显示演唱视频图像的显示效果更好。

在一个实施例中，所述基于所述中间演唱视频图像，得到所述目标图像，包括：

对所述中间演唱视频图像进行图像分割处理，得到所述目标图像；或，

利用预设的图像格式转换算法，对所述中间演唱视频图像的图像格式进行转换，并对转换后的中间演唱视频图像中的各像素点进行二值化处理，得到所述目标图像。

本实施例中通过对中间演唱视频图像进行图像分割处理或者是对图像格式转换后演唱视频图像进行二值化处理，以此得到目标图像。由此，以使得到的目标图像能够更好的与待显示视频背景图像合成。提高合成效率。

在一个实施例中，所述显示区域的属性还包括各展示对象在待显示视频背景图像中所对应的显示区域的位置；

基于所述显示区域的属性以及各目标图像的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像，包括：

利用所述显示区域的属性，确定各展示对象在所述待显示视频背景图像中的显示区域；

针对任一展示对象的所述目标图像中的任一第一目标像素点，基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，其中所述第一目标像素点相对应的第二目标像素点为，所述中间演唱视频图像和所述展示对象对应的显示区域中与所述第一目标像素点位置相同的像素点；

利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，其中各展示对象对应的待显示图像的视频时间戳与各展示对象对应的目标图像的视频时间戳相同。

本实施例通过确定出各展示对象的待显示图像，并利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，以此提升待显示演唱视频图像的质量。

在一个实施例中，所述基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，包括：

利用所述第一目标像素点的像素值，以及位于所述中间演唱视频图像中，且与所述第一目标像素点的像素值相对应的第二目标像素点的像素值，得到第一中间像素值；以及，

基于所述第一目标像素点的像素值，得到第二中间像素值，并通过所述第二中间像素值，以及位于所述展示对象对应的显示区域中，且与所述第一目标像素点相对应的第二目标像素点的像素值，得到第三中间像素值；

根据所述第一中间像素值和所述第三中间像素值，得到所述第一目标像素点的目标像素值；并，

将所述第一目标像素点的像素值设置为所述目标像素值。

本实施例通过将所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到目标图像，以此使得确定出的目标像素值更加准确。

在一个实施例中，所述利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，包括：

针对视频时间戳相同的各待显示图像，将所述各待显示图像设置在所述待显示视频背景图像中，与各展示对象相对应的显示区域的位置处，得到所述待显示演唱视频图像；和/或，

针对视频时间戳相同的各待显示图像，利用各展示对象在待显示视频背景图像中相对应的显示区域的位置，将所述各待显示图像与所述待显示视频背景图像进行合成，得到多个待显示演唱视频图像，其中，所述各待显示演唱视频图像中包括至少一个待显示图像，且同一待显示演唱视频图像中的各待显示图像的视频时间戳相同以及不同待显示演唱视频图像中的各待显示图像的视频时间戳相同。

本实施例通过将视频时间戳相同的各待显示图像合成在同一个待显示视频背景图像，得打一个待显示视频背景图像或者是将视频时间戳相同的各待显示图像分别与待显示视频背景图像进行合成，得到多个待显示演唱视频图像，以此可以根据用户的选择来确定出待显示演唱视频中的展示对象，提高用户的体验。

在一个实施例中，所述利用预设的展示对象的数量与显示区域的属性的对应关系，确定与当前展示对象的数量相对应的显示区域的属性之前，所述方法还包括：

接收到用户对视频背景的设置指令后，确定视频背景；

若所述视频背景的类型为图像，则将所述视频背景确定为所述待显示视频背景图像；或，

若所述视频背景的类型为视频，则利用各展示对象的视频时间戳和所述视频背景的时间戳，分别确定出各展示对象视频中的各演唱视频图像所对应的待显示视频背景图像，其中，所述视频时间戳与各目标图像的视频时间戳相同。

本实施例中用户可将视频背景设置为图像或视频，并通过用户设置的视频背景的类型确定出待显示视频背景，由此，本实施例中的视频背景不仅可以图像还可以是视频，以此用户可以有更多的选择性，更能提高用户的个性化配置。

本公开第二方面提供一种服务器，包括存储器和处理器，其中：

所述存储器，被配置为存储预设的展示对象数量与显示区域的属性的对应关系；

所述处理器，被配置为：

在一个实施例中，所述服务器在执行所述针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，具体被配置为：

基于所述中间演唱视频图像，得到所述目标图像。

在一个实施例中，所述处理器在执行所述基于所述中间演唱视频图像，得到所述目标图像，具体被配置为：

所述处理器在执行基于所述显示区域的属性以及各目标图像的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像，具体被配置为：

针对任一展示对象的目标图像中的任一第一目标像素点，基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，其中所述第一目标像素点相对应的第二目标像素点为，所述中间演唱视频图像和所述展示对象对应的显示区域中与所述第一目标像素点位置相同的像素点；

在一个实施例中，所述处理器在执行基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，具体被配置为：

将所述第一目标像素点的像素值设置为所述目标像素值。

在一个实施例中，所述处理器在执行利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，具体被配置为：

在一个实施例中，所述处理器，还被配置为：

利用预设的展示对象的数量与显示区域的属性的对应关系，确定与当前展示对象的数量相对应的显示区域的属性之前，接收到用户对视频背景的设置指令后，确定视频背景；

若所述视频背景的类型为视频，则利用各展示对象的视频时间戳和所述视频背景的时间戳，分别确定出各展示对象视频中的各演唱视频图像所对应的待显示视频背景图像，其中，所述视频时间戳与各目标图像对应的视频时间戳相同。

根据本公开实施例提供的第三方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序用于执行如第一方面所述的方法。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开一个实施例中的适用场景示意图；

图2为根据本公开一个实施例的在线演唱视频的显示方法的流程示意图之一；

图3为根据本公开一个实施例的在线演唱视频的显示方法的流程示意图之二；

图4为根据本公开一个实施例的在线演唱视频的显示方法中确定中间演唱视频图像的示意图；

图5A-5B为根据本公开一个实施例的在线演唱视频的显示方法中的目标图像示意图；

图6为根据本公开一个实施例的在线演唱视频的显示方法的流程示意图之三；

图7A-7B为根据本公开一个实施例的在线演唱视频的显示方法的界面示意图；

图8为根据本公开一个实施例的在线演唱视频的显示方法的终端界面示意图；

图9A-9C为本公开一个实施例的在线演唱视频的显示方法中确定待显示演唱视频图像的流程示意图；

图10A-10C为本公开一个实施例的在线演唱视频的显示方法中确定待播放演唱音频的流程示意图；

图11为根据本公开一个实施例的在线演唱视频的显示方法的流程示意图之四；

图12为根据本公开一个实施例的在线演唱视频的显示方法的流程示意图之五；

图13为根据本公开一个实施例的在线演唱视频的显示方法的流程示意图之六；

图14为根据本公开一个实施例的随机事件的概率触发装置；

图15为根据本公开一个实施例的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

现有技术中，在线演唱能提供实时的一人或多人的在线演唱服务，可实现多人同时演唱同一首歌，不论是一人在线演唱还是多人同时在线演唱同一首歌时，终端设备中显示的视频仅仅是类似视频通话的视频窗口，因此，使得在线演唱视频的显示效果较差，用户体验较差。

因此，本公开提供一种在线演唱视频的显示方法，通过根据展示对象的数量来确定出显示区域的属性，以及根据展示对象的演唱视频图像得到目标图像，并利用显示区域的属性以及目标图像对应的视频时间戳，将各展示对象的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像。由此，本实施例中将展示对象合成在一个虚拟背景中进行显示，并不是仅仅是一个视频通话窗口，以此提高了演唱视频的显示效果，提升用户体验。下面，结合附图对本公开的方案详细的进行介绍。

如图1所示，一种在线演唱视频的显示方法的应用场景，该应用场景中包括终端设备110和服务器120，图1中是以三个终端设备110为例，实际上不限制终端设备110的数量。终端设备110可为手机、电视、平板电脑和个人计算机等。服务器120可以通过单个服务器实现，也可以通过多个服务器实现。服务器120可以通过实体服务器实现，也可以通过虚拟服务器实现。

在一种可能的应用场景中，终端设备110将录制的展示对象的视频实时发送至服务器120，服务器120利用预设的展示对象数量与显示区域的属性的对应关系，确定获取各视频中当前展示对象的总数量相对应的显示区域的属性，所述显示区域的属性包括各展示对象在待显示视频背景图像中所对应的显示区域的大小。然后服务器120针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，所述目标图像包含的前景图像为所述展示对象的轮廓，且所述目标图像大小与所述展示对象的显示区域的大小相同，最后服务器120基于所述显示区域的属性以及各目标图像的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像，并将待显示演唱视频图像发送至终端设备110中进行显示。

由于在进行在线演唱之前，需要先创建一个在线演唱房间，在一个实施例中，如图2所示，为创建在线演唱房间的流程图，可包括以下步骤：

步骤201：接收用户发送的创建房间的指令后，创建在线演唱房间；

步骤202：接收用户发送的演唱模式设置指令后，确定所述在线演唱房间的演唱模式，所述演唱模式包括独唱、对唱以及合唱；

步骤203：接收到用户对视频背景的设置指令后，确定视频背景；

其中，若所述视频背景的类型为图像，则将所述视频背景确定为待显示视频背景图像；或，若所述视频背景的类型为视频，则利用各展示对象的视频时间戳和所述视频背景的时间戳，分别确定出各展示对象视频中的各演唱视频图像所对应的待显示视频背景图像。

例如，若视频背景的类型为视频，展示对象包括展示对象1和展示对象2，展示对象1的视频流中包括5帧演唱视频图像，展示对象2的视频流中也包括5帧演唱视频图像，视频背景对应的视频包括20帧视频图像，利用各展示对象的视频时间戳和视频背景对应的视频的时间戳，从展示对象1中的演唱视频图像、展示对象2的演唱视频图像以及视频背景对应的视频中确定出与各时间戳相对应的三张图像。例如，与时间戳1相对应的三张图像为：展示对象1的第一帧演唱视频图像、展示对象2的第一帧演唱视频图像以及视频背景对应的视频中的第一帧图像，此时视频背景对应的视频中的第一帧图像为展示对象1在对应的第一帧演唱视频图像中所对应的图像和展示对象2在对应的第一帧演唱视频图像中所对应的图像的待显示视频背景图像。

需要说明的是，当视频背景的类型为视频时，即使每一帧演唱视频图像所对应的待显示视频背景图像的内容并不相同，但是由于各待显示视频背景图像的大小是相同的，所以各展示对象在各待显示视频背景图像中所对应的显示区域的属性是相同的。所以，显示区域的属性只需确定以此就行，并不需要重复的进行确定。

步骤204：接收到用户发送展示对象的设置指令后，确定展示对象。

确定展示对象后，房间创建结束。在演唱的过程中，创建房间的用户可以对演唱歌曲、演唱模式、视频背景等进行管理。其中，每首歌曲开始之前，可由创建房间的用户邀请房间内其他用户作为展示对象进行演唱或者房间内其他用户向创建房间的用户申请作为展示对象进行演唱，最后由创建房间的用户申请确定展示对象。

如图3所示，为本公开的在线演唱视频的显示方法的流程示意图，可包括以下步骤：

步骤301：利用预设的展示对象数量与显示区域的属性的对应关系，确定当前展示对象的数量相对应的显示区域的属性，所述显示区域的属性包括各展示对象在待显示视频背景图像中所对应的显示区域的大小；

步骤302：针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，所述目标图像包含的前景图像为所述展示对象的轮廓，且所述目标图像大小与所述展示对象的显示区域的大小相同；

在一个实施例中，步骤302可具体实施为：按照所述展示对象在待显示视频背景图像中对应的显示区域的大小，以所述演唱视频图像中的所述展示对象为中心，对所述演唱视频图像进行裁剪，得到中间演唱视频图像；基于所述中间演唱视频图像，得到所述目标图像。

例如，如图4所示，例如展示对象1在待显示视频背景图像中对应的显示区域的大小为待显示视频背景图像中的灰色的区域a，则可按照灰色区域a的大小，且以演唱视频图像中展示对象为中心，对演唱视频图像进行裁剪，得到中间演唱视频图像，即图4中演唱视频图像中被虚线所包围的区域b，本实施例中区域b的大小与区域a的大小相同。

在一个实施例中，可通过以下两种方式得到所述目标图像：

方式一：对所述中间演唱视频图像进行图像分割处理，得到所述目标图像。

其中，对中间演唱视频图像进行图像分割处理，得到两张图像，一张为人像图，另一张为阿尔法alpha图。本实施例中的目标图像为阿尔法图。如图5A中的两张图像分别为与展示对象1和展示对象2对应的人像图，图5B中的两张图像分别为与展示对象1和展示对象2对应的阿尔法alpha图。

其中，alpha图中各像素点的像素值的取值范围是0～1。像素值为1的像素点为前景像素点，像素值为0的像素点是背景像素点，像素值在0～1之间的像素点表示该像素点是前背景色的比例。

需要说明的是：本实施例中所使用的图像分割算法本公开在此并不进行限定，只要能够得到目标图像即可。

方式二：利用预设的图像格式转换算法，对所述中间演唱视频图像的图像格式进行转换，并对转换后的中间演唱视频图像中的各像素点进行二值化处理，得到所述目标图像。

其中，进行二值化处理的具体过程包括：针对转换后的中间演唱视频图像中的任一像素点，若所述像素点的像素值不小于预设阈值，则将所述像素点的像素值设置为第一指定像素值；以及，若所述像素点的像素值小于所述预设阈值，则将所述像素点的像素值设置为第二指定像素值。

例如，预设阈值为A，则针对转化后的演唱视频图像中的任一像素点，若所述像素点的像素值不小于A，则将该像素点的像素值设置为1。若该像素点的像素值小于A，则将该像素点的像素值设置为0，得到的图像也为图5B中的各展示对象对应的alpha图像。

其中，本实施例中的图像格式转换是将RGB格式的图像转换为HSV格式的图像。具体的转换方法本实施例在此并不进行限定。

步骤303：基于所述显示区域的属性以及各目标图像的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像。

在一个实施例中，所述显示区域的属性还包括各展示对象在待显示视频背景图像中所对应的显示区域的位置，如图6所示，为确定待显示演唱视频图像的具体方法的流程示意图，可包括以下步骤：

步骤601：利用所述显示区域的属性，确定各展示对象在所述待显示视频背景图像中的显示区域；

其中，由于显示区域的属性包括各展示对象在待显示视频背景图像中对象的显示区域的位置和大小，由此，可通过显示区域的属性确定出各展示对象在所述待显示视频背景图像中的显示区域。

步骤602：针对任一展示对象的目标图像中的任一第一目标像素点，基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，其中所述第一目标像素点相对应的第二目标像素点为，所述中间演唱视频图像和所述展示对象对应的显示区域中与所述第一目标像素点位置相同的像素点；

在一个实施例中，可通过以下方式确定所述待显示图像：

利用所述第一目标像素点的像素值，以及位于所述中间演唱视频图像中，且与所述第一目标像素点的像素值相对应的第二目标像素点的像素值，得到第一中间像素值；以及，基于所述第一目标像素点的像素值，得到第二中间像素值，并通过所述第二中间像素值，以及位于所述展示对象对应的显示区域中，且与所述第一目标像素点相对应的第二目标像素点的像素值，得到第三中间像素值；根据所述第一中间像素值和所述第三中间像素值，得到所述第一目标像素点的目标像素值；并，将所述第一目标像素点的像素值设置为所述目标像素值。

具体的，可将第一目标像素点的像素值，以及位于所述中间演唱视频图像中，且与所述第一目标像素点的像素值相对应的第二目标像素点的像素值相乘，得到所述第一中间像素值；以及，将预设阈值与第一目标像素点的像素值相减，得到第二中间像素值。并将所述第二中间像素值，以及位于所述展示对象对应的显示区域中，且与所述第一目标像素点相对应的第二目标像素点的像素值相乘，得到第三中间像素值；然后将所述第一中间像素值和所述第三中间像素值相加，得到所述第一目标像素点的目标像素值。

其中，可通过公式(1)确定出所述第一目标像素点的目标像素值：

C_ij＝B_ij*(1-M_ij)+A_ij*M_ij……(1)；

其中，C_ij为目标像素值，B_ij为位于所述展示对象对应的显示区域中，且与所述第一目标像素点相对应的第二目标像素点的像素值，M_ij为第一目标像素点的像素值，A_ij为位于所述中间演唱视频图像中，且与所述第一目标像素点的像素值相对应的第二目标像素点的像素值，其中，i,j表示所述各像素点的位置，其中，i∈[0，1]，且j∈[0,1]。

步骤603：利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，其中各展示对象对应的待显示图像的视频时间戳与各展示对象对应的目标图像的视频时间戳相同。

在一个实施例中，可通过以下两种方式得到所述待显示演唱视频图像：

方式一：针对视频时间戳相同的各待显示图像，将所述各待显示图像设置在所述待显示视频背景图像中，与各展示对象相对应的显示区域的位置处，得到所述待显示演唱视频图像；

其中，通过方式一是将各展示对象均合成在一个待显示视频背景图像中。

例如，如图7A所示，使用方式一中的方法将图5B中的各目标图像与待显示视频背景进行合成，得到一个待显示演唱视频图像，即图7A中的待显示演唱视频图像。

其中，在得到待显示演唱视频图像之后，可利用视频时间戳与歌词时间戳，确定出与所述待显示演唱视频图像所对应的歌词，并在所述待显示演唱视频图像中的指定位置处进行显示。如图7B所示的界面示意图，其中包括主界面和歌词栏，主界面中显示待显示演唱视频图像，歌词栏中显示与待显示演唱视频图像对应的歌词。其中，界面中还可包括状态栏。其中状态栏可显示当前歌曲等信息，具体的实施方式本公开在此并不进行限定。

方式二：针对视频时间戳相同的各待显示图像，利用各展示对象在待显示视频背景图像中相对应的显示区域的位置，将所述各待显示图像分别与所述待显示视频背景图像进行合成，得到多个待显示演唱视频图像，其中，所述各待显示演唱视频图像中包括至少一个待显示图像，且同一待显示演唱视频图像中的各待显示图像的视频时间戳相同以及不同待显示演唱视频图像中的各待显示图像视频时间戳相同。

其中，通过方式二中的方式得到的待显示演唱视频只包括部分展示对象，如图8所示，每个用户可提前在终端设备中设置待显示演唱视频图像中包括的展示对象(一个或多个)。最终合成的效果和图7A中的效果相同，只不过可能展示对象以及展示对象的数量并不相同。

需要说明的是，本实施例中合成后的待显示演唱视频的视频流数量可以包括单流视频、双流视频和多流视频等。其中：

(1)单流视频：可通过本实施例中的方式一得到。如图9A中所示，是将各展示对象的终端设备发送的演唱视频(包括各演唱视频图像)以及视频背景图片或视频(MV(MusicVideo，音乐短片)或其他视频)等合成一条视频分别发送各展示对象对应的终端设备。此方式的优点是对网络带宽要求小。但是此方式用户无法自主选择播放的视频流。

(2)双流视频：也可通过本实施例中的方式一得到，如图9B所示，双流视频是将MV视频作为一条视频流单独输出，然后将展示对象的视频以及场景图片或视频(不包含MV视频)合成一条视频分别发送各展示对象的终端设备。此方式的优点是对网络带宽要求较小，且用户可以自主选择是否播放MV视频。缺点是用户无法自主选择播放的视频中所包含的展示对象。

(3)多流视频：可通过本实施例中的方式二得到。如图9C所示，多流视频可将每个用户所选择的展示对象所对应的演唱视频分别与场景图片或视频(包含MV视频)进行合成，得到多个视频。然后将得到的视频分别发送至对应的用户的终端设备。

其中，多流视频的合成方法和单流视频的是相同，只不过是单流视频是将各展示对象合唱在一个视频背景中，得到一个视频，而多流视频是得到多个视频，每个视频中包含至少一个展示对象。例如，用户1选择用户1和用户2作为自己所对应的待显示演唱视频的展示对象，则可将用户1和用户2各自所对应的视频与场景图片或视频进行合成，得到待显示演唱视频，并将该待显示演唱视频发送给用户2的终端设备。若用户只想看到自己的待显示演唱视频，则选择自己待显示演唱视频即可，则可看到合成的视频中只包含自己。此方式的优点是支持用户自主选择播放的视频流，缺点是对网络带宽要求较大，对用户终端性能要求较高。

在一个实施例中，在执行步骤301的同时，利用各展示对象的演唱音频、演唱音频时间戳、背景音频和背景音频时间戳，得到待播放演唱音频。

在一个实施例中，可具体通过以下方式确定出所述待播放演唱音频：

方式一：利用所述各展示对象的演唱音频时间戳和背景音频时间戳，将各展示对象的演唱音频和背景音频中时间戳相同的各音频信号进行合成，得到所述待播放演唱音频；

方式一中的方案是将各展示对象的演唱音频和背景音频合成一个待播放演唱音频。

方式二：利用所述各展示对象的演唱音频时间戳和背景音频时间戳，将各展示对象的演唱音频和背景音频中时间戳相同的各音频信号进行合成，得到多个待播放演唱音频，其中待播放演唱音频中包括至少一个展示对象的音频。

方式二中的待播放演唱音频包括至少一个展示对象的音频，用户可自己进行设置。

其中，本实施例中的待播放演唱音频中音轨的数量可包括：单音轨、双音轨、多音轨。其中：

(1)单音频：可通过前文所述的方式一来确定。如图10A所示，单音轨是将各展示对象的演唱音频以及背景视频(歌曲伴奏和/或歌曲原声)进行合成一条音频，然后发送给各展示对象所对应的终端设备中。

(2)双音轨：也可通过前文所述的方式一来确定。如图10B所示，双音轨是将歌曲原声作为一条音轨单独输出，将用各展示对象的演唱音频以及背景视频(歌曲伴奏)进行合成一条音频进行输出。

(3)多音轨：可通过方式二中来确定。如图10C所示，多音轨是将各用户所选择的展示对象(与该用户对应的待显示演唱视频图像中的展示对象相同)的音频分别与背景音频(歌曲伴奏和/或歌曲原声)进行合成，得到多个待播放演唱音频。

需要说明的是：用户可以在用户终端设备中自由设置是否播放MV视频以及是否播放原声。其中，本方案中两个音轨可以同时播放，但两条视频流只能播放其中一个。即歌曲原声可以和融合后的待播放音频同时播放，但是如果播放MV视频，则不能播放待显示演唱视频。

在得到待显示演唱视频图像和待播放演唱音频之后，如图11所示，将待显示演唱视频图像和待播放演唱音频发送至用户终端设备中，以使用户终端设备利用音频时间戳和视频时间戳，分别通过喇叭播放所述待播放演唱音频以及通过显示屏幕显示所述待显示演唱视频图像。

下面以双视频、双音轨为例，对公开的整体流程进行详细的说明，如图12所示，可包括以下步骤：

用户终端设备通过麦克风获取到演唱音频以及通过摄像头获取到演唱视频，将演唱音频、音频时间戳、演唱视频、视频时间戳发送给服务器，服务器利用视频时间戳，将各演唱视频图像与待显示视频背景图像进行合成，得到待显示演唱视频。同时，服务器利用音频时间戳，将各演唱音频与背景音频进行合成，得到待播放演唱音频。然后将歌曲原声、歌曲原声时间戳、MV视频、MV视频时间戳、歌词、歌词时间戳、待显示演唱视频、视频时间戳、待播放演唱音频和音频时间戳发送至终端设备中，当用户选择播放MV视频时，终端设备则在屏幕中显示MV视频以及对应的歌词。当用户选择不播放MV视频时，终端设备则在屏幕中显示待播放演唱视频以及对应的歌词。以及当用户选择播放歌曲原声时，终端设备则将歌曲原声以及待播放演唱音频进行播放。当用户选择不播放歌曲原声时，终端设备则将待播放演唱音频进行播放。

为了进一步的了解本公开中在线演唱视频的显示方法的技术方案，下面结合图13进行详细的说明，可包括以下步骤：

步骤1301：利用预设的展示对象数量与显示区域的属性的对应关系，确定当前展示对象的数量相对应的显示区域的属性，所述显示区域的属性包括各展示对象在待显示视频背景图像中所对应的显示区域的位置和大小；

步骤1302：针对任一展示对象的任一演唱视频图像，按照所述展示对象在待显示视频背景图像中对应的显示区域的大小，以所述演唱视频图像中的所述展示对象为中心，对所述演唱视频图像进行裁剪，得到中间演唱视频图像；

步骤1303：对所述中间演唱视频图像进行图像分割处理，得到所述目标图像；

步骤1304：利用所述显示区域的属性，确定各展示对象在所述待显示视频背景图像中的显示区域；

步骤1305：针对任一展示对象的目标图像中的任一第一目标像素点，基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，其中所述第一目标像素点相对应的第二目标像素点为，所述中间演唱视频图像和所述展示对象对应的显示区域中与所述第一目标像素点位置相同的像素点；

步骤1306：利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，其中各展示对象对应的待显示图像的视频时间戳与各展示对象对应的目标图像的视频时间戳相同。

图14为根据本公开一个实施例的在线演唱视频的显示装置的结构示意图。

如图14所示，本公开的在线演唱视频的显示装置500可以包括显示属性确定模块1410、目标图像确定模块1420和合成模块1430。

显示属性确定模块1410，用于利用预设的展示对象数量与显示区域的属性的对应关系，确定当前展示对象的数量相对应的显示区域的属性，所述显示区域的属性包括各展示对象在待显示视频背景图像中所对应的显示区域的大小；

目标图像确定模块1420，用于针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，所述目标图像包含的前景图像为所述展示对象的轮廓，且所述目标图像大小与所述展示对象的显示区域的大小相同；

合成模块1430用于基于所述显示区域的属性以及各目标图像的视频时间戳，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像。

在一个实施例中，所述目标图像确定模块1420，具体包括：

裁剪单元1421，用于按照所述展示对象在待显示视频背景图像中对应的显示区域的大小，以所述演唱视频图像中的所述展示对象为中心，对所述演唱视频图像进行裁剪，得到中间演唱视频图像；

目标图像确定单元1422，用于基于所述中间演唱视频图像，得到所述目标图像。

在一个实施例中，所述目标图像确定单元1422，具体用于：

在一个实施例中，所述显示区域的属性还包括各展示对象在待显示视频背景图像中所对应的显示区域的位置；所述合成模块1430，具体包括：

显示区域确定单元1431，用于利用所述显示区域的属性，确定各展示对象在所述待显示视频背景图像中的显示区域；

待显示图像确定单元1432，具体用于针对任一展示对象的目标图像中的任一第一目标像素点，基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，其中所述第一目标像素点相对应的第二目标像素点为，所述中间演唱视频图像和所述展示对象对应的显示区域中与所述第一目标像素点位置相同的像素点；

待显示演唱视频图像确定单元1433，用于利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，其中各展示对象对应的待显示图像的视频时间戳与各展示对象对应的目标图像的视频时间戳相同。

在一个实施例中，所述待显示图像确定单元1432，具体用于：

将所述第一目标像素点的像素值设置为所述目标像素值。

在一个实施例中，所述待显示演唱视频图像确定单元1433，具体用于：

在一个实施例中，所述装置还包括：

视频背景确定模块1440，用于所述利用预设的展示对象的数量与显示区域的属性的对应关系，确定与当前展示对象的数量相对应的显示区域的属性之前，接收到用户对视频背景的设置指令后，确定视频背景；

第一待显示视频背景图像模块1450，用于若所述视频背景的类型为图像，则将所述视频背景确定为所述待显示视频背景图像；

第二待显示视频背景图像模块1460，用于若所述视频背景的类型为视频，则利用各展示对象的视频时间戳和所述视频背景的时间戳，分别确定出各展示对象视频中的各演唱视频图像所对应的待显示视频背景图像，其中，所述视频时间戳与各目标图像的视频时间戳相同。

在介绍了本公开示例性实施方式的一在线演唱视频的显示方法之后，接下来，介绍根据本公开的另一示例性实施方式的服务器。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的服务器可以至少包括至少一个处理器、以及至少一个计算机存储介质。其中，计算机存储介质存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的在线演唱视频的显示方法中的步骤。例如，处理器可以执行如图3中所示的步骤301-303。

下面参照图15来描述根据本公开的这种实施方式的服务器1500。图15显示的服务器1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图15所示，服务器1500以通用服务器的形式表现。服务器1500的组件可以包括但不限于：上述至少一个处理器1501、上述至少一个计算机存储介质1502、连接不同系统组件(包括计算机存储介质1502和处理器1501)的总线1503。

总线1503表示几类总线结构中的一种或多种，包括计算机存储介质总线或者计算机存储介质控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

计算机存储介质1502可以包括易失性计算机存储介质形式的可读介质，例如随机存取计算机存储介质(RAM)1521和/或高速缓存存储介质1522，还可以进一步包括只读计算机存储介质(ROM)1523。

计算机存储介质1502还可以包括具有一组(至少一个)程序模块1524的程序/实用工具1525，这样的程序模块1524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

服务器1500也可以与一个或多个外部设备1504(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与服务器1500交互的设备通信，和/或与使得该服务器1500能与一个或多个其它服务器进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1505进行。并且，服务器1500还可以通过网络适配器1506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1506通过总线1503与用于服务器1500的其它模块通信。应当理解，尽管图中未示出，可以结合服务器1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本公开提供的一种在线演唱视频的显示方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的在线演唱视频的显示方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取计算机存储介质(RAM)、只读计算机存储介质(ROM)、可擦式可编程只读计算机存储介质(EPROM或闪存)、光纤、便携式紧凑盘只读计算机存储介质(CD-ROM)、光计算机存储介质件、磁计算机存储介质件、或者上述的任意合适的组合。

本公开的实施方式的在线演唱视频的显示的程序产品可以采用便携式紧凑盘只读计算机存储介质(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘计算机存储介质、CD-ROM、光学计算机存储介质等)上实施的计算机程序产品的形式。

本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读计算机存储介质中，使得存储在该计算机可读计算机存储介质中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种在线演唱视频的显示方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，包括：

基于所述中间演唱视频图像，得到所述目标图像。

3.根据权利要求2所述的方法，其特征在于，所述基于所述中间演唱视频图像，得到所述目标图像，包括：

4.根据权利要求2所述的方法，其特征在于，所述显示区域的属性还包括各展示对象在待显示视频背景图像中所对应的显示区域的位置；

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一目标像素点的像素值以及与所述第一目标像素点相对应的第二目标像素点的像素值，得到所述展示对象的待显示图像，包括：

将所述第一目标像素点的像素值设置为所述目标像素值。

6.根据权利要求4所述的方法，其特征在于，所述利用各展示对象在待显示视频背景图像中相对应的显示区域的位置、各待显示图像的视频时间戳以及各展示对象的待显示图像，得到所述待显示演唱视频图像，包括：

7.根据权利要求1～6任一所述的方法，其特征在于，所述利用预设的展示对象的数量与显示区域的属性的对应关系，确定与当前展示对象的数量相对应的显示区域的属性之前，所述方法还包括：

接收到用户对视频背景的设置指令后，确定视频背景；

8.一种服务器，其特征在于，包括存储器和处理器，其中：

所述处理器，被配置为：

9.根据权利要求8所述的服务器，其特征在于，所述服务器在执行所述针对任一展示对象的任一演唱视频图像，基于所述演唱视频图像得到目标图像，具体被配置为：

基于所述中间演唱视频图像，得到所述目标图像。

10.根据权利要求9所述的服务器，其特征在于，所述显示区域的属性还包括各展示对象在待显示视频背景图像中所对应的显示区域的位置；

所述处理器在执行基于所述显示区域的属性，将各展示对象分别对应的目标图像与待显示视频背景图像进行合成，得到待显示演唱视频图像，具体被配置为：