CN113315987A

CN113315987A - 视频直播方法和视频直播装置

Info

Publication number: CN113315987A
Application number: CN202110584596.4A
Authority: CN
Inventors: 田园; 李鑫
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-27
Also published as: WO2022247293A1

Abstract

本公开提供一种视频直播方法和视频直播装置。所述视频直播方法可由第一设备执行，所述视频直播方法可包括以下步骤：获取由第一设备采集的第一直播数据，其中，第一直播数据包括由第一设备采集的第一直播视频中的第一感兴趣区域和第一背景中的至少一个；获取由第二设备采集的第二直播数据，其中，第二直播数据包括由第二设备采集的第二直播视频中的第二感兴趣区域和第二背景中的至少一个；基于第一直播数据和第二直播数据来生成目标直播视频；发送所述目标直播视频。

Description

视频直播方法和视频直播装置

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频直播方法和视频直播装置。

背景技术

近来，随着互联网技术的迅猛发展，视频直播业务已成为当今潮流。在直播过程中，主播可通过直播软件进行视频直播，并且主播之间也可实现在线互动。然而，目前的直播互动方式较为单一。

发明内容

本公开提供一种视频直播方法和视频直播装置，以至少解决上述提及的问题。

根据本公开实施例的第一方面，提供一种视频直播方法，所述视频直播方法可包括：获取由第一设备采集的第一直播数据，其中，第一直播数据包括由第一设备采集的第一直播视频中的第一感兴趣区域和第一背景中的至少一个；获取由第二设备采集的第二直播数据，其中，第二直播数据包括由第二设备采集的第二直播视频中的第二感兴趣区域和第二背景中的至少一个；基于第一直播数据和第二直播数据来生成目标直播视频；发送所述目标直播视频。

可选地，感兴趣区域可以是通过对第一直播视频和/或第二直播视频中的每一帧进行目标区域提取而获得的。

可选地，感兴趣区域可以是人像区域。

可选地，基于第一直播数据和第二直播数据来生成目标直播视频的步骤可包括：将第一背景与第二背景进行融合来生成融合背景作为所述目标直播视频中的背景；在所述融合背景中显示第一感兴趣区域和第二感兴趣区域。

可选地，基于第一直播数据和第二直播数据来生成目标直播视频的步骤可包括：选择第一背景或第二背景作为所述目标直播视频中的背景，并且在选择的背景中显示第一感兴趣区域和第二感兴趣区域。

可选地，第一感兴趣区域和/或第二感兴趣区域可基于用户输入在所述目标直播视频中改变位置或尺寸。

根据本公开实施例的第二方面，提供一种视频直播装置，所述视频直播装置可包括：获取模块，被配置为：获取由第一设备采集的第一直播数据和由第二设备采集的第二直播数据，其中，第一直播数据包括由第一设备采集的第一直播视频中的第一感兴趣区域和第一背景中的至少一个，并且第二直播数据包括由第二设备采集的第二直播视频中的第二感兴趣区域和第二背景中的至少一个；处理模块，被配置为基于第一直播数据和第二直播数据来生成目标直播视频；以及发送模块，被配置为发送所述目标直播视频。

可选地，感兴趣区域可以是人像区域。

可选地，处理模块可被配置为：将第一背景与第二背景进行融合来生成融合背景作为所述目标直播视频中的背景；在所述融合背景中显示第一感兴趣区域和第二感兴趣区域。

可选地，处理模块可被配置为：选择第一背景和/或第二背景作为所述目标直播视频中的背景，并且在选择的背景中显示第一感兴趣区域和第二感兴趣区域。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频直播方法。

根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频直播方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的视频直播方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开可将不同直播视频中的感兴趣区域和/或背景进行融合，增强了直播的交互性并且丰富了直播场景，从而提高了用户直播体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的实施例的用于直播交互的应用环境的示图；

图2是根据本公开的实施例的视频直播方法的流程图；

图3至图5是根据本公开的实施例的直播画面的示意图；

图6是根据本公开的实施例的视频直播设备的结构示意图；

图7是根据本公开的实施例的视频直播装置的框图；

图8是根据本公开的实施例的电子设备的框图；

图9是根据本公开的实施例的视频直播方法的流程图；

图10是根据本公开的实施例的视频直播交互的流程示意图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法和装置进行详细描述。

图1是根据本公开的实施例的用于直播交互的应用环境的示图。

参照图1，该应用环境100包括终端110、终端120和服务器130。

终端110可以是用户所在终端，例如，主播进行直播时所使用的终端。终端110可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。终端110可安装有目标应用，用于诸如从外部设备接收数据和向外部设备发送数据、对采集的视频进行抠图处理等。

终端120可以是用户所在终端，例如，主播进行直播时所使用的终端。终端120可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。终端120可安装有目标应用，用于诸如从外部设备接收数据和向外部设备发送数据、对采集的视频进行抠图处理等。虽然本实施例仅示出一个终端120进行说明，但是本领域技术人员可知晓，终端120的数量可以为一个或两个以上。本公开实施例不对终端120的数量和设备类型进行任何限定。

终端110可通过无线网络与终端120连接，使得终端110与终端120之间可进行数据交互。例如，网络可包含蓝牙、局域网(LAN)、广域网(WAN)、无线链路、内联网、互联网或其组合等。

在图1中，以终端110作为示例，终端110可从终端120接收直播数据，并且将终端110的直播数据与终端120的直播数据进行融合。在本公开中，终端110接收的直播数据可以是例如由终端120采集的视频中的感兴趣区域(诸如人像区域)。下面将参照图2详细描述关于这方面的实施例。作为另一示例，终端120可从终端110接收直播数据，并且将终端120的直播数据与终端110的直播数据进行融合。作为又一示例，终端110和终端120可将各自拍摄的直播数据发送到服务器130，服务器130可将对接收到的直播数据进行融合。下面将参照图9详细描述关于这方面的实施例。

终端110可通过无线网络与服务器130连接，使得终端110与服务器130之间可进行数据交互。例如，网络可包含局域网(LAN)、广域网(WAN)、无线链路、内联网、互联网或其组合等。此外，终端110也可通过有线网络与服务器130连接，以进行数据交互。

服务器130可以是用于对接收到的数据进行解析处理的服务器。服务器130可从终端110接收直播数据，将接收的直播数据推流给终端110的观众端。例如，主播利用终端110采集直播数据，并且经由网络接收终端120实时采集的直播数据中的感兴趣区域数据，终端110可将自身采集的数据和从终端120接收的数据进行融合，最终将融合数据经由网络发送至服务器130。服务器130可将接收的融合数据转发给终端110的观众端。这样，观众端可同时观看来自终端110和终端120的直播内容。

假设用户1使用终端110进行直播并且用户2使用终端120进行直播，终端110可接收由终端120传输的直播数据。在终端120向终端110传输直播数据之前，终端120可首先对采集的视频画面进行抠图处理，使得画面中的感兴趣区域(诸如用户2的人像)与背景分离，然后将分离出的感兴趣区域数据传输给终端110。在终端110接收到来自终端120的感兴趣区域数据后，终端110可将自身采集的视频与接收的数据进行合流，以将来自终端120的感兴趣区域显示在由终端110采集的视频中，诸如在终端110中可同时显示用户1的人像和用户2的人像、或者由用户2使用终端120拍摄的画面中的其他感兴趣区域。最后终端110可通过抽象的接口层返回给上层，上层把相关的数据进行推流即可。然而，上述示例仅是示例性的，本公开不限于此。

图2是根据本公开的实施例的视频直播方法的流程图。图2的视频直播方法可由第一设备(诸如终端110)执行。在执行图2的视频直播方法前，可首先将第一设备与外部设备(诸如第二设备或者终端120)进行通信连接以实现数据交互。

在步骤S201，获取由第一设备采集的第一直播视频。例如，用户1可利用第一设备进行直播以获得第一直播视频。

在步骤S202，接收由第二设备发送的第二直播数据，其中，第二直播数据包括由第二设备采集的第二直播视频中的感兴趣区域。感兴趣区域可通过对第二直播视频中的每一帧进行目标区域提取而获得的。例如，感兴趣区域可以是人像区域或者人像的某个部位区域。

第二设备在向第一设备发送数据前，可首先对自身采集的第二直播视频进行目标区域提取，如抠图处理，以将第二直播视频中的感兴趣区域和背景分离。之后，第二设备可向第一设备发送感兴趣区域数据。例如，用户2使用第二设备进行直播以获得第二直播视频，第二设备对第二直播视频进行抠图处理，以将人像区域和背景区域分离开，然后将分离出的人像区域发送给第一设备。第二设备可利用基于三元图(Trimap)的方法对第二直播视频进行抠图处理，或者可利用神经网络来实现对第二直播视频中的感兴趣区域和背景的分离。第二设备可将提取的感兴趣区域数据进行编码，然后发送给第一设备。

作为另一示例，第二设备可对自身采集的第二直播视频中的每个视频帧进行图像分割处理，以提取出感兴趣区域和背景区域。例如，可利用深度学习技术来实现图像分割处理。第二设备然后将感兴趣区域发送给第一设备。

在步骤S203，基于第一直播视频和第二直播数据来生成目标直播视频。电子设备在接收到第二设备的数据后，可对该数据进行解析。在第二直播数据仅包括第二直播视频中的感兴趣区域数据时，第一设备可将由第二直播数据形成的图像显示在第一直播视频的预定位置处，使得第一设备可在显示第一直播视频的同时显示来自第二设备的至少部分视频数据。例如，第一设备可接收由第二设备采集的第二直播视频中的人像(诸如主播人像)，然后将接收到的人像叠加在第一直播视频上以生成目标直播视频，这样，在目标直播视频中可同时显示第一直播视频中的人像和第二直播视频中的人像，犹如两个主播在同一背景下进行交流互动。

参照图3至图5，图3示出了用户1使用第一设备采集的直播画面，图4示出了用户2使用第二设备采集的直播画面，第二设备可对自身采集的直播画面进行抠图处理，例如，将该直播画面中的小狗作为感兴趣区域与背景分离，然后将与小狗相关的直播数据发送给第一设备。第一设备在接收到相关数据后，将由接收的数据形成的图像显示在第一设备采集的直播画面中，如图5所示。

根据本公开的实施例，在第一设备中显示的目标直播视频中的背景可根据用户选择任意改变。例如，可将不同直播视频中的背景进行融合来获得融合背景，或者可将另一视频中的背景替换为目标直播视频中的背景，或者可由用户选择期望的背景作为目标直播视频中的背景。

作为示例，在第一设备接收第二直播视频中的感兴趣区域和第二背景的情况下，第一设备可通过对第一直播视频中的每一帧进行目标区域提取来获得第一直播视频中的另一感兴趣区域和第一背景，然后将第一背景与第二背景进行融合来生成融合背景作为目标直播视频中的背景。例如，第一设备可利用神经网络模型对图3的直播画面进行图像分割处理以获得相应的感兴趣区域和背景，然后将图3的背景与图4的背景进行融合以获得融合背景，然后在融合背景下显示图3中的鸽子和图4中的小狗。

作为另一示例，在第二直播数据包括第二直播视频中的感兴趣区域和第二背景的情况下，第一设备可通过对第一直播视频中的每一帧进行目标区域提取来获得第一直播视频中的另一感兴趣区域，使用第二背景作为目标直播视频中的背景，并且在该背景中显示另一感兴趣区域和感兴趣区域。例如，第一设备可将图4所示的背景替换到图3的直播画面中，即第一设备显示图3的鸽子、图4的背景和小狗。可选地，用户可选择另外的背景作为目标直播视频中的背景，然后将选择的背景与图3中的鸽子和图4中的小狗进行整合以生成目标直播视频。

此外，在显示目标直播视频的过程中，第一设备可根据用户输入来改变目标直播视频中的感兴趣区域的尺寸或位置。例如，参照图5，用户可移动与小狗相应的感兴区域，如向上移动、向左移动，以改变该区域的位置。或者，用户可移动与人相应的感兴趣区域，以改变该区域的位置。此外，用户可通过拉伸感兴趣区域来改变该区域的尺寸。例如，用户可经由第一设备的触摸屏来放大或缩小与小狗相应的感兴趣区域，或者放大或缩小与人物相应的感兴趣区域。

在步骤S204，发送目标直播视频。第一设备可将生成的目标直播视频发送至服务器，使得目标直播视频可经由服务器转发给第一设备的观众端。这样，观众端可同时观看多个电子设备采集的数据。

根据本公开的实施例，可显示多个设备直播的内容，极大地丰富了直播的场景，增强了直播的互动性。

图9是根据本公开的实施例的视频直播方法的流程图。图9的视频直播方法可由终端或者服务器执行。

参照图9，在步骤S901，获取由第一设备采集的第一直播数据，其中，第一直播数据可包括由第一设备采集的第一直播视频中的第一感兴趣区域和第一背景中的至少一个。这里，第一感兴趣区域可以是人像区域。例如，第一设备可通过对第一直播视频的每一帧进行抠图处理来获得第一感兴趣区域和第一背景。可选地，第一设备可将第一直播视频发送到服务器，由服务器通过对第一直播视频进行抠图处理来获得第一感兴趣区域和第一背景。

在步骤S902，获取由第二设备采集的第二直播数据，其中，第二直播数据包括由第二设备采集的第二直播视频中的第二感兴趣区域和第二背景中的至少一个。这里，第二感兴趣区域可以是人像区域。例如，第二设备可通过对第二直播视频的每一帧进行抠图处理来获得第二感兴趣区域和第二背景。可选地，第二设备可将第二直播视频发送到服务器，由服务器通过对第二直播视频进行抠图处理来获得第二感兴趣区域和第二背景。

在步骤S903，基于第一直播数据和第二直播数据来生成目标直播视频。作为示例，可将第一背景与第二背景进行融合来生成融合背景作为目标直播视频中的背景，并且在融合背景中显示第一感兴趣区域和第二感兴趣区域。作为另一示例，可选择第一背景或第二背景作为目标直播视频中的背景，并且在选择的背景中显示第一感兴趣区域和第二感兴趣区域。

当由服务器执行上述步骤S901至S903时，服务器可对第一直播视频和第二直播视频进行抠图处理，并且执行融合处理。可选地，第一设备和第二设备对自身采集的直播视频进行抠图处理，然后服务器可从第一设备和第二设备接收第一感兴趣区域和/或第一背景以及第二感兴趣区域和/或第二背景，并且对接收到的视频数据进行融合处理。

在步骤S904，发送目标直播视频。

此外，在显示目标直播视频的过程中，第一设备和/或第二设备可根据用户输入来改变目标直播视频中的感兴趣区域的尺寸或位置。

通过上述处理，可将不同直播视频中的感兴趣区域和/或背景进行融合，增强了直播的交互性并且丰富了直播场景，从而提高了用户直播体验。

图10是根据本公开的实施例的视频直播交互的流程示意图。

参照图10，主播A可经由第一设备拍摄直播视频，第一设备可对拍摄的视频进行视频处理，例如，对视频进行美颜处理、滤镜处理或抠图处理(诸如将背景与人像区域分离)等，然后第一设备可将视频处理后的数据进行压缩编码，然后将编码数据发送到服务器，诸如MCU流媒体服务器。

主播B可经由第二设备拍摄拍摄直播视频，第二设备可对拍摄的视频进行视频处理，例如，对视频进行美颜处理、滤镜处理或抠图处理(诸如将背景与人像区域分离)等，然后第二设备可将视频处理后的数据进行压缩编码，然后将编码数据发送到流媒体服务器。

流媒体服务器可对接收到的视频数据进行融合处理。例如。流媒体服务器可将主播A拍摄的背景与主播B拍摄背景进行融合，然后将主播A的人像和主播B的人像显示在融合后的背景上，以生成目标视频，然后将目标视频分别发送给主播A所在的第一设备和主播B所在的第二设备。

作为另一示例，流媒体服务器可针对不同的设备生成不同的目标视频。例如，针对主播A所在的第一设备，流媒体服务器可将主播A的人像和主播B的人像显示在主播A拍摄的背景中，以生成针对主播A的目标视频数据。针对主播B所在第二设备，流媒体服务器可将主播A的人像和主播B的人像显示在主播B拍摄的背景中，以生成针对主播B的目标视频数据。然而，上述示例仅是示例性的，可根据用户选择来生成不同的目标视频。

接下来，主播A所在的第一设备和主播B所在的第二设备分别将对接收的目标视频进行视频压缩编码，并且进行封装推流至CDN分发网络。

主播A端的观众和主播B端的观众可分别经由CND分发网络获得相应的目标视频。

图6是本公开实施例的硬件运行环境的视频直播设备的结构示意图。

如图6所示，视频直播设备600可包括：处理组件601、通信总线602、网络接口603、输入输出接口604、存储器605以及电源组件606。其中，通信总线602用于实现这些组件之间的连接通信。输入输出接口604可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口604还可包括标准的有线接口、无线接口。网络接口603可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器605可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器605可选的还可以是独立于前述处理组件601的存储装置。

本领域技术人员可以理解，图6中示出的结构并不构成对视频直播设备600的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图6所示，作为一种存储介质的存储器605中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、视频直播程序以及数据库。

在图6所示的视频直播设备600中，网络接口603主要用于与外部电子设备/终端进行数据通信；输入输出接口604主要用于与用户进行数据交互；视频直播设备600中的处理组件601、存储器605可被设置在视频直播设备600中，视频直播设备600通过处理组件601调用存储器605中存储的视频直播程序以及由操作系统提供的各种API，执行本公开实施例提供的视频直播方法。

处理组件601可以包括至少一个处理器，存储器605中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的视频直播方法。此外，处理组件601可执行编码操作和解码操作等。然而，上述示例仅是示例性的，本公开不限于此。

输入输出接口604可接收用于搜索目标设备(诸如第二设备)的输入或指令。基于第一输入或指令，网络接口603可搜索目标设备，并且将视频直播设备600与搜索到的目标设备进行通信连接。

作为一种可选的实施方式，基于搜索结果，输入输出接口604可显示包括搜索到的外部电子设备的标识的用户界面，经由该用户界面接收用于从搜索到的外部电子设备中选择目标设备的输入或指令，基于该输入或指令，网络接口603可将视频直播设备600与目标设备进行通信连接。

在视频直播设备600与目标设备连接后，处理组件601可获取由视频直播装置采集的第一直播视频，接收由目标设备发送的第二直播数据，其中，第二直播数据可包括由目标设备采集的第二直播视频中的感兴趣区域，基于第一直播视频和第二直播数据来生成目标直播视频，并将目标直播视频发送至服务器，从而目标直播视频可经由服务器转发给视频直播设备600的观众端。

根据本公开的另一实施例，在目标设备发送第二直播数据之前，目标设备可通过对由自身采集的第二直播视频中的每一帧进行目标区域提取来获得感兴趣区域。可选地，目标设备可将自身采集的第二直播视频发送给视频直播设备600，然后视频直播设备600对接收到的第二直播视频进行抠图处理，以提取第二直播视频中的感兴趣区域。例如，感兴趣区域可以是人像区域。

在第二直播数据包括第二直播视频中的感兴趣区域和第二背景的情况下，处理组件601可通过对第一直播视频中的每一帧进行目标区域提取来获得第一直播视频中的另一感兴趣区域和第一背景，然后将第一背景与第二背景进行融合来生成融合背景作为目标直播视频中的背景。

作为另一示例，在第二直播数据包括第二直播视频中的感兴趣区域和第二背景的情况下，处理组件601可通过对第一直播视频中的每一帧进行目标区域提取来获得第一直播视频中的另一感兴趣区域，使用第二背景作为目标直播视频中的背景，并且在该背景中显示另一感兴趣区域和感兴趣区域。例如，在视频直播设备600中，可经由输入输出接口604显示包括视频直播设备600的用户人像、目标设备的用户人像以及融合背景的目标直播视频。或者，在视频直播设备600中，可经由输入输出接口604显示包括视频直播设备600的用户人像、目标设备的用户人像以及由目标设备采集的视频背景的目标直播视频。此外，也可根据用户选择/输入来任意改变目标直播视频中的背景。

此外，视频直播设备600可接收用户输入，并根据该用户输入来改变显示在目标直播视频中的感兴趣区域(诸如视频直播设备600的用户人像和目标设备的用户人像)的尺寸或位置。

处理组件601可通过执行程序来实现对视频直播设备600所包括的组件的控制。

视频直播设备600可经由输入输出接口604接收或输出视频和/或音频。例如，用户可经由输入输出接口604输出合流后的直播内容以分享给观看者。

作为示例，视频直播设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，视频直播设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。视频直播设备600还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在视频直播设备600中，处理组件601可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件601还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件601可运行存储在存储器中的指令或代码，其中，存储器605还可以存储数据。指令和数据还可以经由网络接口603而通过网络被发送和接收，其中，网络接口603可以采用任何已知的传输协议。

存储器605可以与处理组件601集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器605可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件601可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理组件601能够读取存储在存储器605中的数据。

图7是根据本公开的实施例的视频直播装置的框图。

参照图7，视频直播装置700可包括输入模块701、通信模块702、接收模块703、处理模块704、显示模块705以及采集模块706。视频直播装置700中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略视频直播装置700中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

采集模块706被配置为采集直播数据(诸如第一直播视频)。

输入模块701可被配置为接收用户输入或指令。这里，用户输入可以是例如触摸输入、按钮输入、悬停输入和手势输入等。通信模块702可被配置为搜索外部电子设备以及与外部电子设备进行通信连接。接收模块703可被配置为接收外部电子设备的数据。处理模块704可被配置为处理从外部电子设备接收的数据以及自身采集/获得的数据。显示模块705可被配置为显示从外部电子设备接收的数据以及自身采集/获得的数据，例如，最终合成的目标直播视频。

输入模块701可接收用于搜索目标设备的输入或指令。基于输入或指令，通信模块702可搜索目标设备，并且将视频直播装置700与搜索到的目标设备进行通信连接。

接收模块703可接收由第二设备(即目标设备)发送的第二直播数据，其中，第二直播数据包括由第二设备采集的第二直播视频中的感兴趣区域。感兴趣区域可通过对第二直播视频中的每一帧进行目标区域提取而获得的。例如，感兴趣区域可以是人像区域。

处理模块704可基于第一直播视频和第二直播数据来生成目标直播视频。发送模块(未示出)可发送目标直播视频。可选地，发送目标直播视频可由处理模块704实现。

在第二直播数据包括第二直播视频中的感兴趣区域和第二背景的情况下，处理模块704可通过对第一直播视频中的每一帧进行目标区域提取来获得第一直播视频中的另一感兴趣区域和第一背景，将第一背景与第二背景进行融合来生成融合背景作为目标直播视频中的背景。

在第二直播数据包括第二直播视频中的感兴趣区域和第二背景的情况下，处理模块704可通过对第一直播视频中的每一帧进行目标区域提取来获得第一直播视频中的另一感兴趣区域；使用第二背景作为目标直播视频中的背景，并且在该背景中显示另一感兴趣区域和感兴趣区域。

此外，输入模块701可接收用户输入，然后处理模块704根据该用户输入在目标直播视频中改变视频中的感兴趣区域的位置或尺寸。例如，用户可在目标直播视频中拖拽第二直播视频中的感兴趣区域(诸如第二直播视频中的人像)来改变该感兴趣区域的位置或者尺寸。

根据本公开的另一实施例，视频直播装置700可包括获取模块、处理模块和发送模块。获取模块可从不同的外部设备接收直播数据。处理模块对接收的直播数据进行融合处理以生成目标直播视频，然后发送模块将目标直播视频发送到服务器或者相应的外部设备。

根据本公开的实施例，可使多个设备进行数据采集，并且将多个设备采集的数据进行合流并推流，从而实现了分布式直播业务。

根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的电子设备的框图，该电子设备800可包括至少一个存储器802和至少一个处理器801，所述至少一个存储器802存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器801执行时，执行根据本公开实施例的视频直播方法。

处理器801可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器801还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器802可包括操作系统(例如，MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、视频直播程序以及数据库。

存储器802可与处理器801集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器802可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器802和处理器801可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器801能够读取存储在存储器802中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

本领域技术人员可理解，图8中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的视频直播方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述视频直播方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频直播方法，特征在于，所述视频直播方法包括：

获取由第一设备采集的第一直播数据，其中，第一直播数据包括由第一设备采集的第一直播视频中的第一感兴趣区域和第一背景中的至少一个；

获取由第二设备采集的第二直播数据，其中，第二直播数据包括由第二设备采集的第二直播视频中的第二感兴趣区域和第二背景中的至少一个；

基于第一直播数据和第二直播数据来生成目标直播视频；

发送所述目标直播视频。

2.如权利要求1所述的视频直播方法，其特征在于，感兴趣区域是通过对第一直播视频和/或第二直播视频中的每一帧进行目标区域提取而获得的。

3.如权利要求1所述的视频直播方法，其特征在于，感兴趣区域为人像区域。

4.如权利要求1所述的视频直播方法，其特征在于，基于第一直播数据和第二直播数据来生成目标直播视频的步骤包括：

将第一背景与第二背景进行融合来生成融合背景作为所述目标直播视频中的背景；

在所述融合背景中显示第一感兴趣区域和第二感兴趣区域。

5.如权利要求1所述的视频直播方法，其特征在于，基于第一直播数据和第二直播数据来生成目标直播视频的步骤包括：

选择第一背景或第二背景作为所述目标直播视频中的背景，并且在选择的背景中显示第一感兴趣区域和第二感兴趣区域。

6.如权利要求1-5中任一项所述的视频直播方法，其特征在于，第一感兴趣区域和/或第二感兴趣区域基于用户输入在所述目标直播视频中改变位置或尺寸。

7.一种视频直播装置，特征在于，所述视频直播装置包括：

获取模块，被配置为：获取由第一设备采集的第一直播数据和由第二设备采集的第二直播数据，其中，第一直播数据包括由第一设备采集的第一直播视频中的第一感兴趣区域和第一背景中的至少一个，并且第二直播数据包括由第二设备采集的第二直播视频中的第二感兴趣区域和第二背景中的至少一个；

处理模块，被配置为基于第一直播数据和第二直播数据来生成目标直播视频；以及

发送模块，被配置为发送所述目标直播视频。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一项权利要求所述的视频直播方法。

9.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一项权利要求所述的视频直播方法。

10.一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如权利要求1到6中的任一项权利要求所述的视频直播方法。