CN112702615A

CN112702615A - 一种网络直播音视频处理方法及系统

Info

Publication number: CN112702615A
Application number: CN202011367403.1A
Authority: CN
Inventors: 梁小江; 郝松; 蒲莉娟; 黄祯福
Original assignee: Shenzhen Chuangcheng Microelectronics Co ltd
Current assignee: Shenzhen Chuangcheng Microelectronics Co ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-04-23
Anticipated expiration: 2040-11-27
Also published as: CN112702615B

Abstract

本发明公开了一种网络直播音视频处理方法及系统，该方法包括：实时获取直播图像和直播音频数据，每帧直播图像的深度信息；通过第一处理模块对直播图像和直播音频数据进行处理，通过第二处理模块对深度信息处理；再通过第三处理模块获取设定区域内小于设定深度值的图像数据形成前景图像；然后再获取背景图像，将前景图像与背景图像进行融合形成融合图像。本发明能够实时对网络直播的直播图像和对应的深度值进行数字化处理，便于后期对直播图像进行抠图和背景图像融合，其处理算法简单，降低抠图和融合期间对处理器的负载，能够实现高响应的直播视频背景更换及音频处理、高效输出。

Description

一种网络直播音视频处理方法及系统

技术领域

本申请涉及直播视频处理领域，具体涉及一种网络直播音视频处理方法及系统。

背景技术

现有视频行业抠图和背景融合技术方法是：首先摄像头获取RGB图像，再利用图像处理算法抠出目标图像，滤除原始背景图像部分，再将目标图像和设定背景图像进行融合。其缺点有：图像处理算法复杂，对图像处理器性能要求高；若原始图像背景复杂，抠图效果不佳，和目标背景图像融合的效果也不佳；同时图像动态响应对图像处理器实时处理能力要求高，处理的效果也不佳。此种技术在影视行业中绿幕摄影等领域有应用，在视频直播行业少有应用，因为电影可以采用后期处理技术，并不需要很强的实时性，而视频直播行业实时性要求非常高，所以难以应用。

发明内容

有鉴于此，本发明的目的在于提供一种网络直播音视频处理方法及系统，其能够实时对网络直播的直播图像和对应的深度值进行数字化处理，便于后期对直播图像进行抠图和背景图像融合，其处理算法简单，降低抠图和融合期间对处理器的负载，能够实现高响应的直播视频背景更换及音频处理、高效输出。

本发明第一方面提供一种网络直播音视频处理方法，用于网络直播音视频处理系统中，所述网络直播音视频系统包括网络直播装置和外接控制设备，所述网络直播装置内设置有第一处理模块和第二处理模块，所述外接控制设备内设置有第三处理模块，该方法包括以下步骤：

获取音视频数据步骤：实时获取直播图像和直播音频数据；

音频数据处理步骤：通过DSP处理器将所述直播音频数据转化为数字音频数据；

直播数据形成步骤：通过所述第一处理模块将所述直播图像转化为数字图像数据，根据所述数字图像数据和与所述数字图像数据时间匹配的数字音频数据形成直播数据，并将所述直播数据发送至第三处理模块；

获取深度信息步骤：实时获取每帧直播图像的深度信息；

深度信息处理步骤：通过所述第二处理模块将获取深度信息步骤中获取的深度信息转化为深度值，并发送至所述第三处理模块；

图像处理步骤：将每帧的深度值赋值到所述直播数据中的对应帧数字图像数据的对应区域中，分离出设定区域中深度值小于设定深度值的图像数据作为第一图像数据，所述第一图像数据对应的图像为前景图像；

背景图像数据获取步骤：获取一帧背景图像的图像数据作为第二图像数据；

图像融合步骤：将所述第一图像数据覆盖所述第二图像数据中相应位置的数据，以使得前景图像与背景图像融合，得到该帧直播图像对应的实时的融合图像数据，所述融合图像数据对应的图像为融合图像；

数据输出步骤：输出该帧融合图像数据以及与该帧融合图像数据时间匹配的数字音频数据。

优选的，所述方法还包括：响应于调整设定区域的控制指令，改变所述设定区域的位置和范围。

优选的，所述方法还包括：响应于调整设定深度值的控制指令，改变所述设定深度值的数值。

优选的，所述背景图像包括静态背景图像和/或动态背景图像，

当所述背景图像采用静态背景图像时，每一帧所述背景图像所对应的所述第二图像数据均相同。

优选的，所述直播图像的尺寸与所述背景图像的尺寸相同，所述前景图像与所述背景图像的融合位置与所述前景图像在所述直播图像上的位置相同。

优选的，该方法还包括预测步骤：根据当前帧前景图像在当前帧直播图像中的位置和范围预测下一帧前景图像在下一帧直播图像中的位置和范围，得到预测区域；

在对下一帧直播图像进行图像处理时，将所述预测区域作为所述设定区域。

优选的，所述数据输出步骤中，在所述数据输出步骤中，还将所述数字音频数据实时输出至监听设备。

本发明第二方面还提供了一种网络直播音视频处理系统，包括网络直播装置和外接控制设备，所述网络直播装置包括：

第一摄像头，用于实时获取直播图像；

TOF模组，用于获取直播图像的深度信息；

音频输入端和/或收音模块，用于获取直播音频数据；

DSP处理器，用于将所述直播音频数据转化为数字音频数据；

第一处理模块，用于将所述直播图像转化为数字图像数据；还用于接收所述数字音频数据，根据所述数字图像数据和与所述所述数字图像时间匹配的数字音频数据形成直播数据，并将所述直播数据发送至所述第三处理模块；

第二处理模块，用于将深度信息转化为深度值；向TOF模组发送第二控制指令；以及

第一数据接口，用于接收所述直播数据和所述深度值，并将所述直播数据值和所述深度值发送给第二数据接口；

所述外接控制设备包括第二数据接口和所述第三处理模块，所述第二数据接口用于接收所述第一数据接口发送的所述直播数据值和所述深度值；

所述第三处理模块对每帧的数字图像数据执行如下处理：

将每帧的深度值赋值到所述直播数据中的对应帧数字图像数据的对应区域中；

分离出设定区域中深度值小于设定深度值的图像数据作为第一图像数据，所述第一图像数据对应的图像为前景图像；

获取一帧背景图像的图像数据作为第二图像数据；

将所述第一图像数据覆盖所述第二图像数据中相应位置的数据，以使得前景图像与背景图像融合，得到该帧直播图像对应的实时的融合图像数据，所述融合图像数据对应的图像为融合图像；

输出该帧融合图像数据以及与该帧融合图像数据时间匹配的数字音频数据。

优选的，所述第一数据接口包括：

第一USB接口，与所述第一处理模块连接，用于将直播数据输出至外接控制设备，还用于接收外接控制设备发出的第一控制指令，将第一控制指令输出至第一处理模块；以及

第二USB接口，与所述第二处理模块连接，用于将深度值输出至外接控制设备，还用于接收外接控制设备发出的第二控制指令，将第二控制指令输出至第二处理模块。

所述第二数据接口包括：

第三USB接口，用于接收第一USB接口输出的直播数据，将直播数据输出至第三处理模块；还用于接收第三处理模块发出的第一控制指令，将第一控制指令输出至第一USB接口；以及

第四USB接口，用于接收第二USB接口输出的深度值，将深度值输出至第三处理模块；还用于接收第三处理模块发出的第二控制指令，将第二控制指令输出至第二USB接口。

优选的，所述网络直播装置还包括：

音频输出端：用于输出模拟音频数据，

所述第一数据接口还用于接收外接控制设备发出的数字音频数据，并将该数字音频数据经所述第一处理模块发送至所述DSP处理器，通过所述DSP处理器转化为模拟音频数据并输出至所述音频输出端。

本发明的有益效果：

本发明主要应用于直播领域，通过第一处理模块和第二处理模块分摊了部分第三处理模块的工作量，且第一处理模块和第二处理模块只是对数据进行转化，因而第一处理模块和第二处理模块的负载较小，保证第一处理模块和第二处理模块的工作效率，第三处理模块一般为PC或工作站的CPU，因而其运行速率比较高，其能够高效的对直播图像进行抠图及与背景图像进行融合，此外抠图方式只需通过简单的深度值对比的方式进行，无需经过复杂的运算进行抠图，保证抠图的效率，因而可确保能够实时的向直播平台输出融合图像数据；同时数字图像数据和数字音频数据进行时间匹配，保证后期形成的融合图像与数字音频数据的高匹配性，保证各直播终端所观看到的视频和声音的高匹配性，保证直播效果。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是网络直播视频处理方法的流程框图；

图2示出主播位于矩形框外的示意图；

图3示出主播主动调整至矩形框内的示意图；

图4示出调整矩形框使得主播位于矩形框内的示意图；

图5是网络直播音视频处理系统的结构框图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程、元件并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

参见图1和图5，本发明实施例一提供了一种网络直播音视频处理方法，用于网络直播音视频处理系统中，所述网络直播音视频处理系统包括网络直播装置和外接控制设备，所述网络直播装置内设置有第一处理模块和第二处理模块，所述外接控制设备内设置有第三处理模块，该方法包括以下步骤：

获取音视频数据步骤：实时获取直播图像和直播音频数据。

音频数据处理步骤：通过DSP处理器将所述直播音频数据转化为数字音频数据。

直播数据形成步骤：通过所述第一处理模块将所述直播图像转化为数字图像数据，根据所述数字图像数据和与所述数字图像数据时间匹配的数字音频数据形成直播数据，并将所述直播数据发送至所述第三处理模块。

获取深度信息步骤：实时获取每帧直播图像的深度信息。

深度信息处理步骤：通过所述第二处理模块将获取的深度信息转化为深度值，并发送至所述第三处理模块。

图像处理步骤包括：将每帧的深度值赋值到所述直播数据中的对应帧数字图像数据的对应区域中，分离出设定区域中深度值小于设定深度值的图像数据作为第一图像数据，所述第一图像数据对应的图像为前景图像。

背景图像数据获取步骤：获取一帧背景图像的图像数据作为第二图像数据。

图像融合步骤：将所述第一图像数据覆盖所述第二图像数据中相应位置的数据，以使得前景图像与背景图像融合，得到该帧直播图像对应的实时的融合图像数据，所述融合图像数据对应的图像为融合图像。

本发明实施例的方法主要针对网络直播进行的，网络直播需要实现实时性，本方法能够将主播的实时背景进行替换，模拟出主播在其他场景中进行直播的效果，并向各个直播平台实时输出该融合图像以及对应的音频数据，该方法采用简单的深度值对比的方式进行图像分离，因而在进行图像处理时，所占用的计算资源相对有限，能够实现高效的图像数据处理能力以及音频数据与融合图像的高匹配性，实现实时的输出融合图像和对应的音频数据。

以下就在网络直播应用场景下对以上方法作具体说明：

在一具体实施方式中，获取的直播图像的方式为采用第一摄像头来实现的，直播时，第一摄像头实时采集主播直播的画面；例如，第一摄像头每秒可采集24帧直播图像。

在一具体实施方式中，通过声音采集装置采集主播直播时的直播音频数据。该直播音频数据包括主播的声音以及主播的背景声音，背景声音可以为音乐或者其他。

作为优选的方案，第一摄像头和声音采集装置工作的起始时间点相同；在直播过程中，直播图像的时长与直播音频数据的时长也相同，当然考虑到直播过程中，主播有可能会将声音采集装置关闭，此时依然获取直播音频数据，只是获取的直播音频数据为无声状态。

在音频数据处理步骤中，通过DSP处理器实时的将直播音频数据转化为数字音频数据，在直播过程中，DSP处理器持续的接收直播音频数据，并实时转化为数字音频数据。

在直播数据形成步骤中，第一处理模块持续性的获取直播图像，并将该直播图像转化为数字图像数据；优选的，按照获取直播图像时间的先后顺序实时的将这些直播图像转化为数字图像数据。具体可以作以下理解：

第一处理模块按时间顺序先后获取第1帧直播图像、第2帧直播图像……第n帧直播图像，第一处理模块依次将各帧直播图像转换为第1帧数字图像数据、第2帧数字图像数据……第n帧数字图像数据。

第一处理模块同时持续性获取数字音频数据。

根据数字图像数据和与该数字图像数据时间匹配的数字音频数据形成直播数据，将该直播数据发送至第三处理模块。可以理解为：将每一帧数字图像数据与对应同时间段的数字音频数据进行同步输出至第三处理模块，同时间段的数字音频数据的时长应为每帧直播图像的采集周期。

具体的，“时间匹配”可作以下理解：

如：第一摄像头的采集频率为F，相应每帧数字图像数据所对应的时长为1/F秒，相应的同时间段的数字音频数据的时长为1/F秒；

第一摄像头和声音采集装置同时开始工作，且这两者所工作的时间段相同，在一时间段内，第一处理模块获取该时间段内的相应的数字图像数据，分别为第1帧数字图像数据、第2帧数字图像数据……第n帧数字图像数据，此处数字图像数据的排序是按照第一摄像头所获取的对应的直播图像的先后顺序进行排序的，每帧数字图像数据的时长为1/F秒；在该时间段内数字音频数据按时间顺序可以分为第1段数字音频数据、第2段数字音频数据……第n段数字音频数据，每个数字音频数据可以为1/F秒时长的音频；其中，第1段数字音频数据与第1帧数字图像数据的时间段相匹配、第2段数字音频数据与第2帧数字图像数据的时间段相匹配……第n段数字音频数据与第n帧数字图像数据的时间段相匹配；

因而第1段数字音频数据与第1帧数字图像数据同步输出、第2段数字音频数据与第2帧数字图像数据同步输出……第n段数字音频数据与第n帧数字图像数据同步输出；此处将同步输出的第1段数字音频数据和第1帧数字图像数据称为第1直播数据、第2段数字音频数据和第2帧数字图像数据称为第2直播数据……第n段数字音频数据和第n帧数字图像数据称为第n直播数据；分别将第1直播数据、第2直播数据……第n直播数据发送至第三处理模块。

当然，考虑到在某个时间段，只有第一摄像头工作或者只有声音采集装置工作，那么该时间段的直播数据就只包含对应的数字图像数据或数字音频数据。

在获取深度信息步骤中，通过TOF模组获取直播图像的深度信息；通常情况下，在直播过程中，TOF模组的最大扫描范围是固定的，应用时，TOF模组的扫描范围至少应覆盖直播图像中的直播目标，该直播目标为主播和/或物品，使得后续步骤中至少能够将直播目标的图像从直播图像中分离出来。

获取深度信息步骤与获取音视频数据步骤同时进行，TOF模组根据第二处理模块的控制指令采集图像的深度信息，这些深度信息对应每一帧数字图像数据，具体可以理解随着时间的推移可以获取第1帧深度信息、第2帧深度信息……第n帧深度信息，分别对应第1帧数字图像数据、第2帧数字图像数据……第n帧数字图像数据。

需要说明的是，该深度信息也具备相应的时间属性，以使得后续深度信息能够与对应的数字图像数据相匹配。

在深度信息处理步骤中，持续性的获取深度信息，并将这些深度信息转化为深度值，具体可以为第1帧深度信息、第2帧深度信息……第n帧深度信息分别转化为第1帧深度值、第2帧深度值……第n帧深度值。该深度信息的转化，伴随着整个直播过程。

第三处理模块分别获取直播数据和深度值，并对直播数据中的每一帧数字图像数据分别作图像处理步骤、背景图像数据获取步骤和图像融合步骤。

图像处理步骤具体包括：将深度值赋予到直播数据中的数字图像数据中，分离出设定区域中深度值小于设定深度值的图像数据作为第一图像数据，所述第一图像数据对应的图像为前景图像。举例说明：第1帧深度值的时间属性与第1帧数字图像数据的时间属性匹配，则将第1帧深度值赋予到第1帧数字图像数据中，同理将第2帧深度值赋予到第2帧数字图像中……第n帧深度值赋予到第n帧数字图像中。

主播直播过程中，主播一般会在室内进行直播，本发明实施例的第一个目的是要将主播及其宣传的产品等从直播图像中抠出，考虑到主播在直播过程中的活动范围相对有限，因而只需对主播有可能活动到的区域内的图像进行分析抠图，而区域外的图像无需进行考虑，直接抛弃即可，这样也能降低后期抠图时的处理负载。因而该“设定区域”可以是指：主播在直播画面上的活动区域。

因而该设定区域应同时位于TOF模组的扫描范围内和直播图像的范围内。

该设定区域在未调整的前提下，设定区域在每一帧的直播图像中的位置和范围恒定，因而在图像处理步骤中只需对该区域内的深度值与设定深度值进行对比，从而减少深度值对比的数量，降低第三处理模块的工作负载。

该设定区域可虚拟理解为一个矩形框，此处并不排除其他形状的可能性，暂以矩形框举例说明；直播初始时(见图2)，主播或辅助工作人员可通过调整第一摄像头和/或TOF模组的角度、位置，又或者主播主动调整其位置等，使得主播位于该矩形框内(见图3)，主播直播时只需其在该矩形框内活动即可。

作为一种优选的方案：矩形框的位置和范围相对于直播图像均为可调的，也就是说该矩形框并非固定在直播图像上位置不变的，主播直播时，无需通过调整主播的位置或调整第一摄像头和TOF模组的角度、位置来适应矩形框，而是通过调整矩形框的位置，在直播图像中使得主播位于矩形框内，矩形框的长度、宽度均可进行人为调整，使得提供一个合适的主播活动区域(见图4)；此外，直播中途主播或工作人员可对该矩形框的位置和范围适时的进行调整，以满足中途加入其它主播，或演示产品对矩形框位置和范围的不同需求。

矩形框内的所有深度值与设定深度值进行对比，筛选出矩形框内深度值小于设定深度值的图像数据，该图像数据便为第一图像数据，与第一图像数据对应的图像为前景图像，从而实现了从一帧直播图像中抠出前景图像的目的。

现有的图像生成方法为，先分辨出人体与其他物体之间的边缘像素，然后再通过深度值判定边缘处的各个相邻的像素是否属于人体图像的一部分，如深度值在阈值范围内则是，反之则不是，该过程中需先通过像素变化进行判断，再通过深度值来进行精确判断实际的边缘，其处理过程较为麻烦，无法实现本方法中的快速抠图的目的，另外其主要的识别方式还是依靠像素变化进行的，其深度值只作为辅助识别的作用。

而本方法只需利用简单的深度值与设定深度值大小对比的方式便能够抠出前景图像，无需其它复杂的运算过程，因而能够实现对实时直播图像进行高效实时抠图。

设定深度值为人为可调的，设定深度值的选择范围为0-3m，优选地可为0.5m、1m、1.5m、2m、2.5m。

设定深度值为一个具体的数值，以设定深度值为1m为例，则所抠出的前景图像为在矩形框内所有深度值小于1m的像素点的集合。

在实际应用时，主播通常坐在座椅上进行直播，主播的面前通常会摆放有桌子，在桌子上设置直播用设备，主播距离TOF模组约为0.5m-1m，因而所抠出的前景图像只会包括矩形框内的主播图像、桌子及直播用设备，而座椅后侧的原始背景图像则被舍弃。

考虑直播带货的情况，所带货的物品一般都放在桌子上或在主播手上进行演示；因而，如果该物品图像也在矩形框内的话，物品相对主播距离TOF模组更近，因而物品数字图像数据所对应的深度值小于主播数字图像数据的深度值，最终所抠出的前景图像就包含该物品图像。因而采用深度值对比的方式不会出现需要的图像数据遗失的情况，保证直播的效果。

具体设定深度值的选定，由主播或辅助工作人员可根据实际的直播环境人工进行选定；通常情况下，主播在室内直播时，主播的真实背景与主播直播时所处的位置具有一定的间距，因而主播或辅助工作人员可轻易的寻找到一个适合的设定深度值所对应的数值。

设定区域和设定值的具体选择是：根据主播或辅助工作人员通过设置设定区域和设定值的软件发出调整请求，第三处理模块接收该请求并调整该设定区域和设定值。

在背景图像数据获取步骤中，获取一帧背景图像的图像数据作为第二图像数据。

本发明实施例的另一个目的是：前景图像与背景图像的高效融合。

需要说明的是，背景图像可为预先存储的也可为实时获取的，在背景图像为预先存储的情况下，背景图像可为单张照片或者视频，单张照片为静态背景图像，视频为动态背景图像。

背景图像数据可预先存储在PC(personal computer：个人计算机)、U盘、TF卡中。

背景图像为实时获取时，其例如可以是通过第二摄像头实时拍摄获取。

需特别强调，此处背景图像与图像处理步骤中的直播图像中的原始背景图像不同。

在图像融合步骤中，主要目的为前景图像与背景图像的融合。

如背景图像为静态背景图像时，第一图像数据直接与第二图像数据进行融合即可。具体融合过程为：第一图像数据覆盖第二图像数据中相应位置的数据，从而得到融合图像数据，融合图像数据对应的图像为融合图像。

图像融合步骤中“第一图像数据覆盖第二图像数据中相应位置的数据”，相应位置可作以下方式理解：

1、在背景图像上划定覆盖区域，调整前景图像的大小，使得前景图像位于该覆盖区域内即可。覆盖区域的划定，可为响应外部控制指令实现。具体的为：通过设置设定覆盖区域的软件发出划定覆盖区域请求，第三处理模块接收该请求，并自动调整前景图像的大小，并将调整后的前景图像覆盖在该划定覆盖区域处。

调整前景图像的大小为：调整前景图像的长度与覆盖区域的长度相等、调整前景图像的宽度与覆盖区域的宽度相等，使得前景图像填充在覆盖区域。

2、调整背景图像的尺寸，使得背景图像的尺寸与直播图像的尺寸相同，前景图像在直播图像上的位置和比例与前景图像在融合图像上的位置和比例不变。也可以理解为：前景图像从直播图像上平移到背景图像上进行融合，所得到的融合图像在与原始的直播图像进行上下叠放时，融合图像中的前景图像与直播图像中的前景图像上下完全重叠。此处尺寸为图像的长度和宽度。

需要说明的是，在前景图像与背景图像进行融合之前，可对前景图像和背景图像的亮度、对比度等进行调整；对前景图像的边缘进行优化处理，边缘处理方式优选为通过平滑滤波器、统计排序滤波器等方式进行处理，减少噪声等缺陷，提高融合图像的完美度。

由于背景图像是静态背景图像，因而与每一帧前景图像融合的第二图像数据均相同。

如背景图像为动态背景图像时，实际每次与前景图像融合时，背景图像为视频中的一帧图像。

在实际融合时，直播图像和背景图像均是动态的，为保证融合图像所形成的视频的连贯性，就需每帧背景图像按时间顺序与顺次的前景图像一一进行融合。

具体的：

第一摄像头按时间顺序分别获取第1帧直播图像、第2帧直播图像……第n帧直播图像；

相应的可以抠出第1帧前景图像、第2帧前景图像……第n帧前景图像；

按时间顺序的可以分别获取背景图像为第1帧背景图像、第2帧背景图像……第n帧背景图像；

在第n帧前景图像与第n帧背景图像的时间匹配的情况下，则前景图像与背景图像融合时为第1帧前景图像与第1帧背景图像融合、第2帧前景图像与第2帧背景图像融合……第n帧前景图像与第n帧背景图像融合，分别形成第1帧融合图像、第2帧融合图像……第n帧融合图像。

每一帧的前景图像与每一帧的背景图像的具体融合方法见“如背景图像为静态背景图像时，第一图像数据直接与第二图像数据进行融合即可。”在此就不再赘述。

此外，通过第一摄像头在单位时间内所获取的直播图像的帧数与动态背景图像在单位时间内所包含的背景图像的帧数相同。优选地，第一摄像头每秒获取24帧直播图像，每秒的动态背景图像也由24帧背景图像组成，因而可做到融合图像所形成的视频在时间上的统一性。

另外还需要特别强调的是，在通过图像处理步骤对一个直播数据进行处理时，并非需要等到将该直播数据处理完，才对下一个直播数据进行处理，而是在第三处理模块接收到下一个直播数据和对应的深度值时，就对下一个直播数据进行上述步骤的处理。

在数据输出步骤中，输出该帧融合图像数据以及与该帧融合图像数据时间匹配的数字音频数据。

关于“时间匹配”在“直播数据形成步骤”中已经阐述，在此不再赘述。因而在数据输出步骤中，第三处理模块对外分别输出第1帧融合图像数据+第1段数字音频数据、第2帧融合图像数据+第2段数字音频数据……第n帧融合图像数据+第n段数字音频数据。

作为一种优选的方案，数据输出步骤中，第三处理模块按时间先后顺序逐帧的将融合图像数据和与该融合图像数据时间匹配的数字音频数据向外输出，具体的第一摄像头按时间先后顺序分别获取第1帧直播图像、第2帧直播图像……第n帧直播图像，经融合图像步骤分别先后得到第1帧融合图像数据、第2帧融合图像数据……第n帧融合图像数据；其中第1帧融合图像数据与第1帧直播图像对应、第2帧融合图像数据与第2帧直播图像对应……第n帧融合图像数据与第n帧直播图像对应；因而在数据输出步骤中，第三处理模块顺序性的对外输出第1帧融合图像数据+第1段数字音频数据、第2帧融合图像数据+第2段数字音频数据……第n帧融合图像数据+第n段数字音频数据。

当然，在数据输出步骤中，还同步将直播音频数据输出至监听设备。此处监听设备包括音响、耳机、收音机等能够接受并播放音频信号的设备。

此处直播平台可以理解为：安装于手机、平板、电脑等设备上的直播APP。

作为一种优选方案：在背景图像数据获取步骤中，背景图像由第二摄像头实时获取。

可在以下具体场景进行应用：

主播在室内进行直播，与此同时辅助工作人员持第二摄像头在室外进行拍摄，因而可以同时获得实时的直播图像和实时的背景图像，因而融合后可得到主播在室外实时直播的视频，其中前景图像为实时的，背景图像也是实时的，解决主播室内直播就能够达到在室外直播的效果。

具体的，如主播直播带货，货品为农产品，主播在室内进行货品演示和介绍，第二摄像头实时获取田间图像作为第二图像数据，从而得到主播实时在田间直播带货的融合图像，模拟出主播实时在田间直播带货的效果。

作为进一步地改进：

第二摄像头的数量可以为多个，以2个第二摄像头为例。如：在北京和广州同日分别举办了1个车展，主播想同时为这2个车展做直播，但这两个车展分属两地，主播没有办法同时到达，因而2名辅助工作人员分别持一个第二摄像头在北京的车展和广州的车展进行实时拍摄，主播在室内进行直播，背景图像可选择性的从其中一个第二摄像头获取，如该第二摄像头位于北京车展，便可模拟出主播实时在北京车展的直播；该过程中，可切换至另一个位于广州车展的第二摄像头获取的实时背景图像，因而又可模拟出主播实时在广州车展直播。

作为一种优选方案：

本方法还包括预测步骤：根据当前帧前景图像在当前帧直播图像中的位置和范围预测下一帧前景图像在下一帧直播图像中的位置和范围，得到预测区域。

具体的，以第1帧直播图像和第2帧直播图像为例：

当前帧直播图像为第1帧直播图像，下一帧直播图像为第2帧直播图像，获取第1帧直播图像及深度信息；将设定区域深度值与设定深度值进行对比，获得小于设定深度值的第一图像数据，第一图像数据对应第1帧前景图像，判断第1帧前景图像在第1帧直播图像中的位置和范围，依据高斯混合模型预测第2帧前景图像在第2帧直播图像中的位置和范围，得到第2帧前景图像的预测区域。

通常该预测区域为矩形区域，通过该预测区域能确认第2帧直播图像中的第2帧前景图像位置，因而可为处理第2帧直播图像提供优化方案。

在处理第2帧直播图像进行抠图时可依照如下方式进行：

获取第2帧直播图像及深度信息；将第二帧前景图像的预测区域内的深度值与设定深度值进行对比，获得小于设定深度值的第一图像数据，第一图像数据对应第2帧前景图像，判断第2帧前景图像在第2帧直播图像中的位置和范围，依据高斯混合模型预测第3帧前景图像在第3帧直播图像中的位置和范围，得到第3帧前景图像的预测区域。

通过以上过程可提前预测下一帧前景图像的位置和范围，因而在对下一帧直播图像进行处理时，自动调整设定区域的大小和位置，尽可能降低了需要对比的深度值的数量，降低了运算负载，实现对实时直播图像的高效实时抠图。

特别说明：第三处理模块通常为PC或工作站内的处理器，其具备很强的图形处理能够，能够实现实时对直播图像进行抠图及与背景图像融合。

实际应用时，主播或辅助工作人员通过软件向第三处理模块发送指令，该指令至少包括：第一摄像头的开启和关闭、声音采集装置的开启和关闭、TOF模组的开启和关闭、设定区域的位置和范围以及设定深度值的数值，第三处理模块将第一摄像头的开启和关闭指令发送至第一处理模块，由第一处理模块控制第一摄像头的开启和关闭；第三处理模块将声音采集装置的开启和关闭指令发送至第一处理模块，由第一处理模块控制声音采集装置的开启和关闭；第三处理模块将TOF模组的开启和关闭指令发送至第二处理模块，由第二处理模块控制TOF模组的开启和关闭；第三处理模块接收设定区域的位置和范围以及设定深度值的数值的指令，并调整设定区域和设定深度值。

参见图5，本发明实施例二提供了一种网络直播音视频处理系统，其至少包括网络直播装置和外接控制设备。

网络直播装置包括：

第一摄像头，用于实时获取直播图像；

TOF模组，用于获取直播图像的深度信息；

音频输入端和/或收音模块，用于获取直播音频数据；

DSP处理器，与所述音频输入端和/或收音模块连接，用于将所述音频输入端和/或收音模块获取的直播音频数据转化为数字音频数据；

第一处理模块，分别与所述第一摄像头和DSP处理器连接，用于将所述直播图像转化为数字图像数据；根据所述数字图像数据和与所述所述数字图像时间匹配的数字音频数据形成直播数据，并将所述直播数据发送至第三处理模块；向所述第一摄像头发送第一控制指令；

第二处理模块，与所述TOF模组连接，用于将深度信息转化为深度值；向TOF模组发送第二控制指令；以及

所述外接控制设备包括第二数据接口和第三处理模块，所述第二数据接口用于接收所述第一数据接口发送的所述直播数据值和所述深度值；

所述第三处理模块对每帧的数字图像数据执行如下处理：

将每帧的深度值赋值到所述直播数据中的对应帧数字图像数据的对应区域中；分离出设定区域中深度值小于设定深度值的图像数据作为第一图像数据，所述第一图像数据对应的图像为前景图像；获取一帧背景图像的图像数据作为第二图像数据；将所述第一图像数据覆盖所述第二图像数据中相应位置的数据，以使得前景图像与背景图像融合，得到该帧直播图像对应的实时的融合图像数据，所述融合图像数据对应的图像为融合图像；输出该帧融合图像数据以及与该帧融合图像数据时间匹配的数字音频数据。

需要说明的是，本实施例中所涉及的音频输入端和/或收音模块与实施例一中所涉及的声音采集装置的功能相同。

鉴于，获得融合图像的方法以及声音的处理在实施例一中已经描述完毕，在此就不再赘述。

第一数据接口包括第一USB接口和第二USB接口。

第一USB接口内部与第一处理模块连接，第一USB接口外部与外接控制设备连接。

因而外接控制设备可通过第一USB接口获取直播数据，并通过第一USB接口向第一处理模块发送第一控制指令。该第一控制指令可以包括第一摄像头的开启和关闭，如第一摄像头采用变焦摄像头，还可控制第一摄像头的焦距，第一处理模块向第一摄像头发送该第一控制指令，控制第一摄像头的开启和关闭以及第一摄像头的焦距；如外接控制设备采用PC或工作站，外接控制设备还可通过第一USB接口为该网络直播装置供电。

第二USB接口内部与第二处理模块连接，第二USB接口外部与外接控制设备连接。

外接控制设备可通过第二USB接口获取深度值，并通过第二USB接口向第二处理模块发送第二控制指令，该第二控制指令包括TOF模组的开启和关闭，第二处理模块向TOF模组发送该第二控制指令，控制TOF模组的开启和关闭。

现有的网络直播装置通常只有第一摄像头，现有的网络直播装置上没有设置TOF模组和第二处理模块，本发明的实施例可对现有的网络直播装置进行改进，通过增加TOF模组、第二处理模块和第二USB接口的方式，使得其具备拍摄具有深度信息的直播数据。

对应的，第二数据接口包括，第三USB接口和第四USB接口，第三USB接口和第四USB接口均设置在外接控制设备上，使用时，第三USB接口与第一USB接口连接，实现直播数据输出至第三处理模块，并将第一控制指令发出至第一处理模块；第四USB接口与第二USB接口连接，实现深度值输出至第三处理模块，并将第二控制指令发出至第二处理模块。

当然，外接控制设备也可采用手机或平板，但手机和平板不能实现对网络直播装置的供电，其它功能均可实现。

此外，如利用手机或平板作为外接控制设备，且手机或平板通过扩展的方式形成第三USB接口和第四USB接口，则手机和平板可同时与第一USB接口和第二USB接口连接。

数据第一数据接口上还可连接无线通讯装置，通过该无线通讯装置以无线连接的方式与手机或平板连接，则无线通讯装置可以实现以上相应功能，在此不再赘述。

外接控制设备可有线或无线的与第二摄像头连接，实现获取实时第二图像数据的目的。

第一摄像头和第二摄像头可采用CCD摄像头或CMOS摄像头；第一处理模块和第二处理模块均采用CPU。

第二处理模块通过I2C总线对TOF模组进行配置，第二处理模块通过MIPI总线从TOF模组获取深度信息；第一处理模块通过I2C总线对第一摄像头进行配置，所述第一处理模块通过MIPI总线获取直播图像的图像数据。

收音模块例如可采用硅麦矩阵，使得本装置在无需外接拾音设备的情况下也能够正常进行拾音。

网络直播装置还包括音频输出端，其能够输出模拟音频数据。音频输出端与DSP处理器连接。

音频输出端上可以连接音响等构成监听设备，融合图像数据与对应的数字音频数据实时输出至直播终端的同时，这部分数字音频数据还通过第一USB接口、第一处理模块至DSP处理器，DSP处理器将其转化为模拟音频数据并输出至音频输出端，实现本地监听的功能。

音频输出端包括第一音频输出端和第二音频输出端，第一音频输出端与音频输入端集成为耳麦接口，旨在与耳麦连接。

第二音频输出端构成音响接口，旨在与外接扩音设备连接。

此外，该装置内可设置有电池，可通过该电池为第一摄像头、TOF模组、第一处理模块、第二处理模块、DSP供电，若如此设置可不通过第一USB接口为以上各部件供电。

本领域的技术人员容易理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种网络直播音视频处理方法，其特征在于，用于网络直播音视频处理系统中，所述网络直播音视频处理系统包括网络直播装置和外接控制设备，所述网络直播装置内设置有第一处理模块和第二处理模块，所述外接控制设备内设置有第三处理模块，该方法包括以下步骤：

获取音视频数据步骤：实时获取直播图像和直播音频数据；

直播数据形成步骤：通过所述第一处理模块将所述直播图像转化为数字图像数据，根据所述数字图像数据和与所述数字图像数据时间匹配的数字音频数据形成直播数据，并将所述直播数据发送至所述第三处理模块；

获取深度信息步骤：实时获取每帧直播图像的深度信息；

深度信息处理步骤：通过所述第二处理模块将获取的深度信息转化为深度值，并发送至所述第三处理模块；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于调整设定区域的控制指令，改变所述设定区域的位置和范围。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于调整设定深度值的控制指令，改变所述设定深度值的数值。

4.根据权利要求1所述的方法，其特征在于，所述背景图像包括静态背景图像和/或动态背景图像，

5.根据权利要求1所述的方法，其特征在于，所述直播图像的尺寸与所述背景图像的尺寸相同，所述前景图像与所述背景图像的融合位置与所述前景图像在所述直播图像上的位置相同。

6.根据权利要求1-5任一项所述的方法，其特征在于，还包括预测步骤：

根据当前帧前景图像在当前帧直播图像中的位置和范围预测下一帧前景图像在下一帧直播图像中的位置和范围，得到预测区域；

7.一种网络直播音视频处理系统，其特征在于，包括网络直播装置和外接控制设备，所述网络直播装置包括：

第一摄像头，用于实时获取直播图像；

TOF模组，用于获取直播图像的深度信息；

音频输入端和/或收音模块，用于获取直播音频数据；

DSP处理器，用于将所述直播音频数据转化为数字音频数据；

第一处理模块，用于将所述直播图像转化为数字图像数据；还用于接收所述数字音频数据，根据所述数字图像数据和与所述所述数字图像时间匹配的数字音频数据形成直播数据，并将所述直播数据发送至第三处理模块；

第二处理模块，用于将深度信息转化为深度值；

所述第三处理模块对每帧的数字图像数据执行如下处理：

获取一帧背景图像的图像数据作为第二图像数据；

8.根据权利要求7所述的系统，其特征在于，所述第一数据接口包括：

9.根据权利要求8所述的系统，其特征在于，所述第二数据接口包括：

10.根据权利要求7-9任一项所述的系统，其特征在于，所述网络直播装置还包括：

音频输出端：用于输出模拟音频数据，