CN108965982B

CN108965982B - 视频录制方法、装置、电子设备和可读存储介质

Info

Publication number: CN108965982B
Application number: CN201810985329.6A
Authority: CN
Inventors: 姚淼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-01-31
Anticipated expiration: 2038-08-28
Also published as: US10880495B2; CN108965982A; US20200077035A1

Abstract

本发明提供一种视频录制方法、装置、电子设备和可读存储介质，通过从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧，实现对隐私背景的定位；在所述敏感视频帧中，获取所述隐私背景图像的图像区域；将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧，以对部分背景的遮挡实现对隐私背景图像的隐藏；根据所述录制的视频信息和所述遮挡帧，得到直播视频信息，从而实现对录制的视频信息中涉及敏感隐私物件、衣衫不整的旁人等隐私背景的实时处理，并实现了对每帧背景中的隐私背景图像的动态隐藏，进而提高了录制视频过程中实时遮挡需隐藏物体的可靠性。

Description

视频录制方法、装置、电子设备和可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频录制方法、装置、电子设备和可读存储介质。

背景技术

随着网络技术的发展，网络直播平台的应用越来越广泛，更多地用户可以作为主播参与到网络直播中。例如商铺卖家用户进行商品展示的直播，游客用户进行旅游观光展示的直播。由于视频录制过程中可能拍摄到主播个人隐私物品、衣着不整的其他人或者其他主播不希望被直播的需隐藏图像，因此需要在视频录制过程中进行遮挡处理。

现有的方法通常只能依靠主播在录制视频前选择干净背景的直播场所，或者在直播过程中及时进行人为遮挡。

但直播过程中可能没有有效隐蔽或者是无法进行有效遮挡，例如真人秀直播过程中镜头随着主播移动，在直播过程中难以形成有效遮挡，因此现有的视频录制方法无法对需隐藏物体的形成可靠的遮挡。

发明内容

本发明提供一种视频录制方法、装置、电子设备和可读存储介质，提高了录制视频过程中实时遮挡需隐藏物体的可靠性。

根据本发明的第一方面，提供一种视频录制方法，包括：

从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧；

在所述敏感视频帧中，获取所述隐私背景图像的图像区域；

将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧；

根据所述录制的视频信息和所述遮挡帧，得到直播视频信息。

可选地，在第一方面的一种可能实现方式中，在所述将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧之前，还包括：

根据包含所述敏感视频帧的多个连续视频帧，确定所述敏感视频帧的背景类型；

根据所述背景类型，获取AR遮挡图像。

可选地，在第一方面的另一种可能实现方式中，所述根据所述背景类型，获取AR遮挡图像，包括：

在确定所述背景类型为动态背景类型时，获取所述隐私背景图像的周围颜色信息；

根据所述周围颜色信息，确定隐藏颜色；

根据所述隐藏颜色，获取AR遮挡图像，所述AR图像的主颜色为所述隐藏颜色。

可选地，在第一方面的再一种可能实现方式中，所述根据所述隐藏颜色，获取AR遮挡图像，所述AR图像的主颜色为所述隐藏颜色，包括：

获取主颜色为所述隐藏颜色的AR图像；

对所述AR图像进行处理，获得外边界形状与所述图像区域的轮廓形状一致的AR遮挡图像。

可选地，在第一方面的又一种可能实现方式中，所述根据所述背景类型，获取AR遮挡图像，包括：

在确定所述背景类型为静态背景类型时，获取所述隐私背景图像的周围图像；

在所述周围图像中，确定可重复部分图像；

将所述可重复部分图像，或者多个所述可重复部分图像的组合图像，作为AR遮挡图像。

可选地，在第一方面的又一种可能实现方式中，所述从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧，包括：

解析录制的视频信息，得到至少一个原始视频帧；

在所述至少一个原始视频帧中，分别获取视频背景图像；

在所述视频背景图像中，获取隐私背景图像；

将所述隐私背景图像对应的原始视频帧，确定为敏感视频帧。

可选地，在第一方面的又一种可能实现方式中，所述在所述至少一个原始视频帧中，分别获取视频背景图像，包括：

获取用户的人脸信息；

在所述至少一个原始视频帧中，确定与所述人脸信息对应的人脸图像；

根据所述人脸图像，在各所述原始视频帧中确定与所述人脸图像相对应的人像区域；

在各所述原始视频帧中，将所述人像区域确定为前景图像，剩余图像区域确定为视频背景图像。

可选地，在第一方面的又一种可能实现方式中，所述在所述视频背景图像中，获取隐私背景图像，包括：

对所述视频背景图像进行物体图像的语义分割，得到物体语义信息；

将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息；

将所述隐私物体语义信息对应的物体图像，确定为隐私背景图像。

可选地，在第一方面的又一种可能实现方式中，在所述将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息之前，还包括：

获取用户历史输入的隐藏指示，所述隐藏指示用于指示出新的隐私背景图像；

获取各所述新的隐私背景图像对应的历史隐私物体语义信息；

将所述历史隐私物体语义信息，作为隐私语义信息；

相应地，在所述获取用户历史输入的隐藏指示之前，还包括：

在获取到所述录制的视频信息时，将所述录制的视频信息向用户同步显示；

在接收到用户针对所述视频背景图像输入的隐藏指示时，将所述隐藏指示对应的指示图像区域，确定为新的隐私背景图像。

根据本发明的第二方面，提供一种视频录制装置，包括：

采集模块，用于从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧；

定位模块，用于在所述敏感视频帧中，获取所述隐私背景图像的图像区域；

AR遮挡模块，用于将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧；

视频合成模块，用于根据所述录制的视频信息和所述遮挡帧，得到直播视频信息。

可选地，在第二方面的一种可能实现方式中，所述AR遮挡模块在所述将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧之前，还用于：

根据包含所述敏感视频帧的多个连续视频帧，确定所述敏感视频帧的背景类型；根据所述背景类型，获取AR遮挡图像。

可选地，在第二方面的另一种可能实现方式中，所述AR遮挡模块具体用于：

在确定所述背景类型为动态背景类型时，获取所述隐私背景图像的周围颜色信息；根据所述周围颜色信息，确定隐藏颜色；根据所述隐藏颜色，获取AR遮挡图像，所述AR图像的主颜色为所述隐藏颜色。

可选地，在第二方面的再一种可能实现方式中，所述AR遮挡模块具体用于：

获取主颜色为所述隐藏颜色的AR图像；对所述AR图像进行处理，获得外边界形状与所述图像区域的轮廓形状一致的AR遮挡图像。

可选地，在第二方面的又一种可能实现方式中，所述AR遮挡模块具体用于：

在确定所述背景类型为静态背景类型时，获取所述隐私背景图像的周围图像；在所述周围图像中，确定可重复部分图像；将所述可重复部分图像，或者多个所述可重复部分图像的组合图像，作为AR遮挡图像。

可选地，在第二方面的又一种可能实现方式中，所述采集模块用于：

解析录制的视频信息，得到至少一个原始视频帧；在所述至少一个原始视频帧中，分别获取视频背景图像；在所述视频背景图像中，获取隐私背景图像；将所述隐私背景图像对应的原始视频帧，确定为敏感视频帧。

可选地，在第二方面的又一种可能实现方式中，所述采集模块具体用于：

获取用户的人脸信息；在所述至少一个原始视频帧中，确定与所述人脸信息对应的人脸图像；根据所述人脸图像，在各所述原始视频帧中确定与所述人脸图像相对应的人像区域；在各所述原始视频帧中，将所述人像区域确定为前景图像，剩余图像区域确定为视频背景图像。

对所述视频背景图像进行物体图像的语义分割，得到物体语义信息；将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息；将所述隐私物体语义信息对应的物体图像，确定为隐私背景图像。

可选地，在第二方面的又一种可能实现方式中，所述采集模块具体在所述将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息之前，还用于：

获取用户历史输入的隐藏指示，所述隐藏指示用于指示出新的隐私背景图像；获取各所述新的隐私背景图像对应的历史隐私物体语义信息；将所述历史隐私物体语义信息，作为隐私语义信息；

相应地，述采集模块在获取用户历史输入的隐藏指示之前，还用于：

在获取到所述录制的视频信息时，将所述录制的视频信息向用户同步显示；在接收到用户针对所述视频背景图像输入的隐藏指示时，将所述隐藏指示对应的指示图像区域，确定为新的隐私背景图像。

根据本发明的第三方面，提供一种电子设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能设计的所述视频录制方法。

根据本发明的第四方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述视频录制方法。

本发明提供的一种视频录制方法、装置、电子设备和可读存储介质，通过从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧，实现对隐私背景的定位；在所述敏感视频帧中，获取所述隐私背景图像的图像区域；将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧，以对部分背景的遮挡实现对隐私背景图像的隐藏；根据所述录制的视频信息和所述遮挡帧，得到直播视频信息，从而实现对录制的视频信息中涉及敏感隐私物件、衣衫不整的旁人等隐私背景的实时处理，并实现了对每帧背景中的隐私背景图像的动态隐藏，进而提高了录制视频过程中实时遮挡需隐藏物体的可靠性。

附图说明

图1是本发明实施例提供的一种应用场景示意图；

图2是本发明实施例提供的一种视频录制方法流程示意图；

图3是本发明实施例提供的一种图2中步骤S101的可选实现方式流程示意图；

图4是本发明实施例提供的一种图3中步骤S202的可选实现方式流程示意图；

图5是本发明实施例提供的一种视频录制装置结构示意图；

图6是本发明实施例提供的一种电子设备的硬件结构示意图；

图7是本发明实施例提供的图6所示电子设备的一种示例。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在本发明实施例中，视频帧是指构成视频的图片。视频可以看作是多个视频帧顺序构成的图片序列，视频的播放可以理解为是顺序显示该图片序列中的视频帧，由于视频帧的显示频率大于人眼可识别的数值范围，由此形成人眼看到的连续变化的视频画面。

参见图1，是本发明实施例提供的一种应用场景示意图。在图1所示的应用场景是直播场景下的视频录制，视频录制终端1对主播进行视频帧的录制，并实时地上传至直播网站的服务器2。服务器2将接收到的视频帧转发至至少一个观看客户端3。用户通过观看客户端3登录直播网站或应用程序观看视频帧对应的直播。视频录制终端1将视频帧转发至服务器2的过程，可以是延时传送的转发过程，即是将实时录制的视频帧先缓存在视频录制终端1中，达到一定缓存时间累积或者缓存数据量时得到视频流文件，将视频流文件传送给观看客户端3，视频录制终端1再继续累积下一段视频流文件。因此服务器2得到的可以是与时间段对应的视频流文件。同样地，也可以是服务器2以延时传送的方式将视频帧转发至观看客户端3，即是将视频帧缓存在服务器2中，达到一定缓存时间累积或者缓存数据量时得到视频流文件，将视频流文件传送给观看客户端3，服务器2再继续累积下一段视频流文件。因此观看客户端3得到的可以是与时间段对应的视频流文件。在上述直播场景中，本发明的视频录制方法可以是应用在视频录制终端1和/或服务器2中。

在一种实现方式中，可以是主要依靠视频录制终端1进行视频录制。例如，可以是在视频录制终端1配置用于视频录制的计算机程序和相关参数，视频录制终端1在拍摄到直播视频时就立即对视频进行处理，例如实时对隐私背景图像进行识别和遮挡处理后再上传至服务器2，服务器2可以再进行其他实时审批后再转发给观看客户端3。

在另一种实现方式中，可以是主要依靠服务器2进行视频录制。例如，可以是服务器2接收到视频录制终端1上传的直播视频时对其进行实时的隐私背景图像识别和遮挡，将处理后的视频信息发给观看客户端3，由于服务器2通常具有较为强大的数据处理能力和分析能力，且数据采集量大，因此集中处理的效率较高。

本发明中视频录制方法的各个步骤，还可以是由视频录制终端1和服务器2两者联合执行的。例如，可以是本发明下述实施例中的视频处理方法中一部分步骤由视频录制终端1实现、另一部分步骤由服务器2实现。本发明对视频录制方法的执行主体是单独个体还是分布式系统不进行限定。

参见图2，是本发明实施例提供的一种视频录制方法流程示意图，图2所示方法的执行主体可以是软件和/或硬件装置，例如图1所示的视频录制终端和/或服务器。图2所示方法包括步骤S101至步骤S104，具体如下：

S101，从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧。

可以理解为，从视频录制终端的缓存中或者服务器的缓存中获取录制的视频信息。视频信息可以理解为是断点播放的视频流文件，即完整视频文件的一部分；也可以理解为是完整视频。敏感视频帧可以理解为是图片，获取敏感视频帧的方式可以是以图片识别和图片分类的方式获取的。例如对视频信息的每一视频帧用图像分类算法(例如Deep CNNs算法)或物体检测算法(例如Fast RCNN算法，或Faster RCNN算法)进行基于图像的图片分类，得到各视频帧是正常类还是待隐藏类，将待隐藏类的视频帧作为敏感视频帧。又例如对视频信息的每一视频帧用语义分割算法(例如FCN算法)或实例分割算法(例如Mask RCNN算法)进行基于像素点的图片分类，得到各视频帧是正常类还是待隐藏类，将待隐藏类的视频帧作为敏感视频帧，并且对敏感视频帧中隐私背景图像的位置进行识别。其中各种算法中可能用到的识别模型都可以是利用历史人工标记样本训练学习得到的。

S102，在所述敏感视频帧中，获取所述隐私背景图像的图像区域。

具体地，图像区域可以理解为敏感视频帧上显示隐私背景图像的像素点所在位置区域。

S103，将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧。

可以理解为，先获取AR遮挡图像，再将AR遮挡图像叠加在所述隐私背景图像的所述图像区域中，使得AR遮挡图像与所述敏感视频帧合成得到隐私背景图像被遮挡的遮挡帧。AR遮挡图像可以是与所述图像区域附近图像相接近的图像，使得AR遮挡图像与敏感视频帧的所述隐私背景图像周围图像区域相融合，不显得过于突兀。

为了使得遮挡帧中AR遮挡图像不过于突兀，获取AR遮挡图像的过程中应结合敏感视频帧的背景特点进行选择，可选的一种实现方式具体如下：

可以是首先根据包含所述敏感视频帧的多个连续视频帧，确定所述敏感视频帧的背景类型。然后，根据所述背景类型，获取AR遮挡图像。例如，在多个连续视频帧中，检测到背景图像大部分区域为相同图像，确定背景类型为静态背景类型。可以理解为，在室内直播中通常不会移动摄像头，仅主播本身移动或对部分作为背景的物体进行移动(例如将展示的商品拿离摄像范围或加入摄像范围)，因此得到的多个连续视频帧的背景都是相同图像，如墙面、窗帘、店铺货架等。又例如，在多个连续视频帧中，检测到背景图像为不断变化的图像，确定背景类型为动态背景类型。可以理解为，在旅游直播中，通常需要跟随主播不断移动摄像头，因此得到的多个连续视频帧的背景都是不同图像，如旅途中变化的街景、变化的山水风景、变化的商铺图像等。同一直播视频中，可能一段视频帧属于动态背景类型，而另一段视频帧属于静态背景类型，这里仅是对包含有敏感视频帧的一段视频帧进行背景类型判断。

可以理解为，在动态背景类型下，背景不断变化，观众对动态背景中局部的图像关注度较低。因此可以用颜色与周围图像接近的色块或图像作为AR遮挡图像，以对动态变化中的隐私背景图像进行粗略的快速遮挡。而且背景不断变化，导致需要不断获取到新的AR遮挡图像，仅做颜色相关的粗略遮挡能够提高AR遮挡图像的获取速度，进而提高遮挡效率。

具体地，在动态背景类型的一种实现方式中，可以是在确定所述背景类型为动态背景类型时，获取所述隐私背景图像的周围颜色信息。周围颜色信息可以理解为是敏感视频帧中所述隐私背景图像周围的颜色信息，例如在海滩风景直播中检测到沙滩上躺着一个身体裸露人像的隐私背景图像，那么将该人像周围的白色沙滩的颜色确定为所述周围颜色信息。然后，根据所述周围颜色信息，确定隐藏颜色。周围颜色信息可以理解为是包含色相、明度和彩度的信息。最后，根据所述隐藏颜色，获取AR遮挡图像，所述AR图像的主颜色为所述隐藏颜色。主颜色可以理解为整个AR图像中占比最大的颜色。例如直接将一块米色长方形色块作为沙滩上身体裸露人像的AR遮挡图像；或者是将一块同色沙滩截图作为沙滩上身体裸露人像的AR遮挡图像。其中，由于根据颜色搜索到的AR图像通常在形状上未必符合隐私背景图像的形状要求，因此在获得隐藏颜色之后，可以先获取主颜色为所述隐藏颜色的AR图像，然后对所述AR图像进行处理，获得外边界形状与所述图像区域的轮廓形状一致的AR遮挡图像，从而得到形状相匹配的的AR遮挡图像，在后续遮挡中避免对正常区域图像的遮挡，减小对直播的影响。

可以理解为，在静态背景类型下，背景几乎是固定不变的，观众对长时间显示的静态图像会有更高的关注程度。因此需要对静态背景类型中隐私背景图像进行相对精确的遮挡。且由于静态背景类中背景几乎不变，可以对连续多个敏感视频帧的隐私背景图像，使用同一个AR遮挡图像。

具体地，在静态背景类型的一种实现方式中，可以是在确定所述背景类型为静态背景类型时，获取所述隐私背景图像的周围图像。例如隐私背景图像是挂在墙壁上的主播全家福照片，则获取照片相框周围的墙纸图像。然后，在所述周围图像中，确定可重复部分图像。例如获取墙纸的重复花纹图样。将所述可重复部分图像，或者多个所述可重复部分图像的组合图像，作为AR遮挡图像。例如将墙纸的重复花纹图样，或者是多个墙纸的重复花纹图样拼合结果作为AR遮挡图像。

S104，根据所述录制的视频信息和所述遮挡帧，得到直播视频信息。

可以理解为，在录制的视频信息中，将每个敏感视频帧用其对应得到的遮挡帧替换掉，得到处理后的直播视频信息。

本实施例提供的一种视频录制方法，通过从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧，实现对隐私背景的定位；在所述敏感视频帧中，获取所述隐私背景图像的图像区域；将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧，以对部分背景的遮挡实现对隐私背景图像的隐藏；根据所述录制的视频信息和所述遮挡帧，得到直播视频信息，从而实现对录制的视频信息中涉及敏感隐私物件、衣衫不整的旁人等隐私背景的实时处理，并实现了对每帧背景中的隐私背景图像的动态隐藏，进而提高了录制视频过程中实时遮挡需隐藏物体的可靠性。

可选地，图2所示实施例中，步骤S101(从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧)的实现方式可以有多种，参见图3，是本发明实施例提供的一种图2中步骤S101的可选实现方式流程示意图。如图3所示的方法主要包括步骤S201至步骤S204，具体如下：

S201，解析录制的视频信息，得到至少一个原始视频帧。

录制的视频信息可以理解为是由多个原始视频帧组成的，由其可以解析得到至少一个原始视频帧。

S202，在所述至少一个原始视频帧中，分别获取视频背景图像。

在得到的至少一个原始视频帧中，可以通过图像识别、背景识别等方法获取视频背景图像。获取视频背景图像的方式可以有多种，参见图4，是本发明实施例提供的一种图3中步骤S202的可选实现方式流程示意图。下面结合图4和具体实施例对视频录制流程中的一种获取视频背景图像的方法进行举例说明。如图4所示的方法主要包括步骤S301至步骤S304，具体如下：

S301，获取用户的人脸信息。

这里的用户可以理解为是录制视频的主播，例如购物直播视频中的卖家主播、旅游直播中的游客主播。人脸信息可以理解为是人脸图像，也可以理解为是人脸图像中人脸的特征信息。获取用户的人脸信息的方式可以有多种，以两种可选的实现方式举例：

在一种实现方式中，可以是用户在开始视频之前预先录入了自己的人脸信息，则只需要获取预先存储的人脸信息即可得到用户的人脸信息。

在另一种实现方式中，可以是获取视频信息所属的完整视频中开始部分的连续多个原始视频帧，然后从开始部分的连续多个原始视频帧(例如前200个原始视频帧)中获取出现次数最多的最大人脸图像。最大人脸图像可以理解为是离摄像头最近的人脸图像，而主播在视频开篇通常是自己先出现，或者是进行自我介绍或者是在调整摄像头位置，因此获取到离摄像头最近的人脸很可能是用户人脸。最后根据出现次数最多的最大人脸图像确定用户的人脸信息。例如人脸信息是人脸图像，则直接将出现次数最多的最大人脸图像作为用户的人脸图像。又例如人脸信息是人脸特征信息，则将出现次数最多的最大人脸图像的特征信息，作为用户的人脸特征信息。

S302，在所述至少一个原始视频帧中，确定与所述人脸信息对应的人脸图像。

可以理解为用所述用户的人脸信息在每个原始视频帧中进行人脸查找，以在每个原始视频帧中确定出用户的人脸图像。

S303，根据所述人脸图像，在各所述原始视频帧中确定与所述人脸图像相对应的人像区域。

人像区域可以理解为包括用户的人脸图像的身体区域，也可以理解为与用户的人脸图像具有对应关系的身体区域。例如将在所述人脸图像相邻的下方区域检测身体部分图像，然后将人脸图像和所述身体部分图像的位置作为人像区域。又例如是在主播转头背对或侧对摄像头时还可以根据之前视频帧中人像区域进行目标物体跟踪和关联，从而在没有用户的人脸图像的原始视频帧中，确定与所述人脸图像相对应的人像，将该人像所在位置作为人像区域。

S304，在各所述原始视频帧中，将所述人像区域确定为前景图像，剩余图像区域确定为视频背景图像。

例如在旅游直播视频中，将游客主播作为前景图像，而其他景点建筑、物品和其他进入镜头的游客人像都被提取为视频背景图像。通过以用户的人脸信息来确定视频背景图像，可以实现对前景图像与视频背景图像的快速分离，提高了提取视频背景图像的准确性。

在获取视频背景图像之后，再继续通过下述步骤确定敏感视频帧。

S203，在所述视频背景图像中，获取隐私背景图像。

具体地，可以是对所述视频背景图像进行物体图像的语义分割，得到物体语义信息。例如得到的物体语义信息包括“全家福照片”、“商品105”、“衣架”、“非直播商品的内衣”。然后将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息。隐私语义信息可以是预设的，也可以是与直播商品无关的其他语义信息(例如在直播商品为口红、粉饼、眉笔等化妆品的直播视频中，将检测到的非化妆品类语义均作为隐私语义信息)。最后将所述隐私物体语义信息对应的物体图像，确定为隐私背景图像。例如隐私语义信息包括“内衣”和“照片”，那么“全家福照片”和“非直播商品的内衣”对应的物体图像就是需要隐藏的隐私背景图像。

其中，隐私语义信息还可以是根据历史指示自动学习的，具体地：在直播录制过程中，可以在获取到所述录制的视频信息时，将所述录制的视频信息向用户同步显示。假如主播在视频录制时发现一些不愿意被直播的内容被拍摄到，又没有自动遮挡，可以手动对需要增加遮挡的隐私背景图像输入隐藏指示。例如在显示屏上拖动鼠标或触摸圈出要增加遮挡的图像区域，以生成针对新的隐私背景图像的隐藏指示。在接收到用户针对所述视频背景图像输入的隐藏指示时，将所述隐藏指示对应的指示图像区域，确定为新的隐私背景图像。在此基础上可以有相应的隐私语义信息获得过程：先获取用户历史输入的隐藏指示，所述隐藏指示用于指示出新的隐私背景图像。然后获取各所述新的隐私背景图像对应的历史隐私物体语义信息。最后将所述历史隐私物体语义信息，作为隐私语义信息。例如用户历史输入的隐藏指示中，有将背景中全家福相片指示为新的隐私背景图像，因此“全家福照片”被加入了隐私语义信息中。由此可以根据用户的历史操作智能地确定隐私语义信息，提高与用户需求的适应程度，提高用户体验。

S204，将所述隐私背景图像对应的原始视频帧，确定为敏感视频帧。

可以理解为，将包含有所述隐私背景图像的原始视频帧，作为敏感视频帧。

参见图5，是本发明实施例提供的一种视频录制装置结构示意图。图5所示的视频录制装置50主要包括：

采集模块51，用于从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧。

定位模块52，用于在所述敏感视频帧中，获取所述隐私背景图像的图像区域。

AR遮挡模块53，用于将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧。

视频合成模块54，用于根据所述录制的视频信息和所述遮挡帧，得到直播视频信息。

图5所示实施例的视频录制装置50对应地可用于执行图2所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

可选地，所述AR遮挡模块53在所述将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧之前，还用于：

可选地，所述AR遮挡模块53具体用于：

可选地，所述采集模块51用于：

可选地，所述采集模块51具体用于：

可选地，所述采集模块51具体在所述将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息之前，还用于：

获取用户历史输入的隐藏指示，所述隐藏指示用于指示出新的隐私背景图像；获取各所述新的隐私背景图像对应的历史隐私物体语义信息；将所述历史隐私物体语义信息，作为隐私语义信息.

相应地，述采集模块51在获取用户历史输入的隐藏指示之前，还用于：

参见图6，是本发明实施例提供的一种电子设备的硬件结构示意图，该电子设备60包括：处理器61、存储器62和计算机程序；其中

存储器62，用于存储所述计算机程序，该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器61，用于执行所述存储器存储的计算机程序，以实现上述方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器62既可以是独立的，也可以跟处理器61集成在一起。

当所述存储器62是独立于处理器61之外的器件时，所述电子设备60还可以包括：

总线63，用于连接所述存储器62和处理器61。

参见图7，是本发明实施例提供的图6所示电子设备的一种示例。在图6所示实施例的基础上，电子设备具体可以是如图7所示的终端设备800。例如终端设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述电子设备的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频录制方法，其特征在于，包括：

在所述敏感视频帧中，获取所述隐私背景图像的图像区域；

根据所述录制的视频信息和所述遮挡帧，得到直播视频信息；

在所述将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧之前，还包括：

根据所述背景类型，获取AR遮挡图像；

所述根据所述背景类型，获取AR遮挡图像，包括：

在确定所述背景类型为动态背景类型时，获取所述隐私背景图像的周围颜色信息；根据所述周围颜色信息，确定隐藏颜色；根据所述隐藏颜色，获取AR遮挡图像，所述AR图像的主颜色为所述隐藏颜色；

2.根据权利要求1所述的方法，其特征在于，所述根据所述隐藏颜色，获取AR遮挡图像，所述AR图像的主颜色为所述隐藏颜色，包括：

获取主颜色为所述隐藏颜色的AR图像；

3.根据权利要求1所述的方法，其特征在于，所述从录制的视频信息中，获取包含有隐私背景图像的敏感视频帧，包括：

解析录制的视频信息，得到至少一个原始视频帧；

在所述至少一个原始视频帧中，分别获取视频背景图像；

在所述视频背景图像中，获取隐私背景图像；

4.根据权利要求3所述的方法，其特征在于，所述在所述至少一个原始视频帧中，分别获取视频背景图像，包括：

获取用户的人脸信息；

5.根据权利要求3或4所述的方法，其特征在于，所述在所述视频背景图像中，获取隐私背景图像，包括：

6.根据权利要求5所述的方法，其特征在于，在所述将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息之前，还包括：

将所述历史隐私物体语义信息，作为隐私语义信息；

7.一种视频录制装置，其特征在于，包括：

视频合成模块，用于根据所述录制的视频信息和所述遮挡帧，得到直播视频信息；

所述AR遮挡模块在所述将现实增强AR遮挡图像叠加在所述隐私背景图像的图像区域中，得到所述隐私背景图像被遮挡的遮挡帧之前，还用于：

根据包含所述敏感视频帧的多个连续视频帧，确定所述敏感视频帧的背景类型；根据所述背景类型，获取AR遮挡图像；

所述AR遮挡模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述AR遮挡模块具体用于：

9.根据权利要求7所述的装置，其特征在于，所述采集模块用于：

10.根据权利要求9所述的装置，其特征在于，所述采集模块具体用于：

11.根据权利要求9或10所述的装置，其特征在于，所述采集模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述采集模块具体在所述将与隐私语义信息相同的所述物体语义信息，确定为隐私物体语义信息之前，还用于：

13.一种电子设备，其特征在于，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行如权利要求1至6任一所述的视频录制方法。

14.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1至6任一所述的视频录制方法。