CN112330579A

CN112330579A - 视频背景更换方法、装置、计算机设备及计算机可读介质

Info

Publication number: CN112330579A
Application number: CN202011188327.8A
Authority: CN
Inventors: 欧光礼
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-05
Anticipated expiration: 2040-10-30
Also published as: CN112330579B

Abstract

本申请属于图像检测技术领域，本申请提供了一种视频背景更换方法、装置、计算机设备及计算机可读存储介质。本申请通过获取包含主讲人的音视频，基于音视频，获取主讲人所对应的音视频特征，根据音视频特征，识别主讲人所对应的当前讲授状态，基于当前讲授状态，获取与当前讲授状态所对应的预设目标背景，采用预设目标背景通过预设背景替换方式替换初始背景，并将预设目标背景进行显示，由于采用预设目标背景替换初始背景，通过背景的替换，使讲授具备良好的效果和产出，提高讲授所使用的硬件资源与人力资源等讲授资源的利用效率，避免讲授资源的浪费。

Description

视频背景更换方法、装置、计算机设备及计算机可读介质

技术领域

本申请涉及图像检测技术领域，尤其涉及一种背景更换方法、装置、计算机设备及计算机可读存储介质。

背景技术

目前的会议或者培训中，一般采用固定的背景。例如，在远程视频会议或者远程视频培训中，一般都是固定的背景。进一步地，例如主要采用双师讲堂的远程培训中，双师讲堂基于高昂的硬件投入基础之上，需要提供超大尺寸电子屏、高清投影仪等设备才能实现双师互动的效果，但讲师背景各式各样、杂乱无章，对于培训学员来讲体验较差，降低了对学员注意力的吸引，降低了培训的效率，使远程培训没有良好的效果和产出，导致远程培训所使用的硬件资源与人力资源等远程培训资源的浪费。

发明内容

本申请提供了一种视频背景更换方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中会议或者培训资源利用率较低问题。

第一方面，本申请提供了一种背景更换方法，所述方法包括：获取包含主讲人的音视频，所述音视频包含所述主讲人及所述主讲人所处的初始背景；基于所述音视频，获取所述主讲人所对应的音视频特征；根据所述音视频特征，识别所述主讲人所对应的当前讲授状态；基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景；采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。

第二方面，本申请还提供了一种背景更换装置，包括：第一获取单元，用于获取包含主讲人的音视频，所述音视频包含所述主讲人及所述主讲人所处的初始背景；第二获取单元，用于基于所述音视频，获取所述主讲人所对应的音视频特征；识别单元，用于根据所述音视频特征，识别所述主讲人所对应的当前讲授状态；第三获取单元，用于基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景；替换单元，用于采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。。

第三方面，本申请还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述视频背景更换方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述视频背景更换方法的步骤。

本申请提供了一种视频背景更换方法、装置、计算机设备及计算机可读存储介质。本申请通过获取包含主讲人的音视频，所述音视频由音视频采集设备对所述主讲人进行音视频采集而得到，所述音视频包含所述主讲人及所述主讲人所处的初始背景，基于所述音视频，获取所述主讲人所对应的音视频特征，根据所述音视频特征，识别所述主讲人所对应的当前讲授状态，基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景，采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示，由于采用所述预设目标背景替换所述初始背景，通过背景的替换，使讲授具备良好的效果和产出，提高讲授所使用的硬件资源与人力资源等讲授资源的利用效率，避免讲授资源的浪费。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频背景更换方法的一个流程示意图；

图2为本申请实施例提供的视频背景更换方法的一个应用环境中的流程示意图；

图3为本申请实施例提供的视频背景更换方法的第一个子流程示意图；

图4为本申请实施例提供的视频背景更换方法的第二个子流程示意图；

图5为本申请实施例提供的视频背景更换方法的第三个子流程示意图；

图6为本申请实施例提供的视频背景更换装置的一个示意性框图；以及

图7为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参阅图1，图1为本申请实施例提供的视频背景更换方法的一个流程示意图。如图1所示，该方法包括以下步骤S11-S15：

S11、获取包含主讲人的音视频，所述音视频由音视频采集设备对所述主讲人进行音视频采集而得到，所述音视频包含所述主讲人及所述主讲人所处的初始背景。

具体地，在进行讲授的场景中，可以通过讲授现场的音视频采集设备采集主讲人进行讲授的画面及声音。例如，在进行远程会议或者远程培训等远程视频中，受众看到的远程视频的背景一般是固定的初始背景，同样，在现场会议或者现场培训中，有时也会通过显示屏幕显示图像或者视频作为初始背景，以衬托现场会议或者现场培训的氛围，所采用的背景一般也会是固定的初始背景。

无论是远程会议或者远程培训，还是现场会议或者现场培训，可以在会议现场或者培训现场设置音视频采集设备，以采集现场包含主讲人的音视频。例如，通过现场预设的摄像头采集包含主讲人的视频画面，通过现场预设的麦克风采集主讲人的声音所对应的音频，从而采集到包含主讲人及主讲人所处的初始背景的音视频，并将所采集的音视频上传至对音视频进行处理的计算机设备，从而使对音视频进行处理的计算机设备获取包含主讲人的音视频。

S12、基于所述音视频，获取所述主讲人所对应的音视频特征。

具体地，获取到所述音视频后，基于所述音视频，获取所述主讲人所对应的音视频特征，由于视频传输的过程，是将视频所对应的图像与音频分开进行采集与传输的，可以获取所述主讲人所对应的视频特征，也可以获取所述主讲人所对应的音频特征，还可以获取所述主讲人所对应的视频特征与音频特征。可以基于所述视频，对所述视频进行图像提取，以将所述视频转换成若干张图像，并对所述若干张图像进行人脸识别及所述肢体动作识别等视频特征的识别，以得到所述视频所对应的视频特征。基于所述音频，将所述音频进行语音识别与分析，以得到所述音频所包含的语速和语调等音频特征。

S13、根据所述音视频特征，识别所述主讲人所对应的当前讲授状态。

具体地，根据所述音视频特征，对所述音视频中的视频进行人脸识别，通过人脸识别以识别出所述主讲人的脸部表情及眼神表情等视频特征，对所述音视频中的音频进行语音识别，通过语音识别以识别出所述声音的语速语调等所述主讲人的音频特征，根据所述主讲人所对应的视频特征与音频特征，识别所述主讲人所对应的当前讲授状态。由于人体的当前讲授状态会由内而外的表现在人体各个方面，例如主讲人的当前讲授状态表现在人体的面部表情、肢体动作及语音特征上，例如，人处于积极状态时，面部表情会表现眉飞色舞的洋溢特征，语音也会表现出高亢的特征，甚至肢体动作也会表现出欢快的动作等，通过对面部表情、肢体动作及语音特征等特征进行各自的特征量化，可以通过人脸识别、动作识别及语音语调的识别，识别出主讲人所处的当前讲授状态，当前讲授状态即主讲人的情绪状态(也可以称为精神状态或者心理状态)。例如，根据音视频的视频特征识别出人脸的表情特征和眼神特征，根据音视频特征的音频特征识别出语速语调特征，然后根据所述的表情特征、眼神特征及语速语调特征，将人的当前讲授状态分为消极、积极、平静三个维度的状态识别，其中，笑脸表情、眼睛较大有神、语速较普通语速快、语调高昂，可以识别当前主讲人处于积极状态，没有表情、语速及语调处于一般的语速及语调状态，可以识别当前主讲人处于平静状态，脸部处于阴沉表情、眼睛无神、语速较普通语速慢、语调低沉，可以识别当前主讲人处于消极状态。

S14、基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景。

具体地，识别出主讲人所对应的当前讲授状态后，根据所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景。例如，检测到主讲人比较消极或者平静的时候，可以匹配比较积极的预设目标背景，从而调整主讲人的讲话氛围，将所述讲话氛围导向积极的氛围，例如，在远程授课的场景中，检测到讲师比较消极或者平静的时候，可以匹配比较积极的预设目标背景，从而调整讲师的授课氛围，将所述授课氛围导向积极的氛围。例如，若所述视频特征为笑容特征等积极表情的表情特征、眼睛有神，且所述音频特征为快速高昂，判定所述当前讲授状态为积极表情；若所述视频特征为平静、眼神平静，且所述音频特征为平稳，判定所述当前讲授状态为平静的表情；若所述视频特征为消极表情、眼神无光，且所述音频特征为低沉，判定所述当前讲授状态为消极表情。例如，表情中检测到的开心、兴奋等即为积极表情，悲伤、惊讶等为消极表情，眼神直视极为积极，眼神下扬及瞥视眼神等为消极。

S15、采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。

具体地，将所述初始背景替换成预设目标背景，以通过背景的替换引导主讲人的讲话氛围，从而根据所述讲话氛围引导主讲人所面对的受众。例如，在进行远程会议或者远程培训等远程视频中，采用所述预设目标背景通过预设背景替换方式替换所述视频中所包含的初始背景，并将所述预设目标背景进行显示，以通过预设目标背景渲染的氛围引导主讲人所面对的受众。同样，在现场会议或者现场培训中，也可以通过自动替换显示屏幕显示的图像或者视频，将初始背景替换为预设目标背景所对应的图像或者视频，以衬托现场会议或者现场培训的氛围，以通过预设目标背景渲染的氛围引导主讲人所面对的受众。例如，在双师讲堂中，识别所述主讲人所对应的当前讲授状态，基于检测到的主讲人状态对初始背景进行模糊匹配，所谓模糊匹配指相似或者近似匹配，非精确匹配，例如，针对消极授课氛围，通过模糊匹配筛选出积极背景作为预设目标背景，该积极的预设目标背景只要属于积极的背景即可，并非指定为某一积极背景，以获取与所述当前讲授状态所对应的预设目标背景，将预设目标背景和教学视频流进行边界插值，按照初始时序重新组装，生成目标背景更换视频。请参阅图2，图2为本申请实施例提供的视频背景更换方法的一个应用环境中的流程示意图，在该示例中，根据图像分割培训讲师背景智能更换的具体步骤为：1)采集远程培训过程中讲师授课的音视频，提取视频中每一帧的人像信息和人脸信息，并对人脸所在的区域进行表情特征和眼神特征识别，对音频进行语速语调特征识别，根据识别的表情特征、眼神特征及语速语调，通过授课氛围模型得到对应的授课氛围标签，例如，积极氛围、消极氛围或者平静氛围，根据识别的授课氛围进行背景匹配以得到预设目标背景，同时，对视频帧进行图像分割，以提取出视频中的人像信息及初始背景。2)将获取的授课讲师和氛围模型匹配的背景图进行叠加，对人像信息及预设目标背景进行边界进行插值、去噪，以获取生成的视频帧，再根据视频帧的时间序列进行组合，可得到背景更换的视频。在双师讲堂中，通过本申请实施例基于图像分割的远程培训讲堂讲师背景，可以提升远程培训场景的讲师视频效果，提升培训用户体验，最终提升培训效果。

在本申请实施例中，获取包含主讲人的音视频，所述音视频由音视频采集设备对所述主讲人进行音视频采集而得到，所述音视频包含所述主讲人及所述主讲人所处的初始背景，基于所述音视频，获取所述主讲人所对应的音视频特征，根据所述音视频特征，识别所述主讲人所对应的当前讲授状态，基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景，采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示，由于采用所述预设目标背景替换所述初始背景，通过背景的替换，可以根据预期目的将主讲人所处氛围导向预期的目标氛围，可以提高主讲人所对应的受众注意力，提高主讲人与受众之间的讲授效率，使讲授具备良好的效果和产出，提高讲授所使用的硬件资源与人力资源等讲授资源的利用效率，避免讲授资源的浪费。例如，上述背景更换方法可以应用于双师讲堂中，提升远程教育的教学效果，从而促进智慧教育的发展，还可以应用于智慧政务及智慧社区等场景中，从而推动智慧城市的建设。

在一实施例中，所述音视频包括视频和音频，所述音视频特征包括视频特征和音频特征；所述基于所述音视频，获取所述主讲人所对应的音视频特征的步骤包括：

对所述视频进行图像分割，以提取所述视频所包含的所述主讲人所对应的视频特征；

对所述音频进行音频信号分析，以得到所述音频所包含的所述主讲人所对应的音频特征。

具体地，获取包含主讲人的视频流与音频流后，将所述视频流上传至预设图像分割模型中进行图像分割处理，以提取主讲人讲授的图像，从而得到所述视频所包含的视频特征。同时，由于声音的特性可由三个要素来描述，即响度、音调和音色，且声音的三要素与声波的幅度、频率和频谱具备对应关系，可以通过对所述音频进行音频信号分析，以得到所述音频所对应的音量和音频频率，然后将音量和音频频率映射为语速语调，以得到所述音频所对应的音频特征。

请参阅图3，图3为本申请实施例提供的视频背景更换方法的第一个子流程示意图。在该实施例中，所述对所述视频进行图像分割，以提取所述视频所包含的所述主讲人所对应的视频特征步骤包括：

S31、将所述视频转换成视频图像，以得到所述视频包含的所有视频图像及所有所述视频图像各自所对应的视频图像顺序；

S32、对每张所述视频图像进行人脸检测，以得到所述主讲人所对应的人脸特征；

S33、根据所述人脸特征，提取所述主讲人的预设人脸关键点所对应的人脸关键点特征；

S34、按照所有所述视频图像各自所对应的所述视频图像顺序，根据所有所述人脸关键点特征，获取所述主讲人所对应的微表情，以得到所述视频所包含的所述主讲人所对应的视频特征。

具体地，将所述视频转换成视频图像，可以得到所述视频中所包含的所有视频图像，由于视频都是由静止的画面按照时间顺序组成的，同时可以得到所有所述视频图像在视频中各自所对应的视频图像顺序，所述视频图像顺序即为视频中的画面播放时的播放顺序。对每张图像进行人脸检测(即人脸识别)，识别出所述图像中所包含的人脸，可以得到所述人脸所对应的人脸特征。同时由于人脸中的眼睛、眉毛、鼻子、嘴唇等五官特征可以显著的描述人脸表情，五官的不同状态可以描述对应的表情，因此，可以将人脸中的眼睛、眉毛、鼻子、嘴唇等五官作为人脸的预设人脸关键点，通过对人脸中预设关键点所对应的人脸关键点特征的提取，例如，可以利用深度学习和计算机视觉进行面部表情分析，从而根据所述人脸关键点特征获取人脸对应的表情，例如，人开心时，会眉毛上扬、嘴唇裂开、眼睛变小等，其中，人脸识别包含表情识别(即人脸面部表情分析)，表情识别为人脸识别中的一个重要分支。通过对连续的多张图像中的人脸关键点特征所对应表情的分析，可以获得所述主讲人所对应的微表情，从而提取所述视频所包含的所述主讲人所对应的视频特征。例如，通过人脸检测获得人脸关键点特征，根据人脸关键点识别得到人脸的表情特征和眼神特征，从而得到所述人脸的微表情，其中，微表情是一种人类在试图隐藏某种情感时无意识做出的、短暂的面部表情，可以通过对视频中的视频帧进行人脸面部表情分析获得。例如，根据人脸的嘴唇特征获得人脸的表情特征，可以在提取到人脸照片以后，首先根据人脸分布特征确定嘴角位置，截取人脸照片下面35％的部分，宽度为两眼瞳距之间的部分。由于人脸嘴唇的颜色相比人脸皮肤的颜色偏红色，即可在上述范围内通过RGB特征确定嘴唇区域以及准确的嘴角位置。获取到嘴唇位置和嘴角位置后，可以通过嘴角和瞳孔的相对位置提取微表情：获取每一帧的视频图像，根据人脸检测进行眼睛瞳孔定位，然后根据定位的瞳孔点按照上述方法对嘴角、嘴唇进行定位，分析每一帧跟上一帧、上三帧之间的相对位置差异，即可获取微表情。对于其它的预设人脸关键点，可以根据人脸关键点各自所对应的特征进行微表情的识别。例如，在双师讲堂中，根据所述视频流获取讲师的人脸样本，并根据所述人脸样本获取表情特征和眼神特征。

进一步地，为了提高对人脸微表情识别的准确性，还可以将多种预设人脸关键点特征结合起来，对人脸特征所对应的表情进行识别。

请参阅图4，图4为本申请实施例提供的视频背景更换方法的第二个子流程示意图。在该实施例中，所述对所述音频进行音频信号分析，以得到所述音频所对应的音频特征的步骤包括：

S41、将所述音频转换成所对应的音频信号；

S42、对所述音频信号进行时频分析以得到时频特征；

S43、根据所述时频特征确定所述时频特征所对应的音量与音频频率；

S44、将所述音量与所述音频频率映射为语速语调，以得到所述音频所对应的音频特征。

具体地，语速语调可以表现为语言声调，根据语言声调的不同特点可以判断人的情绪状态，例如，悲哀时语速慢，音调低；激动时声音高且尖，语速快；说话声音响亮、慢条斯理的人被认为积极、自信及轻松；说话结结巴巴，语无伦次的人缺乏自信及紧张等。获取到主讲人的音频后，将所述音频转换成音频信号，对所述音频信号进行时域和频域的分析，得到音频的音量大小和音频频率，将音量大小和音频频率映射为语速语调，以得到主讲人声音所对应的音频特征。

在一实施例中，所述获取包含主讲人的音视频的步骤包括：

接收一预设会场上传的包含主讲人的远程音视频，并将所述远程音视频存储至预设存储空间；

从所述预设存储空间获取所述远程音视频。

具体地，在远程视频中，一般是将一预设会场的音视频发送至另外的若干个预设会场，以实现远程形式的视频。在远程视频一端的一预设现场设置音视频采集设备，用来采集远程视频中主讲人的音视频，例如设置摄像头采集远程视频中主讲人的视频，用麦克风采集远程视频中主讲人的音频，从而采集到远程音视频中主讲人的音视频，该预设现场将采集到的音视频上传至预设服务器，以使预设服务器接收该预设会场上传远程音视频，并将所述远程音视频存储至预设存储空间，然后对该远程音视频进行处理时，从预设存储空间获取所述远程音视频。例如，在双师讲堂的远程培训中，在讲师进行培训的现场设置音视频采集设备，通过音视频采集设备采集讲师的视频和音频，并将采集的视频和音频上传至预设服务器等计算机设备，以使对音视频进行处理的计算机设备获取到双师远程培训中讲师的远程音视频。

在一实施例中，所述采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示的步骤包括：

获取所述远程音视频中的主讲人图像，并将所述主讲人图像与所述预设目标背景结合以生成目标视频；

将所述目标视频进行显示。

具体地，在远程视频中，采用所述预设目标背景通过预设背景替换方式替换所述远程视频中所包含的初始背景，可以获取所述远程音视频中的主讲人图像，其实是从远程视频中扣除主讲人图像，然后将所述主讲人图像与所述预设目标背景结合，以生成包含预设目标背景和主讲人的目标视频，并将所述目标视频替换初始的远程视频进行显示，从而实现采用所述预设目标背景替换所述初始背景，并将所述预设目标背景进行显示。例如，对于远程视频，可以在获取到与主讲人的当前讲授状态所对应的预设目标背景后，采用所述预设目标背景替换所述远程视频中所包含的初始背景，可以通过视频背景替换技术将预设目标背景替换所述远程视频中所包含的初始背景，其中，视频背景替换技术是指从视频序列中提取前景信息并将其融合到预设目标背景中的过程，可以采用基于深度学习的预设视频背景替换方式，也可以采用预设边界插值方式进行背景替换，将所述远程视频中所包含的初始背景替换成预设目标背景后，生成包含预设目标背景和主讲人的目标视频，并将目标视频显示给受众，例如，在双师讲堂中，将替换背景后的讲师视频显示给学员。由于采用所述预设目标背景替换所述远程视频中所包含的初始背景，通过背景的替换以生成目标视频，并将目标视频显示给受众，可以根据预期目的将远程视频的氛围导向预期的目标氛围，例如导向积极氛围的方向等，可以提高远程视频的受众注意力，提高远程视频的效率，使远程视频具备良好的效果和产出，提高远程视频所使用的硬件资源与人力资源等远程视频资源的利用效率，避免远程视频所使用的硬件资源与人力资源等远程视频资源的浪费。

请参阅图5，图5为本申请实施例提供的视频背景更换方法的第三个子流程示意图。在该实施例中，所述获取所述远程音视频中的主讲人图像，并将所述主讲人图像与所述预设目标背景结合以生成目标视频的步骤包括：

S51、从所述远程音视频中提取远程视频图像，以得到所述远程音视频中所包含的所有远程视频图像及所有远程视频图像在所述远程音视频中各自所对应的原始时间顺序；

S52、对每张所述远程视频图像进行逐帧分割，并抠出所述远程视频图像中所包含的人像，及得到所述人像在所述远程视频图像中所对应的位置；

S53、根据所述位置，将所述人像置于所述预设目标背景中与所述位置相同的目标位置，以生成每张所述远程视频图像所对应的目标图像；

S54、根据所有所述远程视频图像各自所对应的所述原始时间顺序，将所有所述目标图像生成视频以得到目标视频。

具体地，由于视频都是由静止的画面组成的,这些静止的画面被称为视频帧，即一张视频图像，或者称为一张图片，将所述预设目标背景替换所述远程音视频中所包含的初始背景时，将远程音视频的视频转换成视频图像，例如将MP4、MKV或者AVI等视频格式转换成bmp、jpg或者png等视频图像格式，亦即图片格式，即可从远程音视频中提取出所述远程音视频所包含的所有远程视频图像，及可以得到所有远程视频图像在所述远程音视频中各自所对应的原始时间顺序。对每张所述远程视频图像进行逐帧分割，并抠出所述远程视频图像中所包含的人像，同时可以得到所述人像在所述远程视频图像中所对应的位置，根据所述位置，将所述人像置于所述预设目标背景中与所述位置相同的目标位置，就可以实现采用所述预设目标背景替换所述远程音视频图像中所包含的初始背景，以生成每张所述远程视频图像所对应的目标图像，再根据所有所述远程视频图像各自所对应的所述原始时间顺序，将所有所述目标图像生成视频即可得到目标视频，将所述目标视频进行显示，从而实现将远程视频中的初始背景替换为预设目标背景。例如，在双师讲堂的远程培训中，如检测到讲师比较消极的时候，匹配比较积极的背景视频，然后逐帧分割抠出人像再与积极背景融合，以得到积极背景的视频。

需要说明的是，上述各个实施例所述的背景更换方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图6，图6为本申请实施例提供的背景更换装置的一个示意性框图。对应于上述所述视频背景更换方法，本申请实施例还提供一种背景更换装置。如图6所示，该背景更换装置包括用于执行上述所述视频背景更换方法的单元，该背景更换装置可以被配置于计算机设备中。具体地，请参阅图6，该视频背景更换装置60包括第一获取单元61、第二获取单元62、识别单元63、第三获取单元64及替换单元65。

其中，第一获取单元61，用于获取包含主讲人的音视频，所述音视频包含所述主讲人及所述主讲人所处的初始背景；

第二获取单元62，用于基于所述音视频，获取所述主讲人所对应的音视频特征；

识别单元63，用于根据所述音视频特征，识别所述主讲人所对应的当前讲授状态；

第三获取单元64，用于基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景；

替换单元65，用于采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。

在一实施例中，所述音视频包括视频和音频，所述音视频特征包括视频特征和音频特征；所述第二获取单元62包括：

分割子单元，用于对所述视频进行图像分割，以提取所述视频所包含的所述主讲人所对应的视频特征；

第一分析子单元，用于对所述音频进行音频信号分析，以得到所述音频所包含的所述主讲人所对应的音频特征。

在一实施例中，所述分割子单元包括：

第一转换子单元，用于将所述视频转换成视频图像，以得到所述视频包含的所有视频图像及所有所述视频图像各自所对应的视频图像顺序；

检测子单元，用于对每张所述视频图像进行人脸检测，以得到所述主讲人所对应的人脸特征；

提取子单元，用于根据所述人脸特征，提取所述主讲人的预设人脸关键点所对应的人脸关键点特征；

第一获取子单元，用于按照所有所述视频图像各自所对应的所述视频图像顺序，根据所有所述人脸关键点特征，获取所述主讲人所对应的微表情，以得到所述视频所包含的所述主讲人所对应的视频特征。

在一实施例中，所述第一分析子单元包括：

第二转换子单元，用于将所述音频转换成所对应的音频信号；

第二分析子单元，用于对所述音频信号进行时频分析以得到时频特征；

确定子单元，用于根据所述时频特征确定所述时频特征所对应的音量与音频频率；

映射子单元，用于将所述音量与所述音频频率映射为语速语调，以得到所述音频所对应的音频特征。

在一实施例中，所述第一获取单元61包括：

接收子单元，用于接收一预设会场上传的包含主讲人的远程音视频，并将所述远程音视频存储至预设存储空间；

第二获取子单元，用于从所述预设存储空间获取所述远程音视频。

在一实施例中，所述替换单元65包括：

第三获取子单元，用于获取所述远程音视频中的主讲人图像，并将所述主讲人图像与所述预设目标背景结合以生成目标视频；

显示子单元，用于将所述目标视频进行显示。

在一实施例中，所述第三获取子单元包括：

第三转换子单元，用于从所述远程音视频中提取远程视频图像，以得到所述远程音视频中所包含的所有远程视频图像及所有远程视频图像在所述远程音视频中各自所对应的原始时间顺序；

分割子单元，用于对每张所述远程视频图像进行逐帧分割，并抠出所述远程视频图像中所包含的人像，及得到所述人像在所述远程视频图像中所对应的位置；

放置子单元，用于根据所述位置，将所述人像置于所述预设目标背景中与所述位置相同的目标位置，以生成每张所述远程视频图像所对应的目标图像；

生成子单元，用于根据所有所述远程视频图像各自所对应的所述原始时间顺序，将所有所述目标图像生成视频以得到目标视频。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述背景更换装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述背景更换装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将背景更换装置按照需要划分为不同的单元，也可将背景更换装置中各单元采取不同的连接顺序和方式，以完成上述背景更换装置的全部或部分功能。

上述背景更换装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图7，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504，存储器也可以为易失性计算机可读存储介质。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种上述背景更换方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种上述背景更换方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：获取包含主讲人的音视频，所述音视频包含所述主讲人及所述主讲人所处的初始背景；基于所述音视频，获取所述主讲人所对应的音视频特征；根据所述音视频特征，识别所述主讲人所对应的当前讲授状态；基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景；采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。

在一实施例中，所述音视频包括视频和音频，所述音视频特征包括视频特征和音频特征；所述处理器502在实现所述基于所述音视频，获取所述主讲人所对应的音视频特征的步骤时，具体实现以下步骤：

在一实施例中，所述处理器502在实现所述对所述视频进行图像分割，以提取所述视频所包含的所述主讲人所对应的视频特征步骤时，具体实现以下步骤：

将所述视频转换成视频图像，以得到所述视频包含的所有视频图像及所有所述视频图像各自所对应的视频图像顺序；

对每张所述视频图像进行人脸检测，以得到所述主讲人所对应的人脸特征；

根据所述人脸特征，提取所述主讲人的预设人脸关键点所对应的人脸关键点特征；

按照所有所述视频图像各自所对应的所述视频图像顺序，根据所有所述人脸关键点特征，获取所述主讲人所对应的微表情，以得到所述视频所包含的所述主讲人所对应的视频特征。

在一实施例中，所述处理器502在实现所述对所述音频进行音频信号分析，以得到所述音频所对应的音频特征的步骤时，具体实现以下步骤：

将所述音频转换成所对应的音频信号；

对所述音频信号进行时频分析以得到时频特征；

根据所述时频特征确定所述时频特征所对应的音量与音频频率；

将所述音量与所述音频频率映射为语速语调，以得到所述音频所对应的音频特征。

在一实施例中，所述处理器502在实现所述获取包含主讲人的音视频的步骤时，具体实现以下步骤：

从所述预设存储空间获取所述远程音视频。

在一实施例中，所述处理器502在实现所述采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示的步骤时，具体实现以下步骤：

将所述目标视频进行显示。

在一实施例中，所述处理器502在实现所述获取所述远程音视频中的主讲人图像，并将所述主讲人图像与所述预设目标背景结合以生成目标视频的步骤时，具体实现以下步骤：

从所述远程音视频中提取远程视频图像，以得到所述远程音视频中所包含的所有远程视频图像及所有远程视频图像在所述远程音视频中各自所对应的原始时间顺序；

对每张所述远程视频图像进行逐帧分割，并抠出所述远程视频图像中所包含的人像，及得到所述人像在所述远程视频图像中所对应的位置；

根据所述位置，将所述人像置于所述预设目标背景中与所述位置相同的目标位置，以生成每张所述远程视频图像所对应的目标图像；

根据所有所述远程视频图像各自所对应的所述原始时间顺序，将所有所述目标图像生成视频以得到目标视频。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的所述视频背景更换方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频背景更换方法，其特征在于，包括：

获取包含主讲人的音视频，所述音视频包含所述主讲人及所述主讲人所处的初始背景；

基于所述音视频，获取所述主讲人所对应的音视频特征；

根据所述音视频特征，识别所述主讲人所对应的当前讲授状态；

基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景；

采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。

2.根据权利要求1所述视频背景更换方法，其特征在于，所述音视频包括视频和音频，所述音视频特征包括视频特征和音频特征；所述基于所述音视频，获取所述主讲人所对应的音视频特征的步骤包括：

3.根据权利要求2所述视频背景更换方法，其特征在于，所述对所述视频进行图像分割，以提取所述视频所包含的所述主讲人所对应的视频特征步骤包括：

4.根据权利要求2所述视频背景更换方法，其特征在于，所述对所述音频进行音频信号分析，以得到所述音频所对应的音频特征的步骤包括：

将所述音频转换成所对应的音频信号；

对所述音频信号进行时频分析以得到时频特征；

5.根据权利要求1所述视频背景更换方法，其特征在于，所述获取包含主讲人的音视频的步骤包括：

从所述预设存储空间获取所述远程音视频。

6.根据权利要求5所述视频背景更换方法，其特征在于，所述采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示的步骤包括：

将所述目标视频进行显示。

7.根据权利要求6所述视频背景更换方法，其特征在于，所述获取所述远程音视频中的主讲人图像，并将所述主讲人图像与所述预设目标背景结合以生成目标视频的步骤包括：

8.一种背景更换装置，其特征在于，包括：

第一获取单元，用于获取包含主讲人的音视频，所述音视频包含所述主讲人及所述主讲人所处的初始背景；

第二获取单元，用于基于所述音视频，获取所述主讲人所对应的音视频特征；

识别单元，用于根据所述音视频特征，识别所述主讲人所对应的当前讲授状态；

第三获取单元，用于基于所述当前讲授状态，获取与所述当前讲授状态所对应的预设目标背景；

替换单元，用于采用所述预设目标背景通过预设背景替换方式替换所述初始背景，并将所述预设目标背景进行显示。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述计算机程序，以执行如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1-7中任一项所述方法的步骤。