CN111491123A

CN111491123A - 视频背景处理方法、装置及电子设备

Info

Publication number: CN111491123A
Application number: CN202010305856.5A
Authority: CN
Inventors: 孙鑫
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-04

Abstract

本发明公开了一种视频背景处理方法、装置及电子设备，所述视频背景处理方法包括：获取目标视频中的目标人物的人物行为信息，所述人物行为信息包括以下至少一项：人物动作、语言内容；根据所述人物行为信息，更新所述目标视频中的背景图像。本发明的实施例，根据目标视频中人物的行为信息，理解用户的行为意图，将目标视频中的原始背景自动替换成为与人物行为相关的背景。能够帮助用户智能地获取和替换更符合视频内的人物行为的背景，也能够增加视频拍摄的趣味性。

Description

视频背景处理方法、装置及电子设备

技术领域

本发明涉及通信技术领域，尤其涉及一种视频背景处理方法、装置及电子设备。

背景技术

拍摄视频是电子设备的重要用途之一，利用电子设备拍摄视频，可以快速便捷的向他人分享和传播有趣、有价值的内容。当用户拍摄视频时，由于各种因素，不一定能够去到心仪的现场进行拍摄，也许只能在家中或其他某个地方拍摄，导致视频的拍摄背景与视频内人物行为不匹配，例如：人物在跳舞，而视频背景为家中，而这样完成的视频的拍摄背景可能并不是用户想要的，拍摄背景与视频内的人物行为不一致，无法达到用户预期的展示目的。

发明内容

本发明提供了一种视频背景处理方法、装置及电子设备，能够解决视频背景与人物行为不一致的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种视频背景处理方法，包括：

获取目标视频中的目标人物的人物行为信息，所述人物行为信息包括以下至少一项：人物动作、语言信息；

根据所述人物行为信息，更新所述目标视频中的背景图像。

第二方面，本发明实施例还提供了一种视频背景处理装置，包括：

获取模块，用于获取目标视频中的目标人物的人物行为信息，所述人物行为信息包括以下至少一项：人物动作、语言内容；

第一更新模块，用于根据所述人物行为信息，更新所述目标视频中的背景图像。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的视频背景处理方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的视频背景处理方法的步骤。

在本发明实施例中，根据目标视频中人物的行为信息，理解用户的行为意图，将目标视频中的原始背景自动替换成为与人物行为相关的背景。能够帮助用户智能地获取和替换更符合视频内的人物行为的背景，也能够增加视频拍摄的趣味性。

附图说明

图1表示本发明实施例的视频背景处理方法的流程示意图；

图2表示本发明实施例的视频背景的示意图之一；

图3表示本发明实施例的视频背景的示意图之二；

图4表示本发明实施例的视频背景的示意图之三；

图5表示本发明实施例的视频背景的示意图之四；

图6表示本发明实施例的背景图像替换时间的设置界面示意图；

图7表示本发明实施例的视频背景的示意图之五；

图8表示本发明实施例的视频背景处理装置的模块结构示意图；

图9表示本发明实施例的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的实施例提供一种视频背景处理方法，包括：

步骤101、获取目标视频中的目标人物的人物行为信息，所述人物行为信息包括以下至少一项：人物动作、语言内容。

该实施例中，所述目标视频可以为拍摄完成的视频，也可以为正在拍摄中的视频。所述人物行为信息用于指示人物的行为意图，包括以下至少一项：人物动作、语言内容，所述人物动作例如：舞蹈动作、跑步动作等，所述语言内容例如：人物说话的内容。

步骤102、根据所述人物行为信息，更新所述目标视频中的背景图像。

通过识别所述目标视频中的人物行为信息，理解人物的行为意图，将所述目标视频中的背景图像替换为与人物行为意图相关的背景。其中，终端的数据库中存储有与人物行为信息相对应的数据，例如：在识别到人物的动作后，将动作相关信息与数据库中的数据进行对比，来得出结论，表明这些动作的含义，如人物的动作表示其在跳舞，则可以在素材可中查找与跳舞相关的视频背景，如舞台，将所述待处理视频的原始背景图像替换为舞台背景。

本发明的实施例，根据目标视频中人物的行为信息，理解用户的行为意图，将目标视频中的原始背景自动替换成为与人物行为相关的背景。能够帮助用户智能地获取和替换更符合视频内的人物行为的背景，也能够增加视频拍摄的趣味性。

可选地，所述获取目标视频中的人物行为信息，可以利用视频分割技术和视频理解技术对所述待处理视频进行处理，从而获取所述人物行为信息。其中，所述视频分割技术是指将目标视频的背景与视频内的人物分离，从而能够针对人物视频的部分获取人物行为信息，并将分离出的视频背景更新为与人物行为对应的背景图像(以下简称为背景)。所述步骤101可以包括：对所述目标视频进行分割处理，得到分离的背景视频和人物视频；解析所述人物视频中的人物行为，获得所述人物行为信息。

利用视频分割技术对所述目标视频进行分割处理，利用视频理解技术对视频中的人物行为进行分析理解，从而获取人物的行为意图。视频分割技术，是通过人工智能算法对视频序列按照一定的标准分割成不同区域，从而分离出有意义的实体部分。通过视频分割，可以将视频中的前后景进行分离，并对前后景进行进一步的处理。视频理解技术，是通过人工智能算法对视频内容进行识别、理解和分析，从视频中挖掘出更多的有价值信息，进而利用这些信息形成人工智能(Artificial Intelligence，AI)解决方案，帮助解决实际生活场景中的问题。

可选地，所述人物行为信息包括人物动作，所述步骤102包括：

根据所述人物动作，将所述目标视频中的背景图像更新为与所述人物动作对应的第一目标背景图像。

该实施例中，通过分析目标视频中的人物动作，获取人物的行为意图，进而将目标视频中的原始背景图像替换为人物行为意图相关的背景，所述第一目标背景图像即为与人物动作对应的背景图像。例如：识别到人物在跳舞，则确定所述人物动作为跳舞动作，将原始背景替换成与跳舞动作相关的绚丽的舞台背景；识别到人物在跑步，则确定所述人物动作为跑步动作，将原始背景替换成与跑步场景相关的背景(如唯美的沙滩背景)；识别到人物在做饭，则确定所述人物动作为做饭动作，可以将原始背景替换成与做饭相关的餐厅背景(如米其林餐厅的后厨背景)。具体地，算法在处理时需要对人物的关键动作进行检测，然后与数据库中的数据进行对比，来得出结论，表明这些动作的含义，根据人物动作的含义确定人物在进行的目标事件，进而更新所述目标视频的背景图像。

可选地，某个视频的起始片段可能是人物的介绍或者其他内容，比如视频中的人物说“大家好，我是**，今天给大家展示一下我的绝活”，这些内容不包含关键动作，因此不一定能够识别出人物的行为意图，此时不需要替换背景。但是当视频中的人物开始跳舞时，算法会进行分析并得出结论：人物当前在进行舞蹈动作，即人物在进行的目标事件为跳舞，当客户端接收到该结论时，会自动在素材库搜索跳舞相关的视频背景，然后给原始视频替换上。更换的背景能够自动铺满整个视频片段，也就是说，虽然在视频开始时并未判断为跳舞，但一旦该视频的人物行为被定义为跳舞，则会把整个视频的背景都替换掉。以人物动作为跳舞为例，所述目标视频的原始图像如图2所示，图2中的人物22在进行跳舞动作，则可以确定人物22的行为意图为跳舞，可以将目标视频的背景图像替换为跳舞相关的背景图像，对所述目标视频进行背景替换后的图像如图3所示，视频背景由原始背景21替换为舞台背景31，图3中的人物32在舞台背景31下进行跳舞动作，目标视频内的人物32对应图2中的人物22，目标视频内的人物行为与视频背景一致。

该实施例根据目标视频中的人物动作，确定人物的行为意图，使目标视频能够根据人物的动作及时切换为满足用户预期的背景图像，使背景图像能够与视频内的人物行为一致，达到用户预期的展示目的。

可选地，所述人物行为信息包括语言信息；所述步骤102包括：

基于人物的语言信息，确定目标对象；将所述目标视频中的背景图像更新为所述目标对象对应的第二目标背景图像；其中，所述目标对象包括目标事件或目标关键词。

该实施例中，所述目标对象可以为目标视频中的人物语言信息对应的目标事件，如“我要去***”、“我喜欢**”；也可以为人物语言信息中的目标关键词，如语言信息为“我要去第一地点”，则“第一地点”可以为所述目标关键词。在确定所述目标对象后，将所述目标视频的原始背景图像更新为与所述目标对象对应的第二目标背景图像。

需要说明的是，在所述目标对象包括目标关键词时，目标关键词与背景图像具有对应关系，例如：可以在电子设备的数据库中存储目标关键词与背景图像的对应关系，在确定所述目标关键词后，根据对应关系可以查找到与所述目标关键词对应的背景图像。例如：在识别到目标关键词为“第一地点”时，数据库中存储有与所述“第一地点”相关的第一图像，则可以将目标视频的背景图像替换为所述第一图像。

该实施例根据语言信息确定目标对象，根据目标对象更换目标视频内的背景图像，使目标视频能够根据视频内人物的行为意图及时更换为满足用户预期的背景图像，使背景图像能够与视频内的人物语言信息一致，达到用户预期的展示目的。

进一步地，所述目标对象包括目标事件，则所述基于人物的语言信息，确定目标对象可以包括：对所述语言信息进行语义识别，得到所述语言信息的语义内容；根据所述语义内容，确定所述目标事件。

该实施例中，基于目标视频中人物的语言进行语义识别，得到目标事件，例如：“我喜欢第一地点，我想去第一地点”和“我不喜欢第一地点，我不想去第一地点”，所代表的语义完全相反，只有在人物的语言信息为“我喜欢第一地点，我想去第一地点”时，通过语义识别可以确定目标事件即为“去往第一地点”，则将所述目标视频中的背景图像更新为所述第一地点相关的背景图像；在人物的语言信息为“我不喜欢第一地点，我不想去第一地点”，则无需更换目标视频的背景图像。

该实施例根据目标视频内人物语言的语义识别用户意图，确定语言信息所指示的目标事件，将目标视频的背景图像替换为与目标事件对应的背景图像，使背景图像能够与视频内的人物行为一致，避免了仅通过个别词语导致对用户意图理解错误的情况，能够达到用户预期的展示目的。

可选地，所述目标对象包括目标关键词，所述基于人物的语言信息，确定目标对象，包括：提取所述语言信息中的至少一个关键词；根据包括所述至少一个关键词的预设字节范围内语句的语义内容，确定所述目标关键词。

该实施例中，利用视频理解技术解析所述目标视频中的人物行为时，可以根据人物的语言内容中的关键词确定人物的行为意图，需要首先提取人物语言中的关键词，具体地，在对所述目标视频处理时需要对人物的关键词进行检测，然后与数据库中的数据进行对比，来得出结论，表明这些话语的含义。关键词可以包含人物名称、地理位置名称、国家、城市等。譬如：识别到人物说“我好喜欢某明星啊，她真是一个特别棒的爱豆”，则该语句中的关键词为某明星”，则将原始视频背景替换该明星的背景；识别到人物说“墨尔本是我最喜欢的城市”，则该语句中的关键词为“墨尔本”，则将原始背景替换成该城市的背景。

此外，需要注意的是，在提取关键词时，可能存在获取到多个关键词的情况，此时需要从多个关键词中选择某一个或几个作为目标关键词，从而将所述待处理视频的原始背景替换为所述目标关键词相关的背景图像。

具体地，可以根据包括所述至少一个关键词的预设字节范围内语句的语义内容，确定所述目标关键词。该实施例中，所述预设字节范围可以为所述关键词之前的预设字数以及所述关键词之后的预设字数范围，例如关键词为“某明星”时，可以选择“某明星”三个字之前的4个字节至“某明星”三个字之后的4个字节作为所述预设字节范围；或者，所述预设字节范围还可以为所述关键词之前的部分动词或形容词或者所述关键词之后的部分动词或形容词，在解析关键词的时候需要连带其前后的动词或形容词同时进行判断，比如“我喜欢某明星”和“我不喜欢某明星”的关键词都是“某明星”，则在确定目标关键词时，需要根据“某明星”之前的动词“喜欢”或者“不喜欢”确定，该实施例中，在语言内容为“我喜欢某明星”时，确定所述目标关键词为“某明星”；在语言内容为“我不喜欢某明星”时，目标关键词不能为“某明星”。

该实施例根据包括关键词的预设字节范围内的语句内容确定目标关键词，能够准确地识别出人物的行为意图，避免由于关键词与语义不一致导致的行为意图识别错误，能够将目标视频的背景图像替换为符合人物真正行为意图的背景图像，满足用户预期的展示需求。

可选地，所述目标对象包括目标关键词，所述基于人物的语言信息，确定目标对象包括：提取所述语言信息中的至少一个关键词；在所述关键词为至少两个的情况下，选择第一预设时间段内出现频率大于预设阈值的关键词作为所述目标关键词。

该实施例中，在关键词为至少两个的情况下，可以选择第一预设时间段内出现频率大于预设阈值的关键词作为目标关键词，例如：将出现频率最高的关键词作为所述目标关键词。所述预设阈值为根据需求设置的关键词出现频率的阈值，在关键词出现的频率大于所述预设阈值时可以认为该关键词指示用户行为意图。同一个视频中可能出现多个关键词，就需要在视频解析过程中对人物的整个对话进行分析，识别出占比最高的关键词，作为替换视频背景的参考，例如：在一段语言中，“第一地点”出现5次，“第二地点”出现2次，则可以将“第一地点”作为所述目标关键词。

该实施例将出现频率较高的关键词作为目标关键词，能够准确地识别出人物的行为意图，将目标视频的背景图像替换为符合人物真正行为意图的背景图像，满足用户预期的展示需求。

需要说明的是，目标视频中的某些话可能是没有特别含义或指向性的，比如视频中人物说“你在干嘛，吃饭了吗”，这些内容不包含关键词，因此不一定能够识别出人物的意图，此时不需要换视频背景。但是当目标视频中的人物说“我好喜欢第一地点”时，对语言内容进行分析并得出结论：人物喜欢第一地点，当客户端接收到该结论时，会自动在素材库搜索第一地点相关的视频背景，然后为原始视频换上。更换的背景会自动铺满整个视频片段，也就是说，虽然在视频开始时并未判断为关键词第一地点，但一旦该视频的人物主要说话内容被定义为第一地点，则会把整个视频的背景都替换掉。以人物的语言内容识别被定义为去往第一地点为例，所述目标视频的原始图像如图4所示，图4中的原始背景41为目标视频内的人物42的家中，根据人物42的语言内容中的目标关键词识别到人物42想去往第一地点，则将目标视频的背景图像替换为第一地点相关的图像，对所述目标视频进行背景替换后的图像如图5所示，视频背景由原始背景41替换为第一地点51的图像。在图5中，人物52在第一地点51的背景图像下，目标视频内的人物52对应图4中的人物42，人物的行为与背景图相一致。

可选地，所述目标对象包括目标关键词，所述基于人物的语言信息，确定目标对象，包括：

提取所述语言信息中的至少一个关键词；在所述关键词为N个的情况下，对所述目标视频进行分段，得到与N个所述关键词分别对应的N个视频片段；其中，N为大于1的整数。

该实施例中，若目标视频中的人物在一时间段内说出一段语言内容，对语言内容进行分析并提取出N个关键词，此时不能确定将哪一个关键词作为替换背景图像的依据，则可以对该时间段内的视频片段进行分段，得到与N个所述关键词分别对应的N个视频片段，根据每个关键词分别替换对应的视频片段的背景图像。例如：一段10分钟的视频，共提取出3个关键词，其中第一关键词出现在视频的第1分钟，第二关键词出现在视频的第5分钟，第三关键词出现在视频的第9分钟，则可以将视频的第5分钟之前的视频背景替换为与第一关键词对应的背景图像，将视频的第5-9分钟的视频背景替换为与第二关键词对应的背景图像，将视频的9-10分钟的视频背景替换为与第三关键词对应的背景图像。需要说明的是，对所述目标视频进行分段后，不同的视频片段内的人物行为不同，且不同的视频片段对应不同的关键词。

该实施例对于提取出至少两个关键词的目标视频，通过将目标视频划分为与关键词数量相等的视频片段，使每一个视频片段对应一个关键词，从而使同一个视频，根据不同的视频片段的关键词的不同，实时更新目标视频的背景图像，实现根据人物的行为变化更新目标视频背景图像，使背景图像与人物行为达到一致，提升用户在视频编辑时的趣味性，有利于用户社交分享。

可选地，所述人物行为信息包括语言信息，所述语言信息包括：目标时间信息和与所述目标时间信息对应的目标事件；

所述步骤102可以包括：在实时获取的所述目标视频的视频时间点为所述目标时间信息对应的目标时间点的情况下，将所述目标视频中的背景图像更新为与所述目标事件对应的第三目标背景图像。

该实施例中，所述目标时间信息为具体的时间内容，所述目标事件为与所述时间内容对应的人物行为意图。可选地，所述目标时间信息包括：第一时长或第一时间点。所述视频时间点可以为视频播放过程中的视频播放时间点，也可以为视频录制过程的视频录制时间点，例如：一个5分钟的目标视频，在播放至第3分钟的时候，目标视频的视频时间点为该视频的第3分钟；录制一个10分钟的目标视频的过程中，在录制到2分20秒的时候，目标视频的视频时间点为该视频的第2分20秒。在所述目标视频为正在录制的视频时，所述视频时间点为录制的时间点；在所述目标视频为已经录制完成正在播放的视频时，所述视频时间点为播放时间点。

具体地，所述目标时间信息可以包括：第一时长；

所述将所述目标视频中的背景图像更新为与所述目标事件对应的第三目标背景图像之前，所述方法还包括：

基于第一时刻和所述第一时长，确定所述目标时间点；其中，所述第一时刻为采集到所述语言信息的时刻。

以所述目标视频为已经录制好的视频为例，识别到视频内的人物的语言信息为“5分钟后我从A到了B”，，则所述第一时长为5分钟，识别到该语言信息的第一时刻为视频开始播放的第2分20秒，基于所述第一时刻第2分20秒和所述第一时长5分钟，即基于第一时刻和第一时长的和值，即可确定目标时间点则可以确定所述目标时间点为视频开始播放的第7分20秒，则在视频播放至第7分20秒时不管用户的动作或语言内容是什么，默认切换为B相关的背景。

以所述目标视频为正在录制的视频为例，在视频开始录制的第2分20秒，采集到人物的语言信息为“5分钟后我从A到了B”，则所述第一时长为5分钟，基于所述第一时刻和所述第一时长，则可以确定所述目标时间点为视频开始录制的第7分20秒，则在视频录制第7分20秒时不管用户的动作或语言内容是什么，默认切换为B相关的背景。

该实施例根据采集到语言信息的第一时刻以及语言信息内包含的第一时长，确定目标时间点，并在所述目标时间点更新所述目标视频的背景图像，能够准确的根据用户意图替换视频背景图像，使目标视频的背景图像符合用户期望。

具体地，所述目标时间信息可以包括：第一时间点；

获取第一系统时间和所述第一时间点；基于所述第一系统时间和所述第一时间点，确定目标时间段；基于第二时刻和所述目标时间段，确定所述目标时间点；其中，所述第二时刻为采集到所述语言信息的时刻。

该实施例中，所述第一系统时间为采集到所述语言信息时终端的系统时间，所述第一时间点为语言信息内包含的具体的时间点信息，如：4点钟；所述目标时间段为所述第一系统时间到所述第一时间点之间的时间段。

以所述目标视频为正在录制的视频为例，在视频录制到2分20秒时，采集到视频内的人物的语言信息为“3点零2分我到达B”，此时终端的系统时间(即第一系统时间)为3点钟，则所述第二时刻为视频录制开始的第2分20秒，所述第一时间点为“3点零2分”，第一系统时间为“3点钟”，根据所述所述第一时间点和第一系统时间之间的差值，可以确定目标时间段为当前时刻的之后2分钟，则根据所述第二时刻和所述目标时间段，即基于所述第二时刻和所述目标时间段的和值，可以确定所述目标时间点为视频录制开始的第4分20秒，在视频录制到第4分20秒时，无论用户的动作或语言是什么，默认切换为B相关的背景。

该实施例根据采集到语言信息的系统时刻、视频录制时刻以及语言信息内包含的第一时间点，可以确定目标时间段，从而进一步确定更新背景图像的目标时间点，能够准确的根据视频内人物的语言内容替换视频背景图像，使目标视频的背景图像符合用户期望。

该实施例能够基于用户的语言信息，在指定时间点以及该时间点对应的目标事件后，在指定的时间点将目标视频的背景图像替换为目标事件相关的图像，能够使目标视频的背景图像符合用户期望，调整视频背景图像的方式更灵活，提升用户视频编辑时的趣味性，满足用户需求。

可选地，在所述目标视频中存在至少两个所述目标人物的情况下，所述步骤102可以包括以下其中一项：

根据具有共同行为特征的至少两个所述目标人物的人物行为信息，更新所述目标视频中的背景图像；例如所述目标视频中共有三个目标人物，且都具有行为动作，其中两人的动作为跳舞，另一人的动作为跑步，则将舞蹈动作确定为人物的行为信息，将所述目标视频的背景图像替换为跳舞相关的背景图像。

根据至少两个所述目标人物中的第一目标人物的人物行为信息，更新所述目标视频中的背景图像；例如所述目标视频中共有三个目标人物，可以根据位于中间位置(或者位于左边第一位，或者位于右边第一位)的人物行为信息替换背景图像；或者，在至少两个目标人物的性别不同时，根据女性(或者男性)的人物行为信息替换背景图像。

在至少两个所述目标人物的人物行为类型不同的情况下，根据目标类型的第二目标人物的人物行为信息，更新所述目标视频中的背景图像。所述人物行为类型可以包括人物动作和语言内容，例如所述目标视频中共有三个目标人物，其中两人在跳舞，另一人在说话，则可以将舞蹈动作确定为人物的行为信息，将所述目标视频的背景图像替换为跳舞相关的背景图像；或者，也可以将语言内容确定为人物的行为信息，将所述目标视频的背景图像替换为语言内容相关的背景图像。

该实施例给出了在所述目标视频内包含至少两个目标人物时，确定人物行为信息，更新所述目标视频中的背景图像的方法，避免由于目标人物过多导致的人物行为意图识别错乱，能够自动将目标视频的背景图像更新为符合用户预期的背景图像，满足用户需求。

可选地，所述获取目标视频中的目标人物的人物行为信息之前，所述方法还包括：

接收对所述目标视频的第一输入；响应于所述第一输入，显示M个时间段和所述M个时间段对应的M个目标背景图像；在实时获取的所述目标视频的视频时间点位于第i个时间段内的情况下，将所述目标视频中的背景图像更新为与所述第i个时间段对应的第i目标背景图像；其中，M为正整数，i≤M。

该实施例中，所述第i个时间段可以为M个时间段中的任意一个。可以在视频的显示界面添加悬浮显示的第一功能控件，如“智能替换按钮”，所述第一输入可以为用户对所述第一功能控件的点击操作。用户点击所述第一功能控件后，表示有背景替换需求，则在显示界面显示M个时间段和所述M个时间段对应的M个目标背景图像，所述M个时间段以及其对应的目标背景图像均可以为用户输入。例如：可以在所述目标视频的编辑界面设置功能按钮，如“时间设置按钮”，用户点击所述“时间设置按钮”，对所述目标视频的背景替换功能进行时间设定，即设置在哪个时间段替换为什么样的背景。这样，对于已经录制好的视频，在视频播放至第一时间段时，可以将背景替换为与第一时间段对应的背景图像，在视频播放至第二时间段时，将背景替换为与第二时间段对应的背景图像。

对于正在录制的视频，同样可以首先设定背景替换时间，如图6所示，以M为3为例，即目标视频共包括三个时间段，并对应3个目标背景图像。譬如：用户可能想录制一个旅行视频，其中包含了旅行路线，前20s会在第一地点，中间20s会在第二地点，最后20s会在第三地点，那么就进行提前的设定，如图6所示，第一个时间段为视频的第0-20s，对应所述第一地点；第二个时间段为视频的第20-40s，对应所述第二地点；第三个时间段为视频的第40-60s，对应所述第三地点。进入定时换背景设置界面后，可以在输入框中输入时间，来限定时间段；可以点击时间区间右侧的背景名称进行文字编辑，来修改成想要的背景名称；当上方设置好背景名称后，页面下方会显示相应的背景图案。例如图6中设定了第一地点、第二地点和第三地点三个背景名称，所以下方会出现这三个名称下的具体素材，用户可以选择某个素材作为替换的视频背景。同时，用户也可以点击加号来继续添加限制的时间段和背景名称。设置完成后回到视频录制界面。录制过程中，会根据用户设定的时间段和背景进行实时换背景，将当前的背景替换成已经设定好的背景。这样用户拍摄过程中实时看到的就是替换后的背景。

需要说明的是，若用户设置了背景图像替换时间，则无论是对于拍摄完成的视频，还是拍摄过程中的视频，均不再根据目标视频中的人物行为信息进行视频背景替换，而是以设置的背景图像替换时间为准，进行背景替换。在用户未设置背景图像替换时间时，例如在视频拍摄过程中，用户不能确定自己录制到什么时间段切换下一个场景，则根据待处理视频中的人物行为信息更新所述待处理视频中的背景图像。

该实施例用户可以设置背景替换时间，在所述目标视频的视频时间点位于设置的某个时间段时，即可将目标视频的背景图像替换为该时间段对应的背景图像，无需再识别目标视频内的人物行为信息，避免了人物行为意图识别错误的情况，可以直接将目标视频的背景图像更新为用户预先设置的背景图像，满足用户需求。

可选地，所述步骤102可以包括：

在所述目标视频的拍摄过程中，更新所述目标视频中的背景图像；或者，在所述目标视频的拍摄完成后，更新已拍摄完成的所述目标视频中的背景图像。

该实施例中，所述目标视频既可以为已经拍摄完成的视频，也可以为正在拍摄中的视频。以所述目标视频为拍摄完成的视频为例，可以在所述目标视频的播放过程中更新所述背景图像，也可以在编辑目标视频的过程中更新所述背景图像。可选地，可以在视频的显示界面添加悬浮显示的第一功能控件，如“智能替换按钮”，用户在相册中选择一个人物为主体的视频，作为所述目标视频，在视频的编辑界面，可以显示所述“智能替换按钮”，用户点击该按钮，则对该目标视频进行分割处理，得到分离的背景视频和人物视频，从而根据人物视频中的人物行为识别人物的行为意图，替换为相关背景；用户再次点击所述“智能替换按钮”，代表想要保存当前的背景，则保留该效果，同时回到视频界面；用户双击所述“智能替换按钮”，代表不喜欢当前的背景，则不保留效果，同时回到视频界面。需要说明的是，用户对所述第一功能控件的操作，以及各个操作对应的响应内容包括但不限于上述形式，还可以根据实际需求设置为其他形式，如：双击代表保存当前背景，长按代表不保留效果。

该实施例，结合视频分割和视频理解技术，对于拍摄完成的视频，编辑视频时，能够进行人物与背景分离，智能识别人物主体的行为意图并替换成与行为意图相关的视频背景，提升用户在视频编辑时的趣味性，有利于用户社交分享和炫耀。

以所述目标视频为正在拍摄中的视频为例，可选地，可以在视频的预览界面添加悬浮显示的第一功能控件，如“智能替换按钮”，用户点击开启所述“智能替换按钮”后，在视频录制过程中，也可以根据视频内的人物的动作或声音自动将原始背景替换成相关的背景。该实施例中，对于正在拍摄中的视频，对于人物行为意图的识别过程与拍摄完成的视频有差别，主要差别在于可以分解多个关键词片段，并替换不同的背景。譬如：识别到人物说“我好喜欢某明星啊，她真是一个特别棒的爱豆”，则将原始背景替换该明星的背景；识别到人物说“第二地点是我最喜欢的城市”，则将原始背景替换成该第二地点的背景。

对于正在拍摄中的视频，当目标视频中的人物说“我好喜欢第一地点”时，会对说话内容进行分析并得出结论：人物喜欢第一地点，当客户端接收到该结论时，会自动在素材库搜索第一地点相关的视频背景，然后给原始视频换上；录制一段时间之后用户说“现在我要去第二地点了”，则将接下来的视频片段背景更换为第二地点。以所述待处理视录制开始时的视频背景为图4所示为例，视频开始录制后，识别到图4中人物42的第一句语言内容“我好喜欢第一地点”时，将图4中的原始背景41替换为图5所示的第一地点51的背景，经过一段时间后，识别到图5中的人物52的第二句语言内容“现在我要去第二地点了”，则将图5所示的第一地点51的背景替换为图7所示的第二地点71的背景，需要说明的是，图4、图5以及图7中的人物42、人物52以及人物72均为同一人物，标号仅用于在不同的附图中作为区分。

该实施例中，在视频录制过程中进行背景替换，可以通过多种方式来识别用户的意图，进而得到更加准确的识别效果，并替换视频背景。

在识别所述目标视频中的人物行为信息时，若同时识别到人物动作和语言内容，且人物动作和语言内容都具有关于替换背景的指示，则可以优先进行对人物语言内容的识别，以语言内容识别到的关键词进行视频背景替换；在人物的语言内容识别不到明确的关键词时，再根据人物的动作进行行为意图的识别，并进行视频背景的替换。

本发明实施例，根据目标视频中人物的行为信息，理解用户的行为意图，将目标视频中的原始背景自动替换成为与人物行为相关的背景。能够帮助用户智能地获取和替换更符合视频内的人物行为的背景，也能够增加视频拍摄的趣味性。

如图8所示，本发明实施例还提供一种视频背景处理装置800，包括：

获取模块810，用于获取目标视频中的目标人物的人物行为信息，所述人物行为信息包括以下至少一项：人物动作、语言内容；

第一更新模块820，用于根据所述人物行为信息，更新所述目标视频中的背景图像。

可选地，所述人物行为信息包括人物动作；所述第一更新模块820包括：

第一更新单元，用于根据所述人物动作，将所述目标视频中的背景图像更新为与所述人物动作对应的第一目标背景图像。

可选地，所述人物行为信息包括语言信息；所述第一更新模块820包括：

第一确定单元，用于基于人物的语言信息，确定目标对象；

第二更新单元，用于将所述目标视频中的背景图像更新为所述目标对象对应的第二目标背景图像；

其中，所述目标对象包括目标事件或目标关键词。

可选地，所述目标对象包括目标事件；所述第一确定单元具体用于：

对所述语言信息进行语义识别，得到所述语言信息的语义内容；

根据所述语义内容，确定所述目标事件。

可选地，所述目标对象包括目标关键词，所述第一确定单元具体用于：

提取所述语言信息中的至少一个关键词；

根据包括所述至少一个关键词的预设字节范围内语句的语义内容，确定所述目标关键词。

提取所述语言信息中的至少一个关键词；

在所述关键词为至少两个的情况下，选择第一预设时间段内出现频率大于预设阈值的关键词作为所述目标关键词。

提取所述语言信息中的至少一个关键词；

在所述关键词为N个的情况下，对所述目标视频进行分段，得到与N个所述关键词分别对应的N个视频片段；

其中，N为大于1的整数。

所述第一更新模块820包括：

第三更新单元，用于在实时获取的所述目标视频的视频时间点为所述目标时间信息对应的目标时间点的情况下，将所述目标视频中的背景图像更新为与所述目标事件对应的第三目标背景图像。

可选地，所述目标时间信息包括：第一时长；

所述第一更新模块820还包括：

第二确定单元，用于基于第一时刻和所述第一时长，确定所述目标时间点；

其中，所述第一时刻为采集到所述语言信息的时刻。

可选地，所述目标时间信息包括：第一时间点；

所述第一更新模块820还包括：

获取单元，用于获取第一系统时间和所述第一时间点；

第二确定单元，用于基于所述第一系统时间和所述第一时间点，确定目标时间段；

第三确定单元，用于基于第二时刻和所述目标时间段，确定所述目标时间点；

其中，所述第二时刻为采集到所述语言信息的时刻。

可选地，在所述目标视频中存在至少两个所述目标人物的情况下，所述第一更新模块820包括以下至少一项：

第四更新单元，用于根据具有共同行为特征的至少两个所述目标人物的人物行为信息，更新所述目标视频中的背景图像；

第五更新单元，用于根据至少两个所述目标人物中的第一目标人物的人物行为信息，更新所述目标视频中的背景图像；

第六更新单元，用于在至少两个所述目标人物的人物行为类型不同的情况下，根据目标类型的第二目标人物的人物行为信息，更新所述目标视频中的背景图像。

可选地，所述电子设备还包括：

接收模块，用于接收对所述目标视频的第一输入；

响应模块，用于响应于所述第一输入，显示M个时间段和所述M个时间段对应的M个目标背景图像；

第二更新模块，用于在实时获取的所述目标视频的视频时间点位于第i个时间段内的情况下，将所述目标视频中的背景图像更新为与所述第i个时间段对应的第i目标背景图像；

其中，M为正整数，i≤M。

可选地，所述第一更新模块具体用于：

在所述目标视频的拍摄过程中，更新所述目标视频中的背景图像；

或者，在所述目标视频拍摄完成后，更新已拍摄完成的所述目标视频中的背景图像。

本发明实施例提供的电子设备能够实现图1至图8的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。

图9为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备900包括但不限于：射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、处理器910、以及电源911等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器910，用于获取目标视频中的目标人物的人物行为信息，所述人物行为信息包括以下至少一项：人物动作、语言信息；根据所述人物行为信息，更新所述目标视频中的背景图像。

本发明实施例提供的电子设备900能够实现图1至图7的方法实施例中的各个过程，为避免重复，这里不再赘述。

应理解的是，本发明实施例中，射频单元901可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器910处理；另外，将上行的数据发送给基站。通常，射频单元901包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元901还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块902为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元903可以将射频单元901或网络模块902接收的或者在存储器909中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元903还可以提供与电子设备900执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元903包括扬声器、蜂鸣器以及受话器等。

输入单元904用于接收音频或视频信号。输入单元904可以包括图形处理器(Graphics Processing Unit，GPU)9041和麦克风9042，图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元906上。经图形处理器9041处理后的图像帧可以存储在存储器909(或其它存储介质)中或者经由射频单元901或网络模块902进行发送。麦克风9042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元901发送到移动通信基站的格式输出。

电子设备900还包括至少一种传感器905，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板9061的亮度，接近传感器可在电子设备900移动到耳边时，关闭显示面板9061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器905还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元906用于显示由用户输入的信息或提供给用户的信息。显示单元906可包括显示面板9061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板9061。

用户输入单元907可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板9071上或在触控面板9071附近的操作)。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器910，接收处理器910发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板9071。除了触控面板9071，用户输入单元907还可以包括其他输入设备9072。具体地，其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板9071可覆盖在显示面板9061上，当触控面板9071检测到在其上或附近的触摸操作后，传送给处理器910以确定触摸事件的类型，随后处理器910根据触摸事件的类型在显示面板9061上提供相应的视觉输出。虽然在图9中，触控面板9071与显示面板9061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板9071与显示面板9061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元908为外部装置与电子设备900连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元908可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备900内的一个或多个元件或者可以用于在电子设备900和外部装置之间传输数据。

存储器909可用于存储软件程序以及各种数据。存储器909可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器909可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器910是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器909内的软件程序和/或模块，以及调用存储在存储器909内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器910可包括一个或多个处理单元；优选的，处理器910可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器910中。

电子设备900还可以包括给各个部件供电的电源911(比如电池)，优选的，电源911可以通过电源管理系统与处理器910逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备900包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器910，存储器909，存储在存储器909上并可在所述处理器910上运行的计算机程序，该计算机程序被处理器910执行时实现上述视频背景处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频背景处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频背景处理方法，其特征在于，包括：

根据所述人物行为信息，更新所述目标视频中的背景图像。

2.根据权利要求1所述的视频背景处理方法，其特征在于，所述人物行为信息包括人物动作；

所述根据所述人物行为信息，更新所述目标视频中的背景图像，包括：

3.根据权利要求1所述的视频背景处理方法，其特征在于，所述人物行为信息包括语言信息；

基于人物的语言信息，确定目标对象；

将所述目标视频中的背景图像更新为所述目标对象对应的第二目标背景图像；

其中，所述目标对象包括目标事件或目标关键词。

4.根据权利要求3所述的视频背景处理方法，其特征在于，所述目标对象包括目标事件；

所述基于人物的语言信息，确定目标对象，包括：

根据所述语义内容，确定所述目标事件。

5.根据权利要求3所述的视频背景处理方法，其特征在于，所述目标对象包括目标关键词，所述基于人物的语言信息，确定目标对象，包括：

提取所述语言信息中的至少一个关键词；

6.根据权利要求3所述的视频背景处理方法，其特征在于，所述目标对象包括目标关键词，所述基于人物的语言信息，确定目标对象，包括：

提取所述语言信息中的至少一个关键词；

7.根据权利要求3所述的视频背景处理方法，其特征在于，所述目标对象包括目标关键词，所述基于人物的语言信息，确定目标对象，包括：

提取所述语言信息中的至少一个关键词；

其中，N为大于1的整数。

8.根据权利要求1所述的视频背景处理方法，其特征在于，所述人物行为信息包括语言信息，所述语言信息包括：目标时间信息和与所述目标时间信息对应的目标事件；

在实时获取的所述目标视频的视频时间点为所述目标时间信息对应的目标时间点的情况下，将所述目标视频中的背景图像更新为与所述目标事件对应的第三目标背景图像。

9.根据权利要求8所述的视频背景处理方法，其特征在于，所述目标时间信息包括：第一时长；

基于第一时刻和所述第一时长，确定所述目标时间点；

其中，所述第一时刻为采集到所述语言信息的时刻。

10.根据权利要求8所述的视频背景处理方法，其特征在于，所述目标时间信息包括：第一时间点；

获取第一系统时间和所述第一时间点；

基于所述第一系统时间和所述第一时间点，确定目标时间段；

基于第二时刻和所述目标时间段，确定所述目标时间点；

其中，所述第二时刻为采集到所述语言信息的时刻。

11.根据权利要求1所述的视频背景处理方法，其特征在于，在所述目标视频中存在至少两个所述目标人物的情况下，所述根据所述人物行为信息，更新所述目标视频中的背景图像，包括以下其中一项：

根据具有共同行为特征的至少两个所述目标人物的人物行为信息，更新所述目标视频中的背景图像；

根据至少两个所述目标人物中的第一目标人物的人物行为信息，更新所述目标视频中的背景图像；

在至少两个所述目标人物的人物行为类型不同的情况下，根据目标类型的第二目标人物的人物行为信息，更新所述目标视频中的背景图像。

12.根据权利要求1所述的视频背景处理方法，其特征在于，所述获取目标视频中的目标人物的人物行为信息之前，所述方法还包括：

接收用户对所述目标视频的第一输入；

响应于所述第一输入，显示M个时间段和所述M个时间段对应的M个目标背景图像；

在实时获取的所述目标视频的视频时间点位于第i个时间段内的情况下，将所述目标视频中的背景图像更新为与所述第i个时间段对应的第i目标背景图像；

其中，M为正整数，i≤M。

13.根据权利要求1所述的视频背景处理方法，其特征在于，所述根据所述人物行为信息，更新所述目标视频中的背景图像，包括：

14.一种视频背景处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至13中任一项所述的视频背景处理方法的步骤。