CN113014846A

CN113014846A - 一种视频采集控制方法、电子设备、计算机可读存储介质

Info

Publication number: CN113014846A
Application number: CN201911315367.1A
Authority: CN
Inventors: 崔强强; 秦磊; 陈天珞; 卢曰万
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-22
Anticipated expiration: 2039-12-19
Also published as: CN113014846B; WO2021121302A1

Abstract

本发明涉及图像处理领域，公开了一种视频采集控制方法、电子设备、计算机可读存储介质、计算机程序产品及芯片，该电子设备包括：包括：显示器，键盘，摄像头和处理器；摄像头设置于键盘附近，用于在视频通信中，采集视频帧，并将采集的视频帧发送给处理器；处理器，与显示器、键盘、摄像头连接，用于接收来自摄像头的第一视频帧，确定第一视频帧中包含符合预设手指模型的内容，则去除第一视频帧中的手指，获得第二视频帧；并将第二视频帧发送给显示器显示，和/或，将第二视频帧发送给对端电子设备显示。以解决现有技术中视频通话过程中手指比例容易失真的技术问题。该方法可用于人工智能设备，该方法和深度学习等技术相关。

Description

一种视频采集控制方法、电子设备、计算机可读存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种视频采集控制方法、电子设备、计算机可读存储介质、计算机程序产品、芯片。

背景技术

随着电子设备的普及，电子产品的形态越来越多样化，以电子产品为笔记本电脑为例，传统的笔记本电脑的摄像头往往位于笔记本电脑的顶部，而近年来，出于对个人隐私的保护，也有很多笔记本电脑的摄像头被设置于屏幕下方，或者以隐藏式摄像头的形式置于键盘顶端，如图1所示，摄像头11设置于笔记本电脑1的键盘10附近。但是较低的摄像头角度也造成使用者在视频通话的同时如果进行打字，很可能导致手指遮挡摄像头的视野，导致呈现在屏幕上的手指比例失真，如图2所示，其呈现出一个类似八爪鱼的效果。

发明内容

本申请提供的一种视频通信方法、视频采集方法及电子设备，避免视频通信过程中手指比例失真，提高视频通信质量。

第一方面，本发明实施例提供一种电子设备，包括：显示器，键盘，摄像头和处理器；所述摄像头设置于所述键盘附近，用于在视频通信中，采集视频帧，并将采集的视频帧发送给所述处理器；所述处理器，与所述显示器、键盘、摄像头连接，用于接收来自摄像头的第一视频帧，确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；并将所述第二视频帧发送给所述显示器显示，和/或，将所述第二视频帧发送给对端电子设备显示。能够解决输出的视频帧中手指失真的技术问题，且能够避免避免导致视频通信所传输的视频为被手指遮挡的不完整的画面。且本发明实施例中，通过确定第一视频帧中是否包含符合预设手指模型的内容，自动对手指区域进行识别，从而自动去除第一视频帧中的手指，输出第二视频帧，而无需用户手动去除，故而能够提高去除手指的效率；通过实时智能识别出手指，并自动进行去除，能在不影响视频通信流畅性的前提下，提高人机交互的智能性。

在一种可选的的实施例中，所述确定所述第一视频帧中包含符合预设手指模型的内容时，去除所述第一视频帧中的手指，包括：确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域，去除所述第一视频帧中的手指；或，确定所述第一视频帧中包含符合预设手指模型的内容，且确定出手指区域与人脸所在位置不存在重叠，去除所述第一视频帧中的手指；或，确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域且与所述第一视频帧的侧边相连，去除所述第一视频帧中的手指。基于上述方案，能够保证在手指位于第一视频帧中的特定区域时才去除该手指，从而能够更加精确的自动去除，降低将非失真手指去除的可能性。

可选的，所述确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，包括：获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，去除所述第一视频帧中的手指。由于在该方案中，将检测到键盘输入信号作为去除手指的条件之一，因此能够保证去除的手指为打字的手指，由此实现精确的去除失真的手指，并避免手指遮挡视频帧画面的技术效果。

第二方面，本发明实施例提供一种电子设备，包括：一个或多个处理器；一个或多个存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备的一个或多个处理器执行时，使得所述电子设备执行以下步骤：获得第一视频帧，且获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧；指示显示所述第二视频帧。通过该方案，能够能够解决输出的视频帧中手指失真的技术问题，且能够避免避免导致视频通信所传输的视频为被手指遮挡的不完整的画面。且本发明实施例中，通过确定第一视频帧中是否包含符合预设手指模型的内容，自动对手指区域进行识别，从而自动去除第一视频帧中的手指，输出第二视频帧，而无需用户手动去除，故而能够提高去除手指的效率；通过实时智能识别出手指，并自动进行去除，能在不影响视频通信流畅性的前提下，提高人机交互的智能性。且在该方案中，将检测到键盘输入信号作为去除手指的条件之一，从而能够精准的去除视频帧中打字的手指。

第三方面，本发明实施例提供一种视频采集控制方法，应用于电子设备中，所述电子设备包括：键盘和摄像头，所述摄像头设置于所述键盘附近，所述包括：通过所述摄像头采集获得第一视频帧；确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；显示所述第二视频帧，和/或，将所述第二视频帧发送给对端电子设备显示。通过该方案，能够解决输出的视频帧中手指失真的技术问题，且能够避免避免导致视频通信所传输的视频为被手指遮挡的不完整的画面。且本发明实施例中，通过确定第一视频帧中是否包含符合预设手指模型的内容，自动对手指区域进行识别，从而自动去除第一视频帧中的手指，输出第二视频帧，而无需用户手动去除，故而能够提高去除手指的效率；通过实时智能识别出手指，并自动进行去除，能在不影响视频通信流畅性的前提下，提高人机交互的智能性。

第四方面，本发明实施例提供一种视频通信控制方法，包括：获得第一视频帧，且获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧；指示显示所述第二视频帧。通过该方案，能够能够解决输出的视频帧中手指失真的技术问题，且能够避免避免导致视频通信所传输的视频为被手指遮挡的不完整的画面。且本发明实施例中，通过确定第一视频帧中是否包含符合预设手指模型的内容，自动对手指区域进行识别，从而自动去除第一视频帧中的手指，输出第二视频帧，而无需用户手动去除，故而能够提高去除手指的效率；通过实时智能识别出手指，并自动进行去除，能在不影响视频通信流畅性的前提下，提高人机交互的智能性。且在该方案中，将检测到键盘输入信号作为去除手指的条件之一，从而能够精准的去除视频帧中打字的手指。

第五方面，本发明实施例提供一种电子设备，包括：一个或多个处理器；一个或多个存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备的一个或多个处理器执行时，使得所述电子设备执行以下步骤：获得第一视频帧；确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域，则去除所述第一视频帧中的手指，获得第二视频帧；指示显示所述第二视频帧。通过该方案，能够能够解决输出的视频帧中手指失真的技术问题，且能够避免避免导致视频通信所传输的视频为被手指遮挡的不完整的画面。且本发明实施例中，通过确定第一视频帧中是否包含符合预设手指模型的内容，自动对手指区域进行识别，从而自动去除第一视频帧中的手指，输出第二视频帧，而无需用户手动去除，故而能够提高去除手指的效率；通过实时智能识别出手指，并自动进行去除，能在不影响视频通信流畅性的前提下，提高人机交互的智能性。且在该方案中，将检测到手指区域位于视频帧的底部区域作为手指的去除条件，因此能够区分放置于特定位置的手指和其他位置的手指，由此实现更加精确的手指去除。

附图说明

图1为现有技术的摄像头位于键盘区域的笔记本电脑的结构图；

图2为现有技术中基于图1所示的笔记本电脑的前置摄像头采集获得的包含打字手指的图片的示意图；

图3为本发明实施例的电子设备的结构图；

图4为本发明实施例的软件框架图；

图5为本发明实施例所介绍的电子设备的另一种结构示意图；

图6为本发明实施例所介绍的视频控制方法的流程图与界面对照图；

图7为本发明实施例所确定的手指区域的示意图；

图8为本发明实施例中通过替换内容替换手指区域一种实施方式的示意图；

图9为本发明实施例中通过替换内容替换手指区域另一种实施方式的示意图；

图10为本发明实施例中在去除手指之后产生提示信息的示意图；

图11为本发明实施例中在去除手指之前产生提示信息的示意图；

图12为本发明实施例中语义分割模型的训练方法的流程图；

图13为本发明实施例中基于语义分割模型识别出图像中的手指区域的流程图；

图14为本发明实施例中基于语义分割模型识别出图像中的手指区域时的语义推理的流程图；

图15A为本发明实施例中前置摄像头采集获得打字的手指的图像示意图；

图15B为本发明实施例中基于语义分割模型对图15A所示的图像进行识别所确定的手指区域掩膜的示意图；

图15C为本发明实施例中对手指掩膜区域进行降噪之后的手指区域掩膜的示意图；

图16为本发明实施例中介绍的图像处理方法的流程图；

图17为本发明实施例中介绍的视频通信方法的流程图；

图18A-18C为本发明实施例中视频通信方法中前置摄像头所采集的视频帧、视频帧中的打字手指区域、经处理后输出的图像帧的示意图；

图19为本发明另一实施例所介绍的视频通信方法的流程图；

图20为本发明另一实施例所介绍的视频通信方法中确定用户是否处于打字状态的流程图；

图21为本发明一实施例所介绍的视频处理方法的流程图；

图22介绍了本发明的一种具体应用场景的界面变化图；

图23介绍了本发明另一种具体应用场景的界面变化图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/ 或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面介绍本申请实施例涉及的应用场景。电子设备中配置了摄像头、麦克风、全球定位系统(global positioning system，GPS)芯片、各类传感器(例如磁场传感器、重力传感器、陀螺仪传感器等)等器件，用于感知外部的环境、用户的动作等。根据感知到的外部的环境和用户的动作，电子设备向用户提供个性化的、情景化的业务体验。其中，摄像头能够获取丰富、准确的信息使得电子设备感知外部的环境、用户的动作。本申请实施例提供一种电子设备，电子设备可以实现为以下任意一种设备：手机、平板电脑(pad)、便携式游戏机、掌上电脑(personal digital assistant，PDA)、笔记本电脑、超级移动个人计算机(ultramobile personal computer，UMPC)、手持计算机、上网本、车载媒体播放设备、可穿戴电子设备、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备等数显产品。

首先，介绍本申请以下实施例中提供的示例性的电子设备100。

图3示出了电子设备100的结构示意图。

下面以电子设备100为例对实施例进行具体说明。应该理解的是，图1所示电子设备100 仅是一个范例，并且电子设备100可以具有比图1中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备100可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器 180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。电子设备100的详细结构介绍，请参考在先专利申请：CN201910430270.9。

如图4所示，本申请涉及的软件架构包括：应用层、Windows多媒体框架、控制层、核心层、平台层、摄像头驱动、摄像头硬件。本申请涉及的手指遮挡处理模块，集成于核心层的MFT(Media Foundation Transforms)模块，该模块还可以集成其他功能。视频流从摄像头驱动获得之后，传入核心层的Media Source(媒体来源)模块，通过Media Source模块传入MFT 模块，然后通过手指遮挡处理模块对输入的视频帧进行处理，去除其中包含的手指，处理好的视频帧通过Media Sink(媒体接收器)传送到应用软件，例如视频通信软件。

内核层是硬件和软件之间的层。内核层至少包含显示驱动、摄像头驱动、音频驱动、传感器驱动、手指遮挡处理组件，该手指遮挡处理组件集成本发明实施例所介绍的对包含预设对象的视频帧进行处理的功能，通过该手指遮挡组件能够识别出视频帧中的手指，并去除该手指，获得不包含手指的视频帧；然后手指遮挡处理组件可以将处理后的视频帧输出给显示器；如果是将处理后的视频帧传输给对端，则是通过手指遮挡处理组件将处理结果以Windows 多媒体框架为中介传递给视频应用软件，通过视频应用软件建立的端到端连接传递给对端。

第一方面，本发明实施例提供一种电子设备100，请参考图5，该电子设备包括：

显示器50；

键盘51；

摄像头52，设置于设置于键盘51附近，如图5所示，摄像头52可以设置于键盘51所属的平面上，例如摄像头52a和52c，其中，摄像头52a设置于键盘所属的区域内，键盘所属的区域指的是以键盘的左上角的点、右下角的点作矩形所确定出的区域，又或者，摄像头52a可以设置于将该矩形外移预设距离(例如：0.5cm、1cm、2cm)所确定出的区域，又或者，该摄像头52可以设置于显示器50的边框50a上，例如：设置于显示器50的左边框、右边框、下边框等等，作为一种可选的实施方式，还可以将该摄像头52设置于边框的下方，例如：边框下方1/2、1/3的范围，又或者，还可以将摄像头52设置于边框的底部等等。摄像头设置于键盘附近，用于在视频通信中，采集视频帧，并将采集的视频帧发送给处理器。

图5所示的摄像头52b设置于边框50a的下方。

处理器(图中未示出)，与所述显示器50、键盘51、摄像头52连接；处理器用于接收来自摄像头的第一视频帧，确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；并将所述第二视频帧发送给所述显示器显示，和/或，将所述第二视频帧发送给对端电子设备显示。

下面将结合以上结构，介绍本发明实施例的视频处理方法，请参考图6，该方法包括以下步骤：

S600；通过摄像头采集获得第一视频帧；

S610：确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；并将所述第二视频帧发送给所述显示器显示，和/或，将所述第二视频帧发送给对端电子设备显示。

S600中，在具体实施过程中，电子设备100可以在检测到用户的视频拍摄操作(例如：点击视频拍摄按钮、产生预设手势、产生语音指令等等)之后，进行视频采集；也可以在检测到用户与对端电子设备进行视频通信时，进行视频采集，然后将采集到的视频发送给对端电子设备。例如：电子设备检测到用户的视频通信操作(或者视频拍摄操作)时，产生视频通信指令；然后将视频通信指令发送给处理器，处理器响应该视频通信指令，开启视频通信软件，把指令发送给摄像头驱动控制摄像头进行视频采集。摄像头驱动将采集的数据发送给手指遮挡处理组件，由手指遮挡处理组件执行后续操作。

步骤S610可以由处理器执行。

S610中，可以将所述第一视频帧输入语义分割模型，通过语义分割模型确定第一视频帧中手指区域的掩膜，然后通过手指区域的掩膜确定出第一视频帧中的手指区域，其中，可以直接将手指区域的掩膜确定为手指区域，也可以将对手指区域的掩膜进行降噪后获得手指区域。在存在所述手指区域时，认定所述第一视频帧中包含符合所述预设手指模型的内容，所述语义分割模型基于样本照片训练获得，每张所述样本照片中包含用户手指的照片，并且每张照片标记出手指区域。对于具体如何通过语义分割模型确定出视频帧中的手指区域，将在后续介绍，在此不再赘述。如图7所示为确定的手指区域的示意图，图7中包含6张小图，分别为：图7a (左侧)、7a(右侧)、图7c-至图7f，图7a(右侧)为采集到的一张包含用户的手指的示意图，基于图7a (右侧)所示的视频帧，将其通过语义分割模型确定出的手指区域例如如图7a(左侧)所示。

在具体实施过程中，在步骤S610中可以在确定第一视频帧中包含符合预设手指模型的内容时，就去除第一视频帧中的手指(也即：对第一视频帧中的手指都去除)；在一种可选的实施例中，也可以先判断是否满足预设条件，在满足预设条件的情况下，再去除第一视频帧中的手指，预设条件可以为多种条件，下面列举其中的四种进行介绍，当然，在具体实施过程中，不限于以下四种情况。(以下四种预设条件皆对应第一视频帧中存在用户打字的手指，判断满足预设条件的目的在于，在第一视频帧中存在用户打字的手指的情况下，才将手指去除，对于非用户打字的手指则可以保留，例如：用户举起手指给对方看美甲、用户端起茶杯喝茶等等，这些情况下的手指，都是用户不希望去除的手指。通过该方案能够保证去除用户打字的手指(或者是放置于键盘上的手指)，而不会去除其他手指，而其他手指往往不会邻近摄像头，因此不会存在变形的问题，基于以上技术方案，一方面能够降低手指严重失真对画面造成遮挡的可能性，另一方面又能够保留正常比例的手指，达到能够精确去除比例失真手指的技术效果。)。

第一种，确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域，则认定存在打字手指，可以去除第一视频帧中的手指。

如图7a所示，其包含两个连通区，分别为连通区64、65，且这两个连通区都与底部相接，因此可见图7a中存在两个底部连通区，在这种情况下，则说明第一视频帧中存在打字手指，则说明满足预设条件，故而可以去除第一视频帧中的手指。

第二种，确定所述第一视频帧中包含符合预设手指模型的内容，且确定出手指区域与人脸所在位置不存在重叠，则认定存在打字手指，可以去除第一视频帧中的手指。

示例来说，通常人脸所在区域皆为视频帧的中心区域，用户如果举起手指示例给对方看，这种情况下，则可能会出现连通区位于人脸所在区域的情况，在这种情况下，则说明手指并非打字的手指，而是示范给对方看的手指，则说明不满足预设条件，因此不需要去除第一视频帧中的手指；只有在手指区域与人脸所在区域不重叠的情况下，则说明满足预设条件，才需要去除第一视频帧中的手指。其中，手指区域与人脸所在区域重叠可以为部分重叠，或者全部重叠，本发明实施例不做限制。

③获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，去除所述第一视频帧中的手指。在具体实施过程中，如果获得键盘输入信号，则说明第一视频帧中存在打字手指，故而说明存在满足预设条件，可以去除第一视频帧中的手指。在具体实施过程中，可以通过获取键盘信号来确定是否存在键盘输入信号。其中，可以采集第一视频帧的前后预设时间段内是否检测键盘输入信号来判断是否满足预设条件，如果前后预设时间段(例如：1秒、2秒等等)检测到键盘输入信号，则认定满足预设条件，否则认定不满足预设条件。

由于在上述方案中，通过键盘输入信号作为触发去除第一视频帧中的手指的条件之一，故而能够保证所去除的手指为用户处于打字状态的手指。

④确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域且与所述第一视频帧的侧边相连，去除所述第一视频帧中的手指。

在具体实施过程中，在手指位于底部区域的情况下，手指很大可能是打字的手指，但是也有可能是通过触控板输入的手指，而通常打字手指往往位于键盘两侧，故而其一般和第一视频帧的侧边相接，例如：图7a中，底部连通区65与第一视频帧的右侧边相接，故而该方案能够更加精确定位打字手指，从而精确的区域第一视频帧中的打字手指。故而如果所述手指位于所述第一视频帧的底部区域且与所述第一视频帧的侧边相连，则认定满足预设条件；否则认定不满足预设条件。

其中，在S610中确定第一视频帧中包含符合预设手指模型的内容时且确定出手指区域之后，还可以进一步的判断手指区域是否处于异常状态。其中可以在确定出满足预设条件的情况下，再确定手指区域是否处于异常状态，如果手指区域处于异常状态，则不去除第一视频帧中的手指，直接输出第一视频帧，确定手指区域处于异常状态，直接输出(例如：通过显示器显示、发送给对端电子设备显示等等)第一视频帧的步骤可以由处理器执行；否则去除第一视频帧中的手指。也可以在检测到第一视频帧中包含符合预设手指模型的内容时，就判断基于该预设手指模型确定的手指区域是否处于异常状态，本发明实施例不做限制。

在具体实施过程中，异常状态可以存在多种情况，下面列举其中的四种进行介绍，当然，在具体实施过程中，不限于以下四种情况。

第一种，手指区域面积大于预设面积阈值(如图7c所示)，例如：手指区域面积大于5000 像素、手指区域面积大于第一视频帧的总面积的1/4、1/3等等，在这种情况下，如果去除第一视频帧中的手指的话，可能手指区域与其他区域无法融合，因此为了保证输出的视频帧(第二视频帧)的手指区域与其背景区域融合，则只有在手指区域面积不大于预设面积阈值的情况下，才进行去除第一视频帧中的手指的操作。

第二种，手指区域与人脸所在区域66存在重叠，如图7d所示，该手指区域包含三个连通区，分别为两个底部连通区(即：位于第一视频帧底部的连通区)以及一个中间连通区，该连通区域人脸所在区域存在重叠(对于如何确定人脸所在区域将在后续进行介绍)，在这种情况下，则说明第一视频帧中用户的一只手位于底部区域，另一只不位于底部区域，其通常说明用户一只手在打字、另一只手在做打字之外的事(例如：喝水、摸头发等等)，在这种情况下，用户并不希望去除非打字的手指，而如果仅去除打字的手指，则画面会比较突兀，因此在这种情况下，则认为手指区域处于异常状态，不需要去除第一视频帧中的手指，而直接输出第一视频帧。

第三种，存在至少两个底部连通区，这两个底部连通区之间的距离大于预设距离阈值，该预设距离阈值例如为：100像素、150像素等等。在这种情况下，则第一视频帧中的用户的两只手的距离大于第一预设距离(第一预设距离与预设距离阈值相等，或者正相关)。如图 7e所示，在这种情况下，其往往说明第一视频帧中用户的一只手在打字，另一只手在触摸触控板，而触摸触控板的区域往往对应用户的脖子所在区域，如果将该区域的手指区域的话，则会导致脖子区域过渡不自然，而如果仅区域打字手指，而保留触控手指，则画面会比较突兀，因此可以将这种状态认定为异常状态。

第四种，存在非底部连通区，如图7f所示，在这种情况下，往往说明用户一只手在打字，另一只手在做其他事，在这种情况下，两只手都去除不符合用户需求，仅去除第一视频帧的底部区域的手指，则画面会比较突兀，因此认定为异常状态，不去除第一视频帧中的手指。

步骤S610中，可以通过多种方式去除第一视频帧，下面列举其中的三种进行介绍，当然，在具体实施过程中，不限以下三种情况。

第一种，以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧。示例来说，电子设备通过响应视频通信操作，例如：在视频通信软件中第一联系人的界面，点击视频通信按钮(视频通信操作)，则可以进入视频通信状态，在视频通信状态则会显示视频通信界面，该视频通信界面上有一视频预览窗口和视频接收窗口，其中，视频预览窗口用于显示当前电子设备采集到的视频帧，该视频接收窗口用于显示从对端电子设备接收到的视频帧。

请参考图8，在电子设备进入视频采集的初始阶段，电子设备的用户的手并未放置于键盘上准备打字，电子设备采集到第三视频帧，第三视频帧中不包含手指，电子设备会输出该第三视频帧，第三视频帧中如图8a所示；同时电子设备会判断第三视频帧中是否包含用户手指，其可以通过本发明实施例所介绍的语义分割模型来确定，如果通过语义分割模型确定出存在手指区域，则认定第三视频帧中包含手指，否则认定第三视频帧中不包含手指；其中如果确定第三视频帧中不包含手指，则将第三视频帧作为背景帧进行存储，如图8b所示。然后电子设备采集到第一视频帧(如图8c所示)，电子设备判断第一视频帧是否包含符合预设手指模型的内容，通过将第一视频帧输入语义分割模型，最终确定出的手指区域例如如图8d中的90所示，在确定出手指区域之后，则认定包含符合预设手指模型的内容；则从背景帧中确定出手指区域对应的替换内容，所确定的替换内容如图8e所示，然后通过替换内容覆盖第一视频帧中的手指区域，从而获得第二视频帧(如图8f所示)，最后输出第二视频帧。

基于上述方案，能够保证在去除第一视频帧的手指的同时，不影响第一视频帧的画面比例或者布局，从而使视频帧的画面输出更加流畅。

作为一种可选的实施例，所述方法还包括：获取第三视频帧，所述第三视频帧为在所述第一视频帧之前采集的视频帧；确定所述第三视频帧中不包含符合预设手指模型的内容，则将所述第三视频帧作为背景帧；在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。该步骤可以由处理器执行。

第二视频帧中，可以包含特定物体，该特定物体往往为背景区域的一个静止物体，例如：茶杯、笔等等，通过该方式确定出的第二视频帧中特定物体所在位置与第三视频帧中特定物体的坐标相同(或者偏移量小于预设偏移量，例如：10像素、20像素等等)；或者通过该方式确定的第二视频帧中特定物体的大小与第三视频帧中特定物体的大小相同或相似(例如：差别在5％、10％以内)。

在开启视频通信的过程中，如果用户将手指放置于键盘上，此时由于尚没有采集到没有背景帧的视频帧，此时电子设备输出的是包含用户的手指的视频帧。

第二种，对所述第一视频帧进行裁剪以获得不包含所述手指区域的所述第二视频帧。

示例来说，请参考图9，电子设备采集到视频帧之后，可以先判断视频帧中是否存在符合预设手指的内容，如果不存在，则直接输出该视频帧，如图9所示，电子设备采集到第三视频帧之后，直接输出第三视频帧；如果确定出视频帧中存在符合预设手指的内容(例如9c所示)，则基于采集到的视频帧(例如：第一视频帧)确定出一个不包含手指的裁剪框91，通过该裁剪框对第一视频帧进行裁剪之后，获得不包含手指的第二视频帧(如图9d所示)。该裁剪框可以通过多种方式确定，例如：①假设视频帧中左下角为原点，确定出该视频帧中手指区域的 Y轴最大值，将该Y轴最大值作为下裁剪边，将视频帧的顶部作为上裁剪边；通过确定出的上裁剪边、下裁剪边的高度确定出裁剪比例((Y轴最大值减去Y轴最小值)/第一视频帧的高度)，然后确定出视频帧中人的中心位置，将该中心位置向左延伸第一预设距离(1/2*裁剪比例*第一视频帧的宽度)，确定出左边框，将该中心位置向右延伸第二预设距离(1/2*裁剪比例*第一视频帧的宽度)，确定出右边框，基于此确定出裁剪框。②确定出一个预设大小的裁剪框，将该裁剪框放置于视频帧的中心区域，然后判断手指区域与该区域是否存在重叠，如果存在重叠，将该裁剪框整体上移直至手指区域与裁剪框不存在重叠。当然，在具体实施过程中，还可以通过其他方式确定出裁剪框，本发明实施例不再详细列举，并且不做限制。

通过上述方案，第二视频帧中特定物体的坐标相对于第三视频帧中特定物体的坐标的偏移量大于预设偏移量；或者，第二视频帧中特定物体的大小与第三视频帧中特定物体的大小的差别大于预设值。通过上述方案，无需通过背景帧即可实现实现去除手指的功能，从而能够降低电子设备的处理负担。

第三种，通过所述手指区域的邻近区域的像素对所述手指区域进行填充，获得所述第二视频帧。在这种情况下，第二视频帧中的特定物体的坐标与第三视频帧中特定物体的坐标的相同或者相差不大(偏移量小于预设偏移量)，或者，第二视频帧中特定物体的大小与第三视频帧中特定物体的大小相同或者相差不大。通过上述方案，无需通过背景帧即可实现该功能。

作为一种可选的实施例，在基于S610控制所述显示器显示所述第二视频帧之后，响应于确定所述第四视频帧中包含符合预设手指模型的内容时，且所述手指处于异常状态时，通过所述第四视频帧的所述手指区域和所述第四视频帧的所述手指区域确定出至少一个过渡帧；控制所述显示器显示所述至少一个过渡帧；控制所述显示器在显示所述至少一个过渡帧之后，显示所述第四视频帧。该步骤可以由处理器执行。

实施来说，用户在视频通信过程中，先通过单手打字，电子设备采集获得第一视频帧，由于第一视频帧中存在符合预设手指模型的内容，且手指区域不存在异常状态，故而电子设备输出不包含手指的第二视频帧；然后用户将另一个手放置于触控板上，此时电子设备采集获得第四视频帧，第四视频帧依然符合预设手指模型内容，但是其手指区域的两个连通区之间的距离大于预设距离阈值，因此确定出手指区域处于异常状态，在这种情况下，可以直接输出第四视频帧，但是第二视频帧与第四视频帧之间如果直接切换，则会存在突然出现一只打字的手的手指的情况，会导致画面比较突兀，为了防止这种情况，在第二视频帧和第四视频帧间增加至少一帧过渡帧，实现从第二视频帧到第四视频帧的画面的平滑过渡。至少一个过渡帧如果为一帧，则第二视频帧与第四视频帧的权值例如为皆为0.5，至少一个过渡帧如果为多帧，则第二视频帧的权值逐渐减少、第四视频帧的权值逐渐增加，例如：至少一个过渡帧为5帧，则第一过渡帧中第二视频帧与第四视频帧的权值为(0.2,0.8)，第二过渡帧中第二视频帧与第四视频帧的权值为(0.4,0.6)，第三过渡帧中第二视频帧与第四视频帧的权值为 (0.5,0.5)，第四过渡帧中第二视频帧与第四视频帧的权值为(0.6,0.4)，第五过渡帧中第二视频帧与第四视频帧的权值为(0.8,0.2)等等，当然，以上权值仅仅作为举例，并不作为限制。其中，针对手指区域之外的背景区域，过渡帧中显示第四视频帧中背景区域的内容，而通过上述方式确定出每个过渡帧中手指区域的内容。

在具体实施过程中，在电子设备去除第一视频帧中手指，并显示第二视频帧之后，请参考图10，还可以产生提示信息，提示用户已去除视频帧中的手指，并提示用户是否需要保留手指，如图10所示，在第二视频帧的表面显示有个提示框100，该提示框100中提示“已去除视频聊天的手指，请确认是否继续去除”，如果用户希望继续去除手指，则点击确认按钮110，电子设备检测到用户点击该确认按钮11的操作之后，在后续采集到的视频帧依然去除手指，如图10b所示；如果用户不希望继续去除手指，则点击取消按钮120，电子设备检测到用户点击该取消按钮的操作之后，后续采集到的视频帧中不再去除手指，如图10c所示。基于上述方案，能够基于用户需求选择是否在视频通信过程中去除用户手指，从而实现更为灵活的控制。

在具体实施过程中，在电子设备启动视频通信(或者采集获得包含用户的手指)之后，可以提示用户是否消除手指，如果检测到用户的确认操作，则去除视频帧中的手指，否则，不去除视频帧中的手指。

示例来说，请参考图11，电子设备在采集到第一视频帧之后，经检测确定出视频帧中包含符合预设手指模型的内容(也即：手指)，则产生提示框130，提示框130中提示“已检测到视频中包含手指，请确认是否去除”，如果电子设备的用户点击确认按钮140，电子设备则去除第一视频帧中的手指，显示如图11b所示的第二视频帧；如果用户点击取消按钮150，则电子设备不去除第一视频帧中的手指，而直接输出第一视频帧，如图11c所示。

以上方案除了可以应用于视频通信过程的视频采集端，例如：电子设备针对采集的视频帧进行去除手指处理，从而发送给对端电子设备的是去除手指的视频帧；以上方案还可以应用于视频帧通信过程的接收端，也即：对端电子设备接收到的是未去除手指的视频帧，然后将视频帧基于本发明实施例所介绍的视频处理方法处理之后输出，在这种情况下，以上各个步骤的视频帧并非采集获得的视频帧，而是从对端电子设备接收到的视频帧。

另一方面，基于同一发明构思，本发明实施例提供一种电子设备，包括：一个或多个处理器；一个或多个存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备的一个或多个处理器执行时，使得所述电子设备执行以下步骤：获得第一视频帧，且获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧；指示显示所述第二视频帧。

在具体实施过程中，指示显示第二视频帧可以存在多种情况，例如：①通过电子设备的显示单元显示第二视频帧；②将第二视频帧发送给另一显示单元显示，一种可能是，电子设备不具备显示单元，另一种可能是，由另一显示单元显示更为合适，例如：另一显示单元的显示区域更大。③将第二视频帧发送至视频通信的对端电子设备，由对端电子设备显示。

下面将结合图12-图14、图15A、图15B介绍步骤S610中具体如何通过语义分割模型确定出手指区域，从而认定第一视频帧中包含符合预设手指模型的内容。

本发明实施例提供一种语义分割模型训练方法，语义分割模型是像素级别上的分类，针对一张照片，每个物体的像素被分成一类(例如：属于人的像素被分成一类、属于摩托车的像素被分成一类、属于小狗的像素被分成一类等等)，除此之外背景像素也被分成一类。请参考图12，该方法包括以下步骤：

S1200：数据采集和标注，采集用户打字时的照片(或者其他包含用户的手的照片)，并标注出手指(或者其他预设物体)区域的掩膜，用于语义分割模型的训练。

S1210：模型设计，设计出语义分割模型，该语义分割模型例如为：卷积神经网络模型、条件随机场模型等等。可选的，为了保证分割出的手指区域的准确性和手指边缘的精确性，可以采用双分支卷积神经网络模型，双分支例如包括：语义特征分支和边缘特征分支。其中，语义特征分支用于提取图像的语义特征，语义特征指的像素点所表征的具体物体，例如：人脸、手指等等，边缘特征分支用于提取图像的纹理特征，纹理特征指的是边缘信息、形状信息(例如：拐角)、颜色等特征。

S1220：模型训练，用于通过S1200中标注好的照片和S1210中设计好的语义分割模型，训练并更新语义分割模型的参数，获取用于识别手指的语义分割模型。

在具体实施过程中，该模型的输入是将像素值归一化到0到1之间的图片(在计算过程中，图片是内存中以特定的顺序存储的多维数组)，语义特征分支可以采用深层卷积神经网络提取语义特征以确定手指区域，边缘特征分支可以采用浅层神经网络提取纹理特征以保证手指边缘分割的准确性。在训练时，向双分支卷积神经网络模型输入图片之后，双分支卷积神经网络模型通过深层卷积神经网络提取语义特征，通过浅层神经网络提取纹理特征；然后通过特征融合网络对提取出的语义特征和边缘特征进行特征融合计算得到综合特征，最后的分类层以综合特征作为输入，计算每个像素点属于手指区域的置信度，进而判断每个像素点是否属于手指区域(在具体实施过程中，语义分割模型是以特定形式连接的各种操作的集合，每种操作由不同的数值组成，操作的实际表现为用其自身参数值与输入的数组做矩阵运算，并输出计算得到的数组)。然后将其与标注的手指区域进行比对，基于差异损失函数，通过差异损失函数反向传播到语义分割模型，更新语义分割模型的参数。

基于上述语义分割模型训练方法，本发明实施例还提供一种基于该语义分割模型识别出图像(或视频)中的手指(或者其他预设物体)区域的方法，请参考图13，包括以下步骤：

S1300：模型固化，具体来讲，也就是在语义分割模型训练结束之后，将获得的语义分割模型用作手指识别，其参数不再变化。

S1310：数据预处理，该步骤获取当前视频帧并进行数据的归一化预处理，例如：将视频帧的像素值归一化到0到1之间的图像。

S1320：模型推理。示例来说，请参考图14，该模型推理可以包括以下步骤：S1400，输入图像，即将S1310像素值归一化到0～1的图像输入语义分割模型。S1410a：通过语义分割模型中的语义特征分支提取图像的语义特征，该语义分支例如为：深层卷积神经网络，其中，在通过语义特征分支提取语义特征时，还可以对图片进行缩图处理，比如缩小4倍、5倍等等；S1410b：通过边缘特征分支提取纹理特征，该边缘特征分支例如为：浅层卷积神经网络，同样，在通过边缘特征分支提取纹理特征时，还可以对图片进行缩图处理，比如缩小2倍、3 倍等等；S1420：通过特征融合网络对提取出的语义特征和边缘特征进行特征融合计算得到综合特征，如果语义特征分支与边缘特征分支时对图片的缩放倍数不一样，则在计算综合特征时，可以先对像素较低的特征(例如：语义特征像素为8像素×8像素，边缘特征为32像素×32 像素，则像素较低的特征为语义特征)进行插值放大，从而保证语义特征与纹理特征大小相同，然后再进行特征融合计算得到综合特征。S1430：将综合特征输入分类器，获得手指区域掩膜。最后的分类器以综合特征作为输入，计算每个像素点属于手指区域的置信度和不属于手指区域的置信度，进而判断每个像素点是否属于手指区域，从而得到手指区域的掩膜。

在具体实施过程中，在基于上述步骤确定出手指区域的掩膜时，可能会存在部分噪声掩膜，为了提高确定手指区域的准确性，从而保证后续对手指区域进行填充的准确性，可以对基于语义分割模型确定出的手指区域的掩膜进行噪声过滤。

请参考图15A，为电子设备的前置摄像头采集获得的用户的照片，其中由于前置摄像头设置于显示屏底部或者键盘上，从而前置摄像头采集到的图像中包含手指，图15B所示的白色区域为基于语义分割模型输出的手指区域掩膜，表明该区域可能为手指，每个白色区域被称为连通区，在图15B中基于语义分割模型确定出手指区域的掩膜包括五个连通区(基于不同的图片，其确定的连通区数量也不同，本发明实施例不做限制)，分别为：连通区61、连通区62、连通区63、连通区64、连通区65，连通区外的框被称为该连通区的外接矩形，该手指区域的掩膜中还可以包含人脸框的经验位置66。连通区61、连通区62、连通区63因其底部区域与图片底部不接触，被称为非底部连通区，连通区64、连通区65被称为底部连通区，正常打字状态，人手的区域往往属于底部连通区。在确定出手指区域掩膜之后，可以将手指区域掩膜认定为手指区域，也可以对手指区域掩膜进行降噪，将降噪后的手指区域掩膜作为手指区域。

在具体实施过程中，可以通过对图像进行人脸识别，来确定出人脸框所在位置，将识别出的人脸框所在位置作为人脸框的经验位置。也可以将电子设备的屏幕中心的一块经验区域作为人脸框的经验区域；还可以通过对大量的聊天视频进行识别，分析出这些聊天视频中人脸框的位置，从而综合分析结果，得到人脸框的经验位置。

对噪声区域进行过滤可以采用以下一种或多种方式：

①根据获取到的手指区域掩膜和人脸框的经验位置66，对掩膜的二值图进行腐蚀膨胀操作，以过滤掉极小面积的噪声空洞，极小面积的噪声空洞例如为小于1像素、2像素、3像素等大小的噪声空洞，其往往为手指边缘的噪声。

②查找掩膜的二值图所有连通区，并初步过滤掉面积小于预设阈值的连通区，该预设阈值例如为10像素、20像素等等。

③筛选出外接矩形大于预设面积阈值的连通区，该预设面积阈值例如为：100像素、200 像素等等。又或者，计算连通区的区域中心，根据连通区的区域中心和人脸框的经验位置的中心之间的关系判定连通区所处的区域，例如：判定连通区位于人脸框的经验位置的中心的上侧、下侧、左侧还是右侧，基于连通区所在区域不同，为其设置不同的预设面积阈值，然后筛选出外接矩形面积大于预设面积阈值的连通区。其中，如果连通区位于人脸中心的左侧或者右侧，则其对应的预设面积阈值例如为：150像素、200像素、220像素等等，如果连通区位于人脸中心的上侧，则其对应的预设面积阈值例如为80像素、100像素等等，如果连通区位于人脸中心的下侧，则其对应的预设面积阈值例如为300像素、400像素等等。通常位于人脸中心下侧的连通区的预设面积阈值大于左侧(或右侧的)，位于人脸中心左侧(或右侧) 的连通区的预设面积阈值大于上侧的。

④对于满足上述要求的连通区(在具体实施过程中，上述三个过滤步骤，可以全部使用，也可以仅使用其中的部分，本发明实施例不做限制)，则继续判定连通区是否与人脸框的经验区域有重合，如果有重合且连通区不属于底部连通区，则判定当前为非打字状态，不进行后续处理；如果没有重合、或者属于底部连通区，可以转入第⑤步继续进行判断。当然，在具体实施过程中，也可以直接基于没有重合或者属于底部连通区的区域直接判定为打字状态，将对应的连通区确定为手指区域掩膜。

⑤如果满足上述要求，则计算连通区的宽高比，过滤掉宽高比小于阈值(例如：0.5、 0.7、0.8等等)的连通区，倒三角形的连通区、因为正常打字状态手指区域掩膜宽高比较大，且一般不会为倒三角形，该步骤也可以在步骤④之前进行，本发明实施例不做限制。

⑥计算剩余连通区与其外接矩形的面积占比，如果大于设定阈值(例如：0.5、0.6等等)，则返回打字状态信息，确定当前用户属于打字状态，且最终筛选后的手指区域掩膜为有效掩膜区域，也即有效的手指所在区域。本步骤中，也可以直接判断对应连通区的面积是否大于预设面积(例如：6万像素、7万像素等等)，如果大于，则返回打字状态信息，确定当前用户属于打字状态，最终筛选出的手指区域掩膜作为有效掩膜区域，也即有效手指所在区域。

在具体实施过程中，上述步骤①～⑥可以按照顺序执行，在不冲突的情况下，也可以针对每个连通区采用步骤①～⑥分别执行，然后基于每个步骤的执行结果，判断其是否属于手指区域掩膜。经过上述降噪操作之后的剩余的连通区例如如图15C所示，连通区61、62、63 已被过滤到，只剩下连通区64、65作为真正的手指区域被保留。

在具体实施过程中，上述语义分割模型的训练方法也可以用于图像中的其他物体的识别，例如：垃圾桶、背景、烟灰缸、文件夹、触控笔、手掌、胳膊等等。同样，也可以用于对这些物体所在区域进行识别。只要在训练阶段采用不同的训练样本即可，例如：针对垃圾桶，训练样本是包含垃圾桶的图片及垃圾桶所在区域的标记，针对触控笔，训练样本是包含触控笔的图片及触控笔所在区域的标记等等。

在具体实施过程中，除了采用前述语义分割模型进行前景分割(确定手指所在区域)之外，还可以采用其他方式进行前景分割，例如：基于帧差的前景分割方法、基于运动形状的前景分割方法等等。而采用前述语义分割模型能更加精确的分割出当前视频帧中的手指区域，且不被时刻运动的打字者的身体影响，同时其速度能满足实时性的要求。

本发明实施例还提供了一种图像处理方法，该方法用于基于视频帧的背景区域确定替换内容，请参考图16，包括以下步骤：

S700：基于背景帧和当前帧做运动偏移估计，获得背景帧相对于当前帧偏移的运动偏移矩阵(在具体实施过程中，也可以计算当前帧相对于背景帧偏移的运动偏移矩阵)。在初始阶段，通过视频聊天所采集的图像中如果不包含正在输入的手指，则将其作为背景帧；如果包含正在输入的手指，则暂不确定背景帧，直至不包含正在输入的手指时，采集获得图像作为背景帧。

其中，可以先检测当前帧和背景帧的特征点，然后对检测出的当前帧和背景帧的特征点进行匹配，找到配对的特征点，然后根据配对特征点计算透视变换矩阵，该透视变换矩阵即为表征背景帧相对于当前帧运动量的矩阵，其中，可以通过SIFT (Scale-invariantfeature transform：尺度不变特征转换)、SURF(Speeded Up Robust Features：旋转不变特性)、ORB(Oriented FAST and Rotated BRIEF)等特征点检测算法确定出背景帧和当前帧的特征点，可以通过通过BF(Brute-Force：暴力匹配)、FLANN(Fast ApproximateNearest Neighbor Search Library：快速最近邻逼近搜索函数库)等特征点匹配算法确定出背景帧和当前帧匹配的特征点。当然，还可以通过其他方式检测特征点、进行特征点匹配等，本发明实施例不做限制。

透视变换：

透视变换(Homography)是两张图之间的一种映射关系，通过矩阵乘法运算，将一张图中的一个点映射到另一张图中的对应点，包括透视矩阵计算和坐标映射两步。

透视变换矩阵计算：透视变换矩阵是一个3*3的矩阵H，设为：

已知图A和图B中有n(n＞＝4)对匹配点[A1，B1]，[A2，B2]，[A3，B3]...[An，Bn]，匹配点和 H构成以下线性方程组：

B₁＝H×A₁

B₂＝H×A₂

B₃＝H×A₃

…

B_n＝H×A_n

通过求解线性方程组得到H，H表达的是从图A到图B的运动偏移估计(也即：透视变换矩阵H)，因此对于图A中的每一个位置的点(X1，Y1)，可通过以下矩阵乘法计算得到其在图B视平面的对应坐标(X2，Y2)：

S710：根据上一个步骤确定出的运动量对背景帧做运动补偿，获得补偿帧(也即：进行运动补偿后的背景帧)，该过程的目的在于对齐当前帧和背景帧，以消除人体运动造成的补全图像后人体区域的割裂现象，(在具体实施过程中，也可以基于运动量对当前帧做运动补偿，本发明实施例不做限制)。

对于背景帧中的每一个位置的点(X1，Y1)，可通过以下矩阵乘法计算得到其在当前帧视平面的对应坐标(X2，Y2)：

通过上述透视变换，可实现对背景帧相对于当前帧的运动补偿。

S720：基于运动补偿后的背景帧(也即：补偿帧)和手指区域掩膜计算出用于填充的背景区域，使用用于填充的背景区域的内容/图像对当前帧的手指区域掩膜进行填充/替换；

在具体实施过程中，可以从背景帧中确定出手指区域掩膜所在位置的图像作为用于填充/ 替换的背景区域，然后将用于填充的背景区域覆盖于当前帧的手指区域掩膜，从而实现对当前帧的手指区域掩膜进行填充。

S730：采用环境光渲染方法渲染填充上的前景区域和周围的背景区域，使画面亮度一致，消除因硬件造成的相邻帧间的视频帧亮度差异。在具体实施过程中，步骤S730属于可选步骤。基于上述处理得到输出帧，输出帧作为最终的视频帧用于视频输出。

S740：将步骤S730中得到的输出帧作为新的背景帧，对背景帧进行更新。

本发明实施例提供一种视频通信方法，请参考图8，该视频通信方法包括以下步骤：

S800：通过前置摄像头采集获得显示屏前的视频帧；

在具体实施过程中，本方案可以应用于任何具备视频通信功能的电子设备，该电子设备可以自带或者外接摄像头，可选的，该摄像头设置于电子设备的显示屏的下方，或者该摄像头设置于电子设备的输入装置(例如：键盘、鼠标、触控板等等)上面，可选的，该电子设备为笔记本电脑，该摄像头设置于笔记本电脑的键盘上或者设置于笔记本电脑的显示屏下方。

在具体实施过程中，假设电子设备的用户A希望与另一用户B开启视频聊天，用户A打开电子设备的即时聊天应用，然后打开与用户B的聊天界面，然后点击“视频通话”按钮，电子设备检测到用户A的该操作之后，与用户B的电子设备之间建立视频通信连接，并开启电子设备的摄像头以采集获得发送给用户B的视频。又或者，用户打开电子设备100的联系人界面，选择联系人B，然后点击视频通话按钮(例如：畅联通话按钮)，电子设备检测到用户A的该操作之后，与用户B的电子设备之间建立视频通信连接。当然，还可以通过其他方式与用户B的电子设备之间建立视频通信连接，本发明实施例不再详细列举，并且不做限制。

通常视频通信默认开启前置摄像头，但是基于用户A的选择操作或者设置操作，电子设备也可以开启后置摄像头，本发明实施例不做限制。

本发明另一实施例提供了一种视频处理的方法，请参考图17，包括以下步骤：

S810：在获得前置摄像头输入的视频帧之后，判断是否存在手指打字；

在具体实施过程中，通过电子设备的键盘信号读取装置，读取当前的键盘信号，通过当前的键盘信号判断是否存在输入信号，如果存在输入信号，则确定存在手指打字；如果不存在输入信号，则确定不存在手指打字。

S820b：如果不存在手指打字，则通过当前视频帧对背景帧进行更新。

在初始阶段，通过视频聊天所采集的图像中如果不包含正在输入的手指，则将其作为背景帧；如果包含正在输入的手指，则暂不确定背景帧，直至不包含正在输入的手指时，采集获得图像作为背景帧。

S820a：通过语义分割模型确定是否存在手指区域掩膜，具体如何确定，由于前面已做介绍，故而在此不再赘述。所获得的手指区域掩膜例如如图18B的90所示。其中，S820a与 S810没有执行现有顺序之分。可选的，在基于S810确定出存在手指打字之后，再进行S820a 的处理，以减少电子设备的数据处理量。

S830：在存在手指打字，且存在手指区域掩膜的情况下，对手指区域掩膜进行降噪，具体如何降噪前面已做处理，故而在此不再赘述。该步骤属于可选步骤。

S840：去除手指区域掩膜的手指，具体如何去除，在前述图像处理方法中已做介绍，故而在此不再赘述，去除手指区域掩膜的手指之后的视频帧例如如图18C所示。如果存在上述步骤S830的话，则是去除降噪处理后的手指区域掩膜的手指。

另外，除了可以用前述图像处理的方法去除手指区域掩膜的手指之外，还可以通过其他图片覆盖该手指区域、又或者，通过当前图像帧的背景区域填充手指区域掩膜的手指，本发明实施例不再详细列举，并且不做限制。

S850：获得去除手指区域掩膜的手指之后的视频帧作为新的视频帧，并输出该视频帧，该视频帧可以传输给用户B的电子设备进行显示，还可以在用户A的电子设备上显示。

S860：通过新的视频帧对背景帧进行更新。

基于上述方案，进一步的能够在保持人体信息的同时，对打字手指区域进行分割识别，对被打字手指遮挡的背景区域和人体区域进行补全，解决打字手指在屏幕出现像“八爪鱼”的技术问题，极大改善用户视频聊天的体验。且基于上述方案仅仅去除用户打字的手指，而对于用户的其他手指则不需要去除，从而能够提高判断的准确性，减少误判的出现，提高人机交互的智能性。

本发明又一实施例提供一种视频通信方法，请参考图19，该方法包括以下步骤：

S1000：通过前置摄像头采集获得显示屏前的视频，具体采集过程与S800类似，在此不再赘述。

S1010a：在获得前置摄像头采集的视频之后，确定人脸所在区域；

其中，可以通过人脸识别技术识别出人脸所在区域；在一种可选的实施例中，也可以以电子设备的屏幕中心的一块经验区域作为人脸框的经验区域；又或者，还可以通过对大量的聊天视频(或者自拍图片)进行识别，分析出这些聊天视频(或自拍图片)中人脸框的位置，从而综合分析结果，得到人脸框的经验区域。

S1010b：通过语义分割模型确定手指区域掩膜，具体如何确定前面已做介绍，在此不再赘述，该步骤与S1010a的执行没有先后顺序之分。

S1020：通过人脸所在区域与手指区域掩膜确定当前帧中的用户是否正在打字。

在具体实施过程中，可以判断手指区域掩膜的连通区是否存在底部连通区，如果存在则认为处于打字状态；如果不存在，则判断连通区与人脸所在区域是否重叠，如果重叠，则认为处于非打字状态，如果不重叠，则认为处于打字状态。

在具体实施过程中，也可以仅基于手指区域掩膜的连通区是否存在底部连通区来确定是否处于打字状态，例如：如果存在底部连通区，则认为处于打字状态，如果不存在底部连通区，则认为属于非打字状态。在这种情况下，则上述步骤S1010a属于可选步骤。

请参考图20，图19中的步骤S1020可以包括以下步骤：

S1100：对手指区域掩膜进行腐蚀膨胀操作，以过滤掉极小面积的噪声空洞，极小面积的噪声空洞例如为小于1像素、2像素、3像素等大小的噪声空洞，其往往为手指边缘的噪声。

S1110：查找图片的二值图的所有连通区，并初步过滤掉面积小于预设阈值的连通区，该预设阈值例如为10像素、20像素等等。

S1120：对连通区进行初筛，计算连通区的区域中心，根据其中心的位置和人脸框中心位置的关系判定其所处的区域，例如：判定连通区位于人脸中心的上侧、下侧、左侧还是右侧，根据不同位置区域的外接矩形面积阈值筛选满足要求的连通区，筛选出外接矩形面积大于预设面积阈值的连通区。其中，如果连通区位于人脸中心的左侧或者右侧，则其对应的预设面积阈值例如为：150像素、200像素、220像素等等，如果连通区位于人脸中心的上侧，则其对应的预设面积阈值例如为80像素、100像素等等，如果连通区位于人脸中心的下侧，则其对应的预设面积阈值例如为300像素、400像素等等。通常位于人脸中心下侧的连通区的预设面积阈值大于左侧(或右侧的)，位于人脸中心左侧(或右侧)的连通区的预设面积阈值大于上侧的。

上述三个步骤为可选步骤。

然后再执行S1130，也即：通过过滤后的手指区域掩膜和人脸所在区域确定当前帧中的用户是否正在打字，其判断方式与前面介绍类似，在此不再赘述。如果基于S1130确定出用户并未打字，则可以返回非打字状态码；而如果基于S1140确定出用户打字，则可以返回打字状态码，也可以执行S1140：对连通区进行精筛，精筛可以包括以下方式：

方式一：则计算连通区的宽高比，过滤掉宽高比小于阈值(例如：0.5、0.7、0.8等等)的连通区，倒三角形的连通区、因为正常打字状态手指区域掩膜宽高比较大，且一般不会为倒三角形；

方式二：计算剩余连通区与其外接矩形的面积占比，如果大于设定阈值(例如：0.5、0.6 等等)，则返回打字状态信息，确定当前用户属于打字状态，且最终筛选后的手指区域掩膜为有效掩膜区域，也即有效的手指所在区域。本步骤中，也可以直接判断对应连通区的面积是否大于预设面积(例如：6W像素、7W像素等等)，如果大于，则返回打字状态信息，确定当前用户属于打字状态，最终筛选出的手指区域掩膜作为有效掩膜区域，也即有效手指所在区域。

如果基于上述精筛步骤筛选之后还剩下连通区，则返回打字状态码，确定目前用户处于打字状态；如果基于上述精筛步骤之后不剩下连通区，则返回非打字状态码，确定目前用户处于非打字状态。

S1030a：在确认没有打字的情况下，通过当前帧对背景帧更新。

S1030b：在确定存在打字的情况下，通过图像处理操作去除/遮挡手指区域掩膜的手指，从而获得新的视频帧，具体如何去除，前面已做介绍，在此不再赘述。

S1040：输出新的视频帧，可以输出至用户B所在的电子设备，作为视频通信的视频帧；也可以(同时)输出至用户A所在的电子设备。

S1050：通过新的视频帧对背景帧更新。上述步骤S1040与步骤S1050的执行顺序可互换。

在具体实施过程中，S810与S1020中判断是否存在手指打字的步骤可以择一采用、组合采用，或者在S810无法判断时，可以采用S1020进行判断。

基于上述方案，进一步的能够在保持人体信息的同时，对打字手指区域进行分割识别，对被打字手指遮挡的背景区域和人体区域进行补全，解决打字手指在屏幕出现像“八爪鱼”的槽点和问题，极大改善用户视频聊天的体验。且基于上述方案仅仅去除用户打字的手指，而对于用户的其他手指则不需要去除，从而能够提高判断的准确性，减少误判的出现，提高人机交互的智能性。

请参考图21，本发明实施例提供一种视频处理的方法，包括以下步骤：

S2100：获得视频帧；

在具体实施过程中，电子设备可以采集获得视频帧，例如：电子设备可以在检测到用户的视频拍摄操作(例如：点击视频拍摄按钮、产生预设手势、产生语音指令等等)之后，进行视频采集；也可以在检测到用户与对端电子设备进行视频通信时，进行视频采集，然后将采集到的视频发送给对端电子设备，电子设备也可以从其他电子设备或者网络获得视频帧，本发明实施例不再详细列举，并且不做限制。

如果视频帧为电子设备采集获得视频帧，则该视频帧可以为通过前置摄像头采集获得的视频帧，也可以为后置摄像头采集获得的视频帧，或者对前置摄像头和后置摄像头采集的视频帧进行融合之后获得视频帧等等；也可以为通过电子设备100外接的其他摄像头采集获得的视频帧，例如：该电子设备100与无人机、电视、台式机中的一个或多个设备建立连接，该电子设备100可以通过这些设备采集获得视频帧。

在具体实施过程中，在电子设备检测到用户的视频通信操作(或者视频拍摄操作)时，产生视频通信指令；然后将视频通信指令发送给处理器，处理器响应该视频通信指令，开启视频通信软件，把指令发送给摄像头驱动控制摄像头进行视频采集。摄像头驱动将采集的数据发送给手指遮挡处理组件，由手指遮挡处理组件执行后续操作。

S2110：获得该视频帧上预设对象所在区域；

该预设对象可以为系统默认设置的对象，也可以为用户指定的对象。例如：用户在通过电子设备100采集视频帧时，由于手持电子设备100、或者用手在电子设备100上打字，从而导致电子设备100采集到遮挡摄像头的镜头的手指、正在打字输入的手指等等，这些都属于用户不希望被采集到的画面；又或者，用户在拍照时发现照片中有垃圾桶、烟灰缸(预设对象)等等，则可以通过手动选择的方式，选择画面中垃圾桶、烟灰缸等等，从而这些物体指定为预设对象，通过上述方案能够去除视频中的预设对象，从而使视频聊天更能满足用户需求，也能够保护用户的隐私。

在具体实施过程中，该预设对象例如为用户的手、手指、垃圾桶、烟灰缸等等。其可以通过语义分割模型自动确定出该预设对象区域(对于具体如何通过语义分割模型自动确定出该预设对象所在区域，将在后续结合图3-5予以介绍)；也可以接收用户的选择操作，基于选择操作确定出该预设对象所在区域。例如：在拍摄视频的过程中，用户点击图中的烟灰缸，电子设备检测到用户的点击操作之后，确定出用户希望识别出烟灰缸，故而通过图像识别算法，识别出用户点击操作所对应的物体所在区域。

S2120：确定替换内容，该替换内容可以视频帧所对应的背景区域的内容，对于背景区域的内容如何确定，将在后续结合图7予以介绍。也可以并非背景区域的内容，例如：其他图像(例如：表情、图标等等)、对视频帧进行马赛克后预设对象所在区域的内容等等。

S2120：通过替换内容填充所述预设对象所在区域，以去除/替换所述预设对象。其中，可以去除预设对象的部分内容，也可以去除预设对象的全部内容。

在具体实施过程中，可以通过前面介绍的图像处理方法填充预设对象所在区域；也可以直接通过其他物体覆盖预设对象所在区域，例如：在烟灰缸所在区域覆盖表情、对烟灰缸所在区域进行马赛克等等。

例如：在视频采集过程中，在检测到预设对象所在的区域时，可以直接通过背景区域，对预设对象所在区域进行填充；又或者，在视频采集过程中，在检测到预设对象所在区域时，通过预设图标(该预设图标可以为默认图标，也可以为随机变化的图标)覆盖于视频中的预设对象区域，在检测到用户针对该预设图标的编辑操作时，移除该图标、或者将该预设图标替换为其他图标；又或者，在视频采集界面显示编辑按钮，检测到用户点击编辑按钮的操作之后，显示各种编辑操作(例如：滤镜、图标、拼图等等)，检测到用户点击图标的操作之后，显示各种图标，然后基于用户的特定操作(例如：将图标拖动至预设对象表面的操作)，从而通过图标遮挡于预设对象表面；又例如：在视频采集界面直接显示各种图标，基于用户的特定操作将图标遮挡预设对象表面。

S2130：用确定的替换内容替换预设对象所在区域的内容，并输出替换处理后的视频帧。

在具体实施过程中，可以将替换处理后的视频帧传输至另一电子设备，以在另一电子设备上显示替换处理后的视频帧；也可以将替换处理后的视频帧显示当前电子设备，以提供给电子设备的用户，还可以将替换处理后的视频帧存储于电子设备。

基于上述方案，进一步的能够在保持人体信息的同时，对打字手指区域进行分割识别，对被打字手指遮挡的背景区域和人体区域进行补全，解决打字手指在屏幕出现像“八爪鱼”的技术问题，极大改善用户视频聊天的体验。

上述方案除了可以用于视频采集之外，还可以用于图像采集，例如：在检测到用户采集图像的操作之后，识别其中的预设对象，然后将预设对象去除，其去除方式可以采用前面介绍的图像处理方法，也可以通过其他图片覆盖，本发明实施例不再详细列举，并且不做限制。

下面将结合两个的应用场景来对本发明实施例方案的应用场景进行介绍。

应用场景一：

请参考图22a，在初始阶段，电子设备的显示界面上显示有与另一用户进行即时聊天的界面220，在该界面上显示有视频通信按钮220a、语音通信按钮220b，该电子设备的使用者为用户A，用户A旁边站有用户B，用户A目标的手指放置于键盘上，用户B通过鼠标点击视频通信按钮(220a)(或者用户A产生语音指令)；

电子设备检测到该视频通信操作之后，跳转至图22b所示的界面，22b包含一视频通信界面221，该视频通信界面包含视频预览界面221a和视频显示界面221b，视频预览界面221a 中显示当前电子设备采集(或处理后)的视频帧(例如：用户A的视频帧)，视频显示界面 221b显示对端电子设备的用户的视频帧。发送此时用户A的手指一直放置于键盘上，由于电子设备未检测到不包含手指的背景帧，因此电子设备未触发手指去除功能，显示包含手指的视频帧。

然后，如图22c所示，用户A将手指从键盘上拿掉，放置于膝盖之上，此时电子设备检测不到用户的手指，故而采集到的视频帧中是不包含用户的手指的，直接输出该视频帧；并且将采集到的视频帧作为背景帧。

然后，如图22d所示，用户再次将手指放置于键盘上打字，此时采集到的视频帧中是包含用户的手指的；则通过前面介绍的方法去除视频帧中的手指，从而输出的是不包含手指的视频帧。且在视频帧上显示提示框222，该提示框222用于提示“已去除视频聊天中的手指，请确认是否继续去除”，且该提示框222包含确认按钮222a和取消按钮222b，用户B通过鼠标点击取消按钮222b(或者用户A产生语音指令)；

然后，如图22所示，用户A的手指位置相对于图22d中用户A的手指位置并未发生变化，但是视频预览界面中所显示的视频帧中又包含了用户的手指。

应用场景二：

用户A启动视频通信功能，启动视频通信时，用户的手放在膝盖上，所采集的视频帧中不包含用户的手指，如图23a所示；在这种情况下，电子设备将图23a所示的视频帧设置为背景帧，且输出该视频帧，如图23b所示。

随后，用户A通过键盘开始打字，电子设备采集到的视频帧中包含用户的手指，如图23c 所示；电子设备确定出采集的视频帧中符合预设手指模型的内容，则产生提示信息，该提示信息例如为文字、语音、图标等等，如图23d所示，显示提示框130，提示框130中显示“已检测到视频帧中包含手指，请确认是否去除”，该提示框13上还显示有确认按钮140和取消按钮150，用户A希望去除手指，则点击了确认按钮140，电子设备检测到用户点击确认按钮140的操作。用户一直在通过键盘输入。

随后，电子设备又采集到一帧包含打字的手指的视频帧，如图23e所示，由于用户已确认去除手指；则电子设备基于前面介绍方法去除该视频帧中的手指，输出不包含手指的视频帧，如图23f所示。在该视频帧上还可以产生提示信息，该提示信息用于告知用户目前处于手指去除状态，该提示信息可以持续一段时间(例如：1秒、2秒)后消失，也可以在手指去除状态下一直显示；还可以产生一个取消按钮，通过响应用户点击该取消按钮，可以退出手指去除模式，如图23f所示，提示信息与取消按钮集成到一起，为一个提示按钮230。

一段时间后，用户希望不要再去除手指了，通过鼠标点击23f中的提示按钮230，电子设备检测到点击该提示按钮的操作之后，再次采集到包含手指的视频帧23g，这种情况下，无需再判断该视频帧中是否包含符合预设手指模型的内容，而是直接输出该包含手指的视频帧，如图23h所示。

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，包括指令，当所述指令在电子设备上运行时，使得所述电子设备执行本发明任一实施例所述的方法。

基于同一发明构思，本发明实施例提供一种计算机程序产品，所述计算机程序产品包括软件代码，所述软件代码用于执行执行本发明任一实施例所述的方法。

基于同一发明构思，本发明实施例提供一种包含指令的芯片，当所述芯片在电子设备上运行时，使得所述电子设备执行执行本发明任一实施例所述的方法。

基于同一发明构思，本发明实施例提供一种电子设备，包括：键盘和摄像头，所述摄像头设置于所述键盘附近，所述电子设备还包括：第一采集模块，用于通过所述摄像头采集获得第一视频帧；第一确定模块，用于确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；显示模块，用于显示所述第二视频帧，和/或，将所述第二视频帧发送给对端电子设备显示。

在一种可选的实施方式中，所述第一确定模块，包括：第一确定单元，用于确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域，去除所述第一视频帧中的手指；第二确定单元，用于确定所述第一视频帧中包含符合预设手指模型的内容，且确定出手指区域与人脸所在位置不存在重叠，去除所述第一视频帧中的手指；第三确定单元，用于确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域且与所述第一视频帧的侧边相连，去除所述第一视频帧中的手指。

在一种可选的实施方式中，所述第一确定模块，包括：获得单元，用于获得键盘输入信号；第四确定单元，用于确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，去除所述第一视频帧中的手指。

在一种可选的实施方式中，所述第一确定模块，用于：以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧；或者对所述第一视频帧进行裁剪以获得不包含所述手指区域的所述第二视频帧；或者，通过所述手指区域的邻近区域的像素对所述手指区域进行填充，获得所述第二视频帧。

在一种可选的实施例方式中，所述电子设备还包括：第二采集模块，用于在采集获得所述第一视频帧之前，采集获取第三视频帧；第二确定模块，用于确定所述第三视频帧中不包含符合预设手指模型的内容，则将所述第三视频帧作为背景帧；第三确定模块，用于：在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。

在一种可选的实施例方式中，所述第一确定模块，用于：确定所述第一视频帧中包含符合预设手指模型的内容，且所述手指不处于异常状态，则去除所述第一视频帧中的手指，获得所述第二视频帧；所述异常状态对应以下至少一种情况：所述第一视频帧中用户的两只手位于所述第一视频帧的底部，且用户的两只手的距离大于第一预设距离；所述第一视频帧中用户一只手位于底部区域，另一只手与所述底部区域距离大于预设距离；所述第一视频帧中用户的手指的面积大于预设面积阈值；所述第一视频帧中用户的手指遮挡住脸部。

在一种可选的实施例方式中，所述电子设备还包括：第四确定模块，用于确定所述第一视频帧中包含符合预设手指模型的内容，且确定出手指处于异常状态，将所述第一视频帧发送给所述显示器显示。

在一种可选的实施例方式中，所述第一确定模块，用于：将所述第一视频帧输入语义分割模型，通过语义分割模型确定所述第一视频帧中的手指区域，在存在所述手指区域时，认定所述第一视频帧中包含符合所述预设手指模型的内容，所述语义分割模型基于样本照片训练获得，每张所述样本照片中包含用户手指的照片，并且每张照片标记出手指区域。

基于同一发明构思，本发明实施例提供一种电子设备，包括：获得模块，用于获得第一视频帧，且获得键盘输入信号；第五确定模块，用于确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧；指示模块，用于指示显示所述第二视频帧。

在一种可选的实施例方式中，所述第五确定模块，用于：以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧；或者，对所述第一视频帧进行裁剪以获得不包含所述手指区域的所述第二视频帧；或者，通过所述手指区域的邻近区域的像素对所述手指区域进行填充，获得所述第二视频帧。

在一种可选的实施例方式中，所述电子设备还包括：第三采集模块，用于在采集获得所述第一视频帧之前，采集获得第三视频帧；第六确定模块，用于确定所述第三视频帧中不包含符合预设手指模型的内容，则将所述第三视频帧作为背景帧；第七确定模块，用于：在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。

在一种可选的实施例方式中，所述第五确定模块，用于：确定所述第一视频帧中包含符合预设手指模型的内容，且所述手指不处于异常状态，且且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得所述第二视频帧；所述异常状态对应以下至少一种情况：所述第一视频帧中用户的两只手位于所述第一视频帧的底部，且用户的两只手的距离大于第一预设距离；所述第一视频帧中用户一只手位于底部区域，另一只手与所述底部区域距离大于预设距离；所述第一视频帧中用户的手指的面积大于预设面积阈值；所述第一视频帧中用户的手指遮挡住脸部。

在一种可选的实施例方式中，所述电子设备还包括：第八确定模块，用于确定所述第一视频帧中包含符合预设手指模型的内容时，且确定出手指处于异常状态，指示显示所述第一视频帧。

在一种可选的实施例方式中，所述第五确定模块，用于：将所述第一视频帧输入语义分割模型，通过语义分割模型确定所述第一视频帧中的手指区域，在存在所述手指区域时，认定所述第一视频帧中包含符合所述预设手指模型的内容，所述语义分割模型基于样本照片训练获得，每张所述样本照片中包含用户手指的照片，并且每张照片标记出手指区域。

其他内容参考上文相关内容的描述，不再赘述。

可以理解的是，上述电子设备等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

本申请实施例可以根据上述方法示例对上述电子设备等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以采用对应各个功能划分各个功能模块为例进行说明：

本申请实施例提供的方法中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例描述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、电子设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质 (例如，数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，SSD)等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上，仅为本申请的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种电子设备，其特征在于，包括：

显示器，键盘，摄像头和处理器；

所述摄像头设置于所述键盘附近，用于在视频通信中，采集视频帧，并将采集的视频帧发送给所述处理器；

所述处理器，与所述显示器、键盘、摄像头连接，用于接收来自摄像头的第一视频帧，确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；并将所述第二视频帧发送给所述显示器显示，和/或，将所述第二视频帧发送给对端电子设备显示。

2.如权利要求1所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容时，去除所述第一视频帧中的手指，包括：

确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域，去除所述第一视频帧中的手指；或，

确定所述第一视频帧中包含符合预设手指模型的内容，且确定出手指区域与人脸所在位置不存在重叠，去除所述第一视频帧中的手指；或，

确定所述第一视频帧中包含符合预设手指模型的内容，且确定所述手指位于所述第一视频帧的底部区域且与所述第一视频帧的侧边相连，去除所述第一视频帧中的手指。

3.如权利要求1所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，包括：

获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，去除所述第一视频帧中的手指。

4.如权利要求1-3任一权项所述的电子设备，其特征在于，所述去除所述第一视频帧中的手指，获得第二视频帧，包括：

以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧；或者对所述第一视频帧进行裁剪以获得不包含所述手指区域的所述第二视频帧；或者，通过所述手指区域的邻近区域的像素对所述手指区域进行填充，获得所述第二视频帧。

5.如权利要求4所述的方法，其特征在于，所述处理器，还用于：获取第三视频帧，所述第三视频帧为在所述第一视频帧之前采集的视频帧；确定所述第三视频帧中不包含符合预设手指模型的内容，则将所述第三视频帧作为背景帧；在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。

6.如权利要求1-5任一权项所述的电子设备，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧，包括：

确定所述第一视频帧中包含符合预设手指模型的内容，且所述手指不处于异常状态，则去除所述第一视频帧中的手指，获得所述第二视频帧；

所述异常状态对应以下至少一种情况：

所述第一视频帧中用户的两只手位于所述第一视频帧的底部，且用户的两只手的距离大于第一预设距离；

所述第一视频帧中用户一只手位于底部区域，另一只手与所述底部区域距离大于预设距离；

所述第一视频帧中用户的手指的面积大于预设面积阈值；

所述第一视频帧中用户的手指遮挡住脸部。

7.如权利要求6所述的电子设备，其特征在于，

所述处理器，还用于：确定所述第一视频帧中包含符合预设手指模型的内容时，且确定出手指处于异常状态，将所述第一视频帧发送给所述显示器显示。

8.如权利要求1-7任一所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，包括：

将所述第一视频帧输入语义分割模型，通过语义分割模型确定所述第一视频帧中的手指区域，在存在所述手指区域时，认定所述第一视频帧中包含符合所述预设手指模型的内容，所述语义分割模型基于样本照片训练获得，每张所述样本照片中包含用户手指的照片，并且每张照片标记出手指区域。

9.如权利要求1-7任一所述的方法，其特征在于，

所述处理器，还用于，响应于用户开启视频通信的操作，控制所述显示器显示视频通信界面，所述视频通信界面包括视频预览窗口和视频接收窗口；在所述视频预览窗口显示所述第二视频帧，在所述视频接收窗口显示从对端电子设备接收的视频帧；

所述处理器，还用于：将所述第一视频帧输入语义分割模型，获得手指区域掩膜；对所述手指区域掩膜进行降噪处理，获得手指区域；判断所述手指区域是否包含底部连通区且所述底部连通区与所述第一视频帧的侧边相接，如果所述手指区域是否包含底部连通区且所述底部连通区与所述第一视频帧的侧边相接，去除所述第一视频帧中的手指；所述对所述手指区域掩膜进行降噪处理包括以下至少一种：根据获取到的手指区域掩膜和人脸所在区域，对所述手指区域掩膜的二值图进行腐蚀膨胀操作；查找手指区域掩膜的二值图所有连通区，并过滤掉面积小于预设阈值的连通区；过滤掉手指区域掩膜的连通区中外接矩形小于或等于预设面积阈值的连通区，基于连通区的所在区域不同，所对应的预设面积阈值不同；过滤掉手指区域掩膜的连通区中不属于底部连通区的区域；过滤掉手指区域掩膜的连通区中与人脸所在区域存在重叠的连通区；过滤手指区域掩膜的连通区中宽高比小于第二预设阈值的连通区；计算连通区与其外接矩形的面积占比，过滤掉面积占比小于等于第三预设阈值的连通区；

所述去除第一视频帧中的手指，获得第二视频帧，包括：判断背景帧与所述第一视频帧的相似度值是否大于预设相似度值，如果大于的话，对背景帧进行运动补偿，获得运动补偿后的背景帧，所述背景帧为采集所述第一视频帧之前采集的不包含所述手指的视频帧；确定运动补偿后的背景帧的手指区域作为替换内容；通过所述替换内容对所述第一视频帧中的所述手指区域进行替换；采用环境光渲染方法渲染填充上的所述替换内容和周围的背景区域，获得所述第二视频帧；所述对所述背景帧进行运动补偿包括：基于背景帧和当前帧做运动偏移估计，获得背景帧相对于当前帧偏移的运动偏移矩阵，所述获得运动偏移矩阵包括：检测所述第一视频帧和所述背景帧的特征点，然后对所述第一视频帧和所述背景帧的特征点进行匹配，找到配对的特征点，然后根据配对特征点计算透视变换矩阵，该透视变换矩阵即为表征背景帧相对于当前帧运动量的运动偏移矩阵；根据所述运动偏移矩阵对所述背景帧做运动补偿，获得运动补偿后的背景帧；

所述处理器还用于：在获得所述第二视频帧之后，将所述第二视频帧作为背景帧；

所述处理器还用于：在控制所述显示器显示所述第二视频帧之后，确定接收的第四视频帧中包含符合预设手指模型的内容，且所述手指处于异常状态，则根据所述第二视频帧的手指区域和所述第四视频帧的手指区域确定出至少一个过渡帧；控制所述显示器显示所述至少一个过渡帧；控制所述显示器在显示所述至少一个过渡帧之后，显示所述第四视频帧。

10.一种视频采集控制方法，其特征在于，应用于电子设备中，所述电子设备包括：键盘和摄像头，所述摄像头设置于所述键盘附近，所述包括：

通过所述摄像头采集获得第一视频帧；

确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧；

显示所述第二视频帧，和/或，将所述第二视频帧发送给对端电子设备显示。

11.如权利要求10所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容时，去除所述第一视频帧中的手指，包括：

12.如权利要求10所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，包括：

13.如权利要求10-12任一权项所述的方法，其特征在于，所述去除所述第一视频帧中的手指，获得第二视频帧，包括：

14.如权利要求13所述的方法，其特征在于，所述方法还包括：

在采集获得所述第一视频帧之前，采集获取第三视频帧；

确定所述第三视频帧中不包含符合预设手指模型的内容，则将所述第三视频帧作为背景帧；在所述以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧之前，所述方法还包括：在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。

15.如权利要求10-14任一权项所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧，包括：

所述异常状态对应以下至少一种情况：

所述第一视频帧中用户的手指的面积大于预设面积阈值；

所述第一视频帧中用户的手指遮挡住脸部。

16.如权利要求15所述的方法，其特征在于，所述方法还包括：

确定所述第一视频帧中包含符合预设手指模型的内容，且确定出手指处于异常状态，将所述第一视频帧发送给所述显示器显示。

17.如权利要求10-16任一所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，包括：

18.如权利要求10-16任一所述的方法，其特征在于，所述方法还包括：

响应于用户开启视频通信的操作，显示视频通信界面，所述视频通信界面包括视频预览窗口和视频接收窗口；所述视频预览窗口用于显示本端产生的视频帧，所述视频接收窗口用于显示从对端电子设备接收的视频帧；

所述确定所述第一视频帧中包含符合预设手指模型的内容，则去除所述第一视频帧中的手指，获得第二视频帧，包括：

将所述第一视频帧输入语义分割模型，获得手指区域掩膜；对所述手指区域掩膜进行降噪处理，获得手指区域；判断所述手指区域是否包含底部连通区且所述底部连通区与所述第一视频帧的侧边相接，如果所述手指区域是否包含底部连通区且所述底部连通区与所述第一视频帧的侧边相接，去除所述第一视频帧中的手指；所述对所述手指区域掩膜进行降噪处理包括以下至少一种：根据获取到的手指区域掩膜和人脸所在区域，对所述手指区域掩膜的二值图进行腐蚀膨胀操作；查找手指区域掩膜的二值图所有连通区，并过滤掉面积小于预设阈值的连通区；过滤掉手指区域掩膜的连通区中外接矩形小于或等于预设面积阈值的连通区，基于连通区的所在区域不同，所对应的预设面积阈值不同；过滤掉手指区域掩膜的连通区中不属于底部连通区的区域；过滤掉手指区域掩膜的连通区中与人脸所在区域存在重叠的连通区；过滤手指区域掩膜的连通区中宽高比小于第二预设阈值的连通区；计算连通区与其外接矩形的面积占比，过滤掉面积占比小于等于第三预设阈值的连通区；

判断背景帧与所述第一视频帧的相似度值是否大于预设相似度值，如果大于的话，对背景帧进行运动补偿，获得运动补偿后的背景帧，所述背景帧为采集所述第一视频帧之前采集的不包含所述手指的视频帧；确定运动补偿后的背景帧的手指区域作为替换内容；通过所述替换内容对所述第一视频帧中的所述手指区域进行替换；采用环境光渲染方法渲染填充上的所述替换内容和周围的背景区域，获得所述第二视频帧；所述对所述背景帧进行运动补偿包括：基于背景帧和当前帧做运动偏移估计，获得背景帧相对于当前帧偏移的运动偏移矩阵，所述获得运动偏移矩阵包括：检测所述第一视频帧和所述背景帧的特征点，然后对所述第一视频帧和所述背景帧的特征点进行匹配，找到配对的特征点，然后根据配对特征点计算透视变换矩阵，该透视变换矩阵即为表征背景帧相对于当前帧运动量的运动偏移矩阵；根据所述运动偏移矩阵对所述背景帧做运动补偿，获得运动补偿后的背景帧；

所述方法还包括：在获得所述第二视频帧之后，将所述第二视频帧作为背景帧；

所述方法还包括：在控制所述显示器显示所述第二视频帧之后，确定采集的第四视频帧中包含符合预设手指模型的内容，且所述手指处于异常状态，则根据所述第二视频帧的手指区域和所述第四视频帧的手指区域确定出至少一个过渡帧；显示所述至少一个过渡帧；在显示所述至少一个过渡帧之后，在所述视频预览窗口显示所述第四视频帧。

19.一种电子设备，其特征在于，包括：

一个或多个处理器；

一个或多个存储器；

多个应用程序；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备的一个或多个处理器执行时，使得所述电子设备执行以下步骤：

获得第一视频帧，且获得键盘输入信号；确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧；指示显示所述第二视频帧。

20.如权利要求19所述的电子设备，其特征在于，所述去除所述第一视频帧中的手指，获得第二视频帧，包括：

以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧；或者

对所述第一视频帧进行裁剪以获得不包含所述手指区域的所述第二视频帧；或者，

通过所述手指区域的邻近区域的像素对所述手指区域进行填充，获得所述第二视频帧。

21.如权利要求20所述的电子设备，其特征在于，当所述指令被所述电子设备执行时，所述电子设备还执行以下步骤：

在采集获得所述第一视频帧之前，采集获得第三视频帧；

确定所述第三视频帧中不包含符合预设手指模型的内容，则将所述第三视频帧作为背景帧；

在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。

22.如权利要求19所述的电子设备，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧，包括：

确定所述第一视频帧中包含符合预设手指模型的内容，且所述手指不处于异常状态，且且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得所述第二视频帧；

所述异常状态对应以下至少一种情况：

所述第一视频帧中用户的手指的面积大于预设面积阈值；

所述第一视频帧中用户的手指遮挡住脸部。

23.如权利要求22所述的电子设备，当所述指令被所述电子设备执行时，所述电子设备还执行以下步骤：

确定所述第一视频帧中包含符合预设手指模型的内容时，且确定出手指处于异常状态，指示显示所述第一视频帧。

24.如权利要求19-23任一所述的电子设备，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，包括：

述确定所述第一视频帧中包含符合预设手指模型的内容，包括：

25.一种视频通信控制方法，其特征在于，包括：

获得第一视频帧，且获得键盘输入信号；

确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧；

指示显示所述第二视频帧。

26.如权利要求25所述的方法，其特征在于，所述去除所述第一视频帧中的手指，获得第二视频帧，包括：

27.如权利要求26所述的方法，其特征在于，所述方法还包括：

在采集获得所述第一视频帧之前，采集获得第三视频帧；

在所述以替换内容替换所述第一视频帧中的手指区域的内容，获得所述第二视频帧之前，所述方法还包括：在所述背景帧中，确定出和所述第一视频帧中的手指区域对应的内容作为所述替换内容。

28.如权利要求25所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，且获得的键盘输入信号的时间与获得所述第一视频帧的时间满足预设时间阈值，则去除所述第一视频帧中的手指，获得第二视频帧，包括：

所述异常状态对应以下至少一种情况：

所述第一视频帧中用户的手指的面积大于预设面积阈值；

所述第一视频帧中用户的手指遮挡住脸部。

29.如权利要求28所述的方法，所述方法还包括：

30.如权利要求25-29任一所述的方法，其特征在于，所述确定所述第一视频帧中包含符合预设手指模型的内容，包括：

31.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求16-30中任一项所述的方法。

32.一种计算机程序产品，其特征在于，所述计算机程序产品包括软件代码，所述软件代码用于执行如权利要求16-30中任一项所述的方法。

33.一种包含指令的芯片，其特征在于，当所述芯片在电子设备上运行时，使得所述电子设备执行如权利要求16-30中任一项所述的方法。