CN115482309A

CN115482309A - 图像处理方法、计算机设备及存储介质

Info

Publication number: CN115482309A
Application number: CN202211379357.6A
Authority: CN
Inventors: 王一睿; 黄炎鑫
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2022-12-16
Anticipated expiration: 2042-11-04
Also published as: CN115482309B

Abstract

本申请公开了一种图像处理方法、计算机设备及存储介质，图像处理方法包括：获取视频场景中的单帧图像；通过数据增强算法对单帧图像进行数据增强，以使得模型的泛化性更强；利用深度估计算法实时预测经过数据增强的单帧图像的景深；基于景深，去除景深大于或小于预设景深阈值的人物及杂物，则单帧图像中的剩余人物为目标人物；替换目标人物的背景为新的背景。该方法可以消除图像内的无关人员，便于图像背景内容的统一管理，同时对图像背景的处理效率较高。

Description

图像处理方法、计算机设备及存储介质

技术领域

本申请涉及金融技术领域，具体是涉及一种图像处理方法、计算机设备及存储介质。

背景技术

随着互联网技术的发展，人们足不出户即可在家享受网络上的各种服务，相关远程服务也应运而生。相关技术中，在远程人工客服业务场景下，为了统一客服背景形象，需要在人工客服的背后加装挡板，贴上企业/银行的标志，这种方式对场景的要求比较高，同时不便于背景内容的统一管理。同时，人工客服背景中有时会出现无关人员，背景较为杂乱。

发明内容

有鉴于此，本申请提供一种图像处理方法、计算机设备及存储介质，以解决现有技术中远程人工客服的背景杂乱、不方便统一管理的问题。

为了解决上述技术问题，本申请提供的第一个技术方案为：提供一种图像处理方法，包括：获取视频场景中的单帧图像；通过数据增强算法对所述单帧图像进行尺寸、颜色、清晰度和数据集大小的调整；利用深度估计算法实时预测经过数据增强的所述单帧图像的景深；基于所述景深，去除景深大于或小于预设景深阈值的人物及杂物，则所述单帧图像中的剩余人物为目标人物；替换所述目标人物的背景为新的背景。

可选地，所述数据增强算法包括马赛克数据增强方法和混合数据增强方法中的至少一个。

可选地，所述通过数据增强算法对所述单帧图像进行尺寸、颜色、清晰度和数据集大小的调整，包括：将多个所述单帧图像通过随机缩放、随机裁减、随机排布的方式进行缩放叠加，以进行数据增强；和/或从多个所述单帧图像中随机选取两个，以预设比例混合生成新的图像。

可选地，所述利用深度估计算法实时预测经过数据增强的所述单帧图像的景深，包括：获取所述单帧图像中的前景人物预测掩码及前景分割alpha掩码；预测所述单帧图像的整体景深。

可选地，所述预测所述单帧图像的整体景深包括：通过摄像头的景深数据和视频序列数据对景深预测模型进行联合训练；通过所述景深预测模型预测所述单帧图像的前景、背景和图像整体景深。

可选地，所述通过所述景深预测模型预测所述单帧图像的前景、背景和图像整体景深之后，还包括：对所述前景人物预测掩码、前景分割alpha掩码与所述目标人物进行逐像素比较，并通过损失函数计算损失，以获得第一损失值；将所述图像整体景深与所述单帧图像中的物体景深进行逐像素比较，并通过损失函数计算损失，以获得第二损失值；基于所述第一损失值和所述第二损失值获取所述单帧图像的整体损失值及损失权重参数；利用反向传播算法修正所述损失权重参数。

可选地，所述基于所述景深，去除景深大于或小于预设景深阈值的人物及杂物，包括：根据所述目标人物与所述摄像头的距离，确定所述预设景深阈值；去除大于所述预设景深阈值的人物及杂物。

可选地，所述确定所述预设景深阈值之后，包括：对所述预设景深阈值进行二值化标记，以获得二值掩码；将所述二值掩码分别与所述前景人物预测掩码和前景分割alpha掩码相乘，获得目标人物预测以及前景分割预测alpha掩码；基于所述目标人物预测以及所述前景分割预测alpha掩码，确定所述目标人物所在区域。

可选地，所述获取视频场景中的单帧图像之后，还包括：获取所述单帧图像内的人物分割图像，包括：基于人物检测框，获取所述单帧图像内的人物的身体特征；截取所述人物检测框中的所述人物的部分图像。

可选地，所述截取所述人物检测框中的所述人物的部分图像，包括：获取所述人物检测框的整体高度；从所述人物检测框的底端截取所述人物检测框的整体高度的50-70%；去除被截取区域，则所述被截取区域之外的区域为所述人物分割图像。

为了解决上述技术问题，本申请提供的第二个技术方案为：提供一种计算机设备，包括：处理器和存储器，存储器连接所述处理器，用于存储可在所述处理器上运行的计算机程序；其中，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

为了解决上述技术问题，本申请提供的第三个技术方案为：提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

本申请的有益效果：区别于现有技术，本申请的图像处理方法通过数据增强算法对单帧图像进行数据增强，以提高模型的泛化能力，使得模型能在客服座席环境下取得更好的背景置换性能；通过深度估计算法实时预测经过数据增强的人物分割图像的景深，并基于该景深去除大于预设景深阈值的人物及杂物，从而获得目标人物所在区域，最后将目标人物所在区域的背景删除并替换为新的背景。该方法可以消除图像内的无关人员，便于图像背景内容的统一管理，同时对图像背景的处理效率较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一实施例提供的图像处理方法的整体流程框图；

图2是图1提供的步骤S1的子步骤的流程框图；

图3是图2提供的步骤S12的子步骤的流程框图；

图4是本申请一实施例提供的单帧图像的截取示意图；

图5是图1提供的步骤S2的子步骤的流程框图；

图6是图1提供的步骤S3的子步骤的流程框图；

图7是图6提供的步骤S32的子步骤的流程框图；

图8是本申请一实施例提供的模型训练的流程框图；

图9是图7提供的步骤S322之后的步骤的流程框图；

图10是图1提供的步骤S4的子步骤的流程框图；

图11是图10提供的步骤S41之后的步骤的流程框图；

图12是本申请一实施例提供的远程客服的背景未消除的单帧图像示意图；

图13是本申请一实施例提供的远程客服的背景部分消除的单帧图像示意图；

图14是本申请一实施例提供的远程客服的背景完全消除的单帧图像示意图；

图15是本申请一实施例提供的计算机设备的结构示意图；

图16是本申请一实施例提供的计算机可读存储介质的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、的特征可以明示或者隐含地包括至少一个该特征。本申请实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或者请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理个人信息种类等信息。

本申请发明人发现：以前，例如在金融科技的应用场景中，客户如果需要办理银行的开户、销户、贷款、对公等业务，必须要到银行网点的柜台找人工客服受理。而现在，银行为了满足客户需求，提供了远程业务办理服务，客户在家里只需要通过手机App与银行客服音视频通讯，即可办理银行柜面的各种业务。目前在银行远程客服业务应用场景下，为了统一客服背景形象，需要在客服的背后加装挡板，贴上银行的标志，这种方式对场景的要求比较高，同时不便于背景内容的统一管理。还有一种常用的做法是基于深度学习的虚拟背景方案，比如某远程会议的应用就有此功能，远程会议本身算法针对的是把人物从背景中分割出来，应用场景主要是居家办公，对背景有第二人或者多人出镜无特殊要求。但是对于银行的远程客服座席来讲，很难获得一个完整独立的空间进行客户的视频对话，背景人物出镜情况难以避免，如图12所示，中央人物为座席客服人员，音视频通话客户可以看到，右侧为不相关人员，目前算法无法消除右侧人员。因此在上述业务场景中，具有消除多人出镜的需求，但目前业内的产品均无法满足这一业务场景的需求。

为了解决上述问题，本申请提供一种图像处理方法。

请参阅图1至图4，图1是本申请一实施例提供的图像处理方法的整体流程框图，图2是图1提供的步骤S1的子步骤的流程框图，图3是图2提供的步骤S12的子步骤的流程框图，图4是本申请一实施例提供的单帧图像的截取示意图。

本申请提供的图像处理方法可以应用于任何需要进行远程客服背景处理的场景中。为了便于描述，本申请的以下实施例以银行远程客服为例进行说明。该图像处理方法具体可以包括：

S1：获取视频场景中的单帧图像。

具体的，单帧图像可以来自于远程客服在进行视频通话进行业务处理的过程中任意截取的一个静止画面。例如，银行或者线上购物等应用场景中，远程客服通过视频通话为用户在线办理业务或者处理问题等。

在一实施例中，获取视频场景中的单帧图像的步骤S1之后，还包括：

S10：获取单帧图像内的人物分割图像。

具体的，人物分割图像主要是对单帧图像内的人物画面进行分割，在远程客服的应用场景中，主要分割获取人物的上半身图像。在本实施例中，主要采取躯干动态截取方法进行单帧图像内的人物分割图像获取，以提高神经网络对此特定场景的鲁棒性。躯干动态截取方法的动态是指视频中每一帧的人体上半部分的边界框（bounding box）不是固定不变的，需要动态进计算bounding box的数值，同时这个数值的百分比不是固定不变的，而是一个随机的选项，可以看作是传统增广中Crop（裁剪）的一种特定方式。传统Crop是随机选取bounding box，本申请是在给定的人物检测框下，在限定范围内，随机选取一定的高度。

在一实施例中，获取单帧图像内的人物分割图像的步骤S10，包括：

S11：基于人物检测框，获取单帧图像内的人物的身体特征。

具体的，可以理解，在视频通话、监控、摄像等场景中，均会有一个人物检测框来用于检测画面中出现的人物。该人物检测框可以通过人物的身体特征，例如头、肩等所处的位置来对人物进行识别。

S12：截取人物检测框中的人物的部分图像。

具体的，当人物检测框中的人物的身体特征被识别之后，可以截取人物检测框中需要的人物图像的位置。例如，在视频通话中需要获取的是人物的上半身。那么就可以根据获取到人物身体特征，对单帧图像内的人物画面进行截取。

进一步的，截取人物检测框中的人物的部分图像的步骤S12，包括：

S121：获取人物检测框的整体高度。

具体的，首先可以采用人物检测器获得人物检测框的位置，其中可以包括单帧图像内人物的头顶到图像中人物的最底端位置。例如，如图4所示，通过人物检测器获取到人物检测框中人物的整体高度为h。

S122：从人物检测框的底端截取人物检测框的整体高度的50-70%。

具体的，获取到人物检测框的整体高度后，相当于人物占用全部图像高度时，获取到了单帧图像中人物的全部高度，那么根据视频通话应用场景中需要获取上半身人物图像的要求，可以截取从人物检测框的最底端到人物检测框整体高度的一半高度。例如截取从人物检测框的最底端到人物检测框整体高度的50-70%，优选为50%，如图4所示。也就是说，可以截取到人物的从胸部上下到头顶位置的图像。可以理解，当人物的图像没有占用单帧图像的全部高度时，可以截取单帧图像中人物整体高度的50-70%。

S123：去除被截取区域，则被截取区域之外的区域为人物分割图像。

具体的，在获取到上述单帧图像截取区域之后，去除被截取的区域，就可以得到单帧图像的人物分割图像，也就是本实施例视频通话应用场景中所需要的人物特征。

S2：通过数据增强算法对所述单帧图像进行尺寸、颜色、清晰度和数据集大小的调整。

具体的，此处的数据增强主要是指对单帧图像的颜色、清晰度和噪声等进行调整。在本实施例中，除了使用随机的裁剪、旋转、几何变换（例如翻转、旋转、裁剪、变形、缩放）、颜色扰动、增加颜色噪声、模糊等方式，也增加了最新的检测算法中提倡使用的马赛克数据增强（Mosaic）以及混合数据增强（Mixup）。泛化性也是可传输性，指同一网络在不同摄像机、不同场景和不同数据集上的性能，通过数据增强可以提高模型的泛化能力，使得模型能在客服座席环境下取得更好的背景置换性能。

请参阅图5至图8，图5是图1提供的步骤S2的子步骤的流程框图，图6是图1提供的步骤S3的子步骤的流程框图，图7是图6提供的步骤S32的子步骤的流程框图，图8是本申请一实施例提供的模型训练的流程框图。

进一步的，如图5所示，通过数据增强算法对所述单帧图像进行尺寸、颜色、清晰度和数据集大小的调整的步骤S2，包括：

S21：通过马赛克数据增强方法对单帧图像进行数据增强，以使得模型的泛化性更强。

具体的，马赛克数据增强主要是将多个输入图片随机缩放叠加。将多个单帧图像通过随机缩放、随机裁减、随机排布的方式进行缩放叠加，以进行数据增强，丰富数据集，并使得模型的泛化性更强。

S22：通过混合数据增强方法对单帧图像进行数据增强，以使得模型的泛化性更强。

具体的，混合数据增强主要是将随机的两张样本按比例混合，分类的结果按比例分配。具体是从多个单帧图像中随机选取两个，以预设比例混合生成新的图像。

S3：利用深度估计算法实时预测经过数据增强的单帧图像的景深。

具体的，深度估计算法的流程是，首先训练集RGBD格式，包括RGB+Depth Map，Depth Map类似于灰度图像，只是它的每个像素值是距离物体的实际距离。例如RGB的0-255灰度图表示10米的距离范围。然后根据具体座席客服离镜头的距离决定景深值的阈值，一般是一个经验值，根据测试数据进行总结，本申请对此不做限制。

进一步的，如图6所示，利用深度估计算法实时预测经过数据增强的单帧图像的景深的步骤S3，包括：

S31：获取单帧图像中的前景人物预测掩码及前景分割alpha掩码。

具体的，在本实施例中，前景人物预测掩码P_frg用于预测单帧图像中前景人物所在的位置。前景分割alpha掩码P_pha用于对前景图像和其他的物体进行图像分割。景深预测的掩码通过由近至远，可以将背景人物进行去除，达到能够只保留前景座席人物的目的。一般来讲，客服座席在视频中往往处于镜头的最前端，因此对客服座席之外的背景进行去除通常就是对背景中出现的路人和杂物予以抹除。

S32：预测单帧图像的整体景深。

具体的，单帧图像的整体景深就是图像整体与具有景深数值的摄像头之间的距离。

更进一步的，如图7所示，预测单帧图像的整体景深的步骤S32，可以包括：

S321：通过摄像头的景深数据和视频序列数据对景深预测模型进行联合训练。

具体的，深度预测使用深度预测模型，使用在室内场景中（图像深度范围在10米以内），带有景深的摄像头与RGB数据相关联的深度数据和RGB视频序列数据一起，联合训练模型，如图8所示。

S322：通过景深预测模型预测单帧图像的前景、背景和图像整体景深。

具体的，在预测出单帧图像的前景、背景的同时，进一步预测整体深度图。预测整体深度图一般离镜头由近至远，颜色由黑变白。因此，通过预测深度图中人物和其他物体的颜色即可判断其离镜头的距离远近。具体通过输入单帧图像并经过神经网络进行分析，获得前景人物预测掩码P_frg、前景分割alpha掩码P_pha以及整体景深预测P_dep。

请参阅图9，图9是图7提供的步骤S322之后的步骤的流程框图。

在一实施例中，通过景深预测模型预测单帧图像的前景、背景和图像整体景深的步骤S322之后，还包括：

S323：对前景人物预测掩码、前景分割alpha掩码与目标人物进行逐像素比较，并通过损失函数计算损失，以获得第一损失值。

具体的，将前景人物预测掩码、前景分割alpha掩码与单帧图像中的抠图标注的人物分割图像进行逐像素比较，并通过损失函数计算获取到的人物分割图像与图像整体景深之间的差值。损失函数是计算预测值和真实值的函数，而在机器学习中，为了让预测值无限接近于真实值，需要将两者的差值降到最低，在这个过程中就需要引入损失函数。在本实施例中，该损失函数可以为L1Loss函数：

该公式中ŷ表示的是经过模型的预测值，y可以表示真实值。公式中的m指的是一行数据中的m列。通过该公式进行预测值和真实值的差值计算，可以获得第一损失值L_m。在其他实施例中，也可以采用其他损失函数，本申请对此不做限制。

S324：将图像整体景深与单帧图像中的物体景深进行逐像素比较，并通过损失函数计算损失，以获得第二损失值。

具体的，与计算第一损失值L_m的过程类似，通过将整体景深预测P_dep与具体的物体景深标注进行逐像素比较计算差值，从而获得第二损失值L_d。物体景深标注可以为单帧图像中的任意物体，例如人物、杂物等。

S325：基于第一损失值和第二损失值获取单帧图像的整体损失值及损失权重参数。

具体的，通过上述获取到的第一损失值L_m和第二损失值L_d进行图像整体损失值L的计算：L=∂L_m+(1-∂)L_d，其中∂为权重参数，且∂ϵ[0,1]。

S326：利用反向传播算法修正损失权重参数。

具体的，反向传播算法（Back propagation，BP）是与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络。该方法对网络中所有权重计算损失函数的梯度，这个梯度会反馈给最优化方法，用来更新权重值以最小化损失函数，从而将预测值与真实值的差异降到最低。利用反向传播算法计算的误差，通过链式求导计算整体损失值L对权重∂的导数，再进行反向传播与参数更新过程以实现反向传播修改权重。

请参阅图10至图14，图10是图1提供的步骤S4的子步骤的流程框图，图11是图10提供的步骤S41之后的步骤的流程框图，图12是本申请一实施例提供的远程客服的背景未消除的单帧图像示意图，图13是本申请一实施例提供的远程客服的背景部分消除的单帧图像示意图，图14是本申请一实施例提供的远程客服的背景完全消除的单帧图像示意图。

S4：基于景深，去除景深大于或小于预设景深阈值的人物及杂物，则单帧图像中的剩余人物为目标人物。

具体的，在获取到单帧图像中人物的分割结果和单帧图像的整体景深之后，需要查找单帧图像内的目标人物，因为单帧图像内可能出现不止一个人物，因此需要获取到正在处理业务的目标人物，即当前视频通话中处理业务的客服人员本人。具体可以通过去除大于或者小于预设景深阈值的人物和杂物，以获得单帧图像中的目标人物。即去除目标人物之外的人物和杂物，可以是目标人物前景中的，也可以是背景中的。在本实施例中，主要是去除目标人物背景中的人物和杂物。

在一实施例中，基于景深，去除景深大于或小于预设景深阈值的人物及杂物的步骤S4，包括：

S41：根据目标人物与摄像头的距离，确定预设景深阈值。

具体的，在本实施例中，以目标人物与摄像头之间的距离为准，来确定预设景深阈值，也就是预设景深阈值范围内的为需要保留的人物，其他的则为需要去除的背景。

S42：去除大于预设景深阈值的人物及杂物。

具体的，可以通过改景深值的方式过滤背景中的人物和杂物，以提高视频通话中的画面整洁度，从而提升用户体验。

在一实施例中，确定预设景深阈值的步骤S41之后，还可以包括：

S43：对预设景深阈值进行二值化标记，以获得二值掩码。

具体的，根据座席客服与摄像头之间的距离，选取合适的深度阈值作为预设景深阈值，并进行二值化以进行景深预测。二值化的主要目的是将alpha掩码的单帧图像中所有人物用RGB值（255，255，255）表示，所有非人物用RGB值（0，0，0）表示。所获得的binaryimage（二值图像）和原图大小一致，每一个像素值为1或0，其中1标记的区域为前景，0标记的区域为背景。可以理解，前景所在区域为目标人物所在区域，背景所在区域为需要去除的区域。通过上述的二值化标记，将目标人物所在区域和单帧图像内需要去除的区域进行区分和标记。通过目标人物所在区域的边界框（边界框内为1），获得0/1二值掩码M_dep。

S44：将二值掩码分别与前景人物预测掩码和前景分割alpha掩码相乘，获得目标人物预测以及前景分割预测alpha掩码。

具体的，将上述获得的二值掩码M_dep分别与前景人物预测掩码P_frg和前景分割alpha掩码P_pha相乘，用于去除摄像头中距离大于预设景深阈值的背景人物以及杂物，获得最终目标人物预测O_frg，O_frg=P_frg*M_dep，以及获得前景分割预测alpha掩码O_pha，O_pha=P_pha*M_dep。

S45：基于目标人物预测以及前景分割预测alpha掩码，确定目标人物所在区域。

具体的，通过上述计算获取的目标人物预测O_frg及前景分割预测alpha掩码O_pha，可以去除单帧图像内的距离大于预设景深阈值的背景人物以及杂物，从而确定目标人物所在区域。

S5：替换目标人物的背景为新的背景。

具体的，去除了背景人物及杂物，获得目标人物所在区域之后，可以将该目标人物所在区域的背景根据需要替换为新的背景。具体过程可以为：选取需要替换的背景图片B，计算最终替换背景后的输出=P’_pha*F+（1-P’_pha）*B，F和B分别为神经网络模型推理出的前景和背景图片，P’_pha为新的背景的alpha掩码。该新的背景可以是纯色背景，也可以是预设的业务场景图片等。具体根据需要设置，本申请对此不做限制。

本申请的图像处理方法包括：获取视频场景中的单帧图像；通过数据增强算法对单帧图像进行数据增强，以使得模型的泛化性更强；利用深度估计算法实时预测经过数据增强的单帧图像的景深；基于景深，去除景深大于或小于预设景深阈值的人物及杂物，则单帧图像中的剩余人物为目标人物；替换目标人物的背景为新的背景。该方法可以消除图像内的无关人员，便于图像背景内容的统一管理，同时对图像背景的处理效率较高。

请参阅图15，图15是本申请一实施例提供的计算机设备的结构示意图。

计算机设备200，具体可以包括处理器210和存储器220。存储器220耦接处理器210。

处理器210用于控制计算机设备200的操作，处理器210还可以称为CPU（CentralProcessing Unit，中央处理单元）。处理器210可能是一种集成电路芯片，具有信号的处理能力。处理器210还可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器210也可以是任何常规的处理器等。

存储器220用于存储计算机程序，可以是RAM，也可以是ROM，或者其他类型的存储设备。具体的，存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一条程序代码。

处理器210用于执行存储器220中存储的计算机程序以实现本申请图像处理方法的实施例描述的图像处理方法。

在一些实施方式中，计算机设备200还可以包括：外围设备接口230和至少一个外围设备。处理器210、存储器220和外围设备接口230之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口230相连。具体的，外围设备包括：射频电路240、显示屏250、音频电路260和电源270中的至少一种。

外围设备接口230可被用于将I/O（Input/output，输入/输出）相关的至少一个外围设备连接到处理器210和存储器220。在一些实施例中，处理器210、存储器220和外围设备接口230被集成在同一芯片或电路板上；在一些其他实施方式中，处理器210、存储器220和外围设备接口230中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路240用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路240通过电磁信号与通信网络以及其他通信设备进行通信，射频电路240则是计算机设备200的通信电路。射频电路240将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路240包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路240可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（WirelessFidelity，无线保真）网络。在一些实施例中，射频电路240还可以包括NFC（Near FieldCommunication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏250用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏250是触摸显示屏时，显示屏250还具有采集在显示屏250的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器210进行处理。此时，显示屏250还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施方式中，显示屏250可以为一个，设置在计算机设备200的前面板；在另一些实施方式中，显示屏250可以为至少两个，分别设置在计算机设备200的不同表面或呈折叠设计；在另一些实施方式中，显示屏250可以是柔性显示屏，设置在计算机设备200的弯曲表面上或折叠面上。甚至，显示屏250还可以设置成非矩形的不规则图形，也即异形屏。显示屏250可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-Emitting Diode ,有机发光二极管）等材质制备。

音频电路260可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器210进行处理，或者输入至射频电路240以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器210或射频电路240的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路260还可以包括耳机插孔。

电源270用于为计算机设备200中的各个组件进行供电。电源270可以是交流电、直流电、一次性电池或可充电电池。当电源270包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

关于本申请计算机设备200的实施例中各功能模块或者部件功能和执行过程的详细阐述，可以参照上述本申请图像处理方法实施例中的阐述，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的计算机设备200和图像处理方法，可以通过其它的方式实现。例如，以上所描述的计算机设备200的各实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参阅图16，图16是本申请一实施例提供的计算机可读存储介质的结构示意框图。

参阅图16，上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读存储介质300中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令/计算机程序用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等计算机设备。

关于计算机可读存储介质300中的程序数据的执行过程的阐述可以参照上述本申请图像处理方法的实施例中阐述，在此不再赘述。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像处理方法，其特征在于，包括：

获取视频场景中的单帧图像；

通过数据增强算法对所述单帧图像进行尺寸、颜色、清晰度和数据集大小的调整；

利用深度估计算法实时预测经过数据增强的所述单帧图像的景深；

基于所述景深，去除景深大于或小于预设景深阈值的人物及杂物，则所述单帧图像中的剩余人物为目标人物；

替换所述目标人物的背景为新的背景。

2.根据权利要求1所述的方法，其特征在于，

所述数据增强算法包括马赛克数据增强方法和混合数据增强方法中的至少一个。

3.根据权利要求2所述的方法，其特征在于，

所述通过数据增强算法对所述单帧图像进行尺寸、颜色、清晰度和数据集大小的调整，包括：

将多个所述单帧图像通过随机缩放、随机裁减、随机排布的方式进行缩放叠加，以进行数据增强；和/或

从多个所述单帧图像中随机选取两个，以预设比例混合生成新的图像。

4.根据权利要求1所述的方法，其特征在于，

所述利用深度估计算法实时预测经过数据增强的所述单帧图像的景深，包括：

获取所述单帧图像中的前景人物预测掩码及前景分割alpha掩码；

预测所述单帧图像的整体景深。

5.根据权利要求4所述的方法，其特征在于，

所述预测所述单帧图像的整体景深包括：

通过摄像头的景深数据和视频序列数据对景深预测模型进行联合训练；

通过所述景深预测模型预测所述单帧图像的前景、背景和图像整体景深。

6.根据权利要求5所述的方法，其特征在于，

所述通过所述景深预测模型预测所述单帧图像的前景、背景和图像整体景深之后，还包括：

对所述前景人物预测掩码、前景分割alpha掩码与所述目标人物进行逐像素比较，并通过损失函数计算损失，以获得第一损失值；

将所述图像整体景深与所述单帧图像中的物体景深进行逐像素比较，并通过损失函数计算损失，以获得第二损失值；

基于所述第一损失值和所述第二损失值获取所述单帧图像的整体损失值及损失权重参数；

利用反向传播算法修正所述损失权重参数。

7.根据权利要求5所述的方法，其特征在于，

所述基于所述景深，去除景深大于或小于预设景深阈值的人物及杂物，包括：

根据所述目标人物与所述摄像头的距离，确定所述预设景深阈值；

去除大于所述预设景深阈值的人物及杂物。

8.根据权利要求7所述的方法，其特征在于，

所述确定所述预设景深阈值之后，包括：

对所述预设景深阈值进行二值化标记，以获得二值掩码；

将所述二值掩码分别与所述前景人物预测掩码和前景分割alpha掩码相乘，获得目标人物预测以及前景分割预测alpha掩码；

基于所述目标人物预测以及所述前景分割预测alpha掩码，确定所述目标人物所在区域。

9.根据权利要求1所述的方法，其特征在于，

所述获取视频场景中的单帧图像之后，还包括：

获取所述单帧图像内的人物分割图像，包括：

基于人物检测框，获取所述单帧图像内的人物的身体特征；

截取所述人物检测框中的所述人物的部分图像。

10.根据权利要求9所述的方法，其特征在于，

所述截取所述人物检测框中的所述人物的部分图像，包括：

获取所述人物检测框的整体高度；

从所述人物检测框的底端截取所述人物检测框的整体高度的50-70%；

去除被截取区域，则所述被截取区域之外的区域为所述人物分割图像。

11.一种计算机设备，其特征在于，包括：

处理器；

存储器，连接所述处理器，用于存储可在所述处理器上运行的计算机程序；

其中，所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。