CN113256499A

CN113256499A - 一种图像拼接方法及装置、系统

Info

Publication number: CN113256499A
Application number: CN202110742152.9A
Authority: CN
Inventors: 贾文浩; 高原; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-08-13
Anticipated expiration: 2041-07-01
Also published as: CN113256499B

Abstract

本公开提供一种图像拼接方法及装置、系统，该图像拼接方法包括：获取第一图像，利用深度神经网络模型提取第一图像的第二区域图像，对所述第二区域图像和第二图像进行图像拼接操作。该第一区域图像与所述第二区域图像不同，第一区域图像被光学滤光元件滤除部分信息，第一图像与所述第二图像不同。本公开提供的方法应用在播放实时性要求比较高的场景时，不会出现视频图像卡顿等问题，从而提高用户视觉体验。

Description

一种图像拼接方法及装置、系统

技术领域

本公开涉及图像处理技术领域，尤其涉及一种图像拼接方法及装置、系统。

背景技术

在图像处理领域，可以从原始图像中提取人物图像，并将人物图像粘贴到其他背景图像中，从而实现人物背景替换的目的。这种技术广泛应用于电影拍摄制作，图片后期编辑，海报制作等场景。

相关技术中，经常使用深度学习技术将人物图像从原始图像分离出来，然后利用matting技术再替换到另外背景上。

发明内容

根据本公开的一方面，提供了一种图像拼接方法，包括：

获取第一图像，其中，所述第一图像的第一区域图像含有的部分信息被滤除；

利用深度神经网络提取所述第一图像的第二区域图像，所述第一区域图像与所述第二区域图像不同；

对所述第二区域图像和第二图像进行图像拼接操作，其中，所述第一图像与所述第二图像不同。

根据本公开的另一方面，提供了一种图像拼接装置，包括：

获取模块，用于获取第一图像，其中，所述第一图像的第一区域图像含有的部分信息被滤除；

提取模块，利用深度神经网络模型提取所述第一图像的第二区域图像，所述第一区域图像与所述第二区域图像不同；

拼接模块，用于对所述第二区域图像和第二图像进行图像拼接操作，其中，所述第一图像与所述第二图像不同。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及，

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据第一方面公开的所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面公开的所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现第一方面提供的所述的方法。

根据本公开的另一方面，提供了一种图像处理系统，包括拍摄设备、光学滤光元件和服务器；所述拍摄设备用于在所述光学滤光元件的作用下采集原始图像；所述原始图像包括的第一区域部分信息被光学滤光元件滤除；所述服务器用于执行第一方面提供的所述方法。

第七方面，根据本公开的另一方面，提供了一种视频直播系统，包括上述图像处理系统。

本申请实施例中提供的一个或多个技术方案，本公开提供的图像拼接方法中，获取的第一图像的第一区域图像含有的部分信息被滤除，使得利用深度神经网络从第一图像提取第二区域图像时，可以简化第一区域图像的信息滤除过程，从而提高第二区域图像和第二图像的图像拼接速度，缩短第二区域图像提取时间，使得本公开方法应用播放实时性要求比较高的视频直播等场景时，不会出现视频图像卡顿等问题，从而提高用户视觉体验。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出能够用于本公开示例性实施例的图像拼接方法的示意系统图；

图2示出本公开示例性实施例中图像采集场景的示意图；

图3示出本公开示例性实施例中光振动矢量的示意性分解图；

图4示出本公开示例性实施例中两个偏振片的偏振方向接近正交的示意性状态图；

图5示出本公开示例性实施例提供的图像拼接方法的示意性流程图；

图6示出本公开示例性的第一图像的示意图；

图7示出本公开示例性实施例中第二区域图像提取原理示意图；

图8示出本公开示例性实施例的深度神经网络模型的基本架构图；

图9示出本公开示例性实施例中深度神经网络模型的示意性架构图；

图10A示出本公开示例性的一种智能手机的显示界面在第一状态的示意图；

图10B示出本公开示例性的一种智能手机的显示界面在第二状态的示意图；

图11示出根据本公开示例性实施例的图像拼接装置的功能模块示意性框图；

图12示出根据本公开示例性实施例的芯片的示意性框图；

图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

在介绍本公开实施例之前首先对本公开实施例中涉及到的相关名词作如下释义：

深度学习源于人工神经网络的研究，它的结构含多隐层的多层感知器。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

深度神经网络（Deep Neural Networks，缩写为DNN）模型是一种含有多个隐藏层的神经网络，可以逐层对特征进行加工，逐渐从低级特征提取高级特征。

底层，又称视觉层，通常所理解的底层，即颜色、纹理和形状等等。

高层，又称概念层，是图像表达出的最接近人类理解的东西。

空洞卷积，又称扩张卷积。与普通的卷积相比，扩张卷积除了卷积核的大小以外，还有一个扩张率(dilation rate)参数，主要用来表示扩张的大小，其具有更大的感受野。

本公开实施例提供一种图像拼接方法，可以快速利用一个图像替换另一图像所含有的指定区域，从而拼接出新的图像。该图像拼接方法可以应用到各种需要图像拼接的场景，如图视频直播中的图像背景替换、海报背景替换、电影画面背景替换等，但不仅限于此。下文以视频直播为例参照附图描述本公开的方案。

本公开实施例提供一种图像拼接方法，其可以采用图像处理系统的架构实现。该图像处理系统可以应用于视频直播系统。图1示出能够用于本公开示例性实施例的图像拼接方法的示意系统图。图1所示出的系统为本公开示例性实施例提供的视频直播系统100。该视频直播系统100不仅包括：图像处理系统110，还可以包括播放客户端120。图像处理系统110可以基于深度学习技术实现图像拼接处理。该图像处理系统110可以包括服务器111和拍摄设备112。服务器111可以与拍摄设备112集成在一起（可以是功能上的集成），也可以分立。

如图1所示，上述拍摄设备112可以包括但不仅限于相机、平板电脑、摄影机等，上述播放客户端120可以分为常见的智能手机客户端和PC客户端。在目前直播行业中，拍摄设备112可以为直播从业人员（如网校授课教师）所使用的拍摄设备。

当拍摄设备112具有显示界面，且播放客户端120具有图像采集功能的情况下，该拍摄设备112也可以作为播放客户端使用。此时，该拍摄设备112可以为直播受众（如网校学生）所持有的播放客户端。例如：当直播从业人员与直播受众可以进行视频互动时，直播受众所持有的播放客户端所播放的视频可以为直播从业人员所使用的拍摄设备拍摄的视频。直播从业人员所持有的拍摄设备也可以播放直播受众持有的播放客户端拍摄的视频（针对该视频，播放客户端为拍摄设备，拍摄设备为播放客户端）。由此可见，如果拍摄设备具有显示界面，该拍摄设备和播放客户端均可以包括但不仅限于手机、平板电脑、电视机、显示器、笔记本电脑等。并且，如果播放客户端具有图像采集功能，支持该图像采集功能的硬件可以集成在该播放客户端上。例如常见的带有摄像头的手机、平板电脑、一体机电脑等。

如图1所示，上述拍摄设备112和播放客户端120均与服务器111通信。该服务器111可以为一个服务器111，也可以为多个服务器111构成的服务器集群。服务器集群与网络管理中心113通信。从通信方式来说，通信网络可以分为无线通信网络，也可以为有线通信网络；从通信范围来说，通信网络可以为局域通信网络，也可以为广域通信网络。例如：播放客户端120可以通过Internet登陆网络管理中心113访问服务器111，实现对服务器111以及服务器111上的媒体资源的整体控制与管理。

如图1所示，上述服务器111作为整个系统的核心组成部分，既可以接收拍摄设备112所发送的音视频数据，将其进行压缩编码处理成适合音视频数据传输的格式文件后，通过网络管理中心及时发送到播放客户端120进行音视频播放。同时，服务器111还可以具备对系统数据，包括媒体数据、用户数据等进行存储和管理的功能，这些功能的实现实际由PC客户端通过访问网络管理中心发布的Web网站来实现。

示例性的，如图1所示，服务器集群可以包括Web服务器111a、数据库服务器111b、视频服务器111c和流媒体服务器111d等。Web服务器111a可以处理Web客户端的请求并返回相应请求。数据库服务器111b用于提供数据存储服务。视频服务器111c又可以定义为视频编解码器，用于对音视频的编解码处理，存储及处理，以满足存储和传输的要求。流媒体服务器111d可以对图像处理设备所提供的图像数据进行流媒体化处理，保证音视频传输的流畅性。所生成的流媒体数据可以作为历史文件存储至服务器，也可以直接发送到播放客户端120进行播放。

如图1所示，流媒体服务器111d的主要功能是以RTP（英文全称：Real-timeTransport Protocol，中文全称：实时传输协议）/RTSP（英文全称：Real Time StreamingProtocol，中文全称：实时流传输协议）、MMS（英文全称：Microsoft Media ServerProtocol，中文全称微软媒体服务器协议）、RTMP（英文全称：Real Time MessagingProtocol，中文全称：实时消息传输协议）等流式协议将视频文件传输到客户端，供用户在线观看，也可从视频采集、压缩软件接收实时视频流，再以流式协议直播给客户端。例如：RealNetworks公司的Helix Server采用RTP/RTSP协议接收、传输视频，采用Real Player作为播放前端。又例如：Adobe公司的Flash Media Server，采用诸如RTMPT、RTMPE/RTMPS等RTMP协议接收、传输视频，采用Flash Player作为播放前端。同时，流媒体技术最主要的提点是“边下载，边播放”。具体来说，在利用流媒体技术进行多媒体传输时，它会先在播放客户端120创建一个缓冲区，在播放视频之前会提前下载一段数据作为缓冲，在网络传输速度小于播放所需的速度时，A/V Helper程序就会取用一段缓冲区内的数据，这样可以避免播放的中断，也保证了播放的品质。并且，播放客户端120在接收、处理和回放一个流媒体文件时，该流媒体文件不会在播放客户端120驻留，也不会占用播放客户端120的本地存储空间，流媒体被播放和处理完毕后就会被删除，节省了计算机的空间。由此可见，采用流媒体技术进行视频数据传输，可以极大的降低直播场景下视频播放卡顿的问题。

在相关技术中，将视频数据传输至播放客户端前，可以对拍摄设备所拍摄的视频数据进行处理，使得视频数据可以呈现各种出多种视觉效果。举例来说，将视频数据进行流媒体化前，可以采用深度学习技术将人物图像从原始图像分离出来，然后采用matting技术替换到另外的背景上。这个过程可以被认为是背景替换过程，也可以被认为是图像拼接过程。但是，由于深度学习技术实质是一种建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制，用数学的方法解释各种视频数据。基于此，采用深度学习技术从原始图像分离将人物图像的过程，计算量比较大，导致方案冗长，耗时严重。

发明人发现，可以采用硬件滤除原始图像中待替换区域图像的一部分信息，再利用深度学习技术滤除待替换区域图像的剩余信息，以降低计算量，进而缩短图像拼接时长，提高用户视觉体验。基于这一原理，图2示出本公开示例性实施例中图像采集场景的示意图。如图2所示，本公开示例性实施例中图像采集场景200包括拍摄设备201和光学滤光元件202。该光学滤光元件202可以布置在拍摄设备201的拍摄场景中，也可以根据实际情况进行位置设置。

如图2所示，当拍摄设备201在拍摄场景中拍摄原始图像时，拍摄设备201用于在光学滤光元件202的作用下采集原始图像，以向服务器发送原始图像。该原始图像包括不同的第一区域图像和第二区域图像。第一区域图像（即待替换区域）被光学滤光元件202滤除部分信息。此时，服务器获取原始图像后，可以基于深度学习技术可以快速完成第一区域图像信息滤除操作，获得第二区域图像，从而提高图像拼接速度，保证快速无卡顿的向播放客户端发送拼接后的图像，进而提升用户视觉体验。

如图2所示，光学滤光元件202可以包括第一偏振元件202a和第二偏振元件202b。第一偏振元件202a和第二偏振元件202b可以为偏振片或其它具有偏振功能的元件。

在一种示例中，如图2所示，当拍摄设备201处在拍摄状态，第一偏振元件202a和第二偏振元件202b沿着拍摄设备201的镜头景深减小分布。第一区域图像对应的拍摄对象（下文简称第一拍摄对象203）可以位于第一偏振元件202a远离第二偏振元件202b的一侧，第二区域图像对应的拍摄对象（下文简称第二拍摄对象204）位于第一偏振元件202a和第二偏振元件202b之间。举例来说，当前景人物位于第一偏振元件202a和第二偏振元件202b之间，背景位于第一偏振元件202a远离前景人物的一面，使得背景、第一偏振元件202a、前景人物、第二偏振元件202b沿着拍摄设备201的镜头景深减小方向分布。

如图2所示，上述第一偏振元件202a可以设在第一拍摄对象203上，例如第一偏振元件202a可以覆盖在第一拍摄对象203上。第二偏振元件202b可以设在拍摄设备201的镜头上，直接作为镜头的镜片。在拍摄设备201进行原始图像拍摄时，只要第二拍摄对象204位于第一拍摄对象203和拍摄设备201之间，从而方便在拍摄场景内布置光学滤光元件，使得拍摄设备201可以尽快投入工作。

举例来说，在网络教学场景下，直播教师可以将需要教授的知识显示在电子屏幕上。如图2所示，第二偏振元件202b可以设在拍摄设备201的镜头上，第一偏振元件202a可以覆盖在电子屏幕上。此时，拍摄设备201拍摄的电子屏幕所显示的内容可以通过第一偏振元件202a和第二偏振元件202b部分滤除，而拍摄设备201拍摄的直播教师的画面仅被第二偏振元件202b部分滤除。

在另一示例中，第一拍摄对象位于第一偏振元件远离第二偏振元件的一侧，第二拍摄对象位于第二偏振元件远离第一偏振元件的一侧，背景、第一偏振元件、第二偏振元件和前景人物沿着拍摄设备的镜头景深减小方向分布，同样可以保证拍摄设备201所获得的原始图像含有的第一区域图像被滤除部分信息。

在一种示例中，为了进一步滤除原始图像的第一区域图像的信息，如图2所示，第一偏振元件202a的偏振方向与所述第二偏振元件202b的偏振方向不同。当背景光线经过第一偏振元件202a滤光后，形成与第一偏振元件202a的偏振方向相同的偏振背景光线，当偏振背景光线再经过第二偏振元件202b滤光时，由于第二偏振元件202b的偏振方向与偏振元件的偏振方向不同，因此，偏振背景光线的部分光线被第二偏振元件202b过滤，只有少量背景光线被拍摄设备201的镜头捕捉。而前景人物则经过第二偏振元件202b滤光，形成的前景人物光线可以被拍摄设备201的镜头捕捉。由此可见，背景光线经过第一偏振元件202a和第二偏振元件202b滤光，而前景人物经过第一偏振元件202a滤光，因此，背景光线被滤除的比较多。

如图2所示，上述第二偏振元件202b对于背景光线滤光的多少，则与其偏振方向有着比较大的关系。示例性的，第一偏振元件202a的偏振方向与第二偏振元件202b的偏振方向的夹角为60°~90°。

图3示出本公开示例性实施例中光振动矢量的示意性分解图。如图3所示，在本公开示例性中，以第二偏振元件的偏振方向为X轴，以垂直第二偏振元件的偏振方向为Y轴，建立光振动矢量坐标系300。利用该光振动矢量坐标系300对图2所示的第一偏振元件202a处理获得的偏振背景光线进行光振动矢量进行分解。

如图2和图3所示，当第一偏振元件202a的偏振方向与第二偏振元件202b的偏振方向的夹角α小于90°，如大于或等于60°，小于90°时，经过分解可以发现，偏振背景光线的光振动矢量E在X轴方向和Y轴方向均会有部分分量E_x和E_y。而由于X轴方向为第二偏振元件的偏振方向，因此，偏振背景光线大部分光线被滤除，但是仍然有部分光线可以通过第二偏振元件。当第一偏振元件202a的偏振方向与第二偏振元件202b的偏振方向的夹角α等于90°时，偏振背景光线的光振动矢量E在X轴方向没有分量，因此，理论上来说，偏振背景光线不会通过第二偏振元件202b。但是，在实际中，由于各种机械、计算等误差的存在，仍然会有部分偏振背景光线从第二偏振元件通过。

举例来说，图4示出本公开示例性实施例中两个偏振片的偏振方向接近正交的示意性状态图。图4所示的两张偏振片构成的光学滤光元件400中，第一偏振片401和第二偏振片402的偏振方向夹角接近90°。两个偏振片交叠的部位颜色比较深，无法看到背景；两个偏振片没有交叠的部位颜色比较浅，可以看到部分背景光线。由此可见，第一偏振片401和第二偏振片402的偏振方向相交可以滤除第一拍摄对象大部分光线，并且相交的角度越大，其滤光效果越好。

由上可见，当第一偏振元件的偏振方向与第二偏振元件的偏振方向不同时，可以滤除大部分背景光线。当第一偏振元件的偏振方向与第二偏振元件的偏振方向的夹角为90°的时候，第一偏振元件和第二偏振元件对于背景光线滤除效果最佳，因此，在图2所示图像采集场景200下，本公开示例性实施例可以结合拍摄设备201和光学滤光元件202采集海量原始图像进行训练，获得轻量化深度神经网络模型，然后利用训练完成的深度神经网络模型快速执行图像拼接方法，从而提高图像拼接速度，保证在视频直播场景下快速无卡顿的向播放客户端发送拼接后的图像，进而提升用户视觉体验。

基于发明人的上述发现，本公开实施例提供一种图像拼接方法，可以由图像处理设备或应用于图像处理设备的芯片执行。该图像处理设备可以应用于上述服务器中。下面以服务器为执行主体例对本公开实施例提供的图像拼接方法进行描述。

图5示出本公开示例性实施例提供的图像拼接方法的示意性流程图。如图5所示，本公开实施例提供的方法包括：

步骤510：服务器获取第一图像。从画面颜色来看，第一图像可以为灰阶图，也可以为彩色图，此处不做限定。从画面变化来看，拍摄设备所拍摄的第一图像可以为静态图像，也可以为动态图像。从图像景深来说，将第一图像的画面内容划分为第一区域图像和第二区域图像。第一区域图像和第二区域图像不同。例如：第一区域图像为前景区域图像，第二区域图像为背景区域图像。当第一区域图像为背景区域图像，第二区域图像为前景区域图像。图6示出本公开示例性的第一图像的示意图。如图6所示，第一图像600分为第一区域图像为601和第二区域图像为602，第一区域图像为601指示的电子黑板，第二区域图像为602指示的授课教师。

在实际应用中，上述第一区域图像为601含有的部分信息被滤除，滤除方法可以为软件算法滤除，也可以为硬件滤除。当滤除方法为软件滤除时，可以采用另一终端对第一图像进行前处理，减少其中第一区域图像的信息量。例如：可以采用Photoshop软件的自动抠图滤镜简单处理原始图像，然后将处理后的第一图像送至服务器。当滤除方法为硬件滤除，可以参考图2所示的图像采集场景200进行原始图像采集。如图2所示，拍摄设备201在光学滤光元件202的辅助下采集第一图像，然后拍摄设备201将第一图像送至服务器。此时，第一图像的画面内容可以分为第一区域图像和第二区域图像。此时，第一区域图像对应图2的第一拍摄对象203，第二区域图像对应图2的第二拍摄对象204。由图2描述的拍摄设备201采集第一图像的过程可知，第一区域图像被光学滤光元件202滤除部分信息。当光学滤光元件202包括两个偏振片的情况下，此处的第一区域图像被光学滤光元件202滤除部分信息是指：第一拍摄对象被第一偏振单元和第二偏振单元滤除的光线对应的图像信息。

步骤520：服务器利用深度神经网络模型提取第一图像的第二区域图像。深度神经网络模型在训练过程的样本包括样本图像。样本图像的采集方式同样参考图2所示图像采集场景200，使得样本图像的第一区域图像被图2所示光学滤光元件202滤除部分信息。应理解，第一图像与训练阶段输入神经网络模型的样本图像的采集场景可以保持匹配或者说一致。也就是说，当样本图像的第一区域图像含有的部分信息被滤除（如被图2所示光学滤光元件202滤除部分信息），第一图像的第一区域图像含有的部分信息被滤除（如被图2所示光学滤光元件202滤除部分信息）。该深度神经网络模型的学习方式可以为监督学习方式或无监督学习方式。此处的监督学习方式为广义上的监督学习方式，不仅可以包括狭义角度的监督学习方式，还包括半监督学习方式。

若深度神经网络模型的学习方式为监督学习方式，深度神经网络模型在训练过程中的监督信息可以包括样本图像的光流图，该样本图像的光流图在深度神经网络训练过程中可以充当监督信息的角色，使得深度神经网络模型在训练过程的监督信息至少包括样本图像的光流图。该深度神经网络模型在训练过程中的监督信息还可以包括标注图像，该标注图像作为深度神经网络模型在训练过程的样本的一部分使用。该标注图像可以是使用人工标注框标注的图像掩膜。应理解，如果后续使用时没有引入第一条图像的光流图，则深度神经网络模型在训练过程的监督信息可以不包括样本图像的光流图；如果后续使用时引入第一条图像的光流图，则深度神经网络模型在训练过程的监督信息可以包括样本图像的光流图。

示例性的，可以收集大量经过光学滤光元件（如两个偏振片）滤光的原始图像作为样本图像，或者说图片序列等原始图像进行人工标注，形成作为标注图像的图像掩膜。该图像掩膜可以提取原始图像所含有的第二区域图像。同时，对原始图像进行光流图提取，获得原始图像的光流图。从可视化的角度来说，光流图展示的图像颜色深度可以表达运动幅度。其中，颜色越深的区域表示运动幅度越大，颜色越浅的区域表示运动幅度越小。当光流图为稠密光流图时，可以计算图像上所有的点在帧间的偏移量，以进行像素级别的图像配准。当光流图为稀疏光流图，可以在图像中指定具有明显特征的一组像素点进行跟踪，以减少计算量。至于图像的光流图的计算过程，则可以光流图的类型参考相关文献进行计算，此处不做赘述。

在神经神经网络模型训练时，可以将海量的原始图像、标注图像以及原始图像的光流图输入到深度神经网络模型中。在正向传播过程中，深度神经网络模型以原始图像的光流图为参考，经过逐层迭代的方式，预测原始图像的图像掩膜。在反向传播过程中，根据图像掩膜和标注图像计算损失函数，然后采用梯度下降法，采用链式法则计算损失函数对每层权重和偏置的骗到，获得权重和偏置对损失的影响，最终更新权重，直到计算出的损失函数收敛，完成模型训练。模型训练选择的损失函数可以为交叉熵损失函数或方差损失函数，也可以为其它损失函数，此处不做详述。

基于上述深度神经网络的训练过程可知，当深度神经网络模型训练结束后，应用该神经网络模型进行图像拼接时，在服务器执行步骤510后，在执行步骤520前，服务器可以提取第一图像的光流图。在此基础上，服务器利用深度神经网络模型提取第一图像的第二区域图像可以包括：服务器基于第一图像的光流图，利用深度神经网络模型从第一图像提取第二区域图像。当第一图像为动态图像，第一图像为视频图像。例如：视频图像含有背景以及作为前景的人物。由于视频图像实质为图片序列，如果对图片序列所含有的每张图片进行背景滤除时，缺乏可靠性。而如果考虑上下帧图像的关联信息，可以可靠的预测人物在下一帧图片的位置，从而保证获得去除背景后的人物图像连续性比较好。

可以理解的是，同时，第一图像的光流图类型与样本图像的光流图保持一致。也就是说，当第一图像的光流图为稠密光流图，样本图像的光流图也为稠密光流图，第一图像的光流图为稀疏光流图，样本图像的光流图也为稀疏光流图。

图7示出本公开示例性实施例中第二区域图像提取原理示意图。如图7所示，在没有引入光流图的情况下，图7所示例出的第二区域图像提取原理700中，服务器利用深度神经网络模型提取第一图像的第二区域图像可以包括：服务器利用该深度神经网络模型703从第一图像701提取获得图像掩膜704。服务器根据图像掩膜704和第一图像701确定第二区域图像705。在引入光流图的情况下，图7所示例出的第二区域图像提取原理700中，服务器基于第一图像的光流图702，利用深度神经网络模型703从第一图像701提取第二区域图像705可以包括：服务器中的深度神经网络模型703基于第一图像的光流图702，从第一图像701提取图像掩膜704；服务器根据图像掩膜704从第一图像701提取第二区域图像705。应理解，不管是否引入第一图像的灌流图702，深度神经网络模型所提取的图像掩膜均可以提取到第二区域图像705。为了方便描述，下文主要针对引入光流图的情况进行说明，对于未引入光流图的情况，下文仅简单说明。

为了实现深度神经网络模型提取图像掩膜的目的，上述深度神经网络模型的架构可以采用相关技术中的架构，也可以自行设计。图8示出本公开示例性实施例的深度神经网络模型的基本架构图。如图8所示，本公开实施例中的深度神经网络模型800包括：第一子网络810、第二子网络820和第三子网络830。第一子网络810、第二子网络820和第三子网络830彼此不同。第一子网络810分别与第二子网络820和第三子网络830连接。第一子网络810可以起到主干网络的作用，第二子网络820可以起到特征编码的作用，第三子网络830可以起到特征解码的作用。

如图8所示，在没有引入光流图的情况下，第一子网络810用于根据第一图像801向第二子网络820提供第一图像801的高层语义特征图。在引入光流图的情况下，第一子网络810用于根据第一图像801和第一图像的光流图802，向第二子网络820提供第一图像801的高层语义特征图。深度神经网络模型的卷积层越深，卷积层输出的特征图含有的抽象特征越多，因此，第一图像801的高层语义特征图为第一子网络810的输出语义特征。此时，第一图像的高层语义特征图可以含有能够表达人类看到第一图像所理解出的内容。换句话说，高层语义特征图含有可以反映第一区域图像像素和第二区域图像像素的特征。同时，第一子网络810提取高层语义特征图时，第一图像的光流图802可以提供运动物体在帧间的位置变化信息，使得高层语义特征图含有的语义特征所反映像素属性更为准确。

在实际应用中，如图8所示，上述第一子网络810可以为VGG（Visual GeometryGroup）模型，高分辨率网络（High Resolution Network，又称为HRNet网络）、残差神经网络（Residual Neural Network，又称为ResNet网络）等。ResNet网络又可以分为ResNet34网络、ResNet50网络、ResNet101网络等，但不仅限于此。以ResNet50网络为例，ResNet50网络向编码器提供的高层语义特征图可以为第3个残差单元或第4个残差单元输出的特征图。

如图8所示，上述第二子网络820可以用于对高层语义特征图进行多感受野特征提取和融合，获得多通道特征图。在这个过程中，第二子网络820可以对高层语义特征图从不同尺度提取高层语义特征图，实现多感受野特征提取，因此，本公开实施例中多通道特征图含有更丰富的高层语义细节，使得后续图像掩膜的提取更为准确。

在实际应用中，如图8所示，上述第二子网络820的网络结构为Inception网络结构。从功能模块的角度来说，其可以包括多尺度提取单元821和融合单元822。多尺度提取单元821用于在多个感受野下对高层语义特征图进行提取，获得多个感受野下的高层语义特征图。融合单元822用于对多个感受野下的高层语义特征图进行融合，获得多通道特征图。

示例性的，如图8所示，该第二子网络820包括第一种卷积分支8211、第二种卷积分支8212、池化分支8213以及全连接层8220。从结构的角度来说，第一子网络810分别与第一种卷积分支8211、第二种卷积分支8212和池化分支8213连接。第一种卷积分支8211、第二种卷积分支8212和池化分支8213均与全连接层8220连接。

如图8所示，第一种卷积分支8211、第二种卷积分支8212和池化分支8213均用于对高层语义特征图进行特征提取，以实现多尺度提取单元821的功能。换句话说，多尺度提取单元821可以包括第一种卷积分支8211、第二种卷积分支8212和池化分支8213。全连接层8220可以为1×1的卷积核，用于对第一种卷积分支8211、第二种卷积分支8212和池化分支8213提取的特征图中同一位置特征进行全连接处理，从而获得多通道尺寸特征图的同一位置的特征，继而达到跨通道聚合特征的目的。

在一种示例中，如图8所示，上述第一种卷积分支8211含有的卷积核的尺寸和第二种卷积分支8212含有的卷积核的尺寸不同，可以保证第一种卷积分支8211、第二种卷积分支8212和池化分支8213从不同尺度或者说感受野感受高层语义信息。

在一种示例中，上述第一种卷积分支8211可以为普通的卷积层，其不存在空洞，或者说空洞率为0。例如：第一种卷积分支8211可以为1×1卷积层。池化分支8213可以为最大池化分支或者均值池化分支。例如：该池化分支8213的尺寸可以为3×3、5×5等。

举例说明，上述第二种卷积分支8212可以包括多个空洞卷积分支，各个空洞卷积分支的卷积核空洞率不同。各个空洞卷积分支的卷积核尺寸可以相同，也可以不同。例如：这些空洞卷积分支的卷积核可以均为3×3空洞卷积核或5×5空洞卷积核等，只是空洞率有所差别。例如：每两个空洞卷积分支的卷积核空洞率之差大于或等于3，以保证各个空洞卷积分支所感受的高层语义特征差异化，继而为多通道特征图增加更多的细节。

如果空洞卷积分支的卷积核空洞率太小，则感受野相对来说不够，对于大目标的捕捉造成不利影响，反之，如果空洞卷积分支的卷积核空洞率太大，则感受野相对来说太大，对于小目标的捕捉造成不利影响。基于此，每个空洞卷积分支的卷积核空洞率可以大于6，例如：每个空洞卷积分支的空洞率为6~18。

当各个空洞卷积分支的卷积核空洞率呈倍数关系。倍数可以为2倍或2倍以上。举例来说，若空洞卷积分支数量为3个，各个空洞卷积分支的卷积核尺寸均可以为3×3，则3个空洞卷积分支的卷积核空洞率分别为6、12和18。

由上可见，本公开实施例中第二子网络820可以对多感受野或者说多尺度角度对高层语义特征图进行编码，使得获得的多通道特征图的高层特征语义更为丰富，保证提取到的图像掩膜803能够从第一图像准确提取第二区域图像。

如图8所示，为了保证掩膜图像可以完整提取第二区域图像，可以在提取掩膜图像前，在多通道特征图引入第一图像的底层特征语义。该底层语义特征图可以为第一子网络810的浅层语义特征。此处的第一子网络810的浅层可以为第一子网络810含有的第k个隐藏层。k＜N/2，k和N均为大于0的整数，N为第一子网络810的隐藏层总层数。基于此，在没有引入光流图的情况下，上述第一子网络810还可以用于根据第一图像向第三子网络830提供第一图像801的底层语义特征图。第三子网络830可以用于对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图，对拼接特征图进行特征提取，获得图像掩膜。在引入光流图的情况下，第一子网络810还可以用于根据第一图像801和第一图像的光流图802向第三子网络830提供第一图像的底层语义特征图。此时，第三子网络830用于基于第一图像的光流图802，对多通道特征图和第一图像801的底层语义特征图进行特征拼接，获得拼接特征图，对拼接特征图进行特征提取，获得图像掩膜803。

如图8所示，由于多通道特征图含有更丰富的高层语义特征图细节，因此，相比于未经过第二子网络820编码的第一图像，从多通道特征图和底层语义特征图所拼接的拼接特征图可以更为准确的提取图像掩膜。同时，由于深度神经网络的卷积层越浅，其输出的特征图可以表达出图形的形状、颜色、纹理等几何特征，因此，对多通道特征图和底层语义特征图进行特征拼接，可以保证所获得的拼接特征图既考虑了第一图像的几何形状信息，还考虑了第一图像所含有的像素属性（属于第一区域图像还是第二区域图像），从而保证所获得的图像掩膜803完整。在此基础上，利用该图像掩膜和第一图像所确定的第二区域图像不会出现第二区域图像缺失的问题。以图6所示举例来说，第一图像600示例出的网络教学场景下，第二区域图像为前景图像所展示的人物图像。在没有引入该图像的底层语义特征图，那么图像掩膜对第一图像进行处理后，所提取的授课教师（即第二区域图像602）就会出现部分部位缺失（例如：手指端部缺失）的问题。

如图8所示，在引入光流图时，对多通道特征图和底层语义特征图进行特征拼接时，可以利用第一图像的光流图802所反映的上下帧运动物体的位置变化信息，对多通道特征图和底层语义特征图进行拼接，使得拼接后获得的拼接特征图帧间具有较好的连续性。当拼接特征图帧与帧之间具有较好的连续性，从拼接特征图提取图像掩膜803对第一图像801处理，所获得的第二区域图像的帧间连续性比较好，使得画面更为真实。

在一种示例中，从功能模块划分的角度来说，如图8所示，第三子网络830至少包括特征拼接层831和掩膜提取层832。特征拼接层831用于基于第一图像的光流图802，对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图。该掩膜提取层832用于对拼接特征图进行特征提取，获得图像掩膜803。掩膜提取层832可以为一个或多个卷积层，该卷积层的卷积核可以为3×3的卷积核、5×5的卷积核等。

如图8所示，上述第三子网络830还可以包括维度调整层933。通道调整层833可以为1×1的卷积核，该卷积核的数量可以调节底层语义特征图的维度，以优化第三子网络830的网络参数。

从数学的角度来说，上述拼接特征图的通道数量等于底层特征语义图、多通道特征图和第一图像的光流图的通道数量之和。假设特征拼接前，多通道特征图的尺寸为N×C1×H×W、第一图像的光流图尺寸为N×C2×H×W。底层语义特征图的尺寸为N×C3×H×W。经过拼接后所获得的拼接特征图的尺寸为N×C4×H×W。此处C4=C1+C2+C3。N为处理图片数量，H为特征图高度，W为特征图宽度，C1为多通道特征图的通道数量，C2为第一图像的光流图通道数量，C3为底层语义特征图的通道数量，C4为拼接特征图的通道数量。

在一些示例中，如图8所示，在第一子网络810提取高层语义特征图时，有可能对第一图像的特征进行多次下采样操作，导致第一图像801的底层语义特征图和多通道特征图的尺寸不一致。基于此，在没有引入光流图的情况下，第三子网络830还用于对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图前，调整多通道特征图的尺寸至第一图像901的底层语义特征图的尺寸，使得底层语义特征图和多通道特征图的尺寸尽可能一致。在引入光流图的情况下，第三子网络830还用于基于第一图像的光流图802，对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图前，调整多通道特征图的尺寸至底层语义特征图的尺寸，使得底层语义特征图和多通道特征图的尺寸尽可能一致。另外，不管是否引入光流图，尺寸调整方式可以是调整多通道特征图的分辨率，使得多通道特征图的分辨率等于底层语义特征图的分辨率。

如图8所示，为了方便后续从第一图像801提取第二区域图像，上述第三子网络830还可以用于对拼接特征图进行特征提取，获得图像掩膜803后，将图像掩膜803的尺寸调整至第一图像801的尺寸。调整方式仍然是：将图像掩膜803的分辨率调整至第一图像801的分辨率，使得二者的分辨率相同。此处可以采用上采样操作的方式调整尺寸。上采样操作的方法可以为双三次插值算法、双线性插值或最邻近算法。当图像掩膜的尺寸调整至第一图像的尺寸时，可以直接利用图像掩膜处理第一图像，从而获得与第一图像内第二区域大小一致的第二区域图像。

为了支持上述尺寸调整，如图8所示，上述第三子网络830除了包括特征拼接层831和掩膜提取层832，还可以包括第一尺寸调整层834和第二尺寸调整层835，第一尺寸调整层834用于调整多通道特征图的尺寸至底层语义特征图的尺寸。第二尺寸调整层835用于将图像掩膜903的尺寸调整至第一图像801的尺寸。

为了清楚的解释图8示出的深度神经网络的基本框架图，图9示出本公开示例性实施例中深度神经网络模型的示意性架构图。如图9所示，深度神经网络模型900包括ResNet50主干网络910、编码器920和解码器930。

如图9所示，ResNet50主干网络910的隐藏层总共48个卷积层。隐藏层包括4个残差单元stage，分别为第一残差单元（stage1，含有3个conv2_x）、第二残差单元（stage2，含有4个conv3_x）、第三残差单元（stage3，含有6个conv4_x）以及第四残差单元（stage4，含有3个conv5_x）。对于每个残差单元来说，每个残差单元含有3个卷积层。此时，可以以第一残差单元输出的特征图作为ResNet50主干网络910的浅层语义特征，也可以以第二残差单元输出的特征图作为ResNet50主干网络910的浅层语义特征。

当以第一残差单元输出的特征图作为ResNet50主干网络910的浅层语义特征，则ResNet50主干网络910的浅层可以为ResNet50主干网络910含有的第9个隐藏层。当以第二残差单元输出的特征图作为ResNet50主干网络910的浅层语义特征，则ResNet50主干网络910的浅层可以为ResNet50主干网络910含有的第21个隐藏层。

举例来说，如图9所示，向ResNet50主干网络910输入尺寸为256×256的第一图像901（可以含有第一图像的光流图902），以ResNet50主干网络910的第一残差单元输出的特征图为浅层语义特征图，则该浅层语义特征图的尺寸为128×128。以ResNet50网络的第二残差单元输出的特征图为浅层语义特征，则该浅层语义特征图的尺寸为64×64。ResNet50主干网络910的第四残差单元输出高层语义特征图，其尺寸为16×16。

如图9所示，上述编码器920包括第一卷积分支921、第二卷积分支922、第三卷积分支923、第四卷积分支924和池化分支925以及分别与第一卷积分支921、第二卷积分支922、第三卷积分支923、第四卷积分支924和池化分支925连接的第一1×1卷积层926。第一卷积分支921的卷积核为1×1卷积核，第二卷积分支922的卷积核为空洞率是6的3×3空洞卷积核，第三卷积分支923的卷积核为空洞率是12的3×3空洞卷积核，第四卷积分支924的卷积核为空洞率是18的3×3空洞卷积核，池化分支925的池化核为3×3池化核。

第一卷积分支921对高层语义特征图进行特征提取，可以获得第一尺度特征图I，第二卷积分支922对高层语义特征图进行特征提取，可以获得第二尺度特征图II，第三卷积分支923对高层语义特征图进行特征提取，可以获得第二尺度特征图III，第四卷积分支924对高层语义特征图进行特征提取，可以获得第二尺度特征图IV，池化分支925对高层语义特征图进行特征提取，可以获得第五尺度特征图V。在此基础上，利用第一1×1卷积层926所含有的1×1的卷积核对第一尺度特征图、第二尺度特征图、第三尺度特征图、第四尺度特征图和第五尺度特征图的同一位置的特征进行融合，可以获得多通道特征图VI。多通道特征图VI的数量由第一1×1卷积层926的1×1卷积核数量决定。

当ResNet50网络的第二残差单元输出的特征图为底层语义特征图，可以对该底层语义特征图进行升维或降维操作，达到网络参数数量调整的目的。同时，该底层语义特征图的尺寸为64×64，第一1×1卷积层926所输出的多通道特征尺寸继承高层语义特征图尺寸，如16×16，因此，需要利用第一4倍上采样层934对多通道特征图VI进行4倍上采样操作，使得上采样操作后的多通道特征图VI的尺寸等于64×64。在此基础上，利用特征拼接层931对该底层语义特征图VII和多通道特征图VI进行拼接，所获得的拼接特征图VII的尺寸为64×64。接着利用3×3卷积层932对拼接特征图VII进行特征提取，获得图像掩膜903。由于拼接特征图VII的尺寸为64×64，第一图像901的尺寸为256×256。基于此，可以利用第二4倍上采样层932对图像掩膜903进行4倍上采样操作，使得图像掩膜903的尺寸从64×64增大为256×256，从而使得图像掩膜903恢复到第一图像的尺寸。

步骤530：服务器对第二区域图像和第二图像进行图像拼接操作。此处第二图像可以为服务器预存的图像，也可以为自定义的图像。

当第二图像为服务器预存的图像，服务器可以预存一张或多张图像。如果服务器预存一张图像，可以直接将该张图像作为第二图像使用，也可以是用户在确认预存的图像可以作为第二图像使用时，确定该图像为第二图像。若服务器预存多张图像，也可以是从服务器预存的多张图像中选择的一张。当第二图像为自定义图像，用户可以向服务器上传图像作为第二图像使用。由此可见，当服务器预存图像或自定义图像时，第二图像均可以为用户操作指示的第二图像。在服务器对第二区域图像和第二图像进行图像拼接操作前，上述方法还包括：响应用户针对第二图像的操作，确定第二图像。

在实际应用中，可以将第二区域图像拼接在第二图像的目标区域。第二图像的目标区域可以为预设的目标区域，也可以为用户确认操作指示的目标区域。即第二图像的目标区域为用户确认操作指示的第二图像的目标区域。

当服务器预存的图像为一张，则服务器可以直接对第二区域图像和第二图像进行拼接操作。拼接操作可以在后台进行，也可以在前台进行。当服务器在后台直接将第二图像和第二区域图像进行拼接，使得第二区域图像在第二图像的具体位置可以为预先指定位置。当服务器在前台将第二图像和第二区域图像进行拼接，第二区域图像在第二图像的具体位置可以为预先指定位置，也可以为针对用户操作所确定的目标位置。例如：当第二图像为新的背景图像，第二区域图像为前景人物图像，服务器将新的背景图像和前景人物图像显示在智能手机的显示界面上，并保证前景人物画面位于新的背景图像的前方。服务器响应于用户针对第二区域图像在第二图像上的拖动操作，确定前景人物图像在新的背景图像上的位置。

当服务器预存的图像为多张，这些图像可以被定义为候选图像，所有的候选图像可以构成候选图像库。候选图像库内的候选图像可以是不同图像，也可以是不同显示格式的同一图像，还可以既存在不同图像，也存在不同显示格式的同一图像。应理解，候选图像可以保存在服务器内，并以候选图像库的形式存储，当然也可以与其它需要存储的数据一起存储，不做强制限定。例如：可以将候选图像保存在背景选项下，在需要背景替换时，直接调用背景选项。

以服务器预存的图像为多张为例，第二图像可以为用户操作指示的第二图像。在服务器对第二区域图像和第二图像进行图像拼接操作前，上述方法还包括：响应用户针对第二图像的操作，确定第二图像。此时，服务器对第二区域图像和第二图像进行图像拼接操作，可以参考前文描述在后台或前台进行。

在一种示例中，上述第二图像为候选图像库内存储的候选图像，用户操作为用户针对候选图像库内的候选图像的确认操作。

图10A示出本公开示例性的一种智能手机的显示界面在第一状态的示意图。如图10A所示，该智能手机1000展示的显示界面1011正在播放教学视频。教学视频的背景图像为正在展示教学内容的电子黑板图像a，前景图像为正在教授教学内容的授课教师图像b。在需要更换场景背景时，智能手机1010响应于用户的操作，如点击的显示界面，使得在教学视频的画面上显示按钮1011。用户点击按钮1011后，可以访问服务器调出背景选项，并显示在智能手机1010的显示界面，该背景选项与教学视频同时显示，还是单独显示，可以根据实际需要调整。

例如：在图10A中，背景选项与教学视频同时显示，背景选项下的候选背景按照图像的上下延伸方向分布在显示界面的左侧。从图10A可以看出，该背景选项的右侧存在滑动条S。用户可以使用鼠标上下拖动滑动条S，查看背景选项下所有候选图像，用鼠标选中所需图像，确认为新的背景图像（即前文第二图像）。例如：图10A中的背景选项中显示出三种显示格式的同一图像A、B和C，用户通过鼠标选中第一种显示格式图像A，并提交至服务器。服务器响应用户针对第一种显示格式图像的鼠标选中操作，将其确认为新的背景图像，并对教学视频执行步骤530，获得前景人物图像，即授课教师图像b。

图10B示出本公开示例性的一种智能手机的显示界面在第二状态的示意图示意图。图10B示出智能手机100展示的显示界面1010中，图10A所选中的第一显示图像A在图10B中为替换后的背景图像c，授课教师图像b作为前景图像位于显示界面1010中。

在实际应用中，当服务器在后台直接将新的背景图像c和授课教师图像b进行拼接，授课教师图像b在新的背景图像c的具体位置可以为预先指定位置。当服务器在前台将新的背景图像c和授课教师图像b进行拼接，授课教师图像b在新的背景图像c的具体位置可以为预先指定位置，也可以为针对用户操作所确定的目标位置。例如：服务器将新的背景图像c和授课教师图像b显示在智能手机1000的显示界面1010上，并响应于用户针对授课教师图像b在新的背景图像c上的拖动操作，确定前景人物图像在新的背景图像上的位置。

示例性的，上述第二图像为自定义图像。此时，当第二图像为用户操作指示的第二图像时，用户操作为用户上传第二图像的操作。例如：智能手机的显示界面正在播放教学视频，在需要更换场景背景时，智能手机响应于用户的操作，如点击的显示界面，在教学视频的画面上显示对话窗口。可以通过对话窗口中的图库上传智能手机的本地图片、视频，也可以通过对话窗口中的相机拍摄的图像或视频。服务器在接收到上传的图像后，可以采用后台拼接或前台拼接方式进行图像拼接，后台拼接或前台拼接的方式可以参考前文相关内容，此处不做赘述。

由上可见，本公开提供的图像拼接方法中，获取的第一图像的第一区域部分信息被光学滤光元件滤除，使得利用深度神经网络从第一图像提取第二区域图像时，可以简化第一区域信息的滤除过程，从而提高第二区域图像和第二图像的图像拼接速度，缩短第二区域图像提取时间。由此可见，本公开提供的图像拼接方法提前利用光学滤光元件滤除第一区域图像的部分信息，然后结合深度神经网络模型过滤第一区域图像的剩余信息，从而获得第二区域图像，可以，本公开提供的图像拼接方法将第一区域图像的信息滤除过程分为硬件滤除和软件滤除，从而保证深度神经网络模型可以快速从第一图像提取第二区域图像，因此，本公开提供的图像拼接方法应用播放实时性要求比较高的视频直播等场景时，不会出现视频图像卡顿等问题，从而提高用户视觉体验。

上述主要从服务器的角度对本公开实施例提供的方案进行了介绍。可以理解的是，服务器为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对服务器等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图11示出根据本公开示例性实施例的图像拼接装置的功能模块示意性框图。如图11所示，该图像拼接装置1100包括：

获取模块1101，用于获取第一图像，第一图像的第一区域图像含有的部分信息被滤除；

提取模块1102，用于利用深度神经网络模型提取第一图像的第二区域图像，第一区域图像与所述第二区域图像不同；

拼接模块1103，用于对第二区域图像和第二图像进行图像拼接操作，第一图像与第二图像不同。

在一种可能的实现方式中，当引入光流图的情况下，上述提取模块1102还用于提取第一图像的光流图。在此基础上，提取模块1102用于基于第一图像和第一图像光流图，利用深度神经网络模型从第一图像提取第二区域图像。

上述深度神经网络模型在训练过程的样本包括样本图像和样本图像的光流图。该样本图像的第一区域图像含有的部分信息被滤除。

在一种示例中，上述深度神经网络模型的学习方式为监督式学习方式，深度神经网络模型在训练过程的监督信息至少包括样本图像的光流图。第一图像的光流图和/或样本图像的光流图为稠密光流图或稀疏光流图。

在一种可能的实现方式中，如图11所示，在没有引入光流图的情况下，上述提取模块1102用于将第一图像输入深度神经网络模型，获得图像掩膜，根据图像掩膜和第一图像确定第二区域图像。在引入光流图的情况下，上述提取模块1102用于将第一图像和第一图像的光流图输入深度神经网络模型，获得图像掩膜，根据图像掩膜和第一图像确定第二区域图像。

作为一种可能的实现方式，上述深度神经网络模型包括：第一子网络、第二子网络和第三子网络，第一子网络、第二子网络和第三子网络彼此不同。

在没有引入光流图的情况下，上述第一子网络用于根据第一图像，向第二子网络提供第一图像的高层语义特征图和底层语义特征图。第二子网络用于对高层语义特征图进行多感受野特征提取和融合，获得多通道特征图；第三子网络用于对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图，对拼接特征图进行特征提取，获得图像掩膜。

在引入光流图的情况下，上述第一子网络用于根据第一图像和第一图像的光流图，向第二子网络提供所述第一图像的高层语义特征图。第二子网络用于对高层语义特征图进行多感受野特征提取和融合，获得多通道特征图；第一子网络还用于根据第一图像和第一图像的光流图向第三子网络提供底层语义特征图；第三子网络用于基于第一图像的光流图，对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图，对拼接特征图进行特征提取，获得图像掩膜。

作为一种可能的实现方式，上述第二子网络包括第一种卷积分支、第二种卷积分支、池化分支以及特征融合层；第一种卷积分支含有的卷积核的尺寸和第二种卷积分支含有的卷积核的尺寸不同。第一种卷积分支、第二种卷积分支和池化分支均用于对第一图像的高层语义特征进行特征提取。

上述第二种卷积分支包括多个空洞卷积分支，各个空洞卷积分支的卷积核空洞率不同；其中，每两个空洞卷积分支的卷积核空洞率之差大于或等于3；和/或，各个空洞卷积分支的卷积核空洞率呈倍数关系；和/或，每个空洞卷积分支的卷积核空洞率为6~18；和/或，各个空洞卷积分支的卷积核尺寸相同。

作为一种可能的实现方式，上述第三子网络还用于对多通道特征图和底层语义特征图进行特征拼接，获得拼接特征图前，调整多通道特征图的尺寸至底层语义特征图的尺寸。在引入光流图的情况下，第三子网络还用于基于第一图像的光流图，对多通道特征图和第一图像的底层语义特征图进行特征拼接，获得拼接特征图前，调整多通道特征图的尺寸至所述第一图像的底层语义特征图的尺寸。

上述第三子网络还用于对拼接特征图进行特征提取，获得图像掩膜后，将图像掩膜的图像尺寸调整至所述第一图像的尺寸。

作为一种可能的实现方式，上述第一图像和/或第二图像为静态图像或动态图像。第一区域图像为背景区域图像，第二区域图像为前景区域图像；或，第一区域图像为前景区域图像，第二区域图像为背景区域图像。

上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能单元的功能描述，在此不再赘述。

图12是根据本公开示例性实施例的芯片的示意性框图。如图12所示，该芯片1200包括一个或两个以上（包括两个）处理器1201和通信接口1202。通信接口1202可以支持服务器执行上述步骤510。处理器1201可以支持服务器执行步骤520和步骤530。

可选的，如图12所示，该芯片还包括存储器1203，存储器1203可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器（non-volatile random access memory，NVRAM）。

在一些实施方式中，如图12所示，处理器1201通过调用存储器存储的操作指令（该操作指令可存储在操作系统中），执行相应的操作。处理器1201控制终端设备中任一个的处理操作，处理器还可以称为中央处理单元（central processing unit，CPU）。存储器1203可以包括只读存储器和随机存取存储器，并向处理器1201提供指令和数据。存储器1203的一部分还可以包括NVRAM。例如应用中存储器、通信接口以及存储器通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图12中将各种总线都标为总线系统1204。

上述本公开实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器（digital signal processing，DSP）、ASIC、现成可编程门阵列（field-programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本公开示例性实施例提供的一种电子设备，该电子设备可以为服务器，也可以为图像处理设备等，但不仅限于此。该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

如图13所示，现将描述可以作为本公开的服务器或客户端的电子设备的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器（ROM）1302中的计算机程序或者从存储单元1308加载到随机访问存储器（RAM）1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出接口（又称I/O接口1305）也连接至总线1304。

如图13所示，电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息的任何类型的设备，输入单元1306可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理。例如，在一些实施例中，前述方法例如步骤510~步骤530等）可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中，计算单元1301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法图像拼接方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、终端、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘（digital video disc，DVD）；还可以是半导体介质，例如，固态硬盘（solid state drive，SSD）。

尽管结合具体特征及其实施例对本公开进行了描述，显而易见的，在不脱离本公开的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本公开的示例性说明，且视为已覆盖本公开范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包括这些改动和变型在内。

Claims

1.一种图像拼接方法，其特征在于，包括：

利用深度神经网络模型提取所述第一图像的第二区域图像，所述第一区域图像与所述第二区域图像不同；

2.根据权利要求1所述的方法，其特征在于，所述获取第一图像后，所述利用深度神经网络模型提取所述第一图像的第二区域图像前，所述方法还包括：

提取所述第一图像的光流图；

所述利用深度神经网络模型提取所述第一图像的第二区域图像，包括：

基于所述第一图像的光流图，利用所述深度神经网络模型从所述第一图像提取所述第二区域图像。

3.根据权利要求2所述的方法，其特征在于，所述深度神经网络模型在训练过程的样本包括样本图像和样本图像的光流图，所述样本图像的第一区域图像含有的部分信息被滤除；其中，

所述深度神经网络模型的学习方式为监督式学习方式，所述深度神经网络模型在训练过程的监督信息至少包括样本图像的光流图；和/或，

所述第一图像的光流图和/或所述样本图像的光流图为稠密光流图或稀疏光流图。

4.根据权利要求2所述的方法，其特征在于，所述基于所述第一图像的光流图，利用所述深度神经网络模型从所述第一图像提取所述第二区域图像，包括：

将所述第一图像和所述第一图像的光流图输入所述深度神经网络模型，获得图像掩膜；

利用所述图像掩膜从所述第一图像提取所述第二区域图像。

5.根据权利要求4所述的方法，其特征在于，所述深度神经网络模型包括：第一子网络、第二子网络和第三子网络，所述第一子网络、所述第二子网络和所述第三子网络彼此不同；

所述第一子网络用于根据所述第一图像和所述第一图像的光流图，向所述第二子网络提供所述第一图像的高层语义特征图；

所述第二子网络用于对所述高层语义特征图进行多感受野特征提取和融合，获得多通道特征图；

所述第一子网络还用于根据所述第一图像和所述第一图像的光流图向所述第三子网络提供所述第一图像的底层语义特征图；

所述第三子网络用于基于所述第一图像的光流图，对所述多通道特征图和所述底层语义特征图进行特征拼接，获得拼接特征图，对所述拼接特征图进行特征提取，获得图像掩膜。

6.根据权利要求5所述的方法，其特征在于，所述高层语义特征图为所述第一子网络输出的语义特征图；和/或，

所述底层语义特征图为所述第一子网络含有的第k个隐藏层，k＜N/2，k和N均为大于0的整数，N为所述第一子网络的隐藏层总层数。

7.根据权利要求5所述的方法，其特征在于，所述第二子网络包括第一种卷积分支、第二种卷积分支、池化分支以及特征融合层；所述第一种卷积分支含有的卷积核的尺寸和所述第二种卷积分支含有的卷积核的尺寸不同；其中，

所述第一种卷积分支、所述第二种卷积分支和所述池化分支均用于对所述第一图像的高层语义特征进行特征提取。

8.根据权利要求7所述的方法，其特征在于，所述第二种卷积分支包括多个空洞卷积分支，各个所述空洞卷积分支的卷积核空洞率不同；其中，

每两个所述空洞卷积分支的卷积核空洞率之差大于或等于3；和/或，

各个所述空洞卷积分支的卷积核空洞率呈倍数关系；和/或，

每个所述空洞卷积分支的卷积核空洞率为6~18；和/或，

各个所述空洞卷积分支的卷积核尺寸相同。

9.根据权利要求5所述的方法，其特征在于，所述第三子网络还用于基于所述第一图像的光流图，对所述多通道特征图和所述底层语义特征图进行特征拼接，获得拼接特征图前，调整所述多通道特征图的尺寸至所述底层语义特征图的尺寸；和/或，

所述第三子网络还用于对所述拼接特征图进行特征提取，获得图像掩膜后，将所述图像掩膜的图像尺寸调整至所述第一图像的尺寸。

10.根据权利要求1~9任一项所述的方法，其特征在于，所述第一图像和/或所述第二图像为静态图像或动态图像；

其中，所述第一区域图像为背景区域图像，所述第二区域图像为前景区域图像；或，所述第一区域图像为前景区域图像，所述第二区域为背景区域图像。

11.一种图像拼接装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

处理器；以及，

存储程序的存储器；

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行权利要求1~10中任一项所述的方法。

13.一种非瞬时计算机可读存储介质，其特征在于，所述非瞬时计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1~10中任一项所述的方法。

14.一种图像处理系统，其特征在于，包括拍摄设备、光学滤光元件和服务器；所述拍摄设备用于在所述光学滤光元件的作用下采集原始图像；所述原始图像包括的第一区域图像被光学滤光元件滤除部分信息；所述服务器用于执行权利要求1~10任一项所述方法。

15.根据权利要求14所述的系统，其特征在于，所述光学滤光元件包括偏振方向不同的第一偏振元件和第二偏振元件；当所述拍摄设备处在拍摄状态，所述第一偏振元件和所述第二偏振元件沿着所述拍摄设备的镜头景深减小方向分布；

其中，所述第一区域图像对应的拍摄对象位于所述第一偏振元件远离所述第二偏振元件的一侧，所述原始图像的第二区域图像对应的拍摄对象位于所述第一偏振元件和所述第二偏振元件之间；或，

所述第一区域图像对应的拍摄对象位于所述第一偏振元件远离所述第二偏振元件的一侧，所述原始图像的第二区域图像对应的拍摄对象位于所述第二偏振元件远离所述第一偏振元件的一侧。

16.根据权利要求15所述的系统，其特征在于，所述第一偏振元件的偏振方向与所述第二偏振元件的偏振方向的夹角为60°~90°；和/或，

所述第一偏振元件设在所述第一区域图像对应的拍摄对象上，所述第二偏振元件设在所述拍摄设备的镜头上。

17.一种视频直播系统，其特征在于，包括：权利要求14~16任一项所述的系统。