CN114943909A

CN114943909A - 运动区域识别的方法、装置、设备及系统

Info

Publication number: CN114943909A
Application number: CN202110350571.8A
Authority: CN
Inventors: 苏芸; 甘延; 徐强
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-08-26
Anticipated expiration: 2041-03-31
Also published as: CN114943909B

Abstract

本申请公开了一种运动区域识别的方法、装置、设备及系统，在该方法中，先获取第一图像，该第一图像包括图像采集设备采集的第一区域的图像；根据第一神经网络确定第一图像中的运动区域，并在显示设备中呈现第一图像的运动区域；由于第一神经网络为利用模糊化产生的训练数据训练获得的，不需要人工标注的训练样本，所以能够避免人工标注训练样本的过程带来人为错误，减少整个运动区域识别过程的耗时，提高整个运动区域识别的效率。

Description

运动区域识别的方法、装置、设备及系统

技术领域

本申请涉及人工智能技术领域，尤其涉及一种运动区域识别的方法、装置、设备及系统。

背景技术

图像区域分割是一种图像处理技术，图像区域分割的目的是从图像中划分出运动区域和非运动区域，其中，运动区域也可以称为前景区域，是指视频中相对于运动背景移动的物体所在的区域；非运动区域也可以称为背景区域，是指视频中静止的或移动非常缓慢的物体所在的区域。

目前，通常使用深度神经网络检测视频中的运动区域。在识别图像运动区域之前，需要先利用人工标注的训练样本训练得到性能较好的深度神经网络。但是，人工标注训练样本的过程依赖于人的经验，且容易引入人为错误，导致整个运动区域识别过程耗时长、效率低。

因此，如何提供一种高效的运动区域的识别方法成为亟待解决的技术问题。

发明内容

本申请提供了一种运动区域识别的方法、装置、设备及系统，能够避免人工标注训练样本的过程带来人为错误，减少整个运动区域识别过程的耗时，提高整个运动区域识别的效率。

第一方面，提供了一种运动区域识别的方法，该方法包括：获取第一图像，第一图像包括图像采集设备采集的第一区域的图像，第一区域可以理解为某一特定的区域，对应不同的图像采集设备的设置位置，第一区域也不同；例如，当图像采集设备设置在走廊时，第一区域可以为走廊；当图像采集设备设置在高速路口时，第一区域可以为高速路段；根据第一神经网络确定第一图像中的运动区域，第一神经网络为利用模糊化产生的训练数据训练获得，用于在第一图像中分割运动区域和非运动区域，模糊化的方法有多种，例如可以先对原始图像依次进行缩小变换和放大变换，即可实现模糊化；在显示设备中呈现第一图像的运动区域。

由于第一神经网络为利用模糊化产生的训练数据训练获得的，第一神经网络的训练过程不需要人工标注的训练样本，所以能够避免人工标注训练样本的过程带来人为错误，减少整个运动区域识别过程的耗时，提高整个运动区域识别的效率；并且，虽然训练阶段需要通过模糊处理获取训练数据，但在推理阶段，不需要对第一图像进行模糊处理，所以不增加识别运动区域的复杂性。

作为一种可能的实现方式，第一图像为图像采集设备采集的多个图像中任意一个图像，或者，第一图像为图像采集设备采集的视频中任意一帧图像。

作为另一种可能的实现方式，根据第一神经网络确定第一图像中运动区域包括：以第一图像和第二图像作为第一神经网络的输入，获取第一神经网络的第一输出，第一输出指示第一图像和第二图像间不匹配的区域，其中，第一输出的形式有多种，例如可以是掩膜的形式，第二图像为图像采集设备采集的第一区域的图像且与第一图像不同；由于第二图像和第一区域都为图像采集设备采集的第一区域的图像，所以第二图像和第一图像的非运动区域通常是相同的，而运动区域是不同的；所以第二图像可以看成是第一图像的参考图像，用于识别出第一图像中的运动区域；根据第一输出和第一图像确定第一图像中的运动区域。

该实现方式提供了确定第一图像中运动区域的一种具体的方案。

作为另一种可能的实现方式，当第一图像为图像采集设备采集的视频中任意一帧图像时，第二图像为图像采集设备采集的视频中不同于第一图像的一帧图像。

由于第二图像和第一图像属于同一视频，所以很大程度上保证了第二图像和第一图像的非运动区域是相同的，使得第二图像能够作为第一对象的参考图像，以识别出第一图像中的运动区域。

作为另一种可能的实现方式，第一图像的拍摄时间晚于第二图像的拍摄时间。

若选择拍摄时间晚于第一图像的一帧图像作为参考图像，即第一图像的拍摄时间早于第二图像的拍摄时间，则在第一图像拍摄完成后，还需等待第二图像拍摄完成，才能对第一图像进行运动区域识别，这样便会带来时延；因此，第一图像的拍摄时间晚于第二图像的拍摄时间，能够降低运动区域的识别时延，适用于对于有时延要求的某些场景。

作为另一种可能的实现方式，第一图像的拍摄时间早于第二图像的拍摄时间。

第一图像的拍摄时间早于第二图像的拍摄时间，为无时延要求的某些场景提供了第二图像的另一种选择。

作为另一种可能的实现方式，第一图像的拍摄时间与第二图像的拍摄时间之间的时间间隔小于第一时间间隔。

理论上，设置于固定位置的摄像机拍摄的视频中的所有帧图像的非运动区域是相同的，但在实际拍摄过程中，若两帧图像的间隔时间过长，这两帧图像的非运动区域不同的可能性会变大；若选择非运动区域不同于第一图像的非运动区域的一帧图像作为第二图像，那么第一神经网络会将不同的非运动区域错误识别为运动区域；因此，第一图像的拍摄时间与第二图像的拍摄时间之间的时间间隔小于第一时间间隔能够尽可能地减小上述情况发生的可能性，以提高运动区域的识别准确度。

作为另一种可能的实现方式，第一输出为第一掩膜，第一掩膜的尺寸小于第一图像的尺寸，其中，掩膜可以理解为像素值为0或1的二进制图像，该二进制图像可以用二进制矩阵表示，二进制矩阵中的每个元素都为0或1。

相应地，根据第一输出和第一图像确定第一图像中的运动区域包括：对第一掩膜进行插值处理，以得到与第一图像相同尺寸的第二掩膜，插值处理的方法有多种，例如，可以采用最近邻插值、双线性插值、双三次插值等插值方法进行插值处理；将第二掩膜与第一图像的乘积作为第一图像中的运动区域。

输出的第一掩膜的尺寸小于第一图像的尺寸，能够降低计算第一掩膜的运算量；在输出第一掩膜后，对第一掩膜进行插值处理，以将尺寸恢复至与第一图像相同，由于确定运动区域的运算量主要集中在第一掩膜的计算中，而插值处理所需要的运算量较少，因此该实施例能够减少识别过程中的运算量，以提高运动区域的识别效率。

作为另一种可能的实现方式，第一输出为第一掩膜，第一掩膜的尺寸小于第一图像的尺寸；相应地，根据第一输出和第一图像确定第一图像中的运动区域包括：确定第一掩膜中的连通区域，其中，若在一个区域内任做一条闭合曲线，该闭合曲线内部都属于该区域，则该区域可以称为连通区域；计算包围连通区域的第一矩形，第一矩形包围连通区域可以理解为连通区域位于第一矩形内，该第一矩形可以是最小外接矩形，该最小外接矩形也可以称为最小边界矩形、最小包含矩形或最小外包矩形；对第一矩形进行放大以得到第二矩形，第一矩形的尺寸与第二矩形的尺寸的比例，等于第一掩膜的尺寸与第一图像的尺寸的比例；具体地，可以依据第一掩膜的尺寸与第一图像的尺寸的比例对第一矩形的位置、长和宽进行放大，以得到第二矩形；基于第二矩形确定与第一图像相同尺寸的第二掩膜，第二掩膜包含第二矩形，且第二掩膜位于第二矩形外的区域的像素值为0，第二掩膜位于第二矩形内的区域的像素值为1；将第二掩膜与第一图像的乘积作为第一图像中的运动区域。

确定第一掩膜中的连通区域，然后计算包围连通区域的第一矩形，再对第一矩形进行放大以得到第二矩形，此后基于第二矩形确定与第一图像相同尺寸的第二掩膜，最后将第二掩膜与第一图像的乘积作为第一图像中的运动区域；相比于通过插值处理放大第一掩膜，该实施例能够减少计算量，提高计算速度，从而提高运动区域的识别效率。

作为另一种可能的实现方式，第一神经网络包括差分子网络、Unet子网络和输出子网络；差分子网络用于基于第一图像和第二图像输出第一特征图像，第一特征图像包含第一图像和第二图像间的不同特征；Unet子网络用于对第一特征图像中的不同特征进行处理；输出子网络用于基于Unet子网络的处理结果计算第一输出。

该实现方式提供了第一网络的一种具体结构。

作为另一种可能的实现方式，在获取第一图像之前，方法还包括：以第三图像和第四图像作为第一神经网络的输入，获取第一神经网络的第二输出和第三输出，第三图像是对第五图像进行模糊化处理得到的，第四图像为第五图像的参考图像，参考图像可以理解为与第五图像的非运动区域相同，而运动区域不同的图像，用于识别出第五图像中的运动区域的图像；具体地，第四图像和第五图像可以是由图像采集设备采集的同一区域的两张图像；第二输出指示第三图像和第四图像间不匹配的区域，不匹配的区域可以为运动区域，第三输出指示第三图像和第四图像间匹配的区域，匹配的区域可以理解为非运动区域，第二输出和第三输出的形式有多种，例如可以是掩膜的形式；获取合成图像，合成图像是基于第六图像和第七图像确定的，第六图像是基于第二输出和第三图像得到的，第七图像是基于第三输出和第四图像得到的；基于合成图像和第五图像计算损失函数，其中，损失函数的种类有多种，本申请实施例对此不做具体限定，具体可以才采用L1损失函数、L2损失函数、结构相似(SSIM)损失函数或多尺度结构相似(MS-SSIM)损失函数；基于损失函数更新第一神经网络的权重，具体地，基于损失函数对第一神经网络进行反向传播，以对第一神经网络的权重进行更新，该过程也可以理解为最小化损失函数的过程。

第三图像是对第五图像进行模糊化处理得到的，第四图像为第五图像的参考图像，将第三图像和第四图像输入到第一神经网络，得到指示第三图像和第四图像间不匹配的区域的第二输出，以及指示第三图像和第四图像间匹配的区域的第三输出；基于该第二输出和第三输出获取合成图像，并利用合成图像和第五图像计算损失函数，最终基于损失函数更新第一神经网络的权重；由此看来，本申请实施例不需要人工标注的训练样本即可完成对第一神经网络的训练，从而实现了对第一神经网络的无监督学习，并且，减少了人工标注的训练样本所带来的标注成本，减少了训练第一神经网络的耗时，提高了训练第一神经网络的效率。

作为另一种可能的实现方式，第五图像和第四图像为同一视频中的两帧图像。

由于五图像和第四图像属于同一视频，所以很大程度上保证了五图像和第四图像的非运动区域是相同的，使得第四图像能够作为第五图像的参考图像，以识别出运动区域。

作为另一种可能的实现方式，第五图像的拍摄时间晚于第四图像的拍摄时间。

若选择拍摄时间晚于第五图像的一帧图像作为参考图像，即第五图像的拍摄时间早于第四图像的拍摄时间，则在第五图像拍摄完成后，还需等待第四图像拍摄完成，才能对第五图像进行运动区域识别，这样便会带来时延；因此，第五图像的拍摄时间晚于第四图像的拍摄时间，能够降低训练过程中运动区域的识别时延，适用于对于有时延要求的训练过程。

作为另一种可能的实现方式，第五图像的拍摄时间早于第四图像的拍摄时间。

第一图像的拍摄时间早于第二图像的拍摄时间，为无时延要求的训练过程提供了第二图像的另一种选择。

作为另一种可能的实现方式，第五图像的拍摄时间与第四图像的拍摄时间之间的时间间隔小于第二时间间隔。

若选择拍摄时间晚于第五图像的一帧图像作为参考图像，即第五图像的拍摄时间早于第四图像的拍摄时间，则在第五图像拍摄完成后，还需等待第四图像拍摄完成，才能对第五图像进行运动区域识别，这样便会带来时延；因此，第五图像的拍摄时间晚于第四图像的拍摄时间，能够降低运动区域的识别时延，适用于对于有时延要求的某些场景。

作为另一种可能的实现方式，第二输出为第三掩膜，第三输出为第四掩膜；相应地，在获取合成图像之前，方法还包括：基于第三掩膜与第三图像获取第六图像，由于第三掩膜是像素值为0或1的二进制图像，且通常情况下，由1表示第三图像中的不匹配的区域，所以当第三掩膜的尺寸与第三图像的尺寸相同时，可以将第三掩膜与第三图像相乘，以得到第六图像，即从第三图像中提取的运动区域；基于第四掩膜与第四图像获取第七图像，由于第四掩膜是像素值为0或1的二进制图像，且通常情况下，由1表示第四图像中的匹配的区域，所以当第四掩膜的尺寸与第四图像的尺寸相同时，可以将第四掩膜与第四图像相乘，以得到第七图像，即从第四图像中提取的非运动区域；基于第六图像和第七图像获取合成图像，第六图像表示第三图像中的运动区域，第七图像表示第四图像中的非运动区域，基于第六图像和第七图像即可得到与第五图像相似的合成图像；具体地，可以将第六图像和第七图像相加，从而得到合成图像。

基于第二输出和第三输出均为掩膜的形式，该实现方式提供了获取合成图像的一种具体的方案。

作为另一种可能的实现方式，第三掩膜的尺寸小于第三图像的尺寸，第三掩膜的尺寸和第三图像的尺寸的比例可以根据实际需要进行调整，例如，第三掩膜的尺寸可以为第三图像的尺寸的四分之一。

相应地，基于第三掩膜与第三图像获取第六图像包括：对第三掩膜进行插值处理，以得到与第三图像相同尺寸的第五掩膜，其中，插值处理的方法有多种，例如，可以采用最近邻插值、双线性插值、双三次插值等插值方法进行插值处理；将第五掩膜与第三图像的乘积作为第六图像。

输出的第三掩膜的尺寸小于第三图像的尺寸，能够降低第一神经网络计算第三掩膜的运算量；在输出第三掩膜后，对第三掩膜进行插值处理，以将尺寸恢复至与第三图像相同，由于获取第六图像的运算量主要集中在第一神经网络计算第三掩膜的过程中，而插值处理所需要的运算量较少，因此该实施例能够降低训练过程中的运算量，以提高训练效率。

作为另一种可能的实现方式，第四掩膜的尺寸小于第四图像的尺寸，第四掩膜的尺寸和第四图像的尺寸的比例可以根据实际需要进行调整，例如，第四掩膜的尺寸可以为第四图像的尺寸的四分之一。

相应地，基于第四掩膜与第四图像获取第七图像包括：对第四掩膜进行插值处理，以得到与第四图像相同尺寸的第六掩膜，其中，插值处理的方法有多种，例如，可以采用最近邻插值、双线性插值、双三次插值等插值方法进行插值处理；将第六掩膜与第四图像的乘积作为第七图像。

输出的第四掩膜的尺寸小于第四图像的尺寸，能够降低第一神经网络计算第四掩膜的运算量；在输出第四掩膜后，对第四掩膜进行插值处理，以将尺寸恢复至与第四图像相同，由于获取第七图像的运算量主要集中在第一神经网络计算第四掩膜的过程中，而插值处理所需要的运算量较少，因此该实施例能够降低训练过程中的运算量，以提高训练效率。

作为另一种可能的实现方式，方法由运动区域识别的系统执行，该系统包括图像采集设备、图像计算设备和显示设备。

作为另一种可能的实现方式，图像计算设备包括服务器、边缘小站、云数据中心中计算设备或虚拟机中任意一种。

第二方面，提供了一种运动区域识别的装置，该装置包括用于执行第一方面或第一方面任一种可能实现方式中的运动区域识别的方法的各个模块。

第三方面，提供了一种运动区域识别的设备，包括：一个或多个处理器和存储器；其中，所述存储器中存储有计算机可读指令；所述一个或多个处理器读取计算机可读指令，以使训练设备实现如第一方面或第一方面任一种可能实现方式中所述方法的操作步骤。

第四方面，提供了一种计算机可读存储介质，包括计算机可读指令，当所述计算机可读指令在计算机上运行时，使得所述计算机执行如第一方面或第一方面任一种可能实现方式中所述方法的操作步骤。

第五方面，提供了一种芯片，包括一个或多个处理器。所述处理器中的部分或全部用于读取并执行存储器中存储的计算机程序，以执行第一方面或第一方面任一种可能实现方式中所述方法的操作步骤。

可选地，该芯片该包括存储器，该存储器与该处理器通过电路或电线与存储器连接。进一步可选地，该芯片还包括通信接口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理，并通过该通信接口输出处理结果。该通信接口可以是输入输出接口。

在一种可能的实现方式中，所述一个或多个处理器中还可以有部分处理器是通过专用硬件的方式来实现以上方法中的部分步骤，例如涉及神经网络模型的处理可以由专用神经网络处理器或图形处理器来实现。

第六方面，提供了一种计算机程序产品，该计算机程序产品包括计算机软件指令，该计算机软件指令可通过处理器进行加载来实现上述第一方面、第二方面或第三方面中任意一种实现方式所述的方法。

第七方面，提供了一种运动区域识别的系统，该系统包括图像采集设备、图像计算设备和显示设备。图像采集设备用于采集的第一区域的图像；图像计算设备，用于获取第一图像，第一图像为图像采集设备采集的第一区域的图像；图像计算设备，还用于根据第一神经网络确定第一图像中的运动区域，第一神经网络为利用模糊化产生的训练数据训练获得，用于在第一图像中分割运动区域和非运动区域；显示设备，用于呈现第一图像的运动区域。

附图说明

图1为本申请实施例中运动区域识别系统的架构示意图；

图2为本申请实施例中运动区域识别的方法的第一实施例示意图；

图3为本申请实施例中第一神经网络的第一实施例示意图；

图4为本申请实施例中第二神经网络的第二实施例示意图；

图5为本申请实施例提供的一种运动区域识别的方法的一个实施例的示意图；

图6为本申请实施例提供的一种运动区域识别过程的示意图；

图7为本申请实施例提供的一种运动区域识别的方法的另一个实施例的示意图；

图8为本申请实施例中确定运动区域的实施例示意图；

图9为本申请实施例中运动区域识别的装置的结构示意图；

图10为本申请实施例中运动区域识别的设备的结构示意图。

具体实施方式

本申请实施例提供了一种运动区域识别的方法、装置、设备及系统，该方法采用神经网络识别图像中的运动区域，且该神经网络是采用未经人工标注的训练样本训练得到，能够避免人工标注训练样本的过程带来人为错误，减少神经网络训练过程的耗时，从而减少整个运动区域识别过程的耗时，提高整个运动区域识别的效率。

本申请实施例可以应用于图1所示的运动区域识别系统。如图1所示，该运动区域识别系统包括图像采集设备10、图像计算设备11、显示设备12及存储设备14，除此之外，运动区域识别系统还可以包括报警设备13。

其中，图像采集设备10用于采集待识别的图像，具体可以是照相机，也可以是摄像机。

当图像采集设备10为摄像机时，摄像机的种类可以有多种，本申请实施例对此不做具体限定，例如可以是枪机、半球型摄像机、一体化摄像机、红外日夜两用摄像机、高速球摄像机或网络摄像机。

图像计算设备11用于对图像采集设备10采集的待识别的图像进行处理，以识别出其中的运动区域；图像计算设备11的种类也可以有多种，例如可以是服务器、边缘小站、云数据中心(具体可以为云数据中心中服务器或虚拟机)。

显示设备12用于显示图像计算设备11识别出的运动区域；报警设备13用于在图像计算设备11识别出的运动区域非正常的情况下报警；存储设备14用于存储图像采集设备10采集的待识别的图像以及图像计算设备11识别出的运动区域。

图像采集设备10和图像计算设备11可以集成在一个设备中，例如，图像采集设备10和图像计算设备11可以集成在同一手机或同一平板电脑中；图像采集设备10和图像计算设备11也可以分开设置，例如，图像采集设备10和图像计算设备11也可以是分开设置的摄像头和服务器。

图像采集设备10和图像计算设备11可以直接通信连接，例如，当图像采集设备10和图像计算设备11可以集成在同一设备中时，图像采集设备10和图像计算设备11可以通过相应的连接器件直接连接；图像采集设备10和图像计算设备11可以间接通信连接，例如，当图像采集设备10和图像计算设备11分开设置时，图像采集设备10和图像计算设备11可以通过无线通信等方式间接通信连接。

同理，图像计算设备11与显示设备12之间、图像计算设备11与存储设备14、图像计算设备11与报警设备13之间均可以通过连接器件直接通信连接，也可以通过无线通信等方式间接通信连接。

图1所示的运动区域识别系统可以应用于多种场景，下面以图像采集设备10为摄像机为例对这多种场景进行介绍，其中，在这多种场景下，摄像机通常设置在固定的位置，以保证拍摄到的视频中的各帧图像的非运动区域基本相同，没有明显的变化。下面介绍其中的三种场景。

第一种场景：图1所示的运动区域识别系统应用于室内或室外的安防监控场景，在该场景下，通过该运动区域识别系统识别出视频中各帧图像的运动区域，利用该运动区域可以寻找运动目标；其中，摄像机可以设置在走廊、门口以及房间等至少一个位置。

第二种场景：图1所示的运动区域识别系统应用于交通监控场景，在该场景下，通过该运动区域识别系统识别出视频中各帧图像的运动区域，利用该运动区域监测交通流量，其中，摄像机可以设置在高速路口、匝道口等至少一个位置。

第三种场景：图1所示的运动区域识别系统应用于视频压缩场景，在该场景下，通过该运动区域识别系统识别出视频中各帧图像的运动区域，以此过滤掉非运动区域；在视频传输过程中，发送端仅传输视频中各帧图像的运动区域，接收端在接收到各帧图像的运动区域后，对各帧图像的非运动区域进行补充，以得到完整的视频；这样，便实现了传输过程中的视频压缩。

应理解，由于人工标注训练样本的过程依赖于人的经验，所以容易引入人为错误，导致整个运动区域识别过程耗时长、效率低；为此，本申请实施例提供了一种运动区域识别的方法，在该方法中，用于运动区域识别的神经网络是利用未经人工标注的训练样本训练得到的，避免人工标注训练样本的过程带来人为错误，减少了人工标注成本，并且，减少整个运动区域识别过程的耗时，提高整个运动区域识别的效率。

如图2所示，本申请实施例提供的运动区域识别的方法包括训练阶段和推理阶段；在训练阶段，先构建神经网络模型20，然后获取未经标注的训练数据21，再利用未经标注的训练数据对神经网络模型的权重进行训练22，最终获得神经网络模型23；在推理阶段，首先要先训练好的神经网络模型部署到相应设备上(例如图1所示的图像计算设备20)，然后获取推理数据24并将推理数据输入到神经网络模型以进行模型推理25，最后可以对推理结果进行后处理26，即可识别出运动区域；其中，训练数据和推理数据通常包含多组图像，每组图像包括两张图像，下文将第一图像和第二图像作为推理数据，将第三图像和第四图像作为训练数据，此外，下文会对后处理的过程进行具体说明。

下面先对训练阶段进行介绍。

首先，构建初始的神经网络模型。该初始的神经网络模型的网络结构如图3所示，具体包括两个输入和两个输出，两个输入分别为图像Ab和图像B，两个输出分别为输出Am和输出Bm，其中，输出Bm指示图像Ab和图像B间匹配的区域，输出Am指示图像Ab和图像B间不匹配的区域。下文将该初始的神经网络称为第一神经网络。

示例性地，图3所示的第一神经网络的具体结构可以如图4所示。具体地，图4所示的第一神经网络包括差分子网络、Unet子网络和输出子网络。差分子网络用于基于图像Ab和图像B输出第一特征图像，第一特征图像包含图像Ab和图像B间的不同特征。其中，第一特征图像包含的图像Ab和图像B间的不同特征也可以称为差分特征。

具体地，差分子网络包括第一分支、第二分支和差分分支。第一分支包括两个卷积层，这两个卷积层在图4中分别采用conv3x3，stride＝2表示，conv3x3表示卷积核的大小，stride是指步长；第一分支用于通过卷积运算提取图像Ab的特征图像。

需要说明的是，第一分支输出的特征图像的尺寸可以小于图像Ab的原始尺寸，以使得第一神经网络输出尺寸小于图像Ab的尺寸的掩膜；例如，第一分支输出的特征图像可以为图像Ab的四分之一。

同样地，第二分支也包括两个卷积层，这两个卷积层在图4中分别采用conv3x3，stride＝2表示，第二分支用于通过卷积运算提取图像B的特征图像。

差分分支用于将第一分支输出的特征图像与第二分支输出的特征图像相减并取绝对值absolute，绝对值则表示图像Ab和图像B间不同的特征。

Unet子网络用于对第一特征图像中的不同特征进行处理。Unet子网络的网络结构呈U型分布，因此，Unet子网络也可以称为U型子网络；Unet子网络对第一特征图像中的不同特征的处理包括进一步地特征提取和融合。

需要说明的是，Unet子网络的网络结构是已知的，可以根据实际需要调整Unet子网络的网络层数；例如，如图4所示，本申请实施例中的Unet子网络包括六层网络，这六层网络具体包括3层下采样卷积层和3层上采样卷积层。

输出子网络用于基于Unet子网络的处理结果计算第一输出。

示例性地，输出子网络包括第三分支和第四分支，第三分支包括卷积层conv3x3和激活层，第四分支也包括卷积层conv3x3和激活层。

第三分支的输出用于表示图像Ab和图像B之间不匹配的区域，第四分支的输出用于表示图像Ab和图像B之间匹配的区域。

激活层用于通过激活函数sigmod对卷积层的结果进行处理，使得第三分支的输出和第四分支的输出在0至1之间。

需要说明的是，由于第三分支的输出和第四分支的输出在0至1之间，近似于二值化，所以输出子网络又可以称为二值化子网络。

在图4中，第三分支的输出可以采用小掩膜Am表示，第四分值的输出可以采用小掩膜Bm表示；若第一分支输出的特征图像为图像Ab的四分之一，第二分支输出的特征图像为图像B的四分之一，则小掩膜Am和小掩膜Bm也为图像Ab的四分之一。

从图4可以看出，第一神经网络的规模较小，对计算资源的要求不高，所以能够部署在存储空间或计算能力有限的图像计算设备上；并且，如图4所示，第一神经网络采用全卷积网络，即使图像Ab和图像B的尺寸改变，也不会影响第一神经网络的输出，所以具有较好的移植性。

基于图3或图4的第一神经网络，本申请实施例提供了一种运动区域识别的方法的一个实施例，如图5所示，该实施例包括：

步骤101，以第三图像和第四图像作为第一神经网络的输入，获取第一神经网络的第二输出和第三输出。

其中，第三图像是对第五图像进行模糊化处理得到的，第四图像为第五图像的参考图像。

参考图像可以理解为与第五图像的非运动区域相同，而运动区域不同的图像，用于识别出第五图像中的运动区域的图像；具体地，第四图像和第五图像可以是由图像采集设备采集的同一区域的两张图像。

模糊化处理的方法有多种，本申请实施例对此不做具体限定。例如，可以先将第五图像缩小，再将缩小后的图像放大到原始尺寸，以得到模糊的第三图像，从而实现对第五图像的模糊化处理。具体地，可以通过删除第五图像中像素点的方式缩小第五图像，可以通过增加缩小后的图像中的像素点的方式将其放大到原始尺寸。除此之外，还可以采用均值模糊、中值模糊、高斯模糊以及双边模糊等方法进行模糊化处理，由于这些处理方法为较成熟的技术，故在此不做详述。为了防止第三图像和第五图像的差异过大，可以将模糊化处理的程度控制在一定范围内。

可以理解的是，本申请实施例中的第一神经网络是用于运动区域识别，所以可以选择运动区域与第五图像不同、但非运动区域与第五图像相同的第四图像，作为第五图像的参考图像，以使得第一神经网络能够参照第四图像将第五图像中的运动区域识别出。第五图像和第四图像可以是通过照相机拍摄的两张图像，也可以是摄像机拍摄的同一视频中的两帧图像。

基于前述说明可知，摄像机通常设置在固定的位置，所以由该摄像机拍摄的视频中的所有帧图像的非运动区域都大致相同；因此，若第五图像和第四图像属于同一视频中的两帧图像，那第四图像和第五图像的非运动区域大致相同。由于当第五图像和第四图像属于同一视频中的两帧图像时，第四图像和第五图像的非运动区域大致相同，所以既可以选择视频中拍摄时间晚于第五图像的一帧图像作为参考图像，也可以选择视频中拍摄时间早于第五图像的一帧图像作为参考图像。相应地，作为一种实现的方式，第五图像的拍摄时间晚于第四图像的拍摄时间。

作为另一种实现的方式，第五图像的拍摄时间早于第四图像的拍摄时间。

需要说明的是，在识别实时拍摄的视频中各帧图像的运动区域的场景下若选择视频中拍摄时间晚于待识别图像的一帧图像作为参考图像，那在待识别图像拍摄完成后，还需等待参考图像拍摄完成，才能对待识别图像中的运动区域进行识别，这样便会带来时延。

因此，对于有时延要求的某些场景，可以选择拍摄时间早于待识别图像的一帧图像作为参考图像；例如，在前述的视频压缩场景下，若要实现视频的实时传输，则需要实时识别每帧图像中的运动区域，所以可以选择拍摄时间早于待识别图像的一帧图像作为参考图像。相应地，在训练阶段，可以选择拍摄时间早于第五图像的一帧图像作为参考图像，即第五图像的拍摄时间晚于第四图像的拍摄时间。

理论上，设置于固定位置的摄像机拍摄的视频中的所有帧图像的非运动区域是相同的，但在实际拍摄过程中，若两帧图像的间隔时间过长，这两帧图像的非运动区域不同的可能性会变大；若选择非运动区域不同的两帧图像分别作为第四图像和第五图像，那么第一神经网络会将不同的非运动区域错误识别为运动区域。为了尽可能地减小上述情况发生的可能性，可以控制第四图像和第五图像之间的时间间隔。

作为一种实现的方式，第五图像的拍摄时间与第四图像的拍摄时间之间的时间间隔小于第二时间间隔。

基于上述说明可知，第四图像的拍摄时间和第五图像的拍摄时间之间需要满足特定要求(例如第四图像的拍摄时间早于第五图像的拍摄时间、第五图像的拍摄时间与第四图像的拍摄时间之间的时间间隔小于第二时间间隔)，所以，在执行步骤101之前，需要先从视频中选择拍摄时间满足特定要求的两张图像作为第四图像和第五图像。

下面通过一具体示例，对从一视频中选择第四图像和第五图像的具体过程进行介绍。

示例性地，将视频包含的各帧图像按照拍摄时间从早到晚依次编号为A1_1、A1_2、……A1_30、A2_1、A2_2、……A2_30、……，然后按照一定的时间间隔从中选取多张参考图像，该时间间隔可以根据实际情况进行设定，例如可以设定为1s。

在该示例中，选取编号为A1_1的一帧图像作为参考图像B1，选择编号为A2_1的一帧图像作为参考图像B2，以此类推。

将编号为A1_2、……A1_30的图像与参考图像B1配对，将编号为A2_2、……A2_30图像与参考图像B2配对。

可以选择参考图像B1以及与参考图像B1配对的任意一帧图像(编号为A1_2、……A1_30的图像中的任意一个)分别作为第四图像和第五图像，也可以选择参考图像B2以及与参考图像B2配对的任意一帧图像(编号为B1_2、……B1_30的图像中的任意一个)分别作为第四图像和第五图像。

第二输出指示第三图像和第四图像间不匹配的区域，第三输出指示第三图像和第四图像间匹配的区域。

第二输出可以理解为一种标识，这种标识能够指示第三图像中的某个区域与对应的第四图像中的某个区域不匹配；同样地，第三输出也可以理解为一种标识，这种标识能够指示第三图像中的某个区域与对应的第四图像中的某个区域匹配。

本申请实施例对第二输出和第三输出的形式不做具体限定，作为一种实现的方式，第二输出和第三输出均为掩膜(mask)的形式，具体地，第二输出为第三掩膜，第三输出为第四掩膜。掩膜可以理解为像素值为0或1的二进制图像，该二进制图像可以用二进制矩阵表示，二进制矩阵中的每个元素都为0或1。

对于第二输出来说，第三掩膜中1所指示的区域为第三图像和第四图像间不匹配的区域；对于第三输出来说，第四掩膜中1所指示的区域为第三图像和第四图像间匹配的区域。在本申请实施例中，匹配可以为部分相同，也可以为全部相同。

以图4所示的第一神经网络为例，对得到第二输出和第三输出的过程进行说明。

具体地，可以先提取第三图像的特征图像和第四图像的特征图像，然后将第三图像的特征图像和第四图像的特征图像相减并取绝对值，即可得到第三图像和第四图像间不同的特征；对第三图像和第四图像间不同的特征进行进一步处理，便可以得到指示第三图像和第四图像不匹配区域的第二输出，以及指示第三图像和第四图像匹配区域的第三输出。

步骤102，获取合成图像。

合成图像是基于第六图像和第七图像确定的，第六图像是基于第二输出和第三图像得到的，第七图像是基于第三输出和第四图像得到的。

第二输出指示第三图像和第四图像间不匹配的区域，该区域可以理解为运动区域；第三输出指示第三图像和第四图像间匹配的区域，该区域可以理解为非运动区域。

由于第三图像是对第五图像进行模糊化处理得到的，所以可以认为，第三图像的运动区域与第五图像的运动区域的匹配度较高，且第三图像的运动区域与第五图像的运动区域的匹配度也较高。

第四图像为第五图像的参考图像，基于前述说明可知，通常会选择非运动区域与第五图像的非运动区域相同的图像作为第四图像，所以可以认为第四图像的运动区域与第五图像的运动区域相同，即第四图像的运动区域与第五图像的运动区域的匹配度，大于第三图像的运动区域与第五图像的运动区域的匹配度；但第三图像的运动区域与第五图像的运动区域的匹配度较低，即第四图像的运动区域与第五图像的非运动区域的匹配度，小于第三图像的运动区域与第五图像的非运动区域的匹配度。

基于上述说明，基于第二输出和第三图像得到的第六图像，与第五图像的运动区域的匹配度较高；基于第三输出和第四图像得到的第七图像，与第五图像的非运动区域的匹配度较高；这样，基于第六图像和第七图像确定的合成图像与第五图像的匹配度则较高。

需要说明的是，获取合成图像的方法有多种，本申请实施例对此不做具体限定，例如，获取合成图像的方法可以与第二输出和第三输出的具体形式相关。

下面以掩膜的形式为例，对步骤102进行具体介绍。

作为一种实现的方式，如图5所示，当第二输出为第三掩膜，第三输出为第四掩膜时，步骤102包括：

步骤201，基于第三掩膜与第三图像获取第六图像。

基于第三掩膜所指示的第三图像中的不匹配的区域，可以从第三图像中提取该不匹配的区域，即可得到第六图像。

由于第三掩膜是像素值为0或1的二进制图像，且通常情况下，由1表示第三图像中的不匹配的区域，所以当第三掩膜的尺寸与第三图像的尺寸相同时，可以将第三掩膜与第三图像相乘，以得到第六图像，即从第三图像中提取的运动区域。

然而，在实际训练过程中，为了降低第一神经网络计算第三掩膜的运算量，以减少训练过程中的开销，提高训练效率，可以通过设计第一神经网络的网络结构，使得第一神经网络输出的第三掩膜的尺寸小于第三图像；在输出第三掩膜后，再将第三掩膜恢复到与第三图像相同的尺寸，最后利用与第三图像相同尺寸的掩膜获取第六图像。

下面介绍获取第六图像的具体过程。

具体地，作为一种实现的方式，第三掩膜的尺寸小于第三图像的尺寸，第三掩膜的尺寸和第三图像的尺寸的比例可以根据实际需要进行调整，本申请实施例对此不做具体限定；例如，第三掩膜的尺寸可以为第三图像的尺寸的四分之一。

相应地，步骤201包括：对第三掩膜进行插值处理，以得到与第三图像相同尺寸的第五掩膜；将第五掩膜与第三图像的乘积作为第六图像。其中，插值处理的方法有多种，本申请实施例对此不做具体限定；例如，可以采用最近邻插值、双线性插值、双三次插值等插值方法进行插值处理。

在该实施例中，输出的第三掩膜的尺寸小于第三图像的尺寸，能够降低第一神经网络计算第三掩膜的运算量；在输出第三掩膜后，对第三掩膜进行插值处理，以将尺寸恢复至与第三图像相同，由于获取第六图像的运算量主要集中在第一神经网络计算第三掩膜的过程中，而插值处理所需要的运算量较少，因此该实施例能够降低训练过程中的运算量，以提高训练效率。

步骤202，基于第四掩膜与第四图像获取第七图像。基于第四掩膜所指示的第四图像中的匹配的区域，可以从第四图像中提取该匹配的区域，即可得到第七图像。

由于第四掩膜是像素值为0或1的二进制图像，且通常情况下，由1表示第四图像中的匹配的区域，所以当第四掩膜的尺寸与第四图像的尺寸相同时，可以将第四掩膜与第四图像相乘，以得到第七图像，即从第四图像中提取的非运动区域。

然而，在实际训练过程中，为了降低第一神经网络计算第四掩膜的运算量，以减少训练过程中的开销，提高训练效率，可以通过设计第一神经网络的网络结构，使得第一神经网络输出的第四掩膜的尺寸小于第四图像；在输出第四掩膜后，再将第四掩膜恢复到与第四图像相同的尺寸，最后利用与第四图像相同尺寸的掩膜获取第七图像。

下面介绍获取第七图像的具体过程。

具体地，作为一种实现的方式，第四掩膜的尺寸小于第四图像的尺寸，第四掩膜的尺寸和第四图像的尺寸的比例可以根据实际需要进行调整，本申请实施例对此不做具体限定；例如，第四掩膜的尺寸可以为第四图像的尺寸的四分之一。

相应地，步骤202包括：对第四掩膜进行插值处理，以得到与第四图像相同尺寸的第六掩膜；将第六掩膜与第四图像的乘积作为第七图像。其中，插值处理的方法有多种，本申请实施例对此不做具体限定；例如，可以采用最近邻插值、双线性插值、双三次插值等插值方法进行插值处理。

在该实施例中，输出的第四掩膜的尺寸小于第四图像的尺寸，能够降低第一神经网络计算第四掩膜的运算量；在输出第四掩膜后，对第四掩膜进行插值处理，以将尺寸恢复至与第四图像相同，由于获取第七图像的运算量主要集中在第一神经网络计算第四掩膜的过程中，而插值处理所需要的运算量较少，因此该实施例能够降低训练过程中的运算量，以提高训练效率。

步骤203，基于第六图像和第七图像获取合成图像。

基于步骤201和步骤202的相关说明可知，第六图像表示第三图像中的运动区域，第七图像表示第四图像中的非运动区域，基于第六图像和第七图像即可得到与第五图像相似的合成图像；具体地，可以将第六图像和第七图像相加，从而得到合成图像。

其中，将第六图像和第七图像相加，可以理解为将第六图像和第七图像对应位置的像素值相加。

步骤103，基于合成图像和第五图像计算损失函数。

可以理解的是，合成图像是基于第一神经网络的第二输出和第三输出计算得到的，且与第五图像具有较高的匹配度，所以将第五图像可以认为是合成图像的标签样本，根据合成图像和第五图像计算的损失函数能够反映第一神经网络的性能，该性能是指第一神经网络识别两个图像的匹配的区域和不匹配的区域的准确度。

其中，损失函数的种类有多种，本申请实施例对此不做具体限定，具体可以才采用L1损失函数、L2损失函数、结构相似(SSIM)损失函数或多尺度结构相似(MS-SSIM)损失函数。

步骤104，基于损失函数更新第一神经网络的权重。

可以理解的是，基于损失函数对第一神经网络进行反向传播，以对第一神经网络的权重进行更新，该过程也可以理解为最小化损失函数的过程。

反向传播的过程可以理解为计算损失函数对第一神经网络的各个权重的梯度，该梯度指明了权重的变化反向，基于该梯度便可以对第一神经网络的权重进行调整，以使得合成图像和第五图像尽可能地接近。

步骤101至步骤104、步骤201至步骤203均可以由图1中的图像计算设备执行，该图像计算设备包括服务器、边缘小站、云数据中心中计算设备或虚拟机中任意一种。

在本申请实施例中，第三图像是对第五图像进行模糊化处理得到的，第四图像为第五图像的参考图像，将第三图像和第四图像输入到第一神经网络，得到指示第三图像和第四图像间不匹配的区域的第二输出，以及指示第三图像和第四图像间匹配的区域的第三输出；基于该第二输出和第三输出获取合成图像，并利用合成图像和第五图像计算损失函数，最终基于损失函数更新第一神经网络的权重；由此看来，本申请实施例不需要人工标注的训练样本即可完成对第一神经网络的训练，从而实现了对第一神经网络的无监督学习，并且，减少了人工标注的训练样本所带来的标注成本，减少了训练第一神经网络的耗时，提高了训练第一神经网络的效率。

此外，第三图像是对第五图像进行模糊化处理得到的，利用模糊化处理后的第三图像和第四图像对第一神经网络进行训练，能够忽略第三图像和第四图像非运动区域中细小的像素值差别，从而避免第一神经网络将非运动区域中存在细小差别的区域错误地识别为运动区域。

此外，通过本申请实施例的方法训练第一神经网络，在训练完成后，不需要人工调节参数或重新进行训练，就能用于识别不同光照下拍摄的图像中的运动区域，能用于识别各种内容的图像中的运动区域，还能用于识别不同分辨率的图像中的运动区域。

为了便于理解，下面通过一应用例对上述训练过程进行进一步说明。

具体地，以图6中(a)所示的图像作为第五图像，以图6中(b)所示的图像作为第四图像，对图6中(a)所示的第五图像进行模糊化处理，以得到图6中(c)所示的第三图像。

图6(中c)所示的图像和图6中(b)所示的图像相比，不匹配的区域是马路中的汽车所在矩形区域(即图中所示的运动区域)，匹配的区域为除马路中的汽车所在的矩形区域外的其他区域(即图中所示的非运动区域)。

基于此，将图6中(c)所示的图像和图6中(b)所示的图像分别输入第一神经网络，根据第一神经网络的输出计算得到的合成图像如图6中(d)所示，其中，图6中(d)所示的合成图像是由图6中(c)所示的图像的运动区域和图6中(b)所示的图像的非运动区域组成。

之后，基于图6中(a)所示的图像A和图6中(d)所示的合成图像计算损失函数，并利用损失函数进行反向传播以对神经网络模型的权重进行更新，从而实现模型训练。

上面对训练阶段进行了介绍，下面对推理阶段进行介绍。

如图7所示，本申请实施例提供了一种运动区域识别的方法的一个实施例，该实施例可以基于训练阶段得到的第一神经网络实现，该实施例包括：

步骤301，获取第一图像，第一图像包括图像采集设备采集的第一区域的图像。

该图像采集设备可以为照相机，也可以为摄像机，具体可参阅图1的相关说明对该图像采集设备进行理解。第一图像为图像采集设备采集的多个图像中任意一个图像，或者，第一图像为图像采集设备采集的视频中任意一帧图像。

由于图像采集设备通常设置在某一个固定位置，所以图像采集设备采集的也是某一固定区域的图像，在该实施例中，将该固定区域称为第一区域。对应不同的图像采集设备的设置位置，第一区域也不同；例如，当图像采集设备设置在走廊时，第一区域可以为走廊；当图像采集设备设置在高速路口时，第一区域可以为高速路段。

步骤302，图像计算设备根据第一神经网络确定第一图像中的运动区域，第一神经网络为利用模糊化产生的训练数据训练获得，用于在第一图像中分割运动区域和非运动区域。

模糊化产生的训练数据可以理解为，对用于训练的图像进行模糊处理得到的模糊的图像，由于步骤101已对模糊处理进行了说明，故在此不做赘述。

下面结合图3或图4所示的第一神经网络对步骤302进行具体说明。

作为一种实现的方式，步骤302包括：

步骤401，以第一图像和第二图像作为第一神经网络的输入，获取第一神经网络的第一输出，第一输出指示第一图像和第二图像间不匹配的区域，第二图像为图像采集设备采集的第一区域的图像且与第一图像不同。

由于第二图像和第一区域都为图像采集设备采集的第一区域的图像，所以第二图像和第一图像的非运动区域通常是相同的，而运动区域是不同的；所以第二图像可以看成是第一图像的参考图像，用于识别出第一图像中的运动区域。

第二图像和第一图像可以是通过照相机拍摄的两张图像，也可以是图像采集设备拍摄的同一视频中的两帧图像。

具体地，当第一图像为图像采集设备采集的视频中任意一帧图像时，第二图像为图像采集设备采集的视频中不同于第一图像的一帧图像。

由于同一视频中的所有帧图像的非运动区域都大致相同，所以可以选择拍摄时间晚于第一图像的一帧图像作为参考图像，也可以选择拍摄时间早于第一图像的一帧图像作为参考图像。

因此，作为一种实现的方式，第一图像的拍摄时间晚于第二图像的拍摄时间。

作为另一种实现的方式，第一图像的拍摄时间早于第二图像的拍摄时间。

可以理解的是，若选择拍摄时间晚于第一图像的一帧图像作为参考图像，即第一图像的拍摄时间早于第二图像的拍摄时间，则在第一图像拍摄完成后，还需等待第二图像拍摄完成，才能对第一图像进行运动区域识别，这样便会带来时延。

因此，对于有时延要求的某些场景，可以选择拍摄时间早于第一图像的一帧图像作为参考图像，即第一图像的拍摄时间晚于第二图像的拍摄时间。

例如，在前述的视频压缩场景下，若要实现视频的实时传输，则需要实时识别每帧图像中的运动区域，所以可以选择拍摄时间早于第一图像的一帧图像作为参考图像。

理论上，设置于固定位置的摄像机拍摄的视频中的所有帧图像的非运动区域是相同的，但在实际拍摄过程中，若两帧图像的间隔时间过长，这两帧图像的非运动区域不同的可能性会变大；若选择非运动区域不同于第一图像的非运动区域的一帧图像作为第二图像，那么第一神经网络会将不同的非运动区域错误识别为运动区域。

为了尽可能地减小上述情况发生的可能性，可以控制第一图像和第二图像之间的时间间隔。

作为一种实现的方式，第一图像的拍摄时间与第二图像的拍摄时间之间的时间间隔小于第一时间间隔。该第一时间间隔与训练阶段的第二时间间隔可以相同，也可以不同；为了避免第一时间间隔与第二时间间隔不同而影响第一神经网络的识别结果，可以控制第一时间间隔与第二时间间隔相同。

基于上述说明可知，第一图像和第二图像之间需要满足一定关系，所以在识别第一图像的运动区域之前，需要先选择与该第一图像之间满足一定关系的另一张图像作为第二图像。

需要说明的是，选择与该第一图像满足一定关系的第二图像的方法，与训练阶段选择满足一定关系的第四图像和第五图像的方法相同，即先将视频中的所有帧图像进行配对，基于配对情况选择第二图像，具体可参阅训练阶段中图5的相关说明。

与第二输出和第三输出类似，第一输出的形式也可以由多种，本申请实施例对此不做具体限定，例如，第一输出也可以为掩膜mask的形式。

作为一种实现的方式，第一输出为第一掩膜。由于掩膜是像素值为0或1的二进制图像，所以在本申请实施例中，第一掩膜中1所指示的区域为第一图像和第二图像间不匹配的区域。

在本申请实施例中，匹配可以为部分相同，也可以为全部相同。

步骤402，根据第一输出和第一图像确定第一图像中的运动区域。

由于第一输出指示第一图像和第二图像间不匹配的区域，所以基于第一输出可以从第一图像中提取运动区域。当第一输出为第一掩膜时，若第一掩膜的尺寸与第一图像相同，则可以将第一掩膜和第一图像相乘，以得到第一图像中的运动区域。然而，在实际识别过程中，为了减少第一神经网络计算计算第一掩膜的运算量，以提高运动区域的识别效率，可以通过设计第一神经网络的网络结构，使得第一神经网络输出的第一掩膜的尺寸小于第一图像；在输出第一掩膜后，再将第一掩膜恢复到与第一图像相同的尺寸，最后利用与第一图像相同尺寸的掩膜获取运动区域。

与训练阶段类似，也可以通过插值处理的方法恢复第一掩膜的尺寸。具体地，作为一种实现的方式，第一掩膜的尺寸小于第一图像的尺寸，第一掩膜的尺寸和第一图像的尺寸的比例可以根据实际需要进行调整，本申请实施例对此不做具体限定；例如，第一掩膜的尺寸可以为第一图像的尺寸的四分之一。

相应地，步骤402包括：对第一掩膜进行插值处理，以得到与第一图像相同尺寸的第二掩膜；将第二掩膜与第一图像的乘积作为第一图像中的运动区域。

其中，插值处理的方法有多种，本申请实施例对此不做具体限定；例如，可以采用最近邻插值、双线性插值、双三次插值等插值方法进行插值处理。

在该实施例中，输出的第一掩膜的尺寸小于第一图像的尺寸，能够降低计算第一掩膜的运算量；在输出第一掩膜后，对第一掩膜进行插值处理，以将尺寸恢复至与第一图像相同，由于确定运动区域的运算量主要集中在第一掩膜的计算中，而插值处理所需要的运算量较少，因此该实施例能够减少识别过程中的运算量，以提高运动区域的识别效率。

上述实施例是通过插值处理恢复第一掩膜的尺寸，以确定第一图像中的运动区域；除此之外，还可以通过其他方法恢复第一掩膜的尺寸，以确定第一图像中的运动区域。下面介绍另外一种方法。

作为一种实现的方式，第一掩膜的尺寸小于第一图像的尺寸，相应地，步骤402包括：

步骤501，确定第一掩膜中的连通区域。

若在一个区域内任做一条闭合曲线，该闭合曲线内部都属于该区域，则该区域可以称为连通区域。

在该实施例中，由于第一掩膜是像素值为0或1的二进制图像，所以第一掩膜中的连通区域可以理解为某个像素值全部为1的区域，则在这个像素值全部为1的区域中任做一条闭合曲线，该闭合曲线内部的像素值都为1。

其中，第一掩膜中的连通区域的数量可以为一个，也可以为多个。

例如，如图8所示，该第一掩膜中包含2个连通区域，每个连通区域用1表示，第一掩膜中除这2个连通区域外的其余区域用0表示。

步骤502，计算包围连通区域的第一矩形。

第一矩形包围连通区域可以理解为连通区域位于第一矩形内，该第一矩形可以是最小外接矩形，该最小外接矩形也可以称为最小边界矩形、最小包含矩形或最小外包矩形。

如图8所示，在第一掩膜中用虚线框示出了包围其中一个连通区域的第一矩形。

步骤503，对第一矩形进行放大以得到第二矩形，第一矩形的尺寸与第二矩形的尺寸的比例，等于第一掩膜的尺寸与第一图像的尺寸的比例。

具体地，可以依据第一掩膜的尺寸与第一图像的尺寸的比例对第一矩形的位置、长和宽进行放大，以得到第二矩形。

步骤504，基于第二矩形确定与第一图像相同尺寸的第二掩膜，第二掩膜包含第二矩形，且第二掩膜位于第二矩形外的区域的像素值为0，第二掩膜位于第二矩形内的区域的像素值为1。

如图8所示，第二掩膜的尺寸与第一图像的尺寸相同，在第二掩膜中用虚线框表示第二矩形，第二矩形内的区域用1表示，第二掩膜位于第二矩形外的区域用0表示。

步骤505，将第二掩膜与第一图像的乘积作为第一图像中的运动区域。

由于在第二掩膜中，只有第二矩形内的区域的像素值为1，第二矩形外的区域的像素值都为0，所以将第二掩膜与第一图像相乘后，得到的是第一图像中与第二矩形对应的区域，并将该区域作为第一图像中的运动区域。

需要说明的是，除了将第二掩膜与第一图像相乘外，还可以根据第二掩膜对第一图像中的像素进行逐个处理，具体地，将第一图像中与第二矩形对应的区域外的每个像素的像素值依次置0。

在该实施例中，先确定第一掩膜中的连通区域，然后计算包围连通区域的第一矩形，再对第一矩形进行放大以得到第二矩形，此后基于第二矩形确定与第一图像相同尺寸的第二掩膜，最后将第二掩膜与第一图像的乘积作为第一图像中的运动区域；相比于通过插值处理放大第一掩膜，该实施例能够减少计算量，提高计算速度，从而提高运动区域的识别效率。

其中，步骤401至步骤402、步骤501至步骤505均由图像计算设备执行。

步骤303，在显示设备中呈现第一图像的运动区域。

在本申请实施例中，第一神经网络为利用模糊化产生的训练数据训练获得的，不需要人工标注的训练样本，所以能够避免人工标注训练样本的过程带来人为错误，减少整个运动区域识别过程的耗时，提高整个运动区域识别的效率；并且，虽然训练阶段需要通过模糊处理获取训练数据，但在推理阶段，不需要对第一图像进行模糊处理，所以不增加识别运动区域的复杂性。

对比训练阶段和推理阶段可知，在训练阶段，需要利用第一神经网络的第二输出和第三输出对第一神经网络进行训练，而在推理阶段，进需要利用第一神经网络的第一输出便可以识别出图像中的运动区域；这一点从图7中也可以看出，如图7所示，仅利用第一输出便可以得到运动区域，而指示第一图像和第二图像匹配区域的输出并未利用。

因此，在训练得到第一神经网络后，可以对第一神经网络进行剪枝，以去用于输出匹配区域的分支，并将经过剪枝后的第一神经网络部署到图像计算设备中。

本申请实施例提供的方法由运动区域识别的系统执行，系统包括图像采集设备、图像计算设备和显示设备。

具体可参阅图1的相关说明对图像采集设备、图像计算设备和显示设备进行理解。

如图9所示，本申请实施例还提供了一种运动区域识别的装置的一个实施例，该实施例包括：

获取单元601，用于获取第一图像，第一图像包括图像采集设备采集的第一区域的图像；

运动区域确定单元602，用于根据第一神经网络确定第一图像中的运动区域，第一神经网络为利用模糊化产生的训练数据训练获得，用于在第一图像中分割运动区域和非运动区域；

显示单元603，用于呈现第一图像的运动区域。

应理解的是，本申请实施例的装置可以通过中央处理器(CPU)实现，也可以通过专用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logic device，PLD)实现，上述PLD可以是复杂程序逻辑器件(complexprogrammable logical device，CPLD)，现场可编程门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。也可以通过软件实现上述方法流程图中所示的运动区域识别的方法时，装置及其各个模块也可以为软件模块。

根据本申请实施例的装置可对应于执行本申请实施例中描述的方法，并且装置中的各个单元的上述和其它操作和/或功能分别为了实现图2至图8中的各个方法的相应流程，为了简洁，在此不再赘述。

可选地，第一图像为图像采集设备采集的多个图像中任意一个图像，或者，第一图像为图像采集设备采集的视频中任意一帧图像。

可选地，运动区域确定单元602，还用于以第一图像和第二图像作为第一神经网络的输入，获取第一神经网络的第一输出，第一输出指示第一图像和第二图像间不匹配的区域，第二图像为图像采集设备采集的第一区域的图像且与第一图像不同；根据第一输出和第一图像确定第一图像中的运动区域。

可选地，当第一图像为图像采集设备采集的视频中任意一帧图像时，第二图像为图像采集设备采集的视频中不同于第一图像的一帧图像。

可选地，第一图像的拍摄时间晚于第二图像的拍摄时间。或者，第一图像的拍摄时间早于第二图像的拍摄时间。或者，第一图像的拍摄时间与第二图像的拍摄时间之间的时间间隔小于第一时间间隔。

可选地，第一输出为第一掩膜，第一掩膜的尺寸小于第一图像的尺寸；运动区域确定单元602，用于对第一掩膜进行插值处理，以得到与第一图像相同尺寸的第二掩膜；将第二掩膜与第一图像的乘积作为第一图像中的运动区域。

可选地，第一输出为第一掩膜，第一掩膜的尺寸小于第一图像的尺寸；运动区域确定单元602，用于确定第一掩膜中的连通区域；计算包围连通区域的第一矩形；对第一矩形进行放大以得到第二矩形，第一矩形的尺寸与第二矩形的尺寸的比例，等于第一掩膜的尺寸与第一图像的尺寸的比例；基于第二矩形确定与第一图像相同尺寸的第二掩膜，第二掩膜包含第二矩形，且第二掩膜位于第二矩形外的区域的像素值为0，第二掩膜位于第二矩形内的区域的像素值为1；将第二掩膜与第一图像的乘积作为第一图像中的运动区域。

可选地，第一神经网络包括差分子网络、Unet子网络和输出子网络；差分子网络用于基于第一图像和第二图像输出第一特征图像，第一特征图像包含第一图像和第二图像间的不同特征；Unet子网络用于对第一特征图像中的不同特征进行处理；输出子网络用于基于Unet子网络的处理结果计算第一输出。

可选地，该装置还包括：训练单元604，用于以第三图像和第四图像作为第一神经网络的输入，获取第一神经网络的第二输出和第三输出，第三图像是对第五图像进行模糊化处理得到的，第四图像为第五图像的参考图像，第二输出指示第三图像和第四图像间不匹配的区域，第三输出指示第三图像和第四图像间匹配的区域；获取合成图像，合成图像是基于第六图像和第七图像确定的，第六图像是基于第二输出和第三图像得到的，第七图像是基于第三输出和第四图像得到的；基于合成图像和第五图像计算损失函数；基于损失函数更新第一神经网络的权重。

可选地，第五图像和第四图像为同一视频中的两帧图像。或者，第五图像的拍摄时间晚于第四图像的拍摄时间。或者，第五图像的拍摄时间早于第四图像的拍摄时间。或者，第五图像的拍摄时间与第四图像的拍摄时间之间的时间间隔小于第二时间间隔。

可选地，第二输出为第三掩膜，第三输出为第四掩膜；训练单元604用于基于第三掩膜与第三图像获取第六图像；基于第四掩膜与第四图像获取第七图像；基于第六图像和第七图像获取合成图像。

可选地，第三掩膜的尺寸小于第三图像的尺寸；训练单元604用于对第三掩膜进行插值处理，以得到与第三图像相同尺寸的第五掩膜；将第五掩膜与第三图像的乘积作为第六图像。

可选地，第四掩膜的尺寸小于第四图像的尺寸；训练单元604用于对第四掩膜进行插值处理，以得到与第四图像相同尺寸的第六掩膜；将第六掩膜与第四图像的乘积作为第七图像。

可选地，方法由运动区域识别的系统执行，系统包括图像采集设备、图像计算设备和显示设备。

可选地，图像计算设备包括服务器、边缘小站、云数据中心中计算设备或虚拟机中任意一种。

其中，以上各单元的具体实现、相关说明以及技术效果请参考本申请实施例方法的描述。

本申请实施例还提供了一种运动区域识别的设备的实施例，请参阅图10，图10是本申请实施例提供的运动区域识别的设备一种结构示意图，运动区域识别的设备1800由一个或多个运动区域识别的设备实现，运动区域识别的设备1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1822，例如，中央处理器(centralprocessing units，CPU)(例如，一个或一个以上处理器)、内存单元1830、通信接口1858和存储器1832。处理器1822、内存单元1830和存储器1832通过总线1860相连，通信接口1858用于实现设备1800与其他设备的通信连接。

其中，处理器1822还可以是其他通用处理器、数字信号处理器(digital signalprocessing，DSPDSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、图形处理器(graphics processingunit，GPU)、神经网络处理单元(neural processing unit，NPU)、张量处理器(tensorprocessing unit，TPU)、人工智能(artificial intelligent)芯片等。通用处理器可以是微处理器或者是任何常规的处理器等。

内存单元1830中部署有操作系统1841和相应的程序代码1842。

该存储器1832可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)

总线1860除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线1860。

应理解，根据本申请实施例的设备可对应于本申请实施例中图9所述的装置，并可以对应于执行根据本申请实施例的方法中的相应主体，并且图10所示的设备中的各个模块的上述和其它操作和/或功能分别为了实现图2至图8中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种运动区域识别的系统，该系统包括如图1所示的图像采集设备10、图像计算设备11和显示设备12。

图像采集设备10，用于采集的第一区域的图像；

图像计算设备11，用于获取第一图像，第一图像为图像采集设备采集的第一区域的图像；以及，根据第一神经网络确定第一图像中的运动区域，第一神经网络为利用模糊化产生的训练数据训练获得，用于在第一图像中分割运动区域和非运动区域；

显示设备12，用于呈现第一图像的运动区域。

此外，图像采集设备10、图像计算设备11和显示设备12还分别用于执行上述图2至图8所示方法中相应主体的操作步骤，为了简洁，在此不再赘述。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive，SSD)。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种运动区域识别的方法，其特征在于，所述方法包括：

获取第一图像，所述第一图像包括图像采集设备采集的第一区域的图像；

根据第一神经网络确定所述第一图像中的运动区域，所述第一神经网络为利用模糊化产生的训练数据训练获得，用于在所述第一图像中分割运动区域和非运动区域；

在显示设备中呈现所述第一图像的运动区域。

2.根据权利要求1所述的方法，其特征在于，所述根据第一神经网络确定所述第一图像中运动区域包括：

以所述第一图像和第二图像作为第一神经网络的输入，获取所述第一神经网络的第一输出，所述第一输出指示所述第一图像和所述第二图像间不匹配的区域，所述第二图像为图像采集设备采集的第一区域的图像且与所述第一图像不同；

根据所述第一输出和所述第一图像确定所述第一图像中的运动区域。

3.根据权利要2所述的方法，其特征在于，所述第一输出为第一掩膜，所述第一掩膜的尺寸小于所述第一图像的尺寸；

所述根据所述第一输出和所述第一图像确定所述第一图像中的运动区域包括：

对所述第一掩膜进行插值处理，以得到与所述第一图像相同尺寸的第二掩膜；

将所述第二掩膜与所述第一图像的乘积作为所述第一图像中的运动区域。

4.据权利要求2所述的方法，其特征在于，所述第一输出为第一掩膜，所述第一掩膜的尺寸小于所述第一图像的尺寸；

确定所述第一掩膜中的连通区域；

计算包围所述连通区域的第一矩形；

对所述第一矩形进行放大以得到第二矩形，所述第一矩形的尺寸与所述第二矩形的尺寸的比例，等于所述第一掩膜的尺寸与所述第一图像的尺寸的比例；

基于所述第二矩形确定与所述第一图像相同尺寸的第二掩膜，所述第二掩膜包含所述第二矩形，且所述第二掩膜位于所述第二矩形外的区域的像素值为0，所述第二掩膜位于所述第二矩形内的区域的像素值为1；

5.根据权利要求1至4中任一所述的方法，其特征在于，所述方法由运动区域识别的系统执行，所述系统包括所述图像采集设备、图像计算设备和显示设备。

6.根据权利要求5所述的方法，其特征在于，所述图像计算设备包括服务器、边缘小站、云数据中心中计算设备或虚拟机中任意一种。

7.一种运动区域识别的装置，其特征在于，所述方法包括：

获取单元，用于获取第一图像，所述第一图像包括图像采集设备采集的第一区域的图像；

运动区域确定单元，用于根据第一神经网络确定所述第一图像中的运动区域，所述第一神经网络为利用模糊化产生的训练数据训练获得，用于在所述第一图像中分割运动区域和非运动区域；

显示单元，用于呈现所述第一图像的运动区域。

8.一种运动区域识别的设备，其特征在于，包括：一个或多个处理器和存储器；其中，所述存储器中存储有计算机可读指令；

所述一个或多个处理器读取所述计算机可读指令，以使所述训练设备实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，包括计算机可读指令，当所述计算机可读指令在计算机上运行时，使得所述计算机执行如权利要求1至6中任一项所述的方法。

10.一种运动区域识别的系统，其特征在于，所述系统包括图像采集设备、图像计算设备和显示设备；

所述图像采集设备用于采集的第一区域的图像；

所述图像计算设备，用于获取第一图像，所述第一图像为所述图像采集设备采集的所述第一区域的图像；

所述图像计算设备，还用于根据第一神经网络确定所述第一图像中的运动区域，所述第一神经网络为利用模糊化产生的训练数据训练获得，用于在所述第一图像中分割运动区域和非运动区域；

所述显示设备，用于呈现所述第一图像的运动区域。