CN113570640A

CN113570640A - 一种视频图像处理的方法及装置

Info

Publication number: CN113570640A
Application number: CN202111125381.2A
Authority: CN
Inventors: 周凯来; 陈林森; 李昀谦; 祖永祥; 王远卓; 陈文龙; 李晗; 黄奥成; 张梦雅
Original assignee: Nanjing Zhipu Technology Co ltd
Current assignee: Nanjing Zhipu Technology Co ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-10-29
Anticipated expiration: 2041-09-26
Also published as: CN113570640B

Abstract

本发明提供了一种视频图像处理的方法及装置，所述方处理法包括：获取当前的视频图像序列；根据该视频图像序列获得当前的深度特征矩阵；根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵,其中，利用混合高斯模型表示深度特征矩阵中任一空间位置的深度特征的时间分布；根据当前的时空形态变化特征矩阵进行视频图像处理。本发明方法及装置在显式挖掘时空形态变化特征时具有计算量小、模型复杂度低的优点。

Description

一种视频图像处理的方法及装置

技术领域

本申请涉及图像处理领域，特别是涉及一种视频图像处理的方法及装置。

背景技术

随着数字化时代的到来，视频作为当今最被广为使用的媒体形式,已逐渐占超过文字和图片，这使得视频理解变得尤为重要。相比图像，视频多了一维时序信息。如何利用好视频中的时序信息是一个值得研究的关键问题。

然而传统的帧差法对环境噪声较为敏感，阈值的选择相当关键，对于比较大的、颜色一致的运动目标，有可能在目标内部产生空洞，无法完整地提取运动目标。它仅仅适应于相机静止的情况。光流法计算复杂，很难实现实时处理，噪声、多光源、阴影和遮挡等因素会对光流场分布的计算结果造成严重影响;基于深度学习的视频特征提取方法有三维卷积法、双流网络法等，三维卷积法通过3D CNN实现对时间与空间信息的捕捉，但是其计算复杂度大、网络参数众多，并且缺乏对时空形态变化特征的策略引导。双流卷积法用两个CNN网络一个来处理空域信息一个来处理时域信息，虽然相比于三维卷积法网络模型参数量得到减少，但是其依赖于预先视频的光流提取，并且对于长视频来说，在特征学习中会损失时序信息。

因此如何在深度卷积骨干网络中提取目标物体的时空形态变化特征是本申请有待于解决的问题。

发明内容

有鉴于此，本发明实施例提出一种视频图像处理的方法及装置，通过一段长度的视频图像序列获得保留历史记忆的深度特征矩阵的序列，利用混合高斯模型描述深度特征矩阵中各位置的深度特征，并根据时间连续的各深度特征矩阵更新混合高斯模型以匹配视频图像中多模态序列的形态变化，从而抽取视频图像的时空形态变化特征，用于实现视频图像的包括目标检测和语义分割等图像处理功能。本发明实施例的方法及装置在显式挖掘时空形态变化特征时具有计算量小、模型复杂度低的优点。

本申请实施例的第一方面提供了一种视频图像处理的方法，包括：获取当前的视频图像序列，其中，当前的视频图像序列包括到当前时间的若干帧视频图像；根据当前的视频图像序列获得当前的深度特征矩阵，其中，深度特征矩阵为由各个空间位置的深度特征而组成的矩阵，深度特征包括若干个通道特征；根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵, 其中，利用该混合高斯模型表示深度特征矩阵中任一空间位置的深度特征的时间分布；根据当前的时空形态变化特征矩阵进行视频图像处理。

由上，利用混合高斯模型描述保留历史记忆的深度特征矩阵中各位置的深度特征，并根据时间连续的各深度特征矩阵更新混合高斯模型以匹配视频图像中多模态序列的形态变化，从而抽取视频图像的时空形态变化特征。本发明的方法实施例在显式挖掘时空形态变化特征时降低计算深度特征矩阵所根据的视频图像的帧数，使深度特征矩阵计算深度特征的模型具有计算量小、模型复杂度低的优点。

作为第一方面的一种可能实施方式，根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵，包括：根据当前的深度特征矩阵和上一时间的混合高斯模型的参数获得当前的混合高斯模型的参数，其中，混合高斯模型的参数包括各高斯模型的均值、特征方差和权值，特征方差为高斯模型的通道特征的方差基于通道的平均值；根据当前的深度特征矩阵和最新的各高斯模型的均值获得当前的空间注意力矩阵；根据该空间注意力矩阵和当前的深度特征矩阵确定当前的时空形态变化特征矩阵。

由上，根据匹配视频图像中多模形态变化的混合高斯模型构建空间注意力矩阵，使注意力矩阵综合视频图像中多模形态变化，并据此从当前的深度特征矩阵中获得当前的时空形态变化矩阵，从而使时空形态变化矩阵的序列匹配视频图像中多模形态变化。

作为第一方面的一种可能实施方式，在根据当前的深度特征矩阵和上一时间的混合高斯模型的参数获得当前的混合高斯模型的参数之前，还包括：在视频图像的起始时间对混合高斯模型的参数进行初始化，其中，初始化后的各高斯模型的均值包括起始时间的深度特征矩阵的相应空间位置的深度特征中各通道特征的值，相同空间位置的初始化后的各高斯模型的特征方差不同。

由上，通过把混合高斯模型各高斯模型的高阶特性的特征方差设置为不同值，从而使各高斯模型在后续更新中匹配视频图像中不同模式的形态变化。

作为第一方面的一种可能实施方式，根据当前的深度特征矩阵和上一时间的混合高斯模型的参数获得当前的混合高斯模型的参数，包括：根据当前的深度特征矩阵和上一时间的混合高斯模型的参数，获得当前的深度特征矩阵的每个空间位置的各高斯模型的掩模值；根据该掩模值更新上一时间的混合高斯模型的参数和/或变化上一时间的混合高斯模型，并作为当前新的混合高斯模型。

由上，根据基于当前的深度特征矩阵和上一时间的混合高斯模型的参数而生成的掩模值，反应了上一时间的各高斯模型与当前的深度特征是否匹配，并以此更新上一时间的混合高斯模型，并作为当前新的混合高斯模型，从而使当前新的混合高斯模型准确表达视频图形中多模态序列的变化。

作为第一方面的一种可能实施方式，空间注意力矩阵由深度特征矩阵的每个空间位置的空间注意力组成，空间注意力基于该每个空间位置的深度特征与各个高斯模型的均值的第一偏移程度而确定。在一些实施例中，该第一偏移程度基于该每个空间位置的深度特征与各个高斯模型的均值的二阶距离而确定，偏移程度越大，空间注意力越大。

由上，根据每个空间位置的深度特征与各个高斯模型的均值的第一偏移程度而确定的空间注意力矩阵，使空间注意力矩阵准确反映视频图像中多模态序列的变化。

作为第一方面的一种可能实施方式，获得当前的深度特征矩阵的每个空间位置的各高斯模型的掩模值，包括：获得当前的深度特征矩阵的每个空间位置的深度特征与上一时间的相同空间位置的各高斯模型的均值的各第二偏移程度；当前的深度特征矩阵的一个空间位置的深度特征与一个高斯模型的第二偏移程度大于该高斯模型的特征方差的设定倍数时，该相应空间位置的该高斯模型的掩模值为True，否则为False。

由上，根据基于一个空间位置的深度特征和上一时间的一高斯模型的均值而生成的二阶距离指标，通过其与于该高斯模型的特征方差的设定倍数而生成的掩模值，从高阶特性上准确反应了上一时间的该高斯模型与当前的深度特征中包含是否匹配，即一个空间位置的视频图像与一高斯模型对应的一个模态的形态是否匹配。

作为第一方面的一种可能实施方式，根据掩模值更新上一时间的混合高斯模型的参数，包括：当前的深度特征矩阵的一个空间位置P的任一高斯模型j的掩模值为True时，更新当前的深度特征矩阵的空间位置P的高斯模型j的参数；当前的深度特征矩阵的一个空间位置的所有高斯模型的掩模值为False时，删除该空间位置的模型重要性低于设定阈值的高斯模型；以及增加新的高斯模型以替代被删除的高斯模型，其中，模型重要性基于高斯模型的权值和特征方差而确定；基于每个空间位置混合高斯模型中高斯模型的变化，对该空间位置的最新的混合高斯模型中各高斯模型的权值归一化。

由上，根据掩模值更新上一时间的混合高斯模型的参数，且在当前的高斯模型均与深度特征不匹配时，更换重要性较低的模型，使混合高斯模型准确反应视频图像中多模态的形态变化。

作为第一方面的一种可能实施方式，更新空间位置P的高斯模型j的参数，包括：利用当前的深度特征矩阵的空间位置P的深度特征基于设定的更新率更新上一时间的空间位置P的高斯模型j的均值；利用当前的深度特征矩阵的空间位置P的深度特征基于更新率更新上一时间的空间位置P的高斯模型j的特征方差；对当前的空间位置P的高斯模型j的权值步长与权值的和作为更新后的空间位置P的高斯模型j的权值，其中，权值步长基于当前的空间位置P的高斯模型j的权值与更新率确定。

由上，因为连续的视频图像之间时间差别较小，连续的深度特征矩阵差别也较小，利用当前的深度特征矩阵基于设置的更新率逐渐更新各高斯模型的参数，使各高斯模型准确表达视频图像中多模态序列的形态变化。

作为第一方面的一种可能实施方式，深度特征矩阵的空间位置为视频图像的空间位置的下采样。

由上，设置合理的下采样步长，使深度特征矩阵准确表达视频图像的特征，且降低计算量。

本申请实施例第二方面提供了一种获得视频图像的处理装置，包括：视频图像获取模块，用于获取当前的视频图像序列，其中，当前的视频图像序列包括到当前时间的若干帧视频图像；深度特征提取模块，用于根据当前的视频图像序列获得当前的深度特征矩阵，其中，深度特征矩阵为由各个空间位置的深度特征而组成的矩阵，深度特征包括若干个通道特征；时空特征提取模块，用于根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵, 其中，利用混合高斯模型表示深度特征矩阵中任一空间位置的深度特征的时间分布；图像处理模块，用于根据当前的时空形态变化特征矩阵进行视频图像处理。

作为第二方面的一种可能实施方式，时空特征提取模块，包括：模型参数更新模块，用于根据当前的深度特征矩阵和上一时间的混合高斯模型的参数获得当前的混合高斯模型的参数，其中，混合高斯模型的参数包括各高斯模型的均值、特征方差和权值，特征方差为高斯模型的通道特征的方差基于通道的平均值；注意力矩阵获得模块，用于根据当前的深度特征矩阵和最新的各高斯模型的均值获得当前的空间注意力矩阵；时空特征获得模块，用于根据该空间注意力矩阵和当前的深度特征矩阵确定当前的时空形态变化特征矩阵。

作为第二方面的一种可能实施方式，时空特征提取模块还包括模型初始化模块，用于在视频图像的起始时间对混合高斯模型的参数进行初始化，其中，初始化后的各高斯模型的均值包括起始时间的深度特征矩阵的相应空间位置的深度特征中各通道特征的值，相同空间位置的初始化后的各高斯模型的特征方差不同。

作为第二方面的一种可能实施方式，模型参数更新模块包括：掩模值获得模块，用于根据当前的深度特征矩阵和上一时间的混合高斯模型的参数，获得当前的深度特征矩阵的每个空间位置的各高斯模型的掩模值；高斯模型更新模块，用于根据该掩模值更新上一时间的混合高斯模型的参数和/或变化上一时间的混合高斯模型，并作为当前新的混合高斯模型。

作为第二方面的一种可能实施方式，空间注意力矩阵由深度特征矩阵的每个空间位置的空间注意力组成，空间注意力基于该每个空间位置的深度特征与各个高斯模型的均值的第一偏移程度而确定。在一些实施例中，该第一偏移程度基于该每个空间位置的深度特征与各个高斯模型的均值的二阶距离而确定，偏移程度越大，空间注意力越大。

由上，根据各空间位置的深度特征与各个高斯模型的均值的第一偏移程度而确定每个空间注意力矩阵，使空间注意力矩阵准确反映视频图像中多模态序列的变化。

作为第二方面的一种可能实施方式，掩模值获得模块具体用于获得当前的深度特征矩阵的每个空间位置的深度特征与上一时间的相同空间位置的各高斯模型的均值的各第二偏移程度；掩模值获得模块还具体用于当前的深度特征矩阵的一个空间位置的深度特征与一个高斯模型的第二偏移程度大于该高斯模型的特征方差的设定倍数时，该相应空间位置的该高斯模型的掩模值为True，否则为False。

作为第二方面的一种可能实施方式，高斯模型更新模块包括：模型参数更新模块，用于当前的深度特征矩阵的一个空间位置P的任一高斯模型j的掩模值为True时，更新当前的深度特征矩阵的空间位置P的高斯模型j的参数；高斯模型变化模块用于当前的深度特征矩阵的一个空间位置的所有模型的掩模值为False时，删除该空间位置的模型重要性低于设定阈值的高斯模型；以及高斯模型变化模块还用于增加新的高斯模型以替代被删除的高斯模型，其中，模型重要性基于高斯模型的权值和特征方差而确定；模型权值归一模块还具体用于基于每个空间位置混合高斯模型中高斯模型的变化，对该空间位置的最新的混合高斯模型中各高斯模型的权值归一化。

作为第二方面的一种可能实施方式，模型参数更新模块具体用于利用当前的深度特征矩阵的空间位置P的深度特征基于设定的更新率更新上一时间的空间位置P的高斯模型j的均值；模型参数更新模块还具体用于利用当前的深度特征矩阵的空间位置P的深度特征基于更新率更新上一时间的空间位置P的高斯模型j的特征方差；模型参数更新模块还具体用于对当前的空间位置P的高斯模型j的权值步长与权值的和作为更新后的空间位置P的高斯模型j的权值，其中，权值步长基于当前的空间位置P的高斯模型j的权值与更新率确定。

作为第二方面的一种可能实施方式，深度特征矩阵的空间位置为视频图像的空间位置的下采样。

本申请实施例的第三方面提供了一种计算设备，包括：

总线；

通信接口，其与总线连接；

至少一个处理器，其与总线连接；以及

至少一个存储器，其与总线连接并存储有程序指令，程序指令当被至少一个处理器执行时使得至少一个处理器执行本发明的第一方面和第一方面任一可能的实施方式。

本申请实施例的第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令当被计算机执行时使得计算机执行本发明的第一方面和第一方面任一可能的实施方式。

附图说明

图1A为本发明的一种视频图像处理的方法实施例的流程示意图；

图1B为本发明的一种视频图像处理的方法实施例的时空形态变化特征矩阵提取方法的流程示意图；

图1C为本发明的一种视频图像处理的方法实施例的模型更新方法的流程示意图；

图2A为本发明的一种视频图像处理的方法的具体实施方式的流程示意图；

图2B为本发明的一种视频图像处理的方法的具体实施方式的流程示意图；

图2C为本发明的一种视频图像处理的方法的具体实施方式的时空形态变化特征矩阵提取过程的示意图；

图3A为本发明的一种视频图像处理的装置实施例的结构示意图；

图3B为本发明的一种视频图像处理的装置实施例的时空特征提取模块的结构示意图；

图3C为本发明的一种视频图像处理的装置实施例的模型参数更新模块的结构示意图；

图3D为本发明的一种视频图像处理的装置实施例的高斯模型更新模块的结构示意图；

图4为本发明实施例提供的计算设备的结构示意图。

具体实施方式

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三等”或模块A、模块B、模块C等，仅用于区别类似的对象，或用于区别不同的实施例，不代表针对对象的特定排序，可以理解地，在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的表示步骤的标号，如S110、S120……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

本发明实施例提出了一种视频图像处理的方法及装置，通过一段长度的视频图像序列获得保留历史记忆的深度特征矩阵的序列，利用混合高斯模型描述深度特征矩阵中各位置的深度特征，并根据时间连续的各深度特征矩阵更新混合高斯模型以匹配视频图像中多模态序列的形态变化，从而抽取视频图像的时空形态变化特征，用于实现视频图像的包括目标检测和语义分割等图像处理功能。本发明实施例的方法及装置在显式挖掘时空形态变化特征时具有计算量小、模型复杂度低的优点。

下面结合附图详细介绍本发明各实施例。

【一种视频图像处理的方法实施例】

下面基于图1A至图1C介绍一种视频图像处理的方法实施例。

一种视频图像处理的方法实施例

图1A示出了一种视频图像处理的方法实施例的流程，包括步骤S110至S140。

S110：获取视频图像序列。

其中，所获取的视频图像序列长度为

，示例地，为后续抽取深度特征时既能抽取时间特征也不会占用太大的算力，

的取值范围为7到12。

S120：根据当前的视频图像序列获得当前的深度特征矩阵

其中，该深度特征矩阵是由各个空间位置的深度特征组成的矩阵，又称作深度特征图，每个深度特征包括C个通道特征。

在一些实施例中，该深度特征矩阵是利用经典骨干网络从所获取的视频图像序列中抽取的。示例地，经典骨干网络为VGG16、ResNet、DLA（Deep Layer Aggregation）。

在一些实施例中，深度特征图（深度特征矩阵）为下采样图，采样步长为s, 当输入图像大小为H*W*1时，深度卷积神经网络获取的深度特征矩阵为

示例地，s为4，以保留空间上分布特征。

由上，基于合适长度的视频图像序列获得的深度特征矩阵具有时空变化的历史记忆，后续结合混合高斯模型降低计算深度特征矩阵所根据的视频图像的帧数，便于挖掘时空方面的特征。

S130：根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵。

其中，深度特征矩阵中任一空间位置的深度特征的时间分布是利用混合高斯模型而表示的，混合高斯模型包括K个高斯模型，示例地，K为3到5。每个高斯模型的参数包括均值、特征方差和权值，各权值的和为1，特征方差为高斯模型的通道特征的方差基于通道数目的平均值。在一些实施例中，每个高斯模型的参数还包括特征标准差，等于特征方差的开根号的正值。

由上，单个高斯模型只能描述视频图像序列的单一模式，当背景表现为星星闪烁或者树叶晃动等的多模态形式时极易检错。混合高斯模型利用多个高斯模型表示一个深度特征图时，使得模型在多模态背景中具有鲁棒性。示例地，以星星闪烁的背景为例：当星星变亮时，该深度特征图空间位置的信息用一个高斯模型表示，当星星变暗时，用另一个高斯模型表示该空间位置的深度特征信息，通过将新的序列图片中的深度特征与多个高斯模型进行匹配，从而增加模型的鲁棒性。

图1B示出了本步骤的时空形态变化特征矩阵提取方法的流程，包括子步骤S1310至S1330。

S1310：根据当前的深度特征矩阵更新上一时间的每个位置的混合高斯模型，并作为当前的每个位置的新的混合高斯模型。

其中，本步骤的处理以深度特征矩阵中空间位置为单位进行处理，每个空间位置的处理方法相同，本步骤还以混合高斯模型中高斯模型为单位进行处理，每个高斯模型的操作相同。为了便于描述，下面以第一空间位置表示任一个空间位置、以第一高斯模型表示该任一高斯模型为例进行说明。

需要指出的是，在一些实施例中，在视频图像的起始时间还对深度特征矩阵中的第一空间位置的混合高斯模型的参数进行初始化，其中，初始化后的第一位置的每个高斯模型均值中通道均值等于起始时间的深度特征矩阵的第一空间位置的深度特征中对应的通道特征的值，相同空间位置的初始化后的各高斯模型的特征方差不同，相同空间位置的初始化后的各高斯模型的权值相同。

由上，通过利用深度特征矩阵逐步更新混合高斯模型，使混合高斯模型具有记忆时空变化的信息，降低计算深度特征矩阵所根据的视频图像的帧数，从而降低计算深度特征矩阵的经典骨干网络的模型计算量和复杂度。

图1C示出了本步骤的模型更新方法的流程，包括子步骤S1312至S1318。

S1312：根据当前的深度特征矩阵和上一时间的混合高斯模型的参数，获得当前的深度特征矩阵的每个空间位置的每个高斯模型的掩模值。

其中，对第一位置的第一高斯模型的掩模值的获得方法具体包括：

（1）获得当前的深度特征矩阵的第一空间位置的深度特征与上一时间的第一空间位置的第一高斯模型的均值的第二偏移程度，即第二偏移指标。

其中，第二偏移指标表示在一些实施例中，第二偏移指标为第一高斯模型的均值中各通道特征均值与相同空间位置的深度特征中相应通道特征的差的平方基于通道数目的平均值。

（2）当前的深度特征矩阵的第一空间位置的深度特征与第一高斯模型的第二偏移指标小于第一高斯模型的特征方差的设定倍数时，则认为深度特征矩阵的第一空间位置的深度特征与第一高斯模型匹配，第一空间位置的第一高斯模型的掩模值为True，否则二者不匹配，该掩模值为False。示例地，该设定倍数设置为25。

由上，通过各高斯模型更高阶的第二偏移指标，从而更好判断深度特征与混合高斯模型中高斯模型的匹配。

S1314：当前的深度特征矩阵的任一个空间位置的任一高斯模型的掩模值为True时，更新该空间位置的该高斯模型的参数。

其中，对第一位置的第一高斯模型参数的更新方法具体包括：

（1）利用当前的深度特征矩阵的第一空间位置的深度特征基于设定的更新率更新上一时间的第一空间位置的第一高斯模型的均值。

更新上一时间的第一空间位置的第一高斯模型的均值的一种可能的方法如公式（1）所示：

其中，

为当前的深度特征矩阵的第一空间位置的深度特征，

为上一时间的第一空间位置的第一高斯模型的均值，

为当前第一空间位置的第一高斯模型的均值，

表示第一空间位置，

表示第一高斯模型，

表示当前时间，

为设置的更新率。示例地，更新率设置为0.1，该常数的存在可以使得模型对背景的轻微变化有一定的适应性，例如白天到夜间光照逐渐变暗的过程。

（2）利用当前的深度特征矩阵的第一空间位置的深度特征基于设定的更新率更新上一时间的第一空间位置的第一高斯模型的特征方差。

更新上一时间的第一空间位置的第一高斯模型的特征方差的一种可能的方法如公式（2）所示：

其中，

为上一时间的第一空间位置的第一高斯模型的特征方差，

当前的第一空间位置的第一高斯模型的特征方差。

由上，通过更高阶的特征方差的更新，从而挖掘深度特征图中时空形态变化特征。

（3）对当前的第一空间位置的第一高斯模型的权值步长与权值的和作为更新后的第一空间位置的第一高斯模型的权值，其中，当前的第一空间位置的第一高斯模型的权值步长基于当前的第一空间位置的第一高斯模型的权值与设定的更新率确定。

更新上一时间的第一空间位置的第一高斯模型的权值的一种可能的方法为如公式（3）所示：

其中，

为上一时间的第一空间位置的第一高斯模型的权值，

当前的第一空间位置的第一高斯模型的权值，

为权值步长。

由上，因为连续的视频图像之间时间差别较小，连续的深度特征矩阵差别也较小，基于设置的更新率逐渐更新各高斯模型的参数，使各高斯模型准确表达视频图像中多模态序列的历史形态变化。

S1316：当前的深度特征矩阵的一个空间位置的所有高斯模型的掩模值为False时，基于模型重要性删除模型重要性低的高斯模型，并增加新的高斯模型以替代被删除的高斯模型。

其中，模型重要性基于高斯模型的权值和特征方差而确定。权值越高，模型越重要，模型的方差小，模型重要性越高。

在一些实施例中，模型重要性和权值与特征方差的商成正比。一种可能的模型重要性如公式（4）所示：

其中，

为当前第一空间位置

的第一高斯模型的模型重要性指标。

在一些实施例中，基于最低模型数目进行选择重要性较低的模型进行删除，包括：对各高斯模型的模型重要性进行排序，当前模型数目最低数目为N时，删除从N+1开始的模型。

在一些实施例中，基于固定门限选择重要性较低的模型进行删除，包括：对各高斯模型的模型重要性进行排序，当模型低于固定门限且剩余模型数目大于等于模型数目最低数目N时，删除该模型。

在一些实施例中，基于累加门限选择重要性较低的模型进行删除，包括：对各高斯模型的模型重要性进行排序，当前M个模型的重要性总和超过累加门限时，则删除从M+1开始的模型。

示例地，设置模型重要性累加门限

，若前M个单模型的权重满足

且M大于等于模型数目最低数目N，则保在一些实施例中，所增加新的高斯模型的权值设置为一个较小的值，示例地为0.001，所增加新的高斯模型的均值为当前的深度特征矩阵的相应空间位置的深度特征。

由上，通过对与深度特征不匹配的高斯模型进行删除和替代，使混合高斯模型准确表达视频图像中多模态序列的历史形态变化。

S1318：对当前的深度特征矩阵的每个空间位置的更新后的各高斯模型权重进行归一化。

S1320：根据当前的深度特征矩阵的深度特征和最新的各高斯模型的均值获得当前的空间注意力矩阵。

其中，空间注意矩阵由深度特征矩阵的每个空间位置的空间注意力组成，深度特征矩阵的每个空间位置的空间注意力基于该空间位置的深度特征与各个高斯模型的均值的第一偏移程度即第一偏移指标而确定。

在一些实施例中，确定第一偏移指标的方法如下：

获得当前的深度特征矩阵的每个空间位置的深度特征与最新的各高斯模型的均值的各第二偏移指标（第二偏移指标的计算方法参考步骤S1312）。

获得当前的深度特征矩阵的每个位置的各第二偏移指标基于混合高斯模型中的模型数目的均值，确定第一偏移指标，并作为深度特征矩阵的每个空间位置的空间注意力。

由上，通过更高阶的第一偏移指标，从而得到深度特征图中全面的空间注意力信息。

S1330：把当前的空间注意力矩阵与当前的深度特征矩阵进行相乘的结果，确定为当前的时空形态变化特征矩阵。

由上，通过利用混合高斯模型生成的空间注意力，包含了视频图像各个位置的时空变化信息，且描述视频图像序列该空间位置的多模态的形态变化。

S140：根据当前的时空形态变化特征矩阵进行视频图像处理。

其中，视频图像处理包括目标检测、语义分割等。

由上，基于混合高斯模型生成的时空形态变化特征矩阵包含了视频图像的时空变化信息，且描述视频图像序列多形态模式，根据该时空形态变化特征矩阵进行的视频图像处理更加准确。

综上，一种视频图像处理的方法实施例，通过一段长度的视频图像序列获得保留历史记忆的深度特征矩阵的序列，利用混合高斯模型描述深度特征矩阵中各位置的深度特征，并根据时间连续的各深度特征矩阵更新混合高斯模型以匹配视频图像中多模态序列的形态变化，且利用不断更新的混合高斯模型生成空间注意力矩阵，从而抽取视频图像的时空形态变化特征，用于实现视频图像的包括目标检测和语义分割等图像处理功能。本发明实施例的方法及装置在显式挖掘时空形态变化特征时具有计算量小、模型复杂度低的优点。

【一种视频图像处理的方法的具体实施方式】

下面基于图2A至图2C介绍一种视频图像处理的方法的具体实施方式。

图2A示出了一种视频图像处理的方法的具体实施方式的流程，包括流程S210至S280。

S210：获取视频图像序列

。

其中，视频图像序列长度为

的取值范围为7到12。

S220：根据所获取的视频图像序列，利用深度卷积神经网络获得深度特征矩阵的序列

。

其中，深度特征矩阵是利用经典骨干网络从所获取的视频图像序列中抽取的。示例地，经典骨干网络为VGG16、ResNet、DLA（Deep Layer Aggregation）。

示例地，深度特征矩阵的采样步长为4, 当输入图像大小为H*W*1时，深度卷积神经网络获取的特征图

维度为

。

其中，深度特征矩阵

中任一空间位置

的深度特征

的时间分布是利用混合高斯模型而表示的，混合高斯模型包括K个高斯模型，该混合高斯模型表示为

。示例地，K为3到5。

其中，每个高斯模型的参数包括均值、特征方差和权值，各权值的和为1。在空间位置

的高斯模型

的均值为

，特征方差为

，权值

。

S230：基于深度特征矩阵

对各个位臵的混合高斯模型进行初始化,并设置初始时空形态变化特征矩阵

为

。

其中，初始化后的空间位置

的各高斯模型的均值均为

。

其中，各高斯模型的特征方差设置为不同值。

其中，各高速模型的权值相同，且为

。

S240：按时间顺序获取一个未处理的深度特征矩阵作为当前的深度特征矩阵

，并据此利用混合高斯模型的参数获得当前的时空形态变化特征矩阵

。

其中，本步骤的详细方法请参考时空形态变化特征矩阵的获得方法。

S250：判断是否存在未处理的深度特征矩阵，其中，如果存在，则运行步骤S240，再获取下一个深度特征矩阵，否则运行步骤S260，判断所有视频图像是否处理完成。

S260：判断视频图像是否处理完毕，其中，如果处理完毕，则进行步骤S280，进行图像处理，否则运行步骤S270，再根据新的视频图像获得新的深度特征矩阵。

S270：获取视频图像

，构建视频图像序列

，并据此利用步骤S220的方法抽取深度特征矩阵

，并返回步骤S240。

S280：根据当前的时空形态变化特征矩阵序列

进行视频图像处理。

其中，视频图像处理包括目标检测、语义分割等。

【时空形态变化特征矩阵的更新方法】

图2B示出了本具体实施方式的时空形态变化特征矩阵的更新方法的流程，包括步骤S2410至步骤S2434。

S2410：按时间顺序获取一个未处理的深度特征矩阵,作为当前的深度特征矩阵

。

S2412：按位置顺序获取一个待处理的空间位置，作为第一空间位置

。

S2414：按照模型顺序获取第一空间位置

的待处理的高斯模型

，作为第一高斯模型

。

S2416：根据当前深度特征矩阵

的第一空间位置

的深度特征与上一时间的第一空间位置

的第一高斯模型

的均值，确定第一空间位置

的第一高斯模型

的掩模值。

其中，第一空间位置

的第一高斯模型

的掩模值的一种确定方式如下：

获得当前深度特征矩阵

的第一空间位置

的深度特征与上一时间的第一空间位置

的第一高斯模型

的均值的第二偏移指标

，确定深度特征矩阵

的第一空间位置

的第一高斯模型的掩模值。其中，该第二偏移指标为深度特征矩阵的一个空间位置的深度特征中各通道特征与相同空间位置的一个高斯模型均值中通道均值的差的平方基于通道数目的平均值。

当

小于

时及满足公式（5）要求，则认为第一位置

的深度特征与的第一高斯模型

匹配，第一空间位置

的第一高斯模型

的掩模值为True，否则二者不匹配为False。

示例地设置25。

其中，

为深度特征矩阵

的第一空间位置

的深度特征与上一时间的第一高斯模型

的均值的第二偏移指标，

表示基于C个通道进行平均。

S2418：当深度特征矩阵

的第一空间位置

的第一高斯模型

的掩模值为 True时，更新上个时间第一空间位置

的第一高斯模型

的参数，作为当前第一空间位置

的第一高斯模型

的参数。

其中，对第一高斯模型

在第一空间位置

的权值

均值

和特征方差

的更新方式如公式（6）所示：

其中，

为权值步长，

代表更新率。

S2420：第一空间位置

是否有待处理的高斯模型，其中，如果有，则执行步骤 S2414，获取一个新的高斯模型作为第一高斯模型，否则执行步骤S2422，判断是否有第一位置的所有高斯模型的掩模值为False。

S2422：判断第一空间位置

的所有高斯模型的掩模值为False，如果是，则执行步骤S2424，进行高速模型的删除或添加；否则执行步骤S2426，对第一空间位置的各高斯模型进行归一化。

S2424：基于模型重要性删除模型重要性低的高斯模型，并增加新的高斯模型以替代被删除的高斯模型。

其中，模型重要性基于高斯模型的权值和特征方差而确定。模型重要性的一种可能的确定方式如公式（7）所示:

其中，

为当前第一空间位置

的第一高斯模型的模型重要性指标。

在本具体实施方式中，设置模型重要性阈值

，若前M个单模型的权重满足

且M大于等于最低模型数目时，则保留这M个高斯模型，而删除其他模型，示例地，设置

。

其中，当删除模型重要性较低的高速模型后，增加相应数目的新的高斯模型。

其中，新增的高斯模型均值为

，方差设置为不同的值，且方差值较大，权值设置为一个较小的值，示例地为0.001。

S2426：对第一空间位置

的各高斯模型的权值进行归一化。

其中，权值的归一化如公式（8）所示：

S2428:根据当前的深度特征矩阵的第一空间位置

的深度特征和最新的各高斯模型的均值获得当前第一空间位置

的空间注意力。

其中，第一空间位置

的空间注意力的一种可能的获得方法，包括：

获得当前的第一空间位置

的深度特征与最新各高斯模型的均值的第二偏移指标，第二偏移指标的定义参照步骤S2416；

把当前的第一空间位置

的深度特征与最新各高斯模型的均值的各第二偏移指标基于高斯模型的数目的均值，作为当前的第一空间位置

的空间注意力。

其中，综合上述方法，第一空间位置

的空间注意力的计算公式(9)所示：

其中，

为当前第一空间位置

的空间注意力，

为基于高斯模型数目进行平均。

S2430. 深度特征矩阵

是否还有待处理的空间位置，其中，如果有执行步骤 S2412，获得第一个待处理的空间位置，否则执行步骤S2432，获得当前的时空形态变化特征矩阵

。

S2432. 各空间位置的空间注意力

组成，空间注意力矩阵

。

S2434.基于当前的空间注意力矩阵

与当前的深度特征矩阵

矩阵获得当前的时空形态变化特征矩阵

。

获得当前的时空形态变化特征矩阵

的一种可能的方法如式(10)所示：

其中，空间注意力矩阵

是由各位置空间注意力

组成。

图2C示出了一种视频图像处理的方法实施例的具体实施方式的示意图。图左边为获取视频图像序列

；其后面的4个方块（示例为4个，可以任意整数）为深度卷积神经网络；利用该深度卷积神经网络获得深度特征矩阵的序列

；利用该特征矩阵的序列持续更新混合高斯模型中各高斯模型的参数，如图中的

；最后基于混合高斯模型抽取时空形态特征矩阵的序列

。

综上，一种视频图像处理的方法实施例的具体实施方式，通过一段长度的视频图像序列获得保留历史记忆的深度特征矩阵的序列，利用混合高斯模型描述深度特征矩阵中各位置的深度特征，并根据时间连续的各深度特征矩阵更新混合高斯模型的参数，以通过该参数中的均值、方差和权重的更新来匹配视频图像中多模态序列的形态变化，且利用混合高斯模型的各高斯模型的均值和深度特征矩阵生成空间注意力矩阵，从而从深度特征矩阵中抽取视频图像的时空形态变化特征，用于实现视频图像的包括目标检测和语义分割等图像处理功能。本发明实施例的方法及装置在显式挖掘时空形态变化特征时具有计算量小、模型复杂度低的优点。

【一种视频图像处理的装置实施例】

下面基于图3A至图3D介绍一种视频图像处理的装置实施例。

一种视频图像处理的装置实施例用于执行一种视频图像处理的方法实施例的方法，图3A是示出了其结构，包括视频图像获取模块310，深度特征提取模块320，时空特征提取模块330和图像处理模块340。

视频图像获取模块310用于获取视频图像序列。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的步骤S110，这里不再详述。

深度特征提取模块320用于根据当前的视频图像序列获得当前的深度特征矩阵。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的步骤S120，这里不再详述。

时空特征提取模块330用于根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的步骤S130，这里不再详述。

图3B示出了时空特征提取模块330的结构，包括模型参数更新模块3310、注意力矩阵获得模块3320、时空矩阵获得模块3330和模型初始化模块3340。

模型参数更新模块3310用于根据当前的深度特征矩阵更新上一时间的每个位置的混合高斯模型的参数，并作为当前的每个位置的混合高斯模型的参数。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的时空形态变化特征提取方法的步骤S1310，这里不再详述。

图3C示出了模型参数更新模块3310的结构，包括掩模值获得模块3312和高斯模型更新模块3314。

掩模值获得模块3312用于根据当前的深度特征矩阵和上一时间的混合高斯模型的参数，获得当前的深度特征矩阵的每个空间位置的每个高斯模型的掩模值。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的模型更新方法的步骤S1312，这里不再详述。

高斯模型更新模块3314用于根据当前的深度特征矩阵的每个空间位置的每个高斯模型的掩模值，更新上一时间混合高斯模型的参数和/或变化高斯模型。

图3D示出了高斯模型更新模块3314的结构，包括高斯模型更新模块3314包括模型参数更新模块3315和高斯模型变化模块3317和模型权值归一模块3319。

模型参数更新模块3315用于当前的深度特征矩阵的任一个空间位置的任一高斯模型的掩模值为True时，更新该空间位置的该高斯模型的参数。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的模型更新方法的步骤S1314，这里不再详述。

高斯模型变化模块3317用于当前的深度特征矩阵的一个空间位置的所有高斯模型的掩模值为False时，基于模型重要性删除模型重要性低的高斯模型，并增加新的高斯模型以替代被删除的高斯模型。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的模型更新方法的步骤S1316，这里不再详述。

模型权值归一模块3319用于对当前的深度特征矩阵的每个空间位置的更新后的各高斯模型权重进行归一化。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的模型更新方法的步骤S1318，这里不再详述。

注意力矩阵获得模块3320用于根据当前的深度特征矩阵的深度特征和最新的各高斯模型的均值获得当前的空间注意力矩阵。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的时空形态变化特征提取方法的步骤S1320，这里不再详述。

时空矩阵获得模块3330用于把当前的空间注意力矩阵与当前的深度特征矩阵进行相乘的结果，确定为当前的时空形态变化特征矩阵。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的时空形态变化特征提取方法的步骤S1330，这里不再详述。

模型初始化模块3340用于在视频图像的起始时间还对深度特征矩阵中的第一空间位置的混合高斯模型的参数进行初始化。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的时空形态变化特征提取方法的步骤S1310中初始化部分的描述，这里不再详述。

图像处理模块340用于根据当前的时空形态变化特征矩阵进行视频图像处理。其中，其方法和有益增益请参照一种视频图像处理的方法实施例的步骤S140，这里不再详述。

综上，一种视频图像处理的装置，通过一段长度的视频图像序列获得保留历史记忆的深度特征矩阵的序列，利用混合高斯模型描述深度特征矩阵中各位置的深度特征，并根据时间连续的各深度特征矩阵更新混合高斯模型以匹配视频图像中多模态序列的形态变化，且利用不断更新的混合高斯模型生成空间注意力矩阵，从而抽取视频图像的时空形态变化特征，用于实现视频图像的包括目标检测和语义分割等图像处理功能。本发明实施例的方法及装置在显式挖掘时空形态变化特征时具有计算量小、模型复杂度低的优点。

【计算设备】

本发明还提供的一种计算设备，下面图4详细介绍。

该计算设备400包括，处理器410、存储器420、通信接口430、总线440。

应理解，该图所示的计算设备400中的通信接口430可以用于与其他设备之间进行通信。

其中，该处理器410可以与存储器420连接。该存储器420可以用于存储该程序代码和数据。因此，该存储器420可以是处理器410内部的存储单元，也可以是与处理器410独立的外部存储单元，还可以是包括处理器410内部的存储单元和与处理器410独立的外部存储单元的部件。

可选的，计算设备400还可以包括总线440。其中，存储器420、通信接口430可以通过总线440与处理器410连接。总线440可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(EFStended Industry StandardArchitecture，EISA)总线等。所述总线440可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条线表示，但并不表示仅有一根总线或一类型型的总线。

应理解，在本发明实施例中，该处理器410可以采用中央处理单元(centralprocessing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器410采用一个或多个集成电路，用于执行相关程序，以实现本发明各方法实施例的功能。

该存储器420可以包括只读存储器和随机存取存储器，并向处理器410提供指令和数据。处理器410的一部分还可以包括非易失性随机存取存储器。例如，处理器410还可以存储设备类型的信息。

在计算设备400运行时，所述处理器410执行所述存储器420中的计算机执行指令执行的本发明各方法实施例的功能。

应理解，根据本发明实施例的计算设备400可以对应于执行根据本发明各实施例的方法中的相应主体，并且计算设备400中的各个模块的上述和其它操作和/或功能分别为了实现本发明各方法实施例的功能，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

【计算介质】

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于本发明各方法实施例的功能。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括，具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意类型的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，均属于本发明保护范畴。

Claims

1.一种视频图像处理的方法，其特征在于，包括：

获取当前的视频图像序列，其中，所述当前的视频图像序列包括到当前时间的若干帧视频图像；

根据所述视频图像序列获得当前的深度特征矩阵，其中，深度特征矩阵为由各个空间位置的深度特征而组成的矩阵，所述深度特征包括若干个通道特征；

根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵, 其中，利用所述混合高斯模型表示深度特征矩阵中任一空间位置的深度特征的时间分布；

根据所述时空形态变化特征矩阵进行视频图像处理。

2.根据权利要求1所述方法，其特征在于，所述根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵，包括：

根据当前的深度特征矩阵和上一时间的所述混合高斯模型的参数获得当前的所述混合高斯模型的参数，其中，所述参数包括所述混合高斯模型中的各高斯模型的均值、特征方差和权值，所述特征方差为所述高斯模型的通道特征的方差基于通道的平均值；

根据当前的深度特征矩阵和最新的所述各高斯模型的均值获得当前的空间注意力矩阵；

根据所述空间注意力矩阵和当前的深度特征矩阵确定所述时空形态变化特征矩阵。

3.根据权利要求2所述方法，其特征在于，在所述根据当前的深度特征矩阵和上一时间的所述混合高斯模型的参数获得当前的所述混合高斯模型的参数之前，还包括：

在视频图像的起始时间对所述混合高斯模型的参数进行初始化，其中，初始化后的所述各高斯模型的均值都包括起始时间的深度特征矩阵的相应空间位置的深度特征中各通道特征的值，相同空间位置的初始化后的所述各高斯模型的特征方差不同。

4.根据权利要求2所述方法，其特征在于，所述根据当前的深度特征矩阵和上一时间的所述混合高斯模型的参数获得当前的所述混合高斯模型的参数，包括：

根据当前的深度特征矩阵和上一时间的所述混合高斯模型的参数，获得当前的深度特征矩阵的每个空间位置的所述各高斯模型的掩模值；

根据所述掩模值更新上一时间的所述混合高斯模型的参数和/或变化上一时间的所述混合高斯模型，并作为当前新的所述混合高斯模型。

5.根据权利要求2所述方法，其特征在于，所述空间注意力矩阵由深度特征矩阵的每个空间位置的空间注意力组成，所述空间注意力基于该所述空间位置的深度特征与各个高斯模型的均值的第一偏移程度而确定。

6.根据权利要求4所述方法，其特征在于，所述获得当前的深度特征矩阵的每个空间位置的所述各高斯模型的掩模值，包括：

获得当前的深度特征矩阵的每个空间位置的深度特征与上一时间的相同空间位置的所述各高斯模型的均值的各第二偏移程度；

当前的深度特征矩阵的一个空间位置的深度特征与一个所述高斯模型的所述第二偏移程度大于该所述高斯模型的特征方差的设定倍数时，该空间位置的该所述高斯模型的掩模值为True，否则为False。

7.根据权利要求6所述方法，其特征在于，所述根据所述掩模值更新上一时间的所述混合高斯模型的参数，包括：

当前的深度特征矩阵的一个空间位置P的任一高斯模型j的掩模值为True时，更新当前的深度特征矩阵的空间位置P的高斯模型j的参数；

当前的深度特征矩阵的一个空间位置的所有所述高斯模型的掩模值为False时，删除该空间位置的模型重要性低于设定阈值的高斯模型；以及

增加新的所述高斯模型以替代被删除的所述高斯模型，其中，所述模型重要性基于高斯模型的权值和特征方差而确定；

基于每个空间位置所述混合高斯模型中高斯模型的变化，对该空间位置的最新的所述混合高斯模型中各高斯模型的权值归一化。

8.根据权利要求7所述方法，其特征在于，所述更新空间位置P的高斯模型j的参数，包括：

利用当前的深度特征矩阵的空间位置P的深度特征基于设定的更新率更新上一时间的空间位置P的高斯模型j的均值；

利用当前的深度特征矩阵的空间位置P的深度特征基于所述更新率更新上一时间的空间位置P的高斯模型j的特征方差；

对当前的空间位置P的高斯模型j的权值步长与权值的和作为更新后的空间位置P的高斯模型j的权值，其中，所述权值步长基于当前的空间位置P的高斯模型j的权值与所述更新率确定。

9.根据权利要求1至8任一所述方法，其特征在于，所述深度特征矩阵的空间位置为所述视频图像的空间位置的下采样。

10.一种视频图像处理的装置，其特征在于，包括：

视频图像获取模块，用于获取当前的视频图像序列，其中，所述当前的视频图像序列包括到当前时间的若干帧视频图像；

深度特征提取模块，用于根据所述视频图像序列获得当前的深度特征矩阵，其中，深度特征矩阵为由各个空间位置的深度特征而组成的矩阵，所述深度特征包括若干个通道特征；

时空特征提取模块，用于根据当前的深度特征矩阵利用混合高斯模型获得当前的时空形态变化特征矩阵, 其中，利用所述混合高斯模型表示深度特征矩阵中任一空间位置的深度特征的时间分布；

图像处理模块，用于根据所述时空形态变化特征矩阵进行视频图像处理。

11.根据权利要求10所述装置，其特征在于，所述时空特征提取模块，包括：

模型参数更新模块，用于根据当前的深度特征矩阵和上一时间的所述混合高斯模型的参数获得当前的所述混合高斯模型的参数，其中，所述参数包括所述混合高斯模型中的各高斯模型的均值、特征方差和权值，所述特征方差为所述高斯模型的通道特征的方差基于通道的平均值；

注意力矩阵获得模块，用于根据当前的深度特征矩阵和最新的所述各高斯模型的均值获得当前的空间注意力矩阵；

时空特征获得模块，用于根据所述空间注意力矩阵和当前的深度特征矩阵确定所述时空形态变化特征矩阵。

12.根据权利要求11所述装置，其特征在于，所述时空特征提取模块还包括模型初始化模块，用于在视频图像的起始时间对所述混合高斯模型的参数进行初始化，其中，初始化后的所述各高斯模型的均值都包括起始时间的深度特征矩阵的相应空间位置的深度特征中各通道特征的值，相同空间位置的初始化后的所述各高斯模型的特征方差不同。

13.根据权利要求11所述装置，其特征在于，所述模型参数更新模块包括：

掩模值获得模块，用于根据当前的深度特征矩阵和上一时间的所述混合高斯模型的参数，获得当前的深度特征矩阵的每个空间位置的所述各高斯模型的掩模值；

高斯模型更新模块，用于根据所述掩模值更新上一时间的所述混合高斯模型的参数和/或变化上一时间的所述混合高斯模型，并作为当前新的所述混合高斯模型。

14.根据权利要求11所述装置，其特征在于，所述空间注意力矩阵由深度特征矩阵的每个空间位置的空间注意力组成，所述空间注意力基于该所述空间位置的深度特征与各个高斯模型的均值的第一偏移程度而确定。

15.根据权利要求13所述装置，其特征在于，

所述掩模值获得模块具体用于获得当前的深度特征矩阵的每个空间位置的深度特征与上一时间的相同空间位置的所述各高斯模型的均值的各第二偏移程度；

所述掩模值获得模块还具体用于当前的深度特征矩阵的一个空间位置的深度特征与一个所述高斯模型的所述第二偏移程度大于该所述高斯模型的特征方差的设定倍数时，该空间位置的该所述高斯模型的掩模值为True，否则为False。

16.根据权利要求15所述装置，其特征在于，所述高斯模型更新模块包括：

模型参数更新模块，用于当前的深度特征矩阵的一个空间位置P的任一高斯模型j的掩模值为True时，更新当前的深度特征矩阵的空间位置P的高斯模型j的参数；

高斯模型变化模块，用于当前的深度特征矩阵的一个空间位置的所有所述高斯模型的掩模值为False时，删除该空间位置的模型重要性低于设定阈值的高斯模型；

所述高斯模型变化模块还用于增加新的所述高斯模型以替代被删除的所述高斯模型，其中，所述模型重要性基于高斯模型的权值和特征方差而确定；

模型权值归一模块，用于基于每个空间位置所述混合高斯模型中高斯模型的变化，对该空间位置的最新的所述混合高斯模型中各高斯模型的权值归一化。

17.根据权利要求16所述装置，其特征在于，

所述模型参数更新模块具体用于利用当前的深度特征矩阵的空间位置P的深度特征基于设定的更新率更新上一时间的空间位置P的高斯模型j的均值；

所述模型参数更新模块还具体用于利用当前的深度特征矩阵的空间位置P的深度特征基于所述更新率更新上一时间的空间位置P的高斯模型j的特征方差；

所述模型参数更新模块还具体用于对当前的空间位置P的高斯模型j的权值步长与权值的和作为更新后的空间位置P的高斯模型j的权值，其中，所述权值步长基于当前的空间位置P的高斯模型j的权值与所述更新率确定。

18.根据权利要求10至17任一所述装置，其特征在于，所述深度特征矩阵的空间位置为所述视频图像的空间位置的下采样。

19.一种计算设备，其特征在于，包括：

总线；

通信接口，其与所述总线连接；

至少一个处理器，其与所述总线连接；以及

至少一个存储器，其与所述总线连接并存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1至9任一所述方法。

20.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行权利要求1至9任一所述方法。