CN107154052A

CN107154052A - 对象状态估计的方法及装置

Info

Publication number: CN107154052A
Application number: CN201610121983.3A
Authority: CN
Inventors: 赵颖; 刘丽艳; 王炜
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-03-03
Filing date: 2016-03-03
Publication date: 2017-09-12
Anticipated expiration: 2036-03-03
Also published as: CN107154052B

Abstract

本发明提供了一种对象状态估计的方法及装置。本发明分析输入视频，通过显著性检测及误差评估，估计、预测并更新物体的状态，从而可以更为准确的预测对象状态，本发明的输出结果能够应用于视觉处理的背景建模、背景剪除、物体跟踪及识别等功能，提高视觉处理的性能。

Description

对象状态估计的方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及对象状态估计的方法及装置。

背景技术

背景是指一个场景中的静止部分，背景剪除技术广泛应用于视频分割、物体跟踪等计算机视觉处理中。在进行背景剪除时，通常需要根据背景图像来建立背景外观模型，需要考虑对象的状态，即对象是处于背景或前景状态。

在运动相机以第一视角采集的视频，如通过智能眼镜拍摄而得的视频中，对象可能在前、背景之间发生状态转换，因此，需要一种方法，能够提高对象状态预测的准确性，从而为后续的视觉处理提供支持。

发明内容

本发明实施例要解决的技术问题是提供对象状态估计的方法及装置，更准确地预测对象的状态，为后续的视觉处理提供支持。

为解决上述技术问题，本发明实施例提供的对象状态估计的方法，包括：

视频分割单元，用于根据外观特征和运动特征，将输入视频的每帧图像分割为多个对象；

状态初始化单元，用于确定各个对象的状态，所述状态包括前景和背景；

状态预测单元，用于计算所述对象的原始图像的第一显著性特征，根据所述第一显著性特征，预测所述对象在下一个时刻状态转变的第一概率；

状态更新单元，用于计算所述第一概率的误差，并根据所述误差，校正所述第一概率，并更新所述对象在下一时刻的状态。

优选的，以上的对象状态估计装置中，所述视频分割单元包括：

分割处理单元，用于根据外观特征，对输入视频的图像进行分割，获得包括多个图像块的分割结果；

分割优化单元，用于利用图像的运动特征，对所述分割结果进行优化，合并相邻且具有相似运动特征的图像块，获得分割后的对象。

优选的，以上的对象状态估计装置中，所述状态初始化单元包括：

外观相似性计算单元，用于计算任意两个对象在外观特征方面的外观相似性；

运动相似性计算单元，用于计算任意两个对象在运动特征方面的运动相似性；

聚类单元，用于根据运动相似性及外观相似性计算对象属于前景的概率，并据该对象属于前景的概率，确定该对象的状态。

优选的，以上的对象状态估计装置中，所述状态预测单元包括：

显著性计算单元，用于计算对象的原始图像的第一外观显著性和第一运动显著性；

似然估计单元，用于计算所述对象在当前一段预设时间内的平均外观显著性，并计算所述第一外观显著性与平均外观显著性的差值，获得所述第一外观显著性的第一置信度；计算当前帧图像中的所有对象的平均运动显著性，并计算所述第一运动显著性与平均运动显著性的差值，获得所述第一运动显著性的第二置信度；以及，根据第一置信度和第二置信度，确定第一外观显著性和第一运动显著性对应的权值，进而根据所述权值、第一外观显著性和第一运动显著性，计算所述对象在下一个时刻状态转变的第一概率。

优选的，以上的对象状态估计装置中，所述状态更新单元包括：

误差计算单元，用于计算所述对象经去噪处理后的图像的第二显著性特征，根据所述第一显著性特征和第二显著性特征计算噪音误差，以及，在所述对象的邻域内，基于对象状态进行连通域分析，并根据获得的连通区域，计算一致性误差；

状态校正单元，用于利用所述噪音误差和一致性误差，对第一概率进行校正，得到校正后的第二概率，并根据所述第二概率，预测所述对象在下一时刻的状态。

优选的，以上的对象状态估计装置中，所述误差计算单元包括：

噪音误差计算单元，用于计算所述对象去噪处理后的图像的第二外观显著性和第二运动显著性；计算第一外观显著性和第二外观显著性的第一差值，以及第一运动显著性和第二运动显著性的第二差值，得到包括第一差值和第二差值的噪音残差；以及，对所述噪音残差在时间维度和空间维度上进行累积，得到所述噪音误差；

一致性误差计算单元，用于在所述对象的邻域内，统计前景、背景对象的直方图，并将邻域标记为直方图柱的编号；通过连通域分析聚类对象，并根据聚类后得到的连通区域的面积，确定该连通区域为一致性连通区域或不一致性连通区域；以及，计算不一致性连通区域在空间和时间上所占的比例，获得一致性误差。

优选的，以上的对象状态估计装置中，所述状态校正单元包括：

第一校正单元，用于对所述噪音误差进行归一化处理，并计算第一概率与归一化后的噪音误差的第三差值；

第二校正单元，用于对所述一致性误差进行归一化处理，并计算第一概率与归一化后的一致性误差的第四差值；

状态校正单元，用于对第三差值和第四差值进行加权求和，得到第二概率，并在所述第二概率大于一预定门限时，判断所述对象在下一时刻的状态与当前状态不同，否则，判断所述对象在下一时刻的状态与当前状态相同。

本发明实施例还提供了对象状态估计的方法，包括：

根据外观特征和运动特征，将输入视频的每帧图像分割为多个对象，并确定各个对象的状态，所述状态包括前景和背景；

计算所述对象的原始图像的第一显著性特征，根据所述第一显著性特征，预测所述对象在下一个时刻状态转变的第一概率；

计算所述第一概率的误差，并根据所述误差，校正所述第一概率，并更新所述对象在下一时刻的状态。

优选的，以上的对象状态估计的方法中，所述根据外观特征和运动特征，将输入视频的每帧图像分割为多个对象的步骤包括：

根据外观特征，对输入视频的图像进行分割，获得包括多个图像块的分割结果；

利用图像的运动特征，对所述分割结果进行优化，合并相邻且具有相似运动特征的图像块，获得分割后的对象。

优选的，以上的对象状态估计的方法中，所述确定各个对象的状态的步骤包括：

计算任意两个对象在运动特征方面的运动相似性以及在外观特征方面的外观相似性，根据运动相似性及外观相似性计算对象属于前景的概率，并据该对象属于前景的概率，确定该对象的状态。

优选的，以上的对象状态估计的方法中，所述计算对象的原始图像的第一显著性特征，根据所述第一显著性特征，预测所述对象在下一个时刻状态转变的第一概率的步骤，包括：

计算对象的原始图像的第一外观显著性和第一运动显著性；

计算所述对象在当前一段预设时间内的平均外观显著性，并计算所述第一外观显著性与平均外观显著性的差值，获得所述第一外观显著性的第一置信度；

计算当前帧图像中的所有对象的平均运动显著性，并计算所述第一运动显著性与平均运动显著性的差值，获得所述第一运动显著性的第二置信度；

根据第一置信度和第二置信度，确定第一外观显著性和第一运动显著性对应的权值，进而根据所述权值、第一外观显著性和第一运动显著性，计算所述对象在下一个时刻状态转变的第一概率。

优选的，以上的对象状态估计的方法中，所述计算所述第一概率的误差，并根据所述误差，校正所述第一概率，并更新所述对象在下一时刻的状态的步骤，包括：

计算所述对象经去噪处理后的图像的第二显著性特征，根据所述第一显著性特征和第二显著性特征计算噪音误差，以及，在所述对象的邻域内，基于对象状态进行连通域分析，并根据获得的连通区域，计算一致性误差；

利用所述噪音误差和一致性误差，对第一概率进行校正，得到校正后的第二概率，并根据所述第二概率，预测所述对象在下一时刻的状态。

优选的，以上的对象状态估计的方法中，所述计算所述对象经去噪处理后的图像的第二显著性特征，根据所述第一显著性特征和第二显著性特征计算噪音误差的步骤，包括：计算所述对象去噪处理后的图像的第二外观显著性和第二运动显著性；计算第一外观显著性和第二外观显著性的第一差值，以及第一运动显著性和第二运动显著性的第二差值，得到包括第一差值和第二差值的噪音残差；以及，对所述噪音残差在时间维度和空间维度上进行累积，得到所述噪音误差；

所述在所述对象的邻域内，基于对象状态进行连通域分析，并根据获得的连通区域，计算一致性误差的步骤包括：在所述对象的邻域内，统计前景、背景对象的直方图，并将邻域标记为直方图柱的编号；通过连通域分析聚类对象，并根据聚类后得到的连通区域的面积，确定该连通区域为一致性连通区域或不一致性连通区域；以及，计算不一致性连通区域在空间和时间上所占的比例，获得一致性误差。

优选的，以上的对象状态估计的方法中，所述利用所述噪音误差和一致性误差，对第一概率进行校正，得到校正后的第二概率，并根据所述第二概率，预测所述对象在下一时刻的状态的步骤，包括：

对所述噪音误差进行归一化处理，并计算第一概率与归一化后的噪音误差的第三差值；

对所述一致性误差进行归一化处理，并计算第一概率与归一化后的一致性误差的第四差值；

对第三差值和第四差值进行加权求和，得到第二概率；

在所述第二概率大于一预定门限时，判断所述对象在下一时刻的状态与当前状态不同；

在所述第二概率小于等于所述预定门限时，判断所述对象在下一时刻的状态与当前状态相同。

与现有技术相比，本发明实施例提供的对象状态估计的方法及装置，分析输入视频，通过显著性检测及误差评估，估计、预测并更新对象的状态，能够更准确地预测对象的状态，并为视觉处理的后续功能实现提供支持。

附图说明

图1是集成了本发明实施例的对象状态估计装置的应用系统的示意图；

图2是本发明实施例提供的对象状态估计装置的一种功能结构示意图；

图3是本发明实施例的视频分割单元的结构示意图；

图4是本发明实施例的状态初始化单元的结构示意图；

图5是本发明实施例的状态预测单元的结构示意图；

图6是本发明实施例的状态更新单元的结构示意图；

图7是本发明实施例的误差计算单元的结构示意图；

图8是本发明实施例的状态校正单元的结构示意图；

图9是本发明实施例提供的对象状态估计装置的一种硬件结构示意图；

图10是本发明实施例提供的对象状态估计方法的流程示意图；

图11是图10中的步骤1001的流程示意图；

图12是图10中的步骤1002的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

本发明实施例通过显著性和误差分析来评估对象的状态，其中，对象可以为图像区域，像素点，超像素等。状态是对象的一种属性，可以为前景、背景状态，还可以是交互、非交互状态等。本发明实施例主要关注对象的前景/背景状态，本发明实施例输出的对象状态可以用于背景剪除系统或者对象跟踪系统中的前、背景动态建模。

本发明实施例的一个具体的应用场景为以第一视角拍摄的关于用户操作手中物体的视频，用户从背景区域中拿起物体，随着操作的进行，物体从背景转变成前景区域的一部分，并且在从视频图像的边缘转变到中心位置，当操作结束时，物体再次转变成背景区域的一部分。因此，在建立背景外观模型时，需要考虑物体的状态变化。

图1是一个集成了本发明实施例的对象状态估计装置的应用系统的示意图。该应用系统100包括一个可穿戴式摄像头101，一个可穿戴式显示屏102以及一个智能眼镜103。具体的，智能眼镜103实际可以是一台可穿戴式计算机，本发明实施例的对象状态估计装置可以嵌入在该计算机中，可穿戴式摄像头101及可穿戴式显示屏102可以安装在智能眼镜103中。

图1所示的应用场景104为用户通过佩戴的智能眼镜103查看手中商品的信息。智能眼镜103分析摄像头101拍摄到的视频，理解用户的意图，输出对应的响应，如在显示屏102上显示商品的有效期或者同类产品的信息。上述摄像头101可以是任意一种能够提供投影区域的彩色图像的照相机，比如网络摄像头、家用数码相机等。安装了背景剪除装置的智能眼镜103，可以输出背景剪除后的视频，即视频仅包含手及手中商品的区域，这个输出结果可用于识别手势、手握商品的姿态及商品属性等。图1所示的应用系统100仅为本发明的一个应用示例，实际应用中可能会多于或少于其所包含的设备个数，或者使用不同的设备，或者用于不同的场景。

请参考图2，本发明实施例提供的对象状态估计装置200，包括：

视频分割单元201，用于根据外观特征和运动特征，将输入视频的每帧图像分割为多个对象。

这里，输入视频可以是各自摄像设备(如运动相机)采集的视频，例如，一段RGB彩色视频。对象可以是图像区域，各个对象通常互不重叠。

状态初始化单元202，用于确定各个对象的状态，所述状态包括前景和背景；

状态预测单元203，用于计算所述对象的原始图像的第一显著性特征，根据所述第一显著性特征，预测所述对象在下一个时刻状态转变的第一概率；

状态更新单元204，用于计算所述第一概率的误差，并根据所述误差，校正所述第一概率，并更新所述对象在下一时刻的状态。

本发明实施例的上述对象状态估计装置200分析输入视频，通过显著性检测及误差评估，估计、预测并更新对象的状态，能够更准确地预测对象的状态。上述对象状态估计装置200输出的结果，可以用于实现背景建模、背景剪除、物体跟踪及识别等功能。

请参照图3，本发明实施例的视频分割单元201包括：

分割处理单元2011，用于根据外观特征，对输入视频的图像进行分割，获得包括多个图像块的分割结果。

分割优化单元2012，用于利用图像的运动特征，对所述分割结果进行优化，合并相邻且具有相似运动特征的图像块，获得分割后的对象。

这里，分割处理单元2011可以对接收到的一组视频帧序列，根据外观特征，如颜色、纹理、直方图等，将每帧图像分割成若干个区域(图像块)。由于图像可能具有颜色相似的部分，基于外观特征的分割结果有可能不准确。因此，分割优化单元2012进一步利用运动特征对分割结果进行优化，其中，运动特征可以通过光流或者现有技术的其他跟踪算法得到。通过将相邻的且运动特征相似性超过预定阈值的图像块合并在一起，得到分割后的对象。

请参照图4，本发明实施例的状态初始化单元202包括：

外观相似性计算单元2021，用于计算任意两个对象在外观特征方面的外观相似性；

运动相似性计算单元2022，用于计算任意两个对象在运动特征方面的运动相似性；

聚类单元2023，用于根据运动相似性及外观相似性计算对象属于前景的概率，并据该对象属于前景的概率，确定该对象的状态。例如，当该对象属于前景的概率大于预设的门限时，确定该对象属于前景，否则确定该对象属于背景。

这里，外观相似性是一个向量，由一系列外观特征之间的相似性构成，外观特征具体可以包括对象的颜色、纹理、梯度等。具体的，外观相似性计算单元2021可以计算任意两个对象的外观差异，并据此计算外观相似性。例如，两个对象p_i和p_j的外观相似性Aff^A(p_i,p_j)的计算，基于各自外观特征f_i ^A和f_j ^A的差异，如公式[1]所示。

Aff^A(p_i,p_j)＝exp(-λ||f_i ^A-f_j ^A||) [1]

运动相似性是一个向量，由一系列运动特征之间的相似性构成，运动特征具体可以包括对象的运动方向、速度等。运动相似性计算单元2022可以计算任意两个对象的运动差异，并据此计算运动相似性，例如，两个对象p_i和p_j的动相似性Aff^M(p_i,p_j)的计算，基于各自运动特征f_i ^M和f_j ^M的差异，如公式[2]所示。

Aff^M(p_i,p_j)＝exp(-λ||f_i ^M-f_j ^M||) [2]

聚类单元2023根据对象的运动相似性和外观相似性来计算对象属于前景的概率，进而将对象划分成前景和背景两类。具体的，聚类单元2023可以根据运动相似性来计算运动似然函数，以从对象的运动方面描述其属于前景的概率。当前景中的物体停止运动时，对象的跟踪可能会发生错误，得到不准确的运动特征。聚类单元2023还可以根据外观相似性计算外观似然函数，以从对象的外观方面描述其属于前景的概率。然后，将基于外观及运动特征计算出的概率融合起来(例如，通过加权求和方式进行融合)，计算出对象属于前景的最终概率，通过将该最终概率与预设门限进行比较，得出对象的分类结果。当上述概率大于门限时，对象属于前景；否则，对象属于背景。

上述运动似然函数或外观似然函数的一个具体的实施例为，利用K近邻(KNN)方法、MeanShift算法等，聚类上述运动相似性或外观相似性，得到对象属于前景的似然描述。

通常来说，第一视角的视频拍摄的方向与拍摄者注意力的方向一致，即为前景对象的方向，如关于用户操作对象的第一视角视频的拍摄方向为用户的视线方向，拍摄内容为手与手中操作的对象。由于注意力与显著性具有对应关系，因此，前景对象通常在视频中的显著位置，而背景对象通常在视频中的不显著的位置。通过分析对象的显著性，可以判断对象状态变化的趋势，显著性越高的对象，其转变状态的可能性越高。

具体的，外观显著性描述了某个对象在外观方面相对于其他对象的显著程度；运动显著性描述了某个对象在运动方面相对于其他对象的显著程度，因此，请参照图5，本发明实施例的状态预测单元203包括：

显著性计算单元2031，用于计算对象的原始图像的第一外观显著性和第一运动显著性；

似然估计单元2032，用于计算所述对象在当前一段预设时间内的平均外观显著性，并计算所述第一外观显著性与平均外观显著性的差值，获得所述第一外观显著性的第一置信度；计算当前帧图像中的所有对象的平均运动显著性，并计算所述第一运动显著性与平均运动显著性的差值，获得所述第一运动显著性的第二置信度；以及，根据第一置信度和第二置信度，确定第一外观显著性和第一运动显著性对应的权值，进而根据所述权值、第一外观显著性和第一运动显著性，计算所述对象在下一个时刻状态转变的第一概率。

这里，显著性计算单元2031计算对象的显著性，输出对象的外观显著性和运动显著性。具体的，可以根据对象的外观特征与其他对象的差异来计算其外观显著性，外观特征可以包括对象的颜色、纹理、位置等。可以根据对象的运动特征与其他对象的差异来计算其运动显著性，运动特征可以为对象的运动方向、速度等。似然估计单元2032将上述第一置信度和第二置信度归一化以后得到各自的融合权值，再根据所述融合权值，对第一外观显著性和第一运动显著性进行加权求和，得到所述第一概率。所述的当前一段预设时间是指当前时刻之前的某个时刻到当前时刻之间的一段时间，该段时间的长度为预设长度。

请参照图6，本发明实施例的状态更新单元204包括：

误差计算单元2041，用于计算所述对象经去噪处理后的图像的第二显著性特征，根据所述第一显著性特征和第二显著性特征计算噪音误差，以及，在所述对象的邻域内，基于对象状态进行连通域分析，并根据获得的连通区域，计算一致性误差；

状态校正单元2042，用于利用所述噪音误差和一致性误差，对第一概率进行校正，得到校正后的第二概率，并根据所述第二概率，预测所述对象在下一时刻的状态。

这里，误差计算单元2041评估状态预测单元的误差，状态校正单元2042校正误差并更新对象的状态。由于在视频拍摄过程在，环境光线很可能发生变化，并且对象之间可能存在遮挡，状态预测单元的结果存在误差。因此，误差计算单元2041通过计算噪音及一致性来评价预测结果的准确性。另外，当遮挡发生时，对象的运动显著性可能会发生突变，并导致前、背景聚类结果发生错误。因此，请参照图7，本发明实施例的所述误差计算单元2041具体可以包括：

噪音误差计算单元20411，用于计算所述对象去噪处理后的图像的第二外观显著性和第二运动显著性；计算第一外观显著性和第二外观显著性的第一差值，以及第一运动显著性和第二运动显著性的第二差值，得到包括第一差值和第二差值的噪音残差；以及，对所述噪音残差在时间维度和空间维度上进行累积，得到所述噪音误差。

例如，可以对当前帧图像(假设为第t帧图像)之前的连续T帧图像进行上述累积计算，得到噪音误差D(t)，这里，连续T帧图像可以包括当前帧图像，具体可以参考以下公式计算所述噪音误差D(t)：

上述公式中，M_i表示第i帧图像中的对象数量，D₁(j,i)第i帧图像中的所述第一差值，D₂(j,i)表示第i帧图像中的所述第二差值。

一致性误差计算单元20412，用于在所述对象的邻域内，统计前景、背景对象的直方图，并将邻域标记为直方图柱的编号；通过连通域分析聚类对象，并根据聚类后得到的连通区域的面积，确定该连通区域为一致性连通区域或不一致性连通区域；以及，计算不一致性连通区域在空间和时间上所占的比例，获得一致性误差。

例如，可以参考以下公式计算第t帧图像的一致性误差C(t)：

上述公式中，C_i表示连续T帧图像的第i帧图像中的一致性连通区域的个数。

这里，噪音误差计算单元20411对视频帧进行滤波，如高斯滤波、双边滤波等，并基于滤波后的图像计算外观及运动显著性，得到第二外观显著性和第二运动显著性。然后，比较滤波前后的显著性，得到噪音残差，并将噪音残差在时间和空间维度上进行累计，获得噪音误差。

一致性误差计算单元20412在对象的邻域内统计前、背景状态的直方图，并将区域标记为直方图柱的编号。然后，通过连通域分析聚类区域，并根据聚类后得到的区域的面积判断该区域为一致性区域还是不一致性区域。如果聚类后得到的连通区域的面积大于预设面积门限，则判定该连通区域为一致性连通区域。通过计算不一致性连通区域在空间和时间上所占的比例，并将此比例作为一致性误差输出。

本发明实施例中，状态校正单元2042根据误差计算单元2041计算出的误差校正对象的状态。请参照图8，本发明实施例的状态校正单元2042包括：

第一计算单元20421，用于对所述噪音误差进行归一化处理，并计算第一概率与归一化后的噪音误差的第三差值；

第二计算单元20422，用于对所述一致性误差进行归一化处理，并计算第一概率与归一化后的一致性误差的第四差值；

校正处理单元20423，用于对第三差值和第四差值进行加权求和，得到第二概率，并在所述第二概率大于一预定门限时，判断所述对象在下一时刻的状态与当前状态不同，否则，判断所述对象在下一时刻的状态与当前状态相同。

这里，校正处理单元20423按照权值，例如高斯权值，对第三差值和第四差值进行加权求和，将上述两种校正后的概率结合在一起，并将计算结果与预定门限比较，得到更新后的对象状态。

下面结合图9描述本发明实施例涉及的对象状态估计装置的一种硬件结构图，如图9所示，该硬件结构900包括：

摄像机901、处理器902、存储器903、显示设备904、以及对象状态估计装置905，对象状态估计装置905又包括视频分割单元9051、状态初始化单元9052、状态预测单元9053和状态更新单元9054。其中，所述视频分割单元9051、状态初始化单元9052、状态预测单元9053和状态更新单元9054各自实现的功能与图2所示的视频分割单元201、状态初始化单元202、状态预测单元203和状态更新单元204相类似。

本发明实施例中，对象状态估计装置905中的各个模块可以通过嵌入式系统来实现。当然对象状态估计装置905也可以通过处理器902来实现，此时对象状态估计装置905相当于处理器902的一个子模块。

图9中，处理器902和存储器903分别通过总线接口与背景剪除装置905连接；总线架构可以是可以包括任意数量的互联的总线和桥；具体由处理器902代表的一个或者多个处理器，以及由存储器903代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起，这些都是本领域所公知的。因此，本文不再对其进行详细描述。

本发明实施例还提供了一种对象状态估计的方法，可应用于对运动相机采集的视频中的对象状态进行预测，请参照图10，该方法包括以下步骤：

步骤1001，根据外观特征和运动特征，将输入视频的每帧图像分割为多个对象，并确定各个对象的状态，所述状态包括前景和背景；

步骤1002，计算所述对象的原始图像的第一显著性特征，根据所述第一显著性特征，预测所述对象在下一个时刻状态转变的第一概率；

步骤1003，计算所述第一概率的误差，并根据所述误差，校正所述第一概率，并更新所述对象在下一时刻的状态。

以上方法，通过显著性检测及评估状态预测的误差，更新对象的状态，从而可以更为准确的预测对象状态。本发明实施例上述方法的输出结果，可以应用于视觉处理的后续功能，如背景建模、背景剪除、物体跟踪及识别等，从而提高视觉处理的性能。

请参照图11，本发明实施例上述步骤1001具体可以包括：

步骤10011，根据外观特征，对输入视频的图像进行分割，获得包括多个图像块的分割结果；

步骤10012，利用图像的运动特征，对所述分割结果进行优化，合并相邻且具有相似运动特征的图像块，获得分割后的对象；

步骤10013，计算任意两个对象在运动特征方面的运动相似性以及在外观特征方面的外观相似性，根据运动相似性及外观相似性计算对象属于前景的概率，并据该对象属于前景的概率，确定该对象的状态。

本发明实施例中，利用显著性特征，如外观显著性和运动显著性，来预测对象在下一帧图像状态发生改变的第一概率。请参照图12，第一概率的计算具体包括以下步骤：

步骤10021，计算输入视频中的对象的原始图像的第一外观显著性；

步骤10022，计算输入视频中的对象的原始图像的第一运动显著性；

步骤10023，计算所述对象在当前一段预设时间内的平均外观显著性，并计算所述第一外观显著性与平均外观显著性的差值，获得所述第一外观显著性的第一置信度；

步骤10024，计算当前帧图像中的所有对象的平均运动显著性，并计算所述第一运动显著性与平均运动显著性的差值，获得所述第一运动显著性的第二置信度；

步骤10025，根据第一置信度和第二置信度，确定第一外观显著性和第一运动显著性对应的权值，进而根据所述权值、第一外观显著性和第一运动显著性，计算所述对象在下一个时刻状态转变的第一概率。

由于视频可能因此光线或遮挡等原因，导致所述第一概率存在较大误差，因此，本发明实施例在上述步骤1003中计算第一概率的误差，例如，计算所述对象经去噪处理后的图像的第二显著性特征，根据所述第一显著性特征和第二显著性特征计算噪音误差，以及，在所述对象的邻域内，基于对象状态进行连通域分析，并根据获得的连通区域，计算一致性误差。

具体的，噪音误差的计算包括：计算所述对象去噪处理后的图像的第二外观显著性和第二运动显著性；计算第一外观显著性和第二外观显著性的第一差值，以及第一运动显著性和第二运动显著性的第二差值，得到包括第一差值和第二差值的噪音残差；以及，对所述噪音残差在时间维度和空间维度上进行累积，得到所述噪音误差。

一致性误差的计算包括：在所述对象的邻域内，统计前景、背景对象的直方图，并将邻域标记为直方图柱的编号；通过连通域分析聚类对象，并根据聚类后得到的连通区域的面积，确定该连通区域为一致性连通区域或不一致性连通区域。

本发明实施例利用噪音误差和一致性误差，对第一概率进行校正，具体的，可以分别对所述噪音误差进行归一化处理，并计算第一概率与归一化后的噪音误差的第三差值；以及，对所述一致性误差进行归一化处理，并计算第一概率与归一化后的一致性误差的第四差值；然后，对第三差值和第四差值进行加权求和，得到校正后的第二概率。这样，在所述第二概率大于所述预定门限时，判断所述对象在下一时刻的状态与当前状态不同，即状态发生改变；在所述第二概率小于等于所述预定门限时，判断所述对象在下一时刻的状态与当前状态相同，即状态保持不变。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种对象状态估计装置，其特征在于，包括：

2.如权利要求1所述的对象状态估计装置，其特征在于，所述视频分割单元包括：

3.如权利要求1所述的对象状态估计装置，其特征在于，所述状态初始化单元包括：

4.如权利要求1所述的对象状态估计装置，其特征在于，所述状态预测单元包括：

5.如权利要求4所述的对象状态估计装置，其特征在于，所述状态更新单元包括：

6.如权利要求5所述的对象状态估计装置，其特征在于，所述误差计算单元包括：

7.如权利要求6所述的对象状态估计装置，其特征在于，所述状态校正单元包括：

8.一种对象状态估计的方法，其特征在于，包括：

9.如权利要求8所述的方法，其特征在于，

所述根据外观特征和运动特征，将输入视频的每帧图像分割为多个对象的步骤包括：

10.如权利要求8所述的方法，其特征在于，

所述确定各个对象的状态的步骤包括：

11.如权利要求8所述的方法，其特征在于，

所述计算对象的原始图像的第一显著性特征，根据所述第一显著性特征，预测所述对象在下一个时刻状态转变的第一概率的步骤，包括：

计算对象的原始图像的第一外观显著性和第一运动显著性；

12.如权利要求11所述的方法，其特征在于，

所述计算所述第一概率的误差，并根据所述误差，校正所述第一概率，并更新所述对象在下一时刻的状态的步骤，包括：

13.如权利要求12所述的方法，其特征在于，

所述计算所述对象经去噪处理后的图像的第二显著性特征，根据所述第一显著性特征和第二显著性特征计算噪音误差的步骤，包括：计算所述对象去噪处理后的图像的第二外观显著性和第二运动显著性；计算第一外观显著性和第二外观显著性的第一差值，以及第一运动显著性和第二运动显著性的第二差值，得到包括第一差值和第二差值的噪音残差；以及，对所述噪音残差在时间维度和空间维度上进行累积，得到所述噪音误差；

14.如权利要求13所述的方法，其特征在于，

所述利用所述噪音误差和一致性误差，对第一概率进行校正，得到校正后的第二概率，并根据所述第二概率，预测所述对象在下一时刻的状态的步骤，包括：

对第三差值和第四差值进行加权求和，得到第二概率；