CN117496399A

CN117496399A - 用于视频中运动目标检测的聚类方法、系统、设备及介质

Info

Publication number: CN117496399A
Application number: CN202311390457.3A
Authority: CN
Inventors: 罗静; 方鑫; 刘阳; 孔祥斌; 李懿祖; 武鑫森
Original assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Current assignee: CRSC Communication and Information Group Co Ltd CRSCIC
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-02-02

Abstract

本发明涉及一种用于视频中运动目标检测的聚类方法、系统、设备及介质，包括以下步骤：获取视频中的某一帧图像作为原始图像，并利用图像前景算法得到轮廓二值图；将轮廓二值图内的所有轮廓点作为待聚类的样本点，利用自适应邻域聚类算法进行聚类，得到去除噪声轮廓点后的若干类簇；将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的轮廓信息，用于判断原始图像中是否出现了运动目标。本发明将基于自适应邻域聚类和引力模型的两阶段聚类算法应用到视频中运动目标识别的图像前景算法处理中，能够有效去除噪声点，获得目标物体的准确类簇。本发明可以广泛应用于人工智能领域。

Description

用于视频中运动目标检测的聚类方法、系统、设备及介质

技术领域

本发明属于人工智能领域，涉及计算机视觉和图像处理领域，具体是涉及一种用于视频中运动目标检测的聚类方法、系统、设备及介质。

背景技术

计算机视觉是人工智能领域的一个重要分支，致力于使计算机能够模拟人类视觉系统，实现对图像和视频的理解、分析和处理。在计算机视觉和图像处理领域，前景分割是一项关键任务，用于将图像中前景区域内感兴趣的目标提取出来，从而为目标检测和跟踪提供基础。通过分割出前景区域，可以更准确地定位目标，进而实现对目标物体的跟踪与分析。

然而，目前的前景分割算法在应用到对视频中运动目标的检测时，会产生许多无意义的噪声点和多个目标物体轮廓，存在错误检测出的目标框和错误显示的轮廓，在进行后续跟踪和分析处理之前，需要进行去噪处理。

发明内容

针对上述问题，本发明的目的是提供一种用于视频中运动目标检测的聚类方法、系统、设备及介质，利用两阶段聚类算法去除噪声点，能够快速准确地聚类出目标物体轮廓。

为实现上述目的，本发明采取以下技术方案：

第一方面，本发明提供一种用于视频中运动目标检测的聚类方法，包括以下步骤：

获取视频中的某一帧图像作为原始图像，并利用图像前景算法得到轮廓二值图；

将轮廓二值图内的所有轮廓点作为待聚类的样本点，利用自适应邻域聚类算法进行聚类，得到去除噪声轮廓点后的若干类簇；

将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的轮廓信息，用于判断原始图像中是否出现了运动目标。

进一步，所述获取视频中的某一帧图像作为原始图像，并利用图像前景算法得到轮廓二值图，包括：

获取视频中的某一帧图像作为原始图像；

基于高斯混合模型的背景减除法对原始图像进行处理，得到前景图像；

依次对前景图像进行高斯模糊处理、二值化处理和形态学操作处理，得到前景图像的轮廓二值图。

进一步，所述将轮廓二值图内的所有轮廓点作为待聚类的样本点，利用自适应邻域聚类算法进行聚类，得到去除噪声轮廓点后的若干类簇，包括：

将轮廓二值图中的所有轮廓点作为待聚类的样本点，并计算各样本点之间的距离；

以样本点之间的距离越小，其连接的概率越大为前提构建优化目标函数，并进行求解；

基于求解结果对待聚类的样本点进行聚类，得到若干初始类簇；

将得到的各初始类簇中样本点数量小于预设值的类簇视作噪声轮廓点进行删除，得到去除噪声轮廓点后的若干类簇。

进一步，所述优化目标函数为：

有且只有3个非零元素

其中，x_i和x_j分别代表第i个和第j个轮廓样本点；s_ij代表第i个和第j个轮廓样本点的连接概率；S代表由连接概率s_ij组成的概率矩阵；γ代表正则系数，用于防止连接概率s_ij是平凡解；约束条件代表第i个轮廓样本点与其他轮廓样本点的连接概率之和为1，且与任一其他轮廓样本点的连接概率值大于0，小于1。

进一步，所述将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的轮廓信息，用于判断原始图像中是否出现了运动目标，包括：

将各类簇中的样本点个数作为质量m赋予对应类簇；

利用引力模型公式计算各类簇之间的引力值；

基于预设融合规则以及各类簇之间的引力值对所有类簇进行融合聚类，得到轮廓二值图中物体的轮廓信息。

进一步，所述基于预设融合规则以及各类簇之间的引力值对所有类簇进行融合聚类，得到轮廓二值图中物体的轮廓信息，包括：

基于待聚类的所有样本点数量N，确定阈值集合[1,2,3，…，N/2]；

按照从小到大的顺序对阈值集合中的阈值进行排列，并根据最小阈值判断融合是否发生，若是，则按照预设融合规则将质量小于当前阈值的类簇融合到质量大于当前阈值的对应类簇中，否则按顺序对当前阈值进行更新后继续判断，直到遍历完阈值集合，得到轮廓二值图中物体的轮廓信息。

进一步，所述预设融合规则为：

当类簇I对类簇J的引力值大于其他类簇对类簇I的引力值之和，则认为类簇I有合并到点簇J的趋势；

如果类簇J也有合并到类簇I的趋势，则不对类簇I和类簇J进行合并。

第二方面，本发明提供一种用于视频中运动目标检测的聚类系统，包括：

图像前景处理模块，用于获取视频中的某一帧图像作为原始图像，并利用图像前景算法得到轮廓二值图；

第一聚类模块，用于将轮廓二值图内的所有轮廓点作为待聚类的样本点，利用自适应邻域聚类算法进行聚类，得到去除噪声轮廓点后的若干类簇；

第二聚类模块，用于将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的轮廓信息，用于判断原始图像中是否出现了运动目标。

第三方面，本发明提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行任一方法。

第四方面，本发明提供一种计算设备，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明提出的聚类方法在常规方法获得的轮廓二值图基础上，利用两阶段聚类算法去除噪声点，能够在无需输入任何超参数的情况下快速完成聚类，具有一定的鲁棒性。

2、本发明将聚类解耦为两个阶段，第一阶段通过自适应邻域算法的优势充分发掘样本点的邻域信息，然后第二阶段按照从小到大的层次融合，最终可以获得准确的类簇，本发明可以准确的去除噪声点，有效聚类出目标物体轮廓，为后续跟踪或检测步骤提供有效的先验知识。

因此，本发明可以广泛应用于人工智能领域，特别是计算机视觉和图像处理领域。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在整个附图中，用相同的附图标记表示相同的部件。在附图中：

图1为本发明实施例提供的用于视频中运动目标检测的聚类方法流程图；

图2为本发明实施例提供的图像前景算法的整体流程图；

图3为本发明实施例提供的经过背景减除法和形态学操作处理后的前景轮廓二值图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

聚类是数据挖掘和机器学习中的一个关键任务，用于将相似的数据点分组，以便在同一组内的数据点之间共享某种程度的相似性，在许多其他类型的任务，如文本分析，图像处理等领域也有许多重要的应用。然而，传统的基于距离阈值的聚类方法虽然可以将多个目标框或者目标轮廓合并为一个想要的目标或者轮廓，但是其距离阈值却难以确定，并且统一的距离阈值超参数难以应用到所有图片和所有场景中。

基于此，本发明的一些实施例中，提供一种用于视频中运动目标检测的聚类方法，该方法将基于自适应邻域聚类和引力模型的两阶段聚类算法应用到视频中运动目标识别的图像前景算法处理中，第一阶段，通过自适应邻域聚类算法的优势充分发掘样本点的邻域信息，去除噪声点，第二阶段，按照从小到大的层次融合，最终可以获得目标物体的准确类簇。本发明能够快速准确的去除噪声点，并有效聚类出目标物体轮廓，为后续跟踪或检测步骤提供有效的先验知识。

与之相对应地，本发明的另一些实施例中，提供一种用于视频中运动目标检测的聚类系统、设备和介质。

实施例1

如图1所示，本实施例提供一种用于视频中运动目标检测的聚类方法，具体地，包括以下步骤：

1)获取视频中的某一帧图像作为原始图像，并利用图像前景算法得到轮廓二值图；

2)将轮廓二值图内的所有轮廓点作为待聚类的样本点，利用自适应邻域聚类算法进行聚类，得到去除噪声轮廓点后的若干类簇；

3)将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的准确轮廓信息，用于判断原始图像中是否出现了运动目标。

优选地，上述步骤1)中，如图2所示，包括以下步骤：

1.1)获取视频中的某一帧图像作为原始图像；

1.2)基于高斯混合模型的背景减除法对原始图像进行处理，得到前景图像；

1.3)依次对前景图像进行高斯模糊处理、二值化处理和形态学操作处理，得到前景图像的轮廓二值图。

优选地，上述步骤1.3)中，对前景图像进行高斯模糊处理时，可以使用3*3的滤波核。

优选地，上述步骤1.3)中，对前景图像进行形态学操作处理时，先做开运算，再做闭运算。本实施例中，对前景图像进行形态学操作处理时，使用的核大小为5*5。形态学操作处理为本领域技术人员公知技术，本发明对此不做赘述。

优选地，上述步骤2)中，包括以下步骤：

2.1)将轮廓二值图中的所有轮廓点作为待聚类的样本点，并计算各样本点之间的距离；

2.2)以样本点之间的距离越小，其连接的概率越大为前提构建优化目标函数，并进行求解；

2.3)基于求解结果对待聚类的样本点进行聚类，得到若干初始类簇；

2.4)将步骤2.3)得到的各初始类簇中样本点数量小于预设值的类簇认为是噪声轮廓点进行删除，得到去除噪声轮廓点后的若干类簇。

优选地，上述步骤2.1)中，各样本点之间的距离是指两个点簇之间的最短距离。

优选地，上述步骤2.2)中，本实施例中，以样本点之间的距离越小，其连接的概率越大为假设条件，且仅考虑在所有样本点内与最近的3个邻居样本点之间的概率连接，构建优化目标函数，表示为：

有且只有3个非零元素

其中，x_i和x_j分别代表第i个和第j个轮廓样本点；s_ij代表轮廓样本点i和轮廓样本点j的连接概率；S代表由连接概率s_ij组成的概率矩阵；γ代表正则系数，用于防止连接概率s_ij是平凡解，可由数据样本信息求得。约束条件则表示了第i个轮廓样本点与其他轮廓样本点的连接概率之和为1，且与任一其他轮廓样本点的连接概率值大于0，小于1。

优选地，上述步骤2.3)中，对优化目标函数进行求解时，可以利用拉格朗日乘子法和梯度下降法，求解后得到概率矩阵S。其中，利用拉格朗日乘子法和梯度下降法对优化目标函数进行求解，为本领域技术人员公知技术，本发明对此不做赘述。

优选地，上述步骤2.4)中，基于求解结果对待聚类的样本点进行聚类时，可以利用Tarjan算法(一种深度优先搜索算法)，具体地，利用Tarjan算法寻找概率矩阵S代表的图的连通分支，即由轮廓点组成的类簇。

优选地，上述步骤3)中，包括以下步骤：

3.1)将各类簇中的样本点个数作为质量m赋予对应类簇；

3.2)利用引力模型公式计算各类簇之间的引力值；

3.3)基于预设融合规则以及各类簇之间的引力值对所有类簇进行融合聚类，得到轮廓二值图中物体的准确轮廓信息。

优选地，上述步骤3.2)中，引力模型公式表示为：

式中，m₁和m₂为不同类簇的质量，r是两个类簇之间的最近距离。

优选地，上述步骤3.3)中，包括以下步骤：

3.3.1)基于待聚类的所有样本点数量N，确定阈值集合[1,2,3，…，N/2]；

3.3.2)按照从小到大的顺序对阈值集合中的阈值进行排列，并根据最小阈值判断融合是否发生，即是否有类簇质量小于当前阈值，若是，则按照预设融合规则将质量小于当前阈值的类簇融合到质量大于当前阈值的对应类簇中，否则按顺序对当前阈值进行更新后继续判断，直到遍历完阈值集合，得到轮廓二值图中物体的轮廓信息。

优选地，上述步骤3.3.2)中，预设的融合规则为：

如果类簇J也有合并到类簇I的趋势，即类簇I和类簇J有相互融合的趋势，则认为类簇I和类簇J的质量差不多，为了降低同一类簇融合到不同真实类别的概率，约定此时不对类簇I和类簇J进行合并。

如图3所示，经过聚类算法后，可以将轮廓二值图像左侧方框内的轮廓聚成一类，而忽略掉右边的噪声轮廓点。

实施例2

上述实施例1提供了用于视频中运动目标检测的聚类方法，与之相对应地，本实施例提供一种用于视频中运动目标检测的聚类系统。本实施例提供的系统可以实施实施例1的用于视频中运动目标检测的聚类方法，该系统可以通过软件、硬件或软硬结合的方式来实现。例如，该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例，所以本实施例描述过程比较简单，相关之处可以参见实施例1的部分说明即可，本实施例提供的系统的实施例仅仅是示意性的。

本实施例提供的用于视频中运动目标检测的聚类系统，包括：

第二聚类模块，用于将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的准确轮廓信息，用于判断原始图像中是否出现了运动目标。

实施例3

本实施例提供一种与本实施例1所提供的用于视频中运动目标检测的聚类方法对应的处理设备，处理设备可以是用于客户端的处理设备，例如手机、笔记本电脑、平板电脑、台式机电脑等，以执行实施例1的方法。

所述处理设备包括处理器、存储器、通信接口和总线，处理器、存储器和通信接口通过总线连接，以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行本实施例1所提供的用于视频中运动目标检测的聚类方法。

在一些实施例中，存储器可以是高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

在另一些实施例中，处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器，在此不做限定。

实施例4

本实施例1的用于视频中运动目标检测的聚类方法可被具体实现为一种计算机程序产品，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本实施例1所述的用于视频中运动目标检测的聚类方法的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种用于视频中运动目标检测的聚类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种用于视频中运动目标检测的聚类方法，其特征在于，所述获取视频中的某一帧图像作为原始图像，并利用图像前景算法得到轮廓二值图，包括：

获取视频中的某一帧图像作为原始图像；

3.如权利要求1所述的一种用于视频中运动目标检测的聚类方法，其特征在于，所述将轮廓二值图内的所有轮廓点作为待聚类的样本点，利用自适应邻域聚类算法进行聚类，得到去除噪声轮廓点后的若干类簇，包括：

4.如权利要求3所述的一种用于视频中运动目标检测的聚类方法，其特征在于，所述优化目标函数为：

有且只有3个非零元素

5.如权利要求1所述的一种用于视频中运动目标检测的聚类方法，其特征在于，所述将得到的各类簇按照预设融合规则进行融合，得到轮廓二值图中物体的轮廓信息，用于判断原始图像中是否出现了运动目标，包括：

将各类簇中的样本点个数作为质量m赋予对应类簇；

利用引力模型公式计算各类簇之间的引力值；

6.如权利要求5所述的一种用于视频中运动目标检测的聚类方法，其特征在于，所述基于预设融合规则以及各类簇之间的引力值对所有类簇进行融合聚类，得到轮廓二值图中物体的轮廓信息，包括：

7.如权利要求6所述的一种用于视频中运动目标检测的聚类方法，其特征在于，所述预设融合规则为：

8.一种用于视频中运动目标检测的聚类系统，其特征在于，

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。