CN116188820B

CN116188820B - 一种视觉目标处理方法、装置、设备及存储介质

Info

Publication number: CN116188820B
Application number: CN202310064411.6A
Authority: CN
Inventors: 戴健; 吴锐; 祝本明; 任珍文
Original assignee: China South Industries Group Automation Research Institute
Current assignee: China South Industries Group Automation Research Institute
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-10-13
Anticipated expiration: 2043-01-12
Also published as: CN116188820A

Abstract

本发明公开了一种视觉目标处理方法、装置、设备及存储介质，该方法包括确定待处理的视觉目标数据；将所述视觉目标数据从原始非线性空间映射到高维线性可分空间；利用预先训练得到的视觉目标处理模型，对映射得到的高维线性可分空间数据进行处理，以得到处理结果。该方法可以将视觉目标数据从原始非线性空间映射到高维的可再生希尔伯特核空间中，从而使得视觉目标数据变为线性可分。视觉目标处理模型实现了相似度的一致性、差异性学习，和标签学习的统一，这种联合学习的方式通常可以有效的提高算法的表现。

Description

一种视觉目标处理方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于多核无监督深度共识性与差异性图学习网络及目标分割应用的视觉目标处理方法、装置、设备及存储介质。

背景技术

地面目标识别是基于遥感技术、人工智能技术等现代化手段对地面目标进行采集、分类及识别。地面目标识别过程主要包括：可见光图像样本采集、样本预处理、训练分类器、目标识别几个步骤。人们对智能检测和目标识别的技术需求越来越大，汽车辅助驾驶、智能交通监控、军事等领域的核心是自动检测和识别某些应用场景内的存在的地面目标。

随着机器视觉技术的快速发展，传统很多需要人工来手动操作的工作，渐渐地被机器所替代。传统方法做目标识别大多都是靠人工实现，从形状、颜色、长度、宽度、长宽比来确定被识别的目标是否符合标准，最终定义出一系列的规则来进行目标识别。这样的方法当然在一些简单的案例中已经应用的很好，唯一的缺点是随着被识别物体的变动，所有的规则和算法都要重新设计和开发，即使是同样的产品，不同批次的变化都会造成不能重用的现实。

而随着机器学习、深度学习的发展，很多肉眼很难去直接量化的特征，深度学习可以自动学习这些特征，这就是深度学习带给我们的优点和前所未有的吸引力。很多特征我们通过传统算法无法量化，或者说很难去做到的，深度学习可以。特别是在图像分类、目标识别这些问题上有显著的提升。

目标检测主要是针对图像视觉的一种方法，根据学习到的目标，将目标区域进行位置定位和类别识别，同时需要给出目标的置信度。在复杂战场环境中，视觉目标在空间中面临线性不可分的问题、可利用的标签信息也非常少，直接利用这些原始数据开展相似度学习将会导致结果出现偏差，难以真实地挖掘视觉目标间潜在的相似度关系。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的一种视觉目标处理方法、装置、设备及存储介质。

本发明提供了如下方案：

一种视觉目标处理方法，包括：

确定待处理的视觉目标数据；

将所述视觉目标数据从原始非线性空间映射到高维线性可分空间；

利用预先训练得到的视觉目标处理模型，对映射得到的高维线性可分空间数据进行处理，以得到处理结果；所述视觉目标处理模型通过以下方式生成：

将视觉目标样本数据从原始非线性空间映射到高维线性可分空间，利用映射得到的高维线性可分空间数据，通过非监督学习的方式进行模型训练，以生成所述视觉目标处理模型；

其中，在训练过程中，所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。

优选地：生成所述视觉目标处理模型的方法，包括：

获取视觉目标样本数据；

将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间；

利用映射得到的高维线性可分空间数据，通过非监督学习的方式进行模型训练，以生成所述视觉目标处理模型；

其中，所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。

优选地：所述将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间，包括：

利用深度自动编码器，对所述视觉目标样本数据进行非线性的投影变化，以便将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间。

优选地：所述深度自动编码器与译码器之间包括自表示相似度学习层。

优选地：所述目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵，以及所述共识性学习网络部分以及差异学习网络部分进行构建的。

优选地：所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分。

一种视觉目标处理装置，包括：

待处理数据确定单元，用于确定待处理的视觉目标数据；

数据映射单元，用于将所述视觉目标数据从原始非线性空间映射到高维线性可分空间；

处理单元，用于利用预先训练得到的视觉目标处理模型，对映射得到的高维线性可分空间数据进行处理，以得到处理结果；其中，所述视觉目标处理模型通过以下方式生成：将视觉目标样本数据从原始非线性空间映射到高维线性可分空间，进行利用映射得到的高维线性可分空间数据，通过非监督学习的方式，对视觉目标处理模型进行训练；其中，所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。

一种视觉目标处理设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执上述的视觉目标处理方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的视觉目标处理方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本申请实施例提供的一种视觉目标处理方法、装置、设备及存储介质，该方法可以将视觉目标数据从原始非线性空间映射到高维的可再生希尔伯特核空间中，从而使得视觉目标数据变为线性可分。视觉目标处理模型实现了相似度的一致性、差异性学习，和标签学习的统一，这种联合学习的方式通常可以有效的提高算法的表现。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视觉目标处理方法的流程图；

图2是本发明实施例提供的共识性与差异性图学习网络结构示意图；

图3是本发明实施例提供的一种视觉目标处理装置的示意图；

图4是本发明实施例提供的一种视觉目标处理设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，为本发明实施例提供的一种视觉目标处理方法，如图1所示，该方法可以包括：

S101:确定待处理的视觉目标数据；视觉目标可以是一些目标(作战场景中的各种装备获取到的图像)的图像，视频之类的视觉目标。

S102:将所述视觉目标数据从原始非线性空间映射到高维线性可分空间；

S103:利用预先训练得到的视觉目标处理模型，对映射得到的高维线性可分空间数据进行处理，以得到处理结果；所述视觉目标处理模型通过以下方式生成：

本申请实施例提供的视觉目标处理方法，在进行视觉目标处理时，视觉目标的原始数据存在线性不可分问题，线性可分就是说可以用一个线性函数把两类样本分开，比如二维空间中的直线、三维空间中的平面以及高维空间中的线性函数；线性不可分指有部分样本用线性分类面划分时会产生分类误差的情况。在这种情况下，SVM就通过一个非线性映射函数把样本映射到一个线性可分高维空间，在此高维空间建立线性分类面，而此高维空间的线性分类面对应的就是输入空间中的非线性分类面。

在复杂战场环境中，视觉目标在空间中面临线性不可分的问题、可利用的标签信息也非常少，直接利用这些原始数据开展相似度学习将会导致结果出现偏差，难以真实地挖掘视觉目标间潜在的相似度关系。因此，首先解决该问题，进行一些变换处理之后，在进行模型训练时，需要构造目标函数，目标函数中包括共识性学习网络与差异学习网络，以此找出高辨别与大差异的样本，提升算法的表现。

进一步的，生成所述视觉目标处理模型的方法，包括：

获取视觉目标样本数据；

利用映射得到的高维线性可分空间数据，通过非监督学习的方式进行模型训练，以生成视觉目标处理模型；

所述将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间，包括：

所述深度自动编码器与译码器之间包括自表示相似度学习层。

所述目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵，以及所述共识性学习网络部分以及差异学习网络部分进行构建的。

所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分。

在复杂战场环境中，视觉目标在空间中面临线性不可分的问题、可利用的标签信息也非常少，直接利用这些原始数据开展相似度学习将会导致结果出现偏差，难以真实地挖掘视觉目标间潜在的相似度关系。为此，预先定义包含m个基核(样本)的核池，将视觉目标从原始空间映射到高维的可再生希尔伯特核空间中，从而使得视觉目标变为线性可分。

针对每个候选核，可以使用深度自动编码器(Deep Auto Encoder)来对数据进行非线性的投影变换，在编码器和译码器之间引入自表示相似度学习层。假设编码器输出层为核数据的低维嵌入或指示矩阵F，译码器输入层为FZ，Z是这两层之间连接的权重，也即相似度矩阵。如果视觉目标固有的类簇数为c，则指示矩阵或者低维嵌入矩阵F定义为：

对于每个基核对应的低维嵌入，需要考虑每个基核的一致性和差异性。依据集成策略，需要从中找到高辨别与大差异的基核，同时要兼顾基核之间的一致性。基于此，为了利用核数据的低维嵌入充分挖掘各个基核的深层次复杂结构信息，因此针对性地设计共识性学习网络与差异学习网络，优化如下的广义目标函数：

其中，Z为学习得到的共识相似度矩阵，Z⁽ⁱ⁾为第i个基核对应的相似度矩阵，φ为指示矩阵或者标签矩阵学习网络，ψ为共识性学习网络，为差异性学习网络。

该目标函数实现了相似度的一致性、差异性学习，和标签学习的统一，这种联合学习的方式通常会提高算法的表现。共识性与差异性图学习网络结构如图2所示。

在优化时，可以使用随机梯度下降进行求解，因此该算法具有很好的可扩展性。另外，神经网络自身就很好地解决了泛化问题，因此训练好的网络直接可以用来处理新的视觉目标数据。

学习到共识关系图Z后，便能利用谱聚类算法进行目标图像分割。

总之，本申请提供的视觉目标处理方法，可以将视觉目标数据从原始非线性空间映射到高维的可再生希尔伯特核空间中，从而使得视觉目标数据变为线性可分。视觉目标处理模型实现了相似度的一致性、差异性学习，和标签学习的统一，这种联合学习的方式通常可以有效的提高算法的表现。

参见图3，本申请实施例还可以提供一种视觉目标处理装置，如图3所示，该装置可以包括：

待处理数据确定单元301，用于确定待处理的视觉目标数据；

数据映射单元302，用于将所述视觉目标数据从原始非线性空间映射到高维线性可分空间；

处理单元303，用于利用预先训练得到的视觉目标处理模型，对映射得到的高维线性可分空间数据进行处理，以得到处理结果；

所述视觉目标处理模型通过以下方式生成：将视觉目标样本数据从原始非线性空间映射到高维线性可分空间，进行利用映射得到的高维线性可分空间数据，通过非监督学习的方式，对视觉目标处理模型进行训练；

如图4所示，本申请实施例提供的一种视觉目标处理设备，该设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(CentralProcessingUnit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行视觉目标处理方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

确定待处理的视觉目标数据；

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如初始化数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图4所示的结构并不构成对本申请实施例中视觉目标处理设备的限定，在实际应用中视觉目标处理设备可以包括比图4所示的更多或更少的部件，或者组合某些部件。

本申请实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述的视觉目标处理方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视觉目标处理方法，其特征在于，包括：

确定待处理的视觉目标数据；所述视觉目标数据包括图像数据以及视频数据；

预先定义包含m个基核的核池，每个所述基核对应一个所述视觉目标样本数据；

利用深度自动编码器，对所述视觉目标样本数据进行非线性的投影变化，以便将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间，得到的高维线性可分空间数据；所述深度自动编码器与译码器之间包括自表示相似度学习层；所述深度自动编码器的输出层为核数据的低维嵌入或指示矩阵F，所述指示矩阵或者低维嵌入矩阵F定义为：

其中，c为视觉目标固有的类簇数；

所述视觉目标处理模型的目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵，以及共识性学习网络部分以及差异学习网络部分进行构建的；所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分；所述目标函数通过下式表示：

2.一种视觉目标处理装置，其特征在于，包括：

待处理数据确定单元，用于确定待处理的视觉目标数据；所述视觉目标数据包括图像数据以及视频数据；

处理单元，用于利用预先训练得到的视觉目标处理模型，对映射得到的高维线性可分空间数据进行处理，以得到处理结果；其中，所述视觉目标处理模型通过以下方式生成：

其中，c为视觉目标固有的类簇数；

3.一种视觉目标处理设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1所述的视觉目标处理方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1所述的视觉目标处理方法。