CN116188820B - 一种视觉目标处理方法、装置、设备及存储介质 - Google Patents

一种视觉目标处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116188820B
CN116188820B CN202310064411.6A CN202310064411A CN116188820B CN 116188820 B CN116188820 B CN 116188820B CN 202310064411 A CN202310064411 A CN 202310064411A CN 116188820 B CN116188820 B CN 116188820B
Authority
CN
China
Prior art keywords
visual target
data
learning
space
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310064411.6A
Other languages
English (en)
Other versions
CN116188820A (zh
Inventor
戴健
吴锐
祝本明
任珍文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South Industries Group Automation Research Institute
Original Assignee
China South Industries Group Automation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China South Industries Group Automation Research Institute filed Critical China South Industries Group Automation Research Institute
Priority to CN202310064411.6A priority Critical patent/CN116188820B/zh
Publication of CN116188820A publication Critical patent/CN116188820A/zh
Application granted granted Critical
Publication of CN116188820B publication Critical patent/CN116188820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种视觉目标处理方法、装置、设备及存储介质,该方法包括确定待处理的视觉目标数据;将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果。该方法可以将视觉目标数据从原始非线性空间映射到高维的可再生希尔伯特核空间中,从而使得视觉目标数据变为线性可分。视觉目标处理模型实现了相似度的一致性、差异性学习,和标签学习的统一,这种联合学习的方式通常可以有效的提高算法的表现。

Description

一种视觉目标处理方法、装置、设备及存储介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于多核无监督深度共识性与差异性图学习网络及目标分割应用的视觉目标处理方法、装置、设备及存储介质。
背景技术
地面目标识别是基于遥感技术、人工智能技术等现代化手段对地面目标进行采集、分类及识别。地面目标识别过程主要包括:可见光图像样本采集、样本预处理、训练分类器、目标识别几个步骤。人们对智能检测和目标识别的技术需求越来越大,汽车辅助驾驶、智能交通监控、军事等领域的核心是自动检测和识别某些应用场景内的存在的地面目标。
随着机器视觉技术的快速发展,传统很多需要人工来手动操作的工作,渐渐地被机器所替代。传统方法做目标识别大多都是靠人工实现,从形状、颜色、长度、宽度、长宽比来确定被识别的目标是否符合标准,最终定义出一系列的规则来进行目标识别。这样的方法当然在一些简单的案例中已经应用的很好,唯一的缺点是随着被识别物体的变动,所有的规则和算法都要重新设计和开发,即使是同样的产品,不同批次的变化都会造成不能重用的现实。
而随着机器学习、深度学习的发展,很多肉眼很难去直接量化的特征,深度学习可以自动学习这些特征,这就是深度学习带给我们的优点和前所未有的吸引力。很多特征我们通过传统算法无法量化,或者说很难去做到的,深度学习可以。特别是在图像分类、目标识别这些问题上有显著的提升。
目标检测主要是针对图像视觉的一种方法,根据学习到的目标,将目标区域进行位置定位和类别识别,同时需要给出目标的置信度。在复杂战场环境中,视觉目标在空间中面临线性不可分的问题、可利用的标签信息也非常少,直接利用这些原始数据开展相似度学习将会导致结果出现偏差,难以真实地挖掘视觉目标间潜在的相似度关系。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种视觉目标处理方法、装置、设备及存储介质。
本发明提供了如下方案:
一种视觉目标处理方法,包括:
确定待处理的视觉目标数据;
将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;所述视觉目标处理模型通过以下方式生成:
将视觉目标样本数据从原始非线性空间映射到高维线性可分空间,利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成所述视觉目标处理模型;
其中,在训练过程中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
优选地:生成所述视觉目标处理模型的方法,包括:
获取视觉目标样本数据;
将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间;
利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成所述视觉目标处理模型;
其中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
优选地:所述将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间,包括:
利用深度自动编码器,对所述视觉目标样本数据进行非线性的投影变化,以便将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间。
优选地:所述深度自动编码器与译码器之间包括自表示相似度学习层。
优选地:所述目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵,以及所述共识性学习网络部分以及差异学习网络部分进行构建的。
优选地:所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分。
一种视觉目标处理装置,包括:
待处理数据确定单元,用于确定待处理的视觉目标数据;
数据映射单元,用于将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
处理单元,用于利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;其中,所述视觉目标处理模型通过以下方式生成:将视觉目标样本数据从原始非线性空间映射到高维线性可分空间,进行利用映射得到的高维线性可分空间数据,通过非监督学习的方式,对视觉目标处理模型进行训练;其中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
一种视觉目标处理设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执上述的视觉目标处理方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的视觉目标处理方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本申请实施例提供的一种视觉目标处理方法、装置、设备及存储介质,该方法可以将视觉目标数据从原始非线性空间映射到高维的可再生希尔伯特核空间中,从而使得视觉目标数据变为线性可分。视觉目标处理模型实现了相似度的一致性、差异性学习,和标签学习的统一,这种联合学习的方式通常可以有效的提高算法的表现。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种视觉目标处理方法的流程图;
图2是本发明实施例提供的共识性与差异性图学习网络结构示意图;
图3是本发明实施例提供的一种视觉目标处理装置的示意图;
图4是本发明实施例提供的一种视觉目标处理设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,为本发明实施例提供的一种视觉目标处理方法,如图1所示,该方法可以包括:
S101:确定待处理的视觉目标数据;视觉目标可以是一些目标(作战场景中的各种装备获取到的图像)的图像,视频之类的视觉目标。
S102:将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
S103:利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;所述视觉目标处理模型通过以下方式生成:
将视觉目标样本数据从原始非线性空间映射到高维线性可分空间,利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成所述视觉目标处理模型;
其中,在训练过程中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
本申请实施例提供的视觉目标处理方法,在进行视觉目标处理时,视觉目标的原始数据存在线性不可分问题,线性可分就是说可以用一个线性函数把两类样本分开,比如二维空间中的直线、三维空间中的平面以及高维空间中的线性函数;线性不可分指有部分样本用线性分类面划分时会产生分类误差的情况。在这种情况下,SVM就通过一个非线性映射函数把样本映射到一个线性可分高维空间,在此高维空间建立线性分类面,而此高维空间的线性分类面对应的就是输入空间中的非线性分类面。
在复杂战场环境中,视觉目标在空间中面临线性不可分的问题、可利用的标签信息也非常少,直接利用这些原始数据开展相似度学习将会导致结果出现偏差,难以真实地挖掘视觉目标间潜在的相似度关系。因此,首先解决该问题,进行一些变换处理之后,在进行模型训练时,需要构造目标函数,目标函数中包括共识性学习网络与差异学习网络,以此找出高辨别与大差异的样本,提升算法的表现。
进一步的,生成所述视觉目标处理模型的方法,包括:
获取视觉目标样本数据;
将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间;
利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成视觉目标处理模型;
其中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
所述将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间,包括:
利用深度自动编码器,对所述视觉目标样本数据进行非线性的投影变化,以便将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间。
所述深度自动编码器与译码器之间包括自表示相似度学习层。
所述目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵,以及所述共识性学习网络部分以及差异学习网络部分进行构建的。
所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分。
在复杂战场环境中,视觉目标在空间中面临线性不可分的问题、可利用的标签信息也非常少,直接利用这些原始数据开展相似度学习将会导致结果出现偏差,难以真实地挖掘视觉目标间潜在的相似度关系。为此,预先定义包含m个基核(样本)的核池,将视觉目标从原始空间映射到高维的可再生希尔伯特核空间中,从而使得视觉目标变为线性可分。
针对每个候选核,可以使用深度自动编码器(Deep Auto Encoder)来对数据进行非线性的投影变换,在编码器和译码器之间引入自表示相似度学习层。假设编码器输出层为核数据的低维嵌入或指示矩阵F,译码器输入层为FZ,Z是这两层之间连接的权重,也即相似度矩阵。如果视觉目标固有的类簇数为c,则指示矩阵或者低维嵌入矩阵F定义为:
对于每个基核对应的低维嵌入,需要考虑每个基核的一致性和差异性。依据集成策略,需要从中找到高辨别与大差异的基核,同时要兼顾基核之间的一致性。基于此,为了利用核数据的低维嵌入充分挖掘各个基核的深层次复杂结构信息,因此针对性地设计共识性学习网络与差异学习网络,优化如下的广义目标函数:
其中,Z为学习得到的共识相似度矩阵,Z(i)为第i个基核对应的相似度矩阵,φ为指示矩阵或者标签矩阵学习网络,ψ为共识性学习网络,为差异性学习网络。
该目标函数实现了相似度的一致性、差异性学习,和标签学习的统一,这种联合学习的方式通常会提高算法的表现。共识性与差异性图学习网络结构如图2所示。
在优化时,可以使用随机梯度下降进行求解,因此该算法具有很好的可扩展性。另外,神经网络自身就很好地解决了泛化问题,因此训练好的网络直接可以用来处理新的视觉目标数据。
学习到共识关系图Z后,便能利用谱聚类算法进行目标图像分割。
总之,本申请提供的视觉目标处理方法,可以将视觉目标数据从原始非线性空间映射到高维的可再生希尔伯特核空间中,从而使得视觉目标数据变为线性可分。视觉目标处理模型实现了相似度的一致性、差异性学习,和标签学习的统一,这种联合学习的方式通常可以有效的提高算法的表现。
参见图3,本申请实施例还可以提供一种视觉目标处理装置,如图3所示,该装置可以包括:
待处理数据确定单元301,用于确定待处理的视觉目标数据;
数据映射单元302,用于将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
处理单元303,用于利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;
所述视觉目标处理模型通过以下方式生成:将视觉目标样本数据从原始非线性空间映射到高维线性可分空间,进行利用映射得到的高维线性可分空间数据,通过非监督学习的方式,对视觉目标处理模型进行训练;
其中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
如图4所示,本申请实施例提供的一种视觉目标处理设备,该设备可以包括:处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
在本申请实施例中,处理器10可以为中央处理器(CentralProcessingUnit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
处理器10可以调用存储器11中存储的程序,具体的,处理器10可以执行视觉目标处理方法的实施例中的操作。
存储器11中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,存储器11中至少存储有用于实现以下功能的程序:
确定待处理的视觉目标数据;
将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;所述视觉目标处理模型通过以下方式生成:
将视觉目标样本数据从原始非线性空间映射到高维线性可分空间,利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成所述视觉目标处理模型;
其中,在训练过程中,所述视觉目标处理模型的目标函数中包括共识性学习网络部分以及差异学习网络部分。
在一种可能的实现方式中,存储器11可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能(比如文件创建功能、数据读写功能)所需的应用程序等;存储数据区可存储使用过程中所创建的数据,如初始化数据等。
此外,存储器11可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
通信接口12可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图4所示的结构并不构成对本申请实施例中视觉目标处理设备的限定,在实际应用中视觉目标处理设备可以包括比图4所示的更多或更少的部件,或者组合某些部件。
本申请实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述的视觉目标处理方法的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加上必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (4)

1.一种视觉目标处理方法,其特征在于,包括:
确定待处理的视觉目标数据;所述视觉目标数据包括图像数据以及视频数据;
将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;所述视觉目标处理模型通过以下方式生成:
预先定义包含m个基核的核池,每个所述基核对应一个所述视觉目标样本数据;
利用深度自动编码器,对所述视觉目标样本数据进行非线性的投影变化,以便将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间,得到的高维线性可分空间数据;所述深度自动编码器与译码器之间包括自表示相似度学习层;所述深度自动编码器的输出层为核数据的低维嵌入或指示矩阵F,所述指示矩阵或者低维嵌入矩阵F定义为:
其中,c为视觉目标固有的类簇数;
利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成所述视觉目标处理模型;
所述视觉目标处理模型的目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵,以及共识性学习网络部分以及差异学习网络部分进行构建的;所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分;所述目标函数通过下式表示:
其中,Z为学习得到的共识相似度矩阵,Z(i)为第i个基核对应的相似度矩阵,φ为指示矩阵或者标签矩阵学习网络,ψ为共识性学习网络,为差异性学习网络。
2.一种视觉目标处理装置,其特征在于,包括:
待处理数据确定单元,用于确定待处理的视觉目标数据;所述视觉目标数据包括图像数据以及视频数据;
数据映射单元,用于将所述视觉目标数据从原始非线性空间映射到高维线性可分空间;
处理单元,用于利用预先训练得到的视觉目标处理模型,对映射得到的高维线性可分空间数据进行处理,以得到处理结果;其中,所述视觉目标处理模型通过以下方式生成:
预先定义包含m个基核的核池,每个所述基核对应一个所述视觉目标样本数据;
利用深度自动编码器,对所述视觉目标样本数据进行非线性的投影变化,以便将所述视觉目标样本数据从原始非线性空间映射到高维线性可分空间,得到的高维线性可分空间数据;所述深度自动编码器与译码器之间包括自表示相似度学习层;所述深度自动编码器的输出层为核数据的低维嵌入或指示矩阵F,所述指示矩阵或者低维嵌入矩阵F定义为:
其中,c为视觉目标固有的类簇数;
利用映射得到的高维线性可分空间数据,通过非监督学习的方式进行模型训练,以生成所述视觉目标处理模型;
所述视觉目标处理模型的目标函数是根据所述自表示相似度学习层学习得到的共识相似度矩阵,以及共识性学习网络部分以及差异学习网络部分进行构建的;所述目标函数中还包括指示矩阵或者标签矩阵学习网络部分;所述目标函数通过下式表示:
其中,Z为学习得到的共识相似度矩阵,Z(i)为第i个基核对应的相似度矩阵,φ为指示矩阵或者标签矩阵学习网络,ψ为共识性学习网络,为差异性学习网络。
3.一种视觉目标处理设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1所述的视觉目标处理方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1所述的视觉目标处理方法。
CN202310064411.6A 2023-01-12 2023-01-12 一种视觉目标处理方法、装置、设备及存储介质 Active CN116188820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310064411.6A CN116188820B (zh) 2023-01-12 2023-01-12 一种视觉目标处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310064411.6A CN116188820B (zh) 2023-01-12 2023-01-12 一种视觉目标处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116188820A CN116188820A (zh) 2023-05-30
CN116188820B true CN116188820B (zh) 2023-10-13

Family

ID=86445574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310064411.6A Active CN116188820B (zh) 2023-01-12 2023-01-12 一种视觉目标处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116188820B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934846A (zh) * 2019-03-18 2019-06-25 南京信息工程大学 基于时间和空间网络的深度集成目标跟踪方法
CN111723740A (zh) * 2020-06-19 2020-09-29 深圳前海微众银行股份有限公司 数据识别方法、装置、设备及计算机可读存储介质
CN112287995A (zh) * 2020-10-26 2021-01-29 深圳大学 一种基于多层耦合映射的低分辨率图像识别方法
CN114359769A (zh) * 2021-10-08 2022-04-15 腾讯科技(深圳)有限公司 视频表征学习方法、视频处理方法、装置、介质及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5072693B2 (ja) * 2007-04-11 2012-11-14 キヤノン株式会社 パターン識別装置及びその制御方法、異常パターン検出装置及びその制御方法、プログラム、記憶媒体
US11176423B2 (en) * 2016-10-24 2021-11-16 International Business Machines Corporation Edge-based adaptive machine learning for object recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934846A (zh) * 2019-03-18 2019-06-25 南京信息工程大学 基于时间和空间网络的深度集成目标跟踪方法
CN111723740A (zh) * 2020-06-19 2020-09-29 深圳前海微众银行股份有限公司 数据识别方法、装置、设备及计算机可读存储介质
CN112287995A (zh) * 2020-10-26 2021-01-29 深圳大学 一种基于多层耦合映射的低分辨率图像识别方法
CN114359769A (zh) * 2021-10-08 2022-04-15 腾讯科技(深圳)有限公司 视频表征学习方法、视频处理方法、装置、介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于核聚类的机动多目标数据关联问题研究;杨新刚;刘以安;韩双;;计算机工程与设计(20);全文 *
基于混合核深度适配网络的图标识别;王国帅;《雷达科学与技术》;全文 *

Also Published As

Publication number Publication date
CN116188820A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Wang et al. Building extraction from remote sensing images using deep residual U-Net
Sebe et al. Robust computer vision: Theory and applications
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
Ferreira et al. On the role of multimodal learning in the recognition of sign language
WO2021169642A1 (zh) 基于视频的眼球转向确定方法与系统
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
Qin et al. Feature fusion within local region using localized maximum-margin learning for scene categorization
Wu et al. A multi-level descriptor using ultra-deep feature for image retrieval
CN114463363A (zh) 一种图像分割方法、装置、电子设备及存储介质
Jamil et al. Can convolution neural network (CNN) triumph in ear recognition of uniform illumination invariant?
Moate et al. Vehicle detection in infrared imagery using neural networks with synthetic training data
CN116188820B (zh) 一种视觉目标处理方法、装置、设备及存储介质
Mehta et al. Segmentation-based clustering of hyperspectral images using local band selection
CN117391466A (zh) 一种新型矛盾纠纷案件的预警方法和系统
Zhang et al. A scene text detector based on deep feature merging
Zhang et al. A YOLOv3‐Based Industrial Instrument Classification and Reading Recognition Method
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
CN113763315B (zh) 玻片图像的信息获取方法、装置、设备及介质
CN115115923A (zh) 模型训练方法、实例分割方法、装置、设备及介质
Saleh et al. Identification of facial skin diseases from face phenotypes using FSDNet in uncontrolled environment
CN111428734B (zh) 一种基于残差对抗推理学习的图像特征提取方法、装置和计算机可读存储介质
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction
Ye et al. Multipurification of matching pairs based on ORB feature and PCB alignment case study
CN109993178B (zh) 一种特征数据生成和特征匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant