CN114998712B - 图像识别方法、存储介质及电子设备 - Google Patents

图像识别方法、存储介质及电子设备 Download PDF

Info

Publication number
CN114998712B
CN114998712B CN202210924342.7A CN202210924342A CN114998712B CN 114998712 B CN114998712 B CN 114998712B CN 202210924342 A CN202210924342 A CN 202210924342A CN 114998712 B CN114998712 B CN 114998712B
Authority
CN
China
Prior art keywords
image
parameter
target
model
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210924342.7A
Other languages
English (en)
Other versions
CN114998712A (zh
Inventor
贾健
陈威华
袁建龙
孙修宇
李�昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210924342.7A priority Critical patent/CN114998712B/zh
Publication of CN114998712A publication Critical patent/CN114998712A/zh
Application granted granted Critical
Publication of CN114998712B publication Critical patent/CN114998712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别方法、存储介质及电子设备。其中,该方法包括:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。本发明解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。

Description

图像识别方法、存储介质及电子设备
技术领域
本发明涉及计算机技术和人工智能领域,具体而言,涉及一种图像识别方法、存储介质及电子设备。
背景技术
随着计算机技术和人工智能的发展,机器学习技术被广泛地应用于多种应用场景(如图像识别场景)中。然而,现有的机器学习方法在图像识别过程中通常单纯依赖已标注的源域图像进行图像识别学习或者单纯依赖已标注的目标域图像进行图像识别学习,然而,却缺乏基于不同的源域图像与目标域图像之间的关系进行图像识别学习,从而导致现有图像识别方法的图像识别性能受到限制。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像识别方法、存储介质及电子设备,以至少解决相关技术中由于缺乏基于不同的源域图像与目标域图像之间的关系进行图像识别学习,因而导致现有图像识别方法的图像识别性能受到限制的技术问题。
根据本发明实施例的一个方面,提供了一种图像识别方法,包括:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。
根据本发明实施例的另一方面,还提供了一种图像识别方法,包括:获取目标区域遥感图像,其中,目标区域遥感图像中的显示内容包括:待识别地块;采用预先构建的图像识别模型对目标区域遥感图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;基于识别结果对待识别地块进行地物分类。
根据本发明实施例的另一方面,还提供了一种图像识别方法,包括:获取第一目标区域遥感图像和第二目标区域遥感图像,其中,第一目标区域遥感图像与第二目标区域遥感图像为不同时刻采集的遥感图像,第一目标区域遥感图像与第二目标区域遥感图像中的显示内容均包括:待检测对象;采用预先构建的图像识别模型对第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;基于第一识别结果与第二识别结果,对待检测对象进行变化检测。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行任意一项上述的图像识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。
在本发明实施例中,获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,进而基于识别结果对待识别区域执行目标操作。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,对目标域待识别图像进行图像识别以执行目标操作,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和执行目标操作的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例的一种图像识别方法的流程图;
图3是根据本发明实施例的一种可选的图像识别模型的训练过程的示意图;
图4是根据本发明实施例的一种可选的初始学生模型的网络结构的示意图;
图5是根据本发明实施例的另一种图像识别方法的流程图;
图6是根据本发明实施例的另一种图像识别方法的流程图;
图7是根据本发明实施例的一种图像识别装置的结构示意图;
图8是根据本发明实施例的另一种图像识别装置的结构示意图;
图9是根据本发明实施例的另一种图像识别装置的结构示意图;
图10是根据本发明实施例的另一种图像识别装置的结构示意图;
图11是根据本发明实施例的另一种图像识别装置的结构示意图;
图12是根据本发明实施例的另一种图像识别装置的结构示意图;
图13是根据本发明实施例的另一种图像识别装置的结构示意图;
图14是根据本发明实施例的另一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
跨域目标分割:是指将图像分割模型从原始数据域(也称源域)迁移到目标数据域(也称目标域)的过程。在进行跨域目标分割时,需要在目标域上对图像分割模型进行无监督训练。
跨域注意力机制:是指将注意力机制应用在来自不同数据域的不同图像特征中的机制。
协调权重:是指在模型的训练过程中,用于协调源域与目标域的损失的权重。
实施例1
根据本发明实施例,还提供了一种图像识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a,102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的图像识别方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在计算机技术和人工智能技术领域中,现有的深度学习方法通常依赖已标注的图像进行学习,而对未标注的图像分割性能较差。对此,相关技术人员尝试通过使用跨域注意力机制,提高模型的图像分割性能。
相关技术中,通过将源域与目标域之间的图像分布、特征分布或聚类中心进行对齐,并采用固定阈值的方法调整目标域在模型训练过程中的权重,进而实现对应模型的域自适应性以求提高模型的图像分割性能。然而,这种方法的缺陷在于:没有对不同数据域的图像之间的关系进行显式建模,且使用固定阈值调整目标域对应的权重,会导致模型对不同数据域图像的识别性能较差。
在上述运行环境下,本申请提供了如图2所示的一种图像识别方法。图2是根据本发明实施例的一种图像识别方法的流程图,如图2所示,该图像识别方法包括:
步骤S21,获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;
在本发明实施例中,上述目标域可以是待识别的场景对应的数据域。上述目标域待识别图像可以是该待识别的场景对应的数据域中待识别的图像数据。该待识别图像可以作为上述第一图像用以进行图像识别。
进一步地,在上述第一图像中,可以显示有待识别区域。该待识别区域可以是对该第一图像进行图像识别时的目标区域。该待识别区域可以由技术人员根据应用场景需求预先指定。
例如:在对城市场景图像进行识别的场景中,上述目标域可以是城市甲的图像集,上述第一图像可以是该城市甲的图像集中待识别的图像数据,该第一图像中可以显示有城市待识别区域(如:建筑物区域、道路区域、特殊用地区域等)。
此处需要说明的是,上述获取第一图像的实现方法可以但不限于包括:从上述目标域中实时获取,从与该目标域相关联的云端存储空间中获取。
步骤S22,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;
在本发明实施例中,上述源域可以是上述目标域对应的原始数据域。该源域中的源域图像可以用于训练图像识别模型。上述源域和目标域图像可以是多个不同的数据域(包括上述源域和上述目标域)中的样本图像。上述源域图像与上述目标域图像之间通常存在较大的风格差异。
生成上述预先构建的图像识别模型的实现过程可以是:对该多个不同的数据域中的样本图像进行特征融合,然后根据特征融合的结果生成图像识别方式作为该预先构建的图像识别模型。
上述识别结果可以是使用上述预先构建的图像识别模型对上述目标域待识别图像(相当于第一图像)进行图像识别得到的结果。对该目标域待识别图像进行图像识别可以是对该目标域待识别图像的显示内容中的待识别区域进行图像识别。该识别结果可以是该待识别区域对应的图像识别结果。
例如:在对城市场景图像进行识别的场景中,上述预先构建的图像识别模型可以是利用跨域注意力机制,对多个城市(可以包含城市甲)的图像集进行特征融合后,生成的图像识别方式。当待识别区域为建筑物区域时,使用该预先构建的图像识别模型对城市甲的图像集中待识别的图像数据进行图像识别,可以得到城市甲的待识别图像对应的建筑物区域识别结果。
具体地,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,还包括其他方法步骤,可以参照下文中对于本发明实施例的进一步介绍,此处不予赘述。
步骤S23,基于识别结果对待识别区域执行目标操作。
在本发明实施例中,基于上述识别结果对待识别区域执行的上述目标操作可以是:对该识别结果进行分析(如分类、变化检测等),根据分析的结果对对应的待识别区域执行的处理操作。
例如:在对城市场景图像进行识别的场景中,当对城市甲的待识别图像对应的建筑物区域识别结果进行分类分析时,根据该分类结果,可以对不同类别的建筑物区域进行指定的处理(如标记、面积统计、智能规划等)。
通过本发明实施例提供的上述方法,可以通过跨域注意力机制,对多个不同数据域的图像进行特征融合,生成预先构建的图像识别模型,进而根据识别结果对待识别区域执行目标操作。与现有技术提供的图像识别方法相比,本发明实施例提供的上述方法,能够对不同数据域的图像进行更准确的识别,具有良好的图像分割性能。
需要说明的是,本发明实施例可以但不限于适用于遥感领域的涉及图像识别的实际应用场景。例如,还可以应用于如下技术领域:气象领域(例如,云层提取、气象预报、气象预警等);自然资源与生态环境领域(例如,气象预报、变化检测、生态红线变化检测、多分类变化检测、地物分类、大棚提取、路网提取、建筑物提取、建筑物变化检测(卫星、无人机)等;水利领域(例如,水域变化检测、大棚提取、水体提取(光学、雷达)、片林提取、网箱养殖提取、采砂场提取、临河房屋提取、拦河坝提取、光伏电厂提取等);农林业领域(例如,作物提取(小麦、水稻、土豆等)、无人机作物识别(玉米、烤烟、薏仁米等)、地块识别、长势监测(指数计算)、农业估产、病虫害监测、种植建议推送等;次生灾害领域(例如,灾害监测、灾害预警等);生活服务(出行、外卖、物流)领域(例如,出行路径规划、出行建议推送、人员调动、价格调整等);城市规划领域(例如,路网提取(卫星、无人机)、建筑物提取、建筑物变化检测(卫星、无人机)、消防等)。
在本发明实施例中,获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,进而基于识别结果对待识别区域执行目标操作。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,对目标域待识别图像进行图像识别以执行目标操作,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和执行目标操作的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
下面对本发明实施例的上述方法进行进一步介绍。
在一种可选的实施例中,预先构建的图像识别模型包括:目标学生模型,其中,目标学生模型通过初始教师模型对初始学生模型进行训练得到,初始学生模型与初始教师模型的输入数据包括:第二图像和第三图像,第二图像为源域样本图像,第三图像为目标域样本图像,初始学生模型与初始教师模型具有相同的网络结构,网络结构包括:多个网络层,多个网络层中每个网络层包括:多个源域特征与多个目标域特征,且在每个网络层中对多个源域特征与多个目标域特征进行混合。
在上述可选的实施例中,通过采用知识蒸馏模型,降低参数规模,进而训练得到上述预先构建的图像识别模型。
具体地,通过知识蒸馏模型训练得到上述图像识别模型的具体实现方式可以是:通过初始教师模型对初始学生模型进行训练,以得到目标学生模型;将该目标学生模型作为图像识别模型。
具体地,上述初始学生模型与上述初始教师模型的输入数据可以包括:上述第二图像和上述第三图像,该第二图像为源域样本图像,该第三图像为目标域样本图像。在训练目标学生模型的应用场景中,该源域样本图像和该目标域样本图像可以组对后分别输入该初始学生模型和该初始教师模型,该源域样本图像和该目标域样本图像的组对该可以经过模型增强后单独作为该初始学生模型的输入。
此处需要说明的是,上述初始学生模型和上述初始教师模型可以具有相同的网络结构。网络结构包括:多个网络层,多个网络层中每个网络层包括:多个源域特征与多个目标域特征,且在每个网络层中对多个源域特征与多个目标域特征进行混合。该多个源域特征为上述源域样本图像对应的多个图像特征,该多个目标域特征为上述目标域样本图像对应的多个图像特征。
例如:上述初始学生模型和该初始教师模型均可以包含多个网络层,该多个网络层中每个网络层还可以包括:多个编码层、多个解码层、多个嵌入(Embedding)层、多个连接层、和多个高可用(Master High Availability,MHA)层等。
例如:上述多个源域特征可以是包括源域样本图像对应的查询特征、样本值特征和关键值特征等。上述多个目标域特征可以是包括目标域样本图像对应的查询特征、样本值特征和关键值特征等。
容易注意到的是,通过本发明上述可选的实施例提供的方法,能够通过初始学生模型和初始教师模型的网络结构中,对源域样本图像与目标域样本图像之间的关系进行显示建模,利用跨域多头注意力机制,将源域图像的特征与目标域图像的特征进行融合,进而能够实现不同数据域中特征分的对齐。
在一种可选的实施例中,在步骤S22中,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,包括如下方法步骤:
步骤S221,采用目标学生模型对第一图像进行图像识别,得到识别结果,其中,目标学生模型通过机器学习对多组数据进行训练得到,多组数据中的每组数据包括:第二图像和第三图像,第二图像为已训练的源域样本图像,第三图像为未训练的目标域样本图像。
在上述可选的实施例中,上述第二图像可以是已训练的源域样本图像。该源域样本图像为有标签的样本数据。上述第三图像可以是未训练的目标域样本图像。该目标域样本图像为无标签的样本数据。也就是说,该第二图像和该第三图像为源域和目标域图像。
上述多组数据可以是多组用于训练上述目标学生模型的源域和目标域图像数据。该多组数据中的每组数据均至少包括上述已训练的源域样本图像(相当于上述第二图像)和上述未训练的目标域样本图像(相当于上述第三图像)。
上述目标学生模型可以是基于上述多组数据进行机器学习训练得到的神经网络模型。也就是说,该目标学生模型是利用跨域注意力机制对源域和目标域图像(相当于上述多组第二图像和第三图像)进行特征融合生成的神经网络模型。该目标学生模型可以作为上述预先构建的图像识别模型。
上述识别结果可以是使用上述目标学生模型对上述目标域待识别图像(相当于第一图像)进行图像识别得到的结果。对该目标域待识别图像进行图像识别可以是对该目标域待识别图像的显示内容中的待识别区域进行图像识别。该识别结果可以是该待识别区域对应的图像识别结果。
图3是根据本发明实施例的一种可选的图像识别模型的训练过程的示意图,如图3所示,用于训练目标学生模型的多组样本数据中的每组样本数据包括:源域图像(相当于上述第二图像)和目标域图像(相当于上述第三图像),其中,源域图像为已训练的样本图像,该源域图像对应有源域标签,该目标域图像为未训练的样本图像。上述源域图像和上述目标域图像归属于不同的数据域。
容易注意的是,当需要对不同数据域的待识别图像进行图像识别时,可以将该待识别图像输入训练好的目标学生模型中,进而得到上述识别结果。由于该目标学生模型是利用不同数据域的样本数据进行显式建模得到的,该目标学生模型可以对来自不同数据域的待识别图像表现出较好的图像分割性能。
在一种可选的实施例中,上述图像识别方法还包括如下方法步骤:
步骤S24,获取第一参数和第二参数,其中,第一参数为初始学生模型的预测准确率,第二参数为初始学生模型的初始目标域损失;
步骤S25,利用第一参数、第二参数和预设调整函数,计算得到第三参数,其中,第三参数为初始学生模型的最终目标域损失,预设调整函数由第三图像对应的训练迭代次数确定;
步骤S26,基于第三参数,对初始学生模型的模型参数进行更新,得到目标学生模型。
在上述可选的实施例中,上述初始学生模型可以是未训练的学生模型。上述第一参数可以是该初始学生模型的预测准确率。上述第二参数可以是该初始学生模型的初始目标域损失。
上述预设调整函数可以是基于未训练的目标域样本图像对应的训练迭代次数确定的函数,该预设调整函数用于调整初始学生模型的目标域损失。该预设调整参数可以由技术人员根据场景需求预先指定。
上述第三参数可以是上述初始学生模型的最终目标域损失。该第三参数可以是由上述初始学生模型的预测准确率(相当于上述第一参数)、上述初始学生模型的初始目标域损失(相当于上述第二参数)和上述预设调整函数通过计算得到的。
上述目标学生模型可以是基于上述初始学生模型的最终目标域损失,对该初始学生模型的模型参数进行更新,得到的最终学生模型。
上述基于第三参数,对初始学生模型的模型参数进行更新,得到目标学生模型的具体实现过程可以是:使用初始学生模型的最终目标域损失(相当于上述第三参数)直接替换初始学生模型的初始目标域损失;利用初始学生模型对最终目标域损失进行机器学习训练的到上述目标学生模型。
在一种可选的实施例中,在步骤S24中,获取第一参数,包括如下方法步骤:
步骤S241,采用初始教师模型对第三图像进行预测,得到伪标签;
步骤S242,采用初始学生模型对第三图像进行预测,得到预测值;
步骤S243,基于伪标签和预测值计算得到第一参数。
在上述可选的实施例中,上述伪标签可以是采用上述初始教师模型对上述未训练的目标域样本图像(相当于上述第三图像)进行预测,得到的伪标签。
上述采用初始教师模型对第三图像进行预测得到伪标签的具体实现过程可以是:将上述未训练的目标域样本图像(相当于上述第三图像)输入该初始教师模型,该初始教师模型对该目标域样本图像进行预测,将该预测结果作为上述伪标签。
上述采用初始学生模型对第三图像进行预测得到预测值的具体实现过程可以是:将上述未训练的目标域样本图像(相当于上述第三图像)输入该初始学生模型,该初始学生模型对该目标域样本图像进行图像分割,将该分割结果作为上述预测值。
基于上述伪标签和上述预测值进行计算,得到第一参数的具体实现过程可以是:对上述伪标签和上述预测值进行对比分析,对对比结果进行进一步计算,得到上述初始学生模型的预测准确率(相当于上述第一参数)。
在一种可选的实施例中,在步骤S242中,采用初始学生模型对第三图像进行预测,得到预测值,包括如下方法步骤:
步骤S2421,采用初始学生模型对第二图像和第三图像进行转换,得到候选特征令牌;
步骤S2422,基于第二图像的类别标签获取第二图像对应的第一语义掩码以及第三图像对应的第二语义掩码;
步骤S2423,从候选特征令牌中选取第一语义掩码对应的第一目标特征令牌以及第二语义掩码对应的第二目标特征令牌;
步骤S2424,利用第一目标特征令牌和第二目标特征令牌得到更新后的特征令牌;
步骤S2425,基于更新后的特征令牌对第三图像进行预测,得到预测值。
在上述可选的实施例中,上述初始学生模型包含多头注意力机制(Multi-Headattention)。采用该初始学生模型的多头注意力机制对上述已训练的源域样本图像(相当于上述第二图像)和上述未训练的目标域样本图像(相当于上述第三图像)进行处理,得到该源域样本图像和该目标域样本图像的图像特征。上述候选特征令牌可以是对该源域样本图像和该目标域样本图像的图像特征进行特征映射得到的特征令牌。
上述第二图像的类别标签可以是上述已训练的源域样本图像对应的多个图像类别的标签。根据该多个图像类别的标签,可以从该多个图像类别中选取一个部分图像类别,并将该一个部分图像类别对应的已训练的源域样本图像的图像特征作为上述第一语义掩码。根据该多个图像类别的标签,还可以从该多个图像类别中选取另一个部分图像类别,并将该另一个部分图像类别对应的已训练的源域样本图像的图像特征作为上述第二语义掩码。
上述第一语义掩码可以是源域样本图像的语义掩码。上述第二语义掩码可以是目标域样本图像的语义掩码。上述第一目标特征令牌可以是从上述候选特征令牌中选取的部分特征令牌,该第一目标特征令牌与上述源域样本图像的语义掩码相对应。上述第二目标特征令牌可以是从上述候选特征令牌中选取的部分特征令牌,该第二目标特征令牌与上述目标域样本图像的语义掩码相对应。
进一步地,利用上述与上述源域样本图像的语义掩码相对应第一目标特征令牌和与上述目标域样本图像的语义掩码相对应第二目标特征令牌,得到上述更新后的特征令牌。
在一种可选的实施例中,在步骤S25中,利用第一参数、第二参数和预设调整函数,计算得到第三参数,包括如下方法步骤:
步骤S251,对第一参数和预设调整函数进行计算,得到第四参数,其中,第四参数为初始学生模型的协调权重,协调权重用于协调初始学生模型的初始目标域损失与初始源域损失之间的损失权重;
步骤S252,对第二参数和第四参数进行计算,得到第三参数。
在上述可选的实施例中,上述第四参数可以是上述初始学生模型的协调权重,该协调权重可以用于协调上述初始学生模型的初始目标域损失与初始源域损失的损失权重。该初始目标域损失可以是上述初始学生模型对目标域图像进行预测的初始损失。该初始源域损失可以是上述初始学生模型对源域图像进行预测的初始损失。
具体地,对上述第一参数和上述预设调整函数进行计算,得到上述协调权重(相当于第四参数)的具体实现过程可以是:获取技术人员预先设定的目标域图像对应的训练迭代次数;根据该训练迭代次数,确定上述预设调整函数;将初始学生模型的预测准确率(相当于上述第一参数)和该预设调整函数进行计算(例如可以是乘法计算),可以得到上述初始学生模型的协调权重。
具体地,对上述第二参数和上述第四参数进行计算,得到上述第三参数的具体实现过程可以是:将初始学生模型的初始目标域损失(相当于上述第二参数)和初始学生模型的协调权重进行计算(例如可以是乘法计算),得到上述初始学生模型的最终目标域损失(相当于上述第三参数)。该初始学生模型的最终目标域损失可以用于对该初始学生模型的模型参数进行更新,以得到目标学生模型。
综上可知,本发明通过一种图像识别方案实现了通过跨域注意力的特征融合机制对待识别图像进行图像识别和执行目标操作,该方案可以应用于对城市场景图像进行识别的应用场景,以下以该场景为例,对本发明实施例的关键技术进行详细说明。
仍然如图3所示,基于源域和目标域(源域和目标域)图像,通过学生-教师模型训练得到图像识别模型(也即目标学生模型)的具体实现过程包括如下方法步骤:
第一步,将源域图像输入教师模型进行预测,得到该源域图像对应的源域预测值;
第二步,基于该源域图像对应的源域预测值与该源域图像对应的源域标签,得到该教师模型对应的交叉熵损失(相当于图3中所示的源域损失),该交叉熵损失用于对源域图像的预测过程进行监督;
第三步,将已训练的源域图像和未训练的目标域图像随机组对;然后对组队结果进行模型增强处理(如包括光照变换、模糊变换和数据增广),得到增强处理结果;进一步地,将增强处理结果输入初始学生模型进行预测,可以得到目标域预测值;
第四步,将目标域图像输入教师模型中进行预测,得到该目标域图像对应的伪标签;
第五步,基于上述目标域预测值和上述伪标签,可以计算初始学生模型的预测准确率;
第六步,将初始学生模型的预测准确率与预设调整函数进行乘法计算,可以得到协调权重;
第七步,将上述协调权重与上述目标域损失进行乘法计算,得到目标域图像在模型训练过程中的总损失(相当于上述第三参数);
第八步,基于上述目标域图像在模型训练过程中的总损失,对初始学生模型的模型参数进行更新,进而可以得到目标学生模型。该目标学生模型可以作为最终的图像识别模型对待识别图像进行识别。
具体地,在上述第六步中,上述预设调整函数可以由模型训练过程中预先指定的数据迭代次数(可以记为iteration)确定。具体地,该预设调整函数F可以如下述公式(1)所示:
Figure 770230DEST_PATH_IMAGE001
公式(1)
此处需要说明的是,基于源域图像和目标域图像,在上述初始学生模型中,可以利用转导(Transformer)结构,获得该源域图像和该目标域图像对应的特征表达。该特征表达的形式可以是特征token的形式。
图4是根据本发明实施例的一种可选的图像识别模型单层网络结构的示意图,如图4所示,在初始教师模型或初始学生模型所包含的多个网络层的任一网络层中,可以包括Transformer结构。将源域样本图像的图像特征映射为源域特征令牌fs,将目标域样本图像的图像特征映射为目标域特征令牌ft,该源域特征令牌fs和该目标域特征令牌ft分别作为两个共享权重的嵌入层的输入。
仍然如图4所示,通过将源域特征令牌fs输入嵌入层,可以得到多个源域特征(如图4中所示的源域查询特征Qs、源域关键值特征Ks和源域样本值特征Vs)。通过将目标域特征令牌ft输入嵌入层,可以得到多个目标域特征(如图4中所示的目标域查询特征Qt、目标域关键值特征Kt和目标域样本值特征Vt)。
进一步地,根据源域图像对应的源域标签的多个类别,可以从该源域标签的多个类别中随机挑选部分(可以是一半)类别作为该源域图像的语义掩码Ms;还可以从该源域标签的多个类别中随机挑选部分(可以是一半)类别作为目标域图像的语义掩码Mt。
仍然如图4所示,将源域图像的语义掩码Ms与多个源域特征(源域查询特征Qs、源域关键值特征Ks和源域样本值特征Vs)分别进行点乘计算,以及将目标域图像的语义掩码Mt与多个目标域特征(目标域查询特征Qt、目标域关键值特征Kt和目标域样本值特征Vt)分别进行点乘计算。
仍然如图4所示,在初始教师模型或初始学生模型所包含的多个网络层的任一网络层中,对多个源域特征与多个目标域特征进行混合的具体实现过程可以是:将源域样本值特征Vs与源域图像的语义掩码Ms点乘的计算结果,与目标域样本值特征Vt与目标域图像的语义掩码Mt点乘的计算结果进行混合,得到混合样本值特征Vh1;将源域关键值特征Ks与源域图像的语义掩码Ms点乘的计算结果,与目标域关键值特征Kt与目标域图像的语义掩码Mt点乘的计算结果进行混合,得到混合关键值特征Kh1。
仍然如图4所示,在初始教师模型或初始学生模型所包含的多个网络层的任一网络层中,还可以基于源域查询特征Qs与源域图像的语义掩码Ms点乘的计算结果,确定选定的(Selected)源域查询特征Qs1;基于目标域查询特征Qt与目标域图像的语义掩码Mt点乘的计算结果,确定选定的(Selected)目标域查询特征Qt1。
仍然如图4所示,在初始教师模型或初始学生模型所包含的多个网络层的任一网络层中,将上述Qs1、上述Vh1和上述Kh1输入高可用层1,可以得到上述源域样本图像的特征表达fs1;将上述Qt1、上述Vh1和上述Kh1输入高可用层2,可以得到上述目标域样本图像的特征表达ft1。该高可用层1与该高可用层2之间共享权重。
容易注意到的是,与现有技术相比,通过本发明实施例提供的上述方法,能够通过对源域图像与目标域图像之间的关系进行显示建模,利用跨域多头注意力机制,将源域图像的特征与目标域图像的特征进行融合,进而能够实现不同数据域中特征分的对齐。
容易注意到的是,与现有技术相比,通过本发明实施例提供的上述方法,能够通过协调权重对目标域在模型训练过程中的参与程度进行动态调整,进而能够降低目标域的噪声标签对模型训练的影响,有效地学习到目标域的特征分布。
综上所述,本发明的关键技术创新在于:基于跨域注意力的特征融合机制,能够实现不同数据域之间的特征对齐,进而提高模型对目标域待识别图像进行图像识别的准确度;利用协调权重对模型训练过程进行动态调整,进而提高模型的跨域目标分割性能。
在一种可选的实施例中,通过终端设备提供一图形用户界面,图形用户界面所显示的内容至少部分地包含一目标域图像识别场景,上述图像识别方法还包括如下方法步骤:
步骤S271,响应作用于图形用户界面的第一触控操作,确定第一图像;
步骤S272,响应作用于图形用户界面的第二触控操作,将第一图像输入至目标学生模型进行图像识别,得到识别结果;
步骤S273,在图形用户界面内展示识别结果。
在上述可选的实施例中,用户可以通过终端设备展示的图形用户界面内容,至少部分地获得上述目标域图像识别场景。该图形用户界面中可以显示有多张待识别的目标域图像。
在上述可选的实施例中,用户可以对图形用户界面进行第一触控操作。用户可以通过触控该图形用户界面中显示的多张待识别的目标域图像中的一张目标域图像,将该一张目标域图像作为上述第一图像。该第一图像中至少显示有待识别区域。
在上述可选的实施例中,用户还可以对图形用户界面进行第二触控操作。用户可以触控该图形用户界面中的“识别”按钮、“开始”按钮、“确定”按钮或“显示”按钮等,以实现如下过程:将通过上述第一触控操作选定的上述第一图像,输入目标学生模型中,进行图像识别得到上述识别结果。该识别结果可以是上述目标学生模型对上述第一图像中的待识别区域(如建筑物区域、道路区域、特殊用地区域等)进行识别的结果。
在上述可选的实施例中,当响应上述第二触控操作得到上述识别结果后,可以自动在上述图形用户界面中将该识别结果显示给用户。
特别地,上述第一触控操作和上述第二触控操作均可以是用户用手指接触上述终端设备的显示屏并触控该终端设备的操作。该触控操作可以包括单点触控、多点触控,其中,每个触控点的触控操作可以包括点击、长按、重按、划动等。上述第一触控操作和上述第二触控操作还可以是通过鼠标、键盘等输入设备实现的触控操作。
在一种可选的实施例中,上述图像识别方法还包括如下方法步骤:
步骤S281,响应对识别结果执行的编辑操作,对初始教师模型进行更换,得到更换后教师模型;
步骤S282,基于更换后教师模型对目标学生模型进行优化,得到优化后学生模型;
步骤S283,采用优化后学生模型对第一图像进行图像识别,得到最新识别结果。
在上述可选的实施例中,对识别结果执行的编辑操作可以是:将当前初始教师模型更换为指定的教师模型,得到更换后的教师模型。该更换后的教师模型可以是由技术人员根据图像识别应用场景的需求预先确定的教师模型。该更换后的教师模型仍然与学生模型具有相同的网络结构。
进一步地,基于上述更换后的教师模型,可以对上述目标学生模型进行优化,进而得到上述优化后的学生模型。上述对目标学生模型进行优化的具体实现过程可以是:基于源域样本图像、目标域样本图像和更换后的教师模型,对目标学生模型进行重新训练。
进一步地,采用上述优化后的学生模型,对上述目标域待识别图像(相当于上述第一图像)进行图像识别,可以得到上述最新的识别结果。该识别结果可以是上述优化后的学生模型对上述目标域待识别图像中的待识别区域(如建筑物区域、道路区域、特殊用地区域等)进行识别的结果。
容易注意到的是,通过上述可选的本实施例所提供的方法,能够支持用户通过图形用户界面对图像识别过程中的初始教师模型进行更换,进而得到更符合图像识别应用场景需求的图像识别模型(相当于上述优化后的学生模型),有利于用户更灵活便捷地使用上述图像识别方法,也有利于在目标学生模型训练过程中,根据实际场景下大量用户的编辑操作优化上述图像识别方法。
在上述运行环境下,本发明提供了如图5所示的一种图像识别方法。图5是根据本发明实施例的另一种图像识别方法的流程图,如图5所示,该图像识别方法,包括:
步骤S51,获取目标区域遥感图像,其中,目标区域遥感图像中的显示内容包括:待识别地块;
步骤S52,采用预先构建的图像识别模型对目标区域遥感图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;
步骤S53,基于识别结果对待识别地块进行地物分类。
在本发明实施例中,上述目标区域遥感图像可以是目标区域遥感地物分类场景对应的数据域中待识别的图像数据。
进一步地,在上述目标区域遥感图像中,可以显示有待识别地块。该待识别地块可以是对该目标区域遥感图像进行图像识别时的目标区域(如:建筑物区域、道路区域、特殊用地区域等)。该待识别地块可以由技术人员根据应用场景需求预先指定。
此处需要说明的是,上述获取目标区域遥感图像的实现方法可以但不限于包括:从上述目标区域遥感地物分类场景相关联的数据库中实时获取,从与该目标区域遥感地物分类场景相关联的云端存储空间中获取。
在本发明实施例中,上述不同目标区域遥感图像可以是多个不同的城市对应的遥感样本图像。生成上述预先构建的图像识别模型的实现过程可以是:对该多个不同的城市对应的遥感样本图像进行特征融合,然后根据特征融合的结果生成图像识别方式作为该预先构建的图像识别模型。
上述识别结果可以是使用上述预先构建的图像识别模型对上述目标区域遥感图像进行图像识别得到的结果。对该目标区域遥感图像进行图像识别可以是对该目标区域遥感图像的显示内容中的待识别地块进行图像识别。该识别结果可以是该待识别地块对应的图像识别结果。
在本发明实施例中,基于上述识别结果对待识别地块进行的地物分类可以是:对该识别结果中的多个地物进行特征分类(如分为海水、农地、绿林地、房屋、养殖场、光滩和未利用地等类别)。
通过本发明实施例提供的上述方法,可以通过跨域注意力机制,对多个不同数据域的图像进行特征融合,生成预先构建的图像识别模型,进而根据识别结果对待识别地块进行地物分类。与现有技术提供的图像识别方法相比,本发明实施例提供的上述方法,能够对不同数据域的图像进行更准确的识别,具有良好的图像分割性能。
在本发明实施例中,获取目标区域遥感图像,其中,目标区域遥感图像为目标区域遥感图像,目标区域遥感图像中的显示内容包括:待识别地块,采用预先构建的图像识别模型对目标区域遥感图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式,进而基于识别结果对待识别地块进行地物分类。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式,对目标区域遥感图像进行图像识别以进行地物分类,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和进行地物分类的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
在一种可选的实施例中,通过终端设备提供一图形用户界面,图形用户界面所显示的内容至少部分地包含一地物分类场景,上述图像识别方法还包括如下方法步骤:
步骤S54,响应作用于图形用户界面的第一触控操作,确定目标区域遥感图像;
步骤S55,响应作用于图形用户界面的第二触控操作,将目标区域遥感图像输入至目标学生模型进行图像识别,得到识别结果;
步骤S56,基于识别结果,在图形用户界面内展示待识别地块对应的地物分类结果。
在上述可选的实施例中,用户可以通过终端设备展示的图形用户界面内容,至少部分地获得上述地物分类场景。该图形用户界面中可以显示有多张待识别的目标区域遥感图像。
在上述可选的实施例中,用户可以对图形用户界面进行第一触控操作。用户可以通过触控该图形用户界面中显示的多张待识别的目标区域遥感图像中的一张目标区域遥感图像以选中该目标区域遥感图像作为待识别图像。该目标区域遥感图像中至少显示有待识别地块。
在上述可选的实施例中,用户还可以对图形用户界面进行第二触控操作。用户可以触控该图形用户界面中的“识别”按钮、“开始”按钮、“确定”按钮或“显示”按钮等,以实现如下过程:将通过上述第一触控操作选定的上述目标区域遥感图像,输入通过目标学生模型中,进行图像识别得到上述识别结果。该识别结果可以是上述目标学生模型对上述目标区域遥感图像中的待识别地块(如建筑物区域、道路区域、特殊用地区域等)进行识别的结果。
在上述可选的实施例中,当响应上述第二触控操作得到上述识别结果后,可以自动基于该识别结果进行地物分类,并在上述图形用户界面中将地物分类结果显示给用户。
特别地,上述第一触控操作和上述第二触控操作均可以是用户用手指接触上述终端设备的显示屏并触控该终端设备的操作。该触控操作可以包括单点触控、多点触控,其中,每个触控点的触控操作可以包括点击、长按、重按、划动等。上述第一触控操作和上述第二触控操作还可以是通过鼠标、键盘等输入设备实现的触控操作。
在上述运行环境下,本发明提供了如图6所示的一种图像识别方法。图6是根据本发明实施例的另一种图像识别方法的流程图,如图6所示,该图像识别方法,包括:
步骤S61,获取第一目标区域遥感图像和第二目标区域遥感图像,其中,第一目标区域遥感图像与第二目标区域遥感图像为不同时刻采集的遥感图像,第一目标区域遥感图像与第二目标区域遥感图像中的显示内容均包括:待检测对象;
步骤S62,采用预先构建的图像识别模型对第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;
步骤S63,基于第一识别结果与第二识别结果,对待检测对象进行变化检测。
在本发明实施例中,上述第一目标区域遥感图像和上述第二目标区域遥感图像可以是不同时刻采集到的遥感图像。该第一目标区域遥感图像和该第二目标区域遥感图像可以对应相同的遥感区域。该第一目标区域遥感图像和该第二目标区域遥感图像可以是目标区域遥感地物变化检测场景对应的数据域中待识别的图像数据。
进一步地,在上述第一目标区域遥感图像和上述第二目标区域遥感图像中,均可以显示有待检测对象。该待检测对象可以是对该第一目标区域遥感图像和该第二目标区域遥感图像进行图像识别时的目标区域(如:建筑物区域、道路区域、特殊用地区域等)。该待检测对象可以由技术人员根据应用场景需求预先指定。
此处需要说明的是,上述获取第一目标区域遥感图像和第二目标区域遥感图像的实现方法可以但不限于包括:从上述目标区域遥感地物变化检测场景相关联的数据库中实时获取,从与该目标区域遥感地物变化检测场景相关联的云端存储空间中获取。
在本发明实施例中,上述不同目标区域遥感图像可以是多个不同的城市对应的遥感样本图像。生成上述预先构建的图像识别模型的实现过程可以是:对该多个不同的城市对应的遥感样本图像进行特征融合,然后根据特征融合的结果生成图像识别方式作为该预先构建的图像识别模型。
上述第一识别结果可以是使用上述预先构建的图像识别模型对上述第一目标区域遥感图像进行图像识别得到的结果。对该第一目标区域遥感图像进行图像识别可以是对该第一目标区域遥感图像的显示内容中的待检测对象进行图像识别。该识别结果可以是该待检测对象对应的图像识别结果。
上述第二识别结果可以是使用上述预先构建的图像识别模型对上述第二目标区域遥感图像进行图像识别得到的结果。对该第二目标区域遥感图像进行图像识别可以是对该第二目标区域遥感图像的显示内容中的待检测对象进行图像识别。该识别结果可以是该待检测对象对应的图像识别结果。
在本发明实施例中,基于上述第一识别结果和上述第二识别结果对待检测对象进行的地物变化检测可以是:对该第一识别结果和该第二识别结果中的待检测对象进行变化检测,得到检测结果(例如可以是增加变化、减少变化、出现变化、消失变化等)。通过本发明实施例提供的上述方法,可以通过跨域注意力机制,对多个不同数据域的图像进行特征融合,生成预先构建的图像识别模型,进而根据识别结果对待检测对象进行地物变化检测。与现有技术提供的图像识别方法相比,本发明实施例提供的上述方法,能够对不同数据域的图像进行更准确的识别,具有良好的图像分割性能。
在本发明实施例中,获取第一目标区域遥感图像和第二目标区域遥感图像,其中,第一目标区域遥感图像与第二目标区域遥感图像为不同时刻采集的遥感图像,第一目标区域遥感图像与第二目标区域遥感图像中的显示内容均包括:待检测对象,通过采用预先构建的图像识别模型对第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式,进而基于第一识别结果与第二识别结果,对待检测对象进行变化检测。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式,对第一目标区域遥感图像和第二目标区域遥感图像分别进行图像识别以进行地物变化检测,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和进行地物变化检测的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述图像识别方法的装置实施例,图7是根据本发明实施例的一种图像识别装置的结构示意图,如图7所示,该装置包括:获取模块71、识别模块72和执行模块73,其中,
获取模块71,用于获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;
识别模块72,用于采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;
执行模块73,用于基于识别结果对待识别区域执行目标操作。
可选地,预先构建的图像识别模型包括:目标学生模型,其中,目标学生模型通过初始教师模型对初始学生模型进行训练得到,初始学生模型与初始教师模型的输入数据包括:第二图像和第三图像,第二图像为源域样本图像,第三图像为目标域样本图像,初始学生模型与初始教师模型具有相同的网络结构,网络结构包括:多个网络层,多个网络层中每个网络层包括:多个源域特征与多个目标域特征,且在每个网络层中对多个源域特征与多个目标域特征进行混合。
上述识别模块72还用于:采用目标学生模型对第一图片进行图像识别,得到识别结果,其中,目标学生模型通过机器学习对多组数据进行训练得到,多组数据中的每组数据包括:第二图片和第三图片,第二图片为已训练的源域样本图片,第三图片为未训练的目标域样本图片。
可选地,图8是根据本发明实施例的另一种图像识别装置的结构示意图,如图8所示,该装置除包括图7所示的所有模块外,还包括:初始模块74,用于获取第一参数和第二参数,其中,第一参数为初始学生模型的预测准确率,第二参数为初始学生模型的初始目标域损失;计算模块75,用于利用第一参数、第二参数和预设调整函数,计算得到第三参数,其中,第三参数为初始学生模型的最终目标域损失,预设调整函数由第三图像对应的训练迭代次数确定;更新模块76,用于基于第三参数,对初始学生模型的模型参数进行更新,得到目标学生模型。
可选地,上述初始模块74还用于:采用初始教师模型对第三图像进行预测,得到伪标签;采用初始学生模型对第三图像进行预测,得到预测值;基于伪标签和预测值计算得到第一参数。
可选地,上述初始模块74还用于:采用初始学生模型对第二图像和第三图像进行转换,得到候选特征令牌;基于第二图像的类别标签获取第二图像对应的第一语义掩码以及第三图像对应的第二语义掩码;从候选特征令牌中选取第一语义掩码对应的第一目标特征令牌以及第二语义掩码对应的第二目标特征令牌;利用第一目标特征令牌和第二目标特征令牌得到更新后的特征令牌;基于更新后的特征令牌对第三图像进行预测,得到预测值。
可选地,上述计算模块75还用于:对第一参数和预设调整函数进行计算,得到第四参数,其中,第四参数为初始学生模型的协调权重,协调权重用于协调初始学生模型的初始目标域损失与初始源域损失之间的损失权重;对第二参数和第四参数进行计算,得到第三参数。
可选地,图9是根据本发明实施例的另一种图像识别装置的结构示意图,如图9所示,该装置除包括图8所示的所有模块外,还包括:显示模块77,用于响应作用于图形用户界面的第一触控操作,确定第一图像;响应作用于图形用户界面的第二触控操作,将第一图像输入至目标学生模型进行图像识别,得到识别结果;在图形用户界面内展示识别结果。
可选地,图10是根据本发明实施例的另一种图像识别装置的结构示意图,如图10所示,该装置除包括图9所示的所有模块外,还包括:优化模块78,用于响应对识别结果执行的编辑操作,对初始教师模型进行更换,得到更换后教师模型;基于更换后教师模型对目标学生模型进行优化,得到优化后学生模型;采用优化后学生模型对第一图像进行图像识别,得到最新识别结果。
此处需要说明的是,上述获取模块71、识别模块72和执行模块73对应于实施例1中的步骤S21至步骤S23,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
在本发明实施例中,提供了一种图像识别装置。通过获取模块,获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域,使用识别模块,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,进而通过执行模块,基于识别结果对待识别区域执行目标操作。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,对目标域待识别图像进行图像识别以执行目标操作,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和执行目标操作的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
根据本发明实施例,还提供了一种用于实施上述图像识别方法的装置实施例,图11是根据本发明实施例的另一种图像识别装置的结构示意图,如图11所示,该装置包括:获取模块1101、识别模块1102和分类模块1103,其中,
获取模块1101,用于获取目标区域遥感图像,其中,目标区域遥感图像中的显示内容包括:待识别地块;
识别模块1102,用于采用预先构建的图像识别模型对目标区域遥感图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;
分类模块1103,用于基于识别结果对待识别地块进行地物分类。
可选地,图12是根据本发明实施例的另一种图像识别装置的结构示意图,如图12所示,该装置除包括图11所示的所有模块外,还包括:显示模块1104,用于响应作用于图形用户界面的第一触控操作,确定目标区域遥感图像;响应作用于图形用户界面的第二触控操作,将目标区域遥感图像输入至目标学生模型进行图像识别,得到识别结果;基于识别结果,在图形用户界面内展示待识别地块对应的地物分类结果。
此处需要说明的是,上述获取模块、识别模块和分类模块对应于实施例1中的步骤S51至步骤S53,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本发明实施例,还提供了一种用于实施上述图像识别方法的装置实施例,图13是根据本发明实施例的另一种图像识别装置的结构示意图,如图13所示,该装置包括:获取模块1301、识别模块1302和检测模块1303,其中,
获取模块1301,用于获取第一目标区域遥感图像和第二目标区域遥感图像,其中,第一目标区域遥感图像与第二目标区域遥感图像为不同时刻采集的遥感图像,第一目标区域遥感图像与第二目标区域遥感图像中的显示内容均包括:待检测对象;
识别模块1302,用于采用预先构建的图像识别模型对第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;
检测模块1303,用于基于第一识别结果与第二识别结果,对待检测对象进行变化检测。
此处需要说明的是,上述获取模块1301、识别模块1302和检测模块1303对应于实施例1中的步骤S61至步骤S63,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
需要说明的是,本实施例的优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例3
根据本发明实施例,还提供了一种电子装置的实施例,该电子装置可以是计算装置群中的任意一个计算装置。该电子装置包括:处理器和存储器,其中:
存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。
在本发明实施例中,提供了一种用于实现上述图像识别方法的电子装置。获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,进而基于识别结果对待识别区域执行目标操作。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,对目标域待识别图像进行图像识别以执行目标操作,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和执行目标操作的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
需要说明的是,本实施例的优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
实施例4
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行图像识别方法中以下步骤的程序代码:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。
可选地,图14是根据本发明实施例的另一种计算机终端的结构框图,如图14所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器122、存储器124、以及外设接口126。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的图像识别方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像识别方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。
可选地,上述处理器还可以执行如下步骤的程序代码:预先构建的图像识别模型包括:目标学生模型,其中,目标学生模型通过初始教师模型对初始学生模型进行训练得到,初始学生模型与初始教师模型的输入数据包括:第二图像和第三图像,第二图像为源域样本图像,第三图像为目标域样本图像,初始学生模型与初始教师模型具有相同的网络结构,网络结构包括:多个网络层,多个网络层中每个网络层包括:多个源域特征与多个目标域特征,且在每个网络层中对多个源域特征与多个目标域特征进行混合。
可选地,上述处理器还可以执行如下步骤的程序代码:采用目标学生模型对第一图像进行图像识别,得到识别结果,其中,目标学生模型通过机器学习对多组数据进行训练得到,多组数据中的每组数据包括:第二图像和第三图像,第二图像为已训练的源域样本图像,第三图像为未训练的目标域样本图像。
可选地,上述处理器还可以执行如下步骤的程序代码:获取第一参数和第二参数,其中,第一参数为初始学生模型的预测准确率,第二参数为初始学生模型的初始目标域损失;利用第一参数、第二参数和预设调整函数,计算得到第三参数,其中,第三参数为初始学生模型的最终目标域损失,预设调整函数由第三图像对应的训练迭代次数确定;基于第三参数,对初始学生模型的模型参数进行更新,得到目标学生模型。
可选地,上述处理器还可以执行如下步骤的程序代码:采用初始教师模型对第三图像进行预测,得到伪标签;采用初始学生模型对第三图像进行预测,得到预测值;基于伪标签和预测值计算得到第一参数。
可选地,上述处理器还可以执行如下步骤的程序代码:采用初始学生模型对第二图像和第三图像进行转换,得到候选特征令牌;基于第二图像的类别标签获取第二图像对应的第一语义掩码以及第三图像对应的第二语义掩码;从候选特征令牌中选取第一语义掩码对应的第一目标特征令牌以及第二语义掩码对应的第二目标特征令牌;利用第一目标特征令牌和第二目标特征令牌得到更新后的特征令牌;基于更新后的特征令牌对第三图像进行预测,得到预测值。
可选地,上述处理器还可以执行如下步骤的程序代码:对第一参数和预设调整函数进行计算,得到第四参数,其中,第四参数为初始学生模型的协调权重,协调权重用于协调初始学生模型的初始目标域损失与初始源域损失之间的损失权重;对第二参数和第四参数进行计算,得到第三参数。
可选地,上述处理器还可以执行如下步骤的程序代码:响应作用于图形用户界面的第一触控操作,确定第一图像;响应作用于图形用户界面的第二触控操作,将第一图像输入至目标学生模型进行图像识别,得到识别结果;在图形用户界面内展示识别结果。
可选地,上述处理器还可以执行如下步骤的程序代码:响应对识别结果执行的编辑操作,对初始教师模型进行更换,得到更换后教师模型;基于更换后教师模型对目标学生模型进行优化,得到优化后学生模型;采用优化后学生模型对第一图像进行图像识别,得到最新识别结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标区域遥感图像,其中,目标区域遥感图像中的显示内容包括:待识别地块;采用预先构建的图像识别模型对目标区域遥感图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;基于识别结果对待识别地块进行地物分类。
可选地,上述处理器还可以执行如下步骤的程序代码:响应作用于图形用户界面的第一触控操作,确定目标区域遥感图像;响应作用于图形用户界面的第二触控操作,将目标区域遥感图像输入至目标学生模型进行图像识别,得到识别结果;基于识别结果,在图形用户界面内展示待识别地块对应的地物分类结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取第一目标区域遥感图像和第二目标区域遥感图像,其中,第一目标区域遥感图像与第二目标区域遥感图像为不同时刻采集的遥感图像,第一目标区域遥感图像与第二目标区域遥感图像中的显示内容均包括:待检测对象;采用预先构建的图像识别模型对第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;基于第一识别结果与第二识别结果,对待检测对象进行变化检测。
在本发明实施例中,提供了一种用于实现上述图像识别方法的计算机终端。获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域,采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,进而基于识别结果对待识别区域执行目标操作。
容易注意到的是,通过本发明实施例,利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式,对目标域待识别图像进行图像识别以执行目标操作,达到了通过跨域注意力的特征融合机制对未标注的待识别图像进行图像识别和执行目标操作的目的,从而实现了提高图像识别模型对未标注的目标域图像的分割性能的技术效果,进而解决了相关技术中由于依赖已标注的图像样本进行学习导致训练得到的图像识别模型对未标注的目标域图像的分割性能较差的技术问题。
本领域普通技术人员可以理解,图14所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图14中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图14所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
根据本发明实施例,还提供了一种计算机可读存储介质的实施例。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的图像识别方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取第一图像,其中,第一图像为目标域待识别图像,第一图像中的显示内容包括:待识别区域;采用预先构建的图像识别模型对第一图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;基于识别结果对待识别区域执行目标操作。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:预先构建的图像识别模型包括:目标学生模型,其中,目标学生模型通过初始教师模型对初始学生模型进行训练得到,初始学生模型与初始教师模型的输入数据包括:第二图像和第三图像,第二图像为源域样本图像,第三图像为目标域样本图像,初始学生模型与初始教师模型具有相同的网络结构,网络结构包括:多个网络层,多个网络层中每个网络层包括:多个源域特征与多个目标域特征,且在每个网络层中对多个源域特征与多个目标域特征进行混合。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采用目标学生模型对第一图像进行图像识别,得到识别结果,其中,目标学生模型通过机器学习对多组数据进行训练得到,多组数据中的每组数据包括:第二图像和第三图像,第二图像为已训练的源域样本图像,第三图像为未训练的目标域样本图像。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取第一参数和第二参数,其中,第一参数为初始学生模型的预测准确率,第二参数为初始学生模型的初始目标域损失;利用第一参数、第二参数和预设调整函数,计算得到第三参数,其中,第三参数为初始学生模型的最终目标域损失,预设调整函数由第三图像对应的训练迭代次数确定;基于第三参数,对初始学生模型的模型参数进行更新,得到目标学生模型。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采用初始教师模型对第三图像进行预测,得到伪标签;采用初始学生模型对第三图像进行预测,得到预测值;基于伪标签和预测值计算得到第一参数。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:采用初始学生模型对第二图像和第三图像进行转换,得到候选特征令牌;基于第二图像的类别标签获取第二图像对应的第一语义掩码以及第三图像对应的第二语义掩码;从候选特征令牌中选取第一语义掩码对应的第一目标特征令牌以及第二语义掩码对应的第二目标特征令牌;利用第一目标特征令牌和第二目标特征令牌得到更新后的特征令牌;基于更新后的特征令牌对第三图像进行预测,得到预测值。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:对第一参数和预设调整函数进行计算,得到第四参数,其中,第四参数为初始学生模型的协调权重,协调权重用于协调初始学生模型的初始目标域损失与初始源域损失之间的损失权重;对第二参数和第四参数进行计算,得到第三参数。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:响应作用于图形用户界面的第一触控操作,确定第一图像;响应作用于图形用户界面的第二触控操作,将第一图像输入至目标学生模型进行图像识别,得到识别结果;在图形用户界面内展示识别结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:响应对识别结果执行的编辑操作,对初始教师模型进行更换,得到更换后教师模型;基于更换后教师模型对目标学生模型进行优化,得到优化后学生模型;采用优化后学生模型对第一图像进行图像识别,得到最新识别结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取目标区域遥感图像,其中,目标区域遥感图像中的显示内容包括:待识别地块;采用预先构建的图像识别模型对目标区域遥感图像进行图像识别,得到识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;基于识别结果对待识别地块进行地物分类。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:响应作用于图形用户界面的第一触控操作,确定目标区域遥感图像;响应作用于图形用户界面的第二触控操作,将目标区域遥感图像输入至目标学生模型进行图像识别,得到识别结果;基于识别结果,在图形用户界面内展示待识别地块对应的地物分类结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取第一目标区域遥感图像和第二目标区域遥感图像,其中,第一目标区域遥感图像与第二目标区域遥感图像为不同时刻采集的遥感图像,第一目标区域遥感图像与第二目标区域遥感图像中的显示内容均包括:待检测对象;采用预先构建的图像识别模型对第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;基于第一识别结果与第二识别结果,对待检测对象进行变化检测。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种图像识别方法,其特征在于,包括:
获取第一图像,其中,所述第一图像为目标域待识别图像,所述第一图像中的显示内容包括:待识别区域;
采用预先构建的图像识别模型对所述第一图像进行图像识别,得到识别结果,其中,所述预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;
基于所述识别结果对所述待识别区域执行目标操作;
其中,所述预先构建的图像识别模型包括:目标学生模型,其中,所述目标学生模型通过初始教师模型对初始学生模型进行训练得到;
其中,所述图像识别方法还包括:获取第一参数和第二参数,其中,所述第一参数为初始学生模型的预测准确率,所述第二参数为所述初始学生模型的初始目标域损失;利用所述第一参数、第二参数和预设调整函数,计算得到第三参数,其中,所述第三参数为所述初始学生模型的最终目标域损失,所述预设调整函数由目标域样本图像对应的训练迭代次数确定;基于所述第三参数,对所述初始学生模型的模型参数进行更新,得到所述目标学生模型;
其中,利用所述第一参数、所述第二参数和所述预设调整函数,计算得到所述第三参数包括:对所述第一参数和所述预设调整函数进行计算,得到第四参数,其中,所述第四参数为所述初始学生模型的协调权重,所述协调权重用于协调所述初始学生模型的所述初始目标域损失与初始源域损失之间的损失权重;对所述第二参数和所述第四参数进行计算,得到所述第三参数。
2.根据权利要求1所述的图像识别方法,其特征在于,所述初始学生模型与所述初始教师模型的输入数据包括:第二图像和第三图像,所述第二图像为源域样本图像,所述第三图像为目标域样本图像,所述初始学生模型与所述初始教师模型具有相同的网络结构,所述网络结构包括:多个网络层,所述多个网络层中每个网络层包括:多个源域特征与多个目标域特征,且在每个网络层中对所述多个源域特征与所述多个目标域特征进行混合。
3.根据权利要求2所述的图像识别方法,其特征在于,获取所述第一参数包括:
采用初始教师模型对所述第三图像进行预测,得到伪标签;
采用所述初始学生模型对所述第三图像进行预测,得到预测值;
基于所述伪标签和所述预测值计算得到所述第一参数。
4.根据权利要求3所述的图像识别方法,其特征在于,采用所述初始学生模型对所述第三图像进行预测,得到所述预测值包括:
采用所述初始学生模型对所述第二图像和所述第三图像进行转换,得到候选特征令牌;
基于所述第二图像的类别标签获取所述第二图像对应的第一语义掩码以及所述第三图像对应的第二语义掩码;
从所述候选特征令牌中选取所述第一语义掩码对应的第一目标特征令牌以及所述第二语义掩码对应的第二目标特征令牌;
利用所述第一目标特征令牌和所述第二目标特征令牌得到更新后的特征令牌;
基于所述更新后的特征令牌对所述第三图像进行预测,得到所述预测值。
5.根据权利要求2所述的图像识别方法,其特征在于,通过终端设备提供一图形用户界面,所述图形用户界面所显示的内容至少部分地包含一目标域图像识别场景,所述图像识别方法还包括:
响应作用于所述图形用户界面的第一触控操作,确定所述第一图像;
响应作用于所述图形用户界面的第二触控操作,将所述第一图像输入至所述目标学生模型进行图像识别,得到所述识别结果;
在所述图形用户界面内展示所述识别结果。
6.根据权利要求5所述的图像识别方法,其特征在于,所述图像识别方法还包括:
响应对所述识别结果执行的编辑操作,对初始教师模型进行更换,得到更换后教师模型;
基于所述更换后教师模型对所述目标学生模型进行优化,得到优化后学生模型;
采用所述优化后学生模型对所述第一图像进行图像识别,得到最新识别结果。
7.一种图像识别方法,其特征在于,包括:
获取目标区域遥感图像,其中,所述目标区域遥感图像中的显示内容包括:待识别地块;
采用预先构建的图像识别模型对所述目标区域遥感图像进行图像识别,得到识别结果,其中,所述预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;
基于所述识别结果对所述待识别地块进行地物分类;
其中,所述预先构建的图像识别模型包括:目标学生模型,其中,所述目标学生模型通过初始教师模型对初始学生模型进行训练得到;
其中,所述图像识别方法还包括:获取第一参数和第二参数,其中,所述第一参数为初始学生模型的预测准确率,所述第二参数为所述初始学生模型的初始目标域损失;利用所述第一参数、第二参数和预设调整函数,计算得到第三参数,其中,所述第三参数为所述初始学生模型的最终目标域损失,所述预设调整函数由目标区域遥感样本图像对应的训练迭代次数确定;基于所述第三参数,对所述初始学生模型的模型参数进行更新,得到所述目标学生模型;
其中,利用所述第一参数、所述第二参数和所述预设调整函数,计算得到所述第三参数包括:对所述第一参数和所述预设调整函数进行计算,得到第四参数,其中,所述第四参数为所述初始学生模型的协调权重,所述协调权重用于协调所述初始学生模型的所述初始目标域损失与初始源域损失之间的损失权重;对所述第二参数和所述第四参数进行计算,得到所述第三参数。
8.根据权利要求7所述的图像识别方法,其特征在于,通过终端设备提供一图形用户界面,所述图形用户界面所显示的内容至少部分地包含一地物分类场景,所述图像识别方法还包括:
响应作用于所述图形用户界面的第一触控操作,确定所述目标区域遥感图像;
响应作用于所述图形用户界面的第二触控操作,将所述目标区域遥感图像输入至所述目标学生模型进行图像识别,得到所述识别结果;
基于所述识别结果,在所述图形用户界面内展示所述待识别地块对应的地物分类结果。
9.一种图像识别方法,其特征在于,包括:
获取第一目标区域遥感图像和第二目标区域遥感图像,其中,所述第一目标区域遥感图像与所述第二目标区域遥感图像为不同时刻采集的遥感图像,所述第一目标区域遥感图像与所述第二目标区域遥感图像中的显示内容均包括:待检测对象;
采用预先构建的图像识别模型对所述第一目标区域遥感图像进行图像识别,得到第一识别结果,以及采用预先构建的图像识别模型对所述第二目标区域遥感图像进行图像识别,得到第二识别结果,其中,所述预先构建的图像识别模型是利用跨域注意力机制对不同目标区域遥感图像进行特征融合后生成的图像识别方式;
基于所述第一识别结果与所述第二识别结果,对所述待检测对象进行变化检测;
其中,所述预先构建的图像识别模型包括:目标学生模型,其中,所述目标学生模型通过初始教师模型对初始学生模型进行训练得到;
其中,所述图像识别方法还包括:获取第一参数和第二参数,其中,所述第一参数为初始学生模型的预测准确率,所述第二参数为所述初始学生模型的初始目标域损失;利用所述第一参数、第二参数和预设调整函数,计算得到第三参数,其中,所述第三参数为所述初始学生模型的最终目标域损失,所述预设调整函数由第一目标区域遥感样本图像或第二目标区域遥感样本图像对应的训练迭代次数确定;基于所述第三参数,对所述初始学生模型的模型参数进行更新,得到所述目标学生模型;
其中,利用所述第一参数、所述第二参数和所述预设调整函数,计算得到所述第三参数包括:对所述第一参数和所述预设调整函数进行计算,得到第四参数,其中,所述第四参数为所述初始学生模型的协调权重,所述协调权重用于协调所述初始学生模型的所述初始目标域损失与初始源域损失之间的损失权重;对所述第二参数和所述第四参数进行计算,得到所述第三参数。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的图像识别方法。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取第一图像,其中,所述第一图像为目标域待识别图像,所述第一图像中的显示内容包括:待识别区域;
采用预先构建的图像识别模型对所述第一图像进行图像识别,得到识别结果,其中,所述预先构建的图像识别模型是利用跨域注意力机制对源域和目标域图像进行特征融合后生成的图像识别方式;
基于所述识别结果对所述待识别区域执行目标操作;
其中,所述预先构建的图像识别模型包括:目标学生模型,其中,所述目标学生模型通过初始教师模型对初始学生模型进行训练得到;
其中,所述步骤还包括:获取第一参数和第二参数,其中,所述第一参数为初始学生模型的预测准确率,所述第二参数为所述初始学生模型的初始目标域损失;利用所述第一参数、第二参数和预设调整函数,计算得到第三参数,其中,所述第三参数为所述初始学生模型的最终目标域损失,所述预设调整函数由目标域样本图像对应的训练迭代次数确定;基于所述第三参数,对所述初始学生模型的模型参数进行更新,得到所述目标学生模型;
其中,利用所述第一参数、所述第二参数和所述预设调整函数,计算得到所述第三参数包括:对所述第一参数和所述预设调整函数进行计算,得到第四参数,其中,所述第四参数为所述初始学生模型的协调权重,所述协调权重用于协调所述初始学生模型的所述初始目标域损失与初始源域损失之间的损失权重;对所述第二参数和所述第四参数进行计算,得到所述第三参数。
CN202210924342.7A 2022-08-03 2022-08-03 图像识别方法、存储介质及电子设备 Active CN114998712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924342.7A CN114998712B (zh) 2022-08-03 2022-08-03 图像识别方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924342.7A CN114998712B (zh) 2022-08-03 2022-08-03 图像识别方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114998712A CN114998712A (zh) 2022-09-02
CN114998712B true CN114998712B (zh) 2022-11-15

Family

ID=83022120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924342.7A Active CN114998712B (zh) 2022-08-03 2022-08-03 图像识别方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114998712B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912701A (zh) * 2023-09-14 2023-10-20 潍坊现代农业山东省实验室 杂草的识别方法及装置、杂草的喷施方法
CN117036714B (zh) * 2023-10-09 2024-02-09 安徽大学 融合混合注意力机制的肠息肉分割方法、系统及介质
CN117609942A (zh) * 2023-11-22 2024-02-27 中山大学 一种热带气旋移动路径的估算方法及系统
CN117671519A (zh) * 2023-12-14 2024-03-08 上海勘测设计研究院有限公司 大区域遥感影像地物提取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092759A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 图像识别模型的训练方法、装置、电子设备及存储介质
CN114333013A (zh) * 2021-12-29 2022-04-12 杭州海康威视数字技术股份有限公司 人脸识别模型的训练方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7330710B2 (ja) * 2018-04-26 2023-08-22 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN112200889A (zh) * 2020-10-30 2021-01-08 上海商汤智能科技有限公司 样本图像生成、图像处理、智能行驶控制方法及装置
CN113936275A (zh) * 2021-10-14 2022-01-14 上海交通大学 一种基于区域特征对齐的无监督域适应语义分割方法
CN114444374A (zh) * 2021-11-29 2022-05-06 河南工业大学 一种基于相似性度量的多源到多目标域自适应的方法
CN114677646A (zh) * 2022-04-06 2022-06-28 上海电力大学 一种基于Vision Transformer的跨域行人重识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092759A (zh) * 2021-10-27 2022-02-25 北京百度网讯科技有限公司 图像识别模型的训练方法、装置、电子设备及存储介质
CN114333013A (zh) * 2021-12-29 2022-04-12 杭州海康威视数字技术股份有限公司 人脸识别模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114998712A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114998712B (zh) 图像识别方法、存储介质及电子设备
Xu et al. Simulation of urban expansion via integrating artificial neural network with Markov chain–cellular automata
Feng et al. Modeling urban growth with GIS based cellular automata and least squares SVM rules: a case study in Qingpu–Songjiang area of Shanghai, China
Wu et al. Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm
Lakes et al. Cropland change in southern Romania: a comparison of logistic regressions and artificial neural networks
Wang et al. Simulating multiple class urban land-use/cover changes by RBFN-based CA model
CN110378224A (zh) 一种地物变化的检测方法、检测系统及终端
Mohammady et al. Urban sprawl assessment and modeling using landsat images and GIS
Cao et al. A bat-inspired approach to define transition rules for a cellular automaton model used to simulate urban expansion
Ziaei et al. A rule-based parameter aided with object-based classification approach for extraction of building and roads from WorldView-2 images
CN102646164A (zh) 一种结合空间滤波的土地利用变化建模方法及其系统
Lavallin et al. Machine learning in geography–Past, present, and future
Li et al. Hybrid CNN-LSTM models for river flow prediction
Nguyen et al. Mapping forest in the Swiss Alps treeline ecotone with explainable deep learning
Dadashpour Moghaddam et al. A GIS-based assessment of urban tourism potential with a branding approach utilizing hybrid modeling
CN115761529A (zh) 图像处理方法和电子设备
Triantakonstantis et al. A spatially heterogeneous expert based (SHEB) urban growth model using model regionalization
Kumar et al. Multiparameter optimization system with DCNN in precision agriculture for advanced irrigation planning and scheduling based on soil moisture estimation
Vozenilek Artificial intelligence and GIS: mutual meeting and passing
Seto et al. Using logit models to classify land cover and land‐cover change from Landsat Thematic Mapper
Yadav et al. Computational model for urban growth using socioeconomic latent parameters
Li et al. Uncovering the relationship between point-of-interests-related human mobility and socioeconomic status
Zhang et al. Wild plant data collection system based on distributed location
Saffariha et al. Environmental decision support system development for natural distribution prediction of Festuca ovina in restoration of degraded lands
Maestripieri et al. Modeling the future evolution of Chilean forests to guide current practices. Native forest and industrial timber plantations in Southern Chile

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant