CN112801236B - 图像识别模型的迁移方法、装置、设备及存储介质 - Google Patents

图像识别模型的迁移方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112801236B
CN112801236B CN202110398557.5A CN202110398557A CN112801236B CN 112801236 B CN112801236 B CN 112801236B CN 202110398557 A CN202110398557 A CN 202110398557A CN 112801236 B CN112801236 B CN 112801236B
Authority
CN
China
Prior art keywords
image sample
domain image
feature map
feature
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110398557.5A
Other languages
English (en)
Other versions
CN112801236A (zh
Inventor
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110398557.5A priority Critical patent/CN112801236B/zh
Publication of CN112801236A publication Critical patent/CN112801236A/zh
Application granted granted Critical
Publication of CN112801236B publication Critical patent/CN112801236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像识别模型的迁移方法、装置、设备及存储介质,涉及人工智能技术领域。所述方法包括:获取源域图像样本和目标域图像样本的头部特征图;基于两个样本的头部特征图确定两个样本的对象预测标注;基于两个样本的特征图之间的差异信息以及源域图像样本的对象预测标注与其真值标注之间的差异信息,确定模型训练损失;根据模型训练损失调整图像识别模型的参数,得到迁移后图像识别模型。本申请通过基于头部特征图实现了单阶段的领域迁移,能够提高模型的迁移效率和模型的泛化性。另外,本申请可利用带真值标注的仿真数据和无真值标注的真实场景数据,将模型迁移至真实场景中运用。例如,本申请可用于自动驾驶场景的模型领域迁移任务。

Description

图像识别模型的迁移方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种图像识别模型的迁移方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,其在领域迁移的研究和应用也越来越多。领域迁移用于将模型从源领域的数据分布迁移到目标领域的数据分布,迁移后模型可以用于执行目标领域对应的任务。
以图像识别模型为例,相关技术通过基于双阶段的图像识别方法来实现领域迁移,即针对目标领域设计一组合理的锚点集(即候选框集),基于锚点集对图像识别模型的参数进行细调,以得到适用于目标领域的迁移后图像识别模型。
然而,相关技术在无法获取目标域图像样本的真实标注的情况下,是无法针对目标领域设计出合理的锚点集的,图像识别模型的泛化性不强。
发明内容
本申请实施例提供了一种图像识别模型的迁移方法、装置、设备及存储介质,能够提高模型的迁移效率以及模型的泛化性。所述技术方案包括如下内容。
根据本申请实施例的一个方面,提供了一种图像识别模型的迁移方法,所述方法包括:
获取源域图像样本和目标域图像样本,所述源域图像样本是指源领域对应的带真值标注的图像样本,所述目标域图像样本是指待迁移至的目标领域对应的不带真值标注的图像样本;
通过待迁移的图像识别模型对所述源域图像样本和所述目标域图像样本分别进行特征提取和融合处理,得到所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图;其中,所述头部特征图用于指示图像样本中的目标对象的类别信息和位置信息;
基于所述源域图像样本的头部特征图确定所述源域图像的对象预测标注,以及基于所述目标域图像样本的头部特征图确定所述目标域图像样本的对象预测标注,所述对象预测标注用于预测标注所述目标对象;
基于所述源域图像样本和所述目标域图像样本在图像识别过程中得到的特征图之间的差异信息,以及所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定模型训练损失;其中,所述特征图包括所述头部特征图;
根据所述模型训练损失调整所述图像识别模型的参数,得到适用于所述目标领域的迁移后图像识别模型。
根据本申请实施例的一个方面,提供了一种图像识别模型的迁移装置,所述装置包括:
图像样本获取模块,用于获取源域图像样本和目标域图像样本,所述源域图像样本是指源领域对应的带真值标注的图像样本,所述目标域图像样本是指待迁移至的目标领域对应的不带真值标注的图像样本;
头部特征图获取模块,用于通过待迁移的图像识别模型对所述源域图像样本和所述目标域图像样本分别进行特征提取和融合处理,得到所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图;其中,所述头部特征图用于指示图像样本中的目标对象的类别信息和位置信息;
预测标注获取模块,用于基于所述源域图像样本的头部特征图确定所述源域图像的对象预测标注,以及基于所述目标域图像样本的头部特征图确定所述目标域图像样本的对象预测标注,所述对象预测标注用于预测标注所述目标对象;
训练损失获取模块,用于基于所述源域图像样本和所述目标域图像样本在图像识别过程中得到的特征图之间的差异信息,以及所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定模型训练损失;其中,所述特征图包括所述头部特征图;
模型参数调整模块,用于根据所述模型训练损失调整所述图像识别模型的参数,得到适用于所述目标领域的迁移后图像识别模型。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述图像识别模型的迁移方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述图像识别模型的迁移方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像识别模型的迁移方法。
本申请实施例提供的技术方案可以包括如下有益效果:
通过直接获取集合了目标对象的类别信息和位置信息的头部特征图,由于基于该头部特征图可同时获取目标对象的类别信息和位置信息,而无需分段进行目标对象的位置定位和类别识别,则基于该头部特征图可实现基于单阶段图像识别的领域迁移,提高了模型的识别效率,进而提高了模型的迁移效率。
另外,通过直接基于源域图像样本和目标域图像样本的特征图之间的差异,实现模型的领域迁移,而无需针对目标领域设计出合理的锚点集,领域迁移过程不受锚点集的约束,从而提高了模型的泛化性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的图像识别模型的迁移方法的流程图;
图2是本申请一个实施例提供的FPN(Feature Pyramid Networks,特征金字塔网络)的示意图;
图3是本申请一个实施例提供的SENet(Squeeze and Excitation Networks,挤压和激励网络)的示意图;
图4是本申请另一个实施例提供的图像识别模型的迁移方法的流程图;
图5是本申请一个实施例提供的图像识别模型的示意图;
图6是本申请一个实施例提供的迁移后目标检测模型的检测结果的示意图;
图7是本申请一个实施例提供的图像识别模型的迁移装置的框图;
图8是本申请另一个实施例提供的图像识别模型的迁移装置的框图;
图9是本申请一个实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的计算机视觉技术和机器学习技术,利用计算机视觉技术和机器学习技术来调整模型(如图像识别模型、目标检测模型、图像分割模型等)的参数,以实现模型的领域迁移。
本申请实施例提供的方法,各步骤的执行主体可以是计算机设备,该计算机设备是指具备数据计算、处理和存储能力的电子设备。该计算机设备可以是诸如PC(PersonalComputer,个人计算机)、平板电脑、智能手机、可穿戴设备、智能机器人等终端;也可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
可选地,本申请中所涉及的各种预先存储的数据可保存于区块链上,诸如源域图像样本、目标域图像样本、待迁移模型的参数、迁移后模型的参数等。
本申请实施例提供的技术方案,适用于任何基于深度神经网络的图像学习模型,诸如基于深度神经网络的图像识别模型、目标检测模型、图像分割模型等。本申请实施例提供的技术方案能够有效提升模型输出效率和模型的泛化性。
示例性地,将已在真实场景中运用的模型迁移至另一真实场景中运用。例如,以人脸识别场景为例,图像识别模型原用于通过人脸识别来识别出老年人,基于老年人对应的带真值标注的图像样本和青少年对应的不带真值标注的图像样本对图像识别模型的参数进行调整,得到可以用于识别青少年的图像识别模型。
示例性地,将基于仿真数据训练的模型迁移至真实场景中运用。例如,以自动驾驶场景为例,利用仿真交通场景下的带目标对象标注(如车辆、路牌、路灯、行人等)的图像样本和真实交通场景下的无目标对象标注的图像,对目标检测模型进行训练,即可得到可应用于在真实世界中进行目标检测的目标检测模型。
请参考图1,其示出了本申请一个实施例提供的图像识别模型的迁移方法的流程图,该方法各步骤的执行主体可以是上文介绍的计算机设备,该方法可以包括如下几个步骤(101~105)。
步骤101,获取源域图像样本和目标域图像样本,源域图像样本是指源领域对应的带真值标注的图像样本,目标域图像样本是指待迁移至的目标领域对应的不带真值标注的图像样本。
其中,真值标注用于标识图像样本中的目标对象,其可标注出目标对象的类别、位置等。例如,真值标注可用于标注不同类别的目标对象的宽和高、目标对象的中心点位置等。可选地,真值标注可以标注目标对象的一部分(如人脸、车牌等),也可以标注整个目标对象(如人、车辆等),还可以标注目标对象的状态(如表情、动作等),本申请实施例在此不作限定。
可选地,基于源域图像样本及其带有的真值标注,可对模型(如图像识别模型、目标检测模型、图像分割模型等)进行训练,得到适用于源领域的模型,也即该模型能执行源领域对应的任务。例如,源域图像样本是针对A种车辆进行真值标注的图像样本,基于该源域图像样本训练得到的图像识别模型可用于执行A种车辆的识别任务。
可选地,源领域是指模型当前所适用的范围,目标领域是指模型经过领域迁移处理后所需适用的范围。例如,图像识别模型当前适用的范围为A种车辆识别,经过领域迁移处理后的图像识别模型的适用范围为B种车辆识别。可选地,源领域也可以是指仿真场景,目标领域也可以是指真实场景。例如,基于仿真数据和真实数据将模型迁移至真实场景中运用。
步骤102,通过待迁移的图像识别模型对源域图像样本和目标域图像样本分别进行特征提取和融合处理,得到源域图像样本的头部特征图和目标域图像样本的头部特征图;其中,头部特征图用于指示图像样本中的目标对象的类别信息和位置信息。
可选地,待迁移的图像识别模型是指待将源领域迁移至目标领域的图像识别模型。
类别信息用于指示目标对象的物体种类,诸如人、树、车、猫等,该物体种类可以基于实际需求进行不同层次的划分,本申请实施例在此不作限定。位置信息用于指示目标对对象的位置,其可以是诸如目标对象的中心点、目标对象的高、目标对象的宽等对目标对象的位置进行限定的信息。
头部特征图是用于指示识别结果的特征图,可用于确定目标对象的类别和位置。在一个示例中,头部特征图包括具有n通道的中心点预测特征图和具有2通道的宽高属性预测特征图,每个中心点预测特征图用于指示一个物种类别对应的目标对象的中心点预测值;宽高属性预测特征图用于指示目标对象的宽预测值和高预测值,n是指图像识别模型所要识别的目标对象对应的物种类别数。
示例性地,中心点预测特征图的维度为h*w*C,其中h和w是指中心点预测特征图的高和宽,C是指通道数(即图像识别模型所要识别的目标对象对应的物种类别数)。中心点预测特征图上的每个坐标点表达了该坐标位置处,是一个物种类别对应的某个目标对象的中心点预测概率。宽高属性预测特征图的维度为h*w*2,其中h和w是指宽高属性预测特征图的高和宽(同于中心点预测特征图的高和宽),宽高属性预测特征图的通道数固定为2(即一个通道对应宽,一个通道对应高)。宽高属性预测特征图上的每个坐标点分别表达了该坐标位置处,是某个目标对象的宽预测值和高预测值。
在一个示例中,头部特征图的获取方法可以如下:通过图像识别模型的特征提取网络,对源域图像样本和目标域图像样本分别进行特征提取处理,得到源域图像样本的多尺度特征图序列和目标域图像样本的多尺度特征图序列;其中,多尺度特征图序列包括在特征提取过程中所获得的多个不同尺度的特征图;通过图像识别模型的特征融合网络,分别对源域图像样本的多尺度特征图序列中的多个不同尺度的特征图和目标域图像样本的多尺度特征图序列中的多个不同尺度的特征图进行特征调整处理,得到源域图像样本的头部特征图和目标域图像样本的头部特征图。
其中,图像识别模型的特征提取网络用于提取图像样本的特征,形成特征图。该特征提取网络可以是卷积神经网络,诸如ResNet(Residual Network,残差网络)18、ResNet50等。可选地,在经过一系类的卷积处理、正则化处理、线性整流处理和池化处理,得到图像样本的不同尺度或不同维度的特征图。本申请实施例将不改变特征图尺度的层归为一个金字塔层,即多尺度特征图序列包括每个金字塔层的最后一层输出的特征图。例如,参考图2,该多尺度特征图序列包括1/2尺度特征图201、1/4尺度特征图202、1/8尺度特征图203、1/16尺度特征图204和1/32尺度特征图205。
可选地,图像识别模型的特征融合网络可以包括FPN和SENet。FPN用于对多尺度特征图序列进行特征融合,输出同时具有高维度特征图的语义信息和低维度特征图的定位细节信息的融合特征图。SENet可基于该融合特征图获取头部特征图。在一个示例中,参考图2,融合特征图的获取过程可以包括如下内容。
1、获取多尺度特征图序列中尺度最小的特征图:1/32尺度特征图205,对1/32尺度特征图205依次进行上采样处理、正则化处理和线性整流处理,得到特征图206,特征图206的尺度与1/16尺度特征图204的尺度相同。对1/16尺度特征图204依次进行卷积处理(大小为1的卷积核)、正则化处理和线性整流处理得到通道调整后的特征图207,对特征图206和特征图207进行融合处理(即像素间的加法),得到第一中间融合特征图。
2、对第一中间融合特征图依次进行上采样处理、正则化处理和线性整流处理,得到特征图208,特征图208的尺度与1/8尺度特征图203的尺度相同。对1/8尺度特征图203依次进行卷积处理(大小为1的卷积核)、正则化处理和线性整流处理得到通道调整后的特征图209,对特征图208和特征图209进行融合处理(即像素间的加法),得到第二中间融合特征图。
3、对第二中间融合特征图依次进行上采样处理、正则化处理和线性整流处理,得到特征图210,特征图210的尺度与1/4尺度特征图202的尺度相同。对1/4尺度特征图202依次进行卷积处理(大小为1的卷积核)、正则化处理和线性整流处理得到通道调整后的特征图211,对特征图210和特征图211进行融合处理(即像素间的加法),得到融合特征图212。
考虑到内存占用,不继续将融合特征图212与1/2尺度的特征图进行融合,也即融合特征图212即为FPN的输出。
参考图3,对融合特征图212进行均值池化处理,得到和融合特征图212的通道数相同的一维向量,再通过一个全连接神经网络(包括两个全连接层和两个线性整流层)对该一维向量进行非线性变化处理,然后通过回归函数对非线性变化后的一维向量进行归一化处理,得到该一维向量的每个通道对应的归一化的权重,最后将该一维向量的每个通道对应的归一化的权重加权到融合特征图212对应的每个通道的上,得到头部特征图(即对融合特征图212对应的每个通道赋予权重)。如此,可以增强融合特征图212中重要的特征,减弱融合特征图212中不重要的特征,以此增强图像样本的特征表达。
步骤103,基于源域图像样本的头部特征图确定源域图像的对象预测标注,以及基于目标域图像样本的头部特征图确定目标域图像样本的对象预测标注,对象预测标注用于预测标注目标对象。
在本申请实施例中,图像识别模型可基于头部特征图像识别出目标对象的位置和类别,进而对图像样本中的目标对象进行标注,得到对象预测标注,即对象预测标注可用于表示图像样本中的目标对象的位置、类别等的预测结果。例如,图像识别模型在源领域中的任务为:识别出物体A和物体B,则图像识别模型基于头部特征图中物体A和物体B的位置和类别,将源领域对应的图像中的物体A和物体B都标注出来,得到物体A和物体B被标注的图像。
步骤104,基于源域图像样本和目标域图像样本在图像识别过程中得到的特征图之间的差异信息,以及源域图像样本的对象预测标注与其真值标注之间的差异信息,确定模型训练损失;其中,特征图包括头部特征图。
在一个示例中,模型训练损失的具体确定方法可以如下:基于图像识别处理过程中得到的源域图像样本的中间特征图和目标域图像样本的中间特征图,确定第一特征对齐损失;其中,中间特征图是指由图像识别模型的特征提取网络得到的特征图;基于源域图像样本的头部特征图和目标域图像样本的头部特征图,确定第二特征对齐损失;基于源域图像样本的对象预测标注与其真值标注之间的差异信息,确定识别损失;基于第一特征对齐损失、第二特征对齐损失和识别损失,确定模型训练损失。
可选地,中间特征图可以是多尺度特征图序列中尺度最小的特征图,也可以根据实际需求将多尺度特征图序列中其他尺度的特征图作为中间特征图。还可以根据实际需求选择特征提取过程中不同维度的特征图作为中间特征图。可选地,根据实际需求,还可以选择多个中间特征图,本申请实施例在此不作限定。
在一个示例中,第一特征对齐损失的获取方法可以如下:对源域图像样本的中间特征图和目标域图像样本的中间特征图进行融合映射处理,得到融合后的中间特征图;基于融合后的中间特征图,计算得到源域图像样本对应的图像特征对齐损失和目标域图像样本对应的图像特征对齐损失;基于源域图像样本对应的图像特征对齐损失和目标域图像样本对应的图像特征对齐损失,确定第一特征对齐损失。
可选地,融合映射处理是指将源域图像样本的中间特征图和目标域图像样本的中间特征图映射至同一特征空间。基于源域图像样本对应的图像特征强度和目标域图像样本对应的图像特征强度,对齐源域图像样本和目标域图像样本的图像特征表征,从而使得图像识别模型能够兼顾源域图像样本和目标域图像样本在高维特征空间中的图像特征表征。其中,图像特征对齐损失是指图像样本的中间特征图融合映射成融合后的中间特征图所形成的特征损失。
可选地,中间特征对齐损失用于对齐源域图像样本和目标域图像样本的图像特征表征,中间特征对齐损失的计算公式如下:
Figure 685652DEST_PATH_IMAGE001
Figure 852191DEST_PATH_IMAGE002
Figure 273945DEST_PATH_IMAGE003
其中,
Figure 618470DEST_PATH_IMAGE004
是指源域图像样本对应的图像特征对齐损失,
Figure 758464DEST_PATH_IMAGE005
是指目标域图像样本对应的图像特征对齐损失,
Figure 463115DEST_PATH_IMAGE006
是指第一特征对齐损失,
Figure 15407DEST_PATH_IMAGE007
是指源域图像样本的数量,
Figure 780100DEST_PATH_IMAGE008
是指目标域图像样本的数量,
Figure 672970DEST_PATH_IMAGE009
Figure 932044DEST_PATH_IMAGE010
分别是指第一特征图的宽和高,
Figure 593970DEST_PATH_IMAGE011
是指在融合后的中间特征图上源域图像样本对应的一个点,
Figure 280297DEST_PATH_IMAGE012
是指在融合后的中间特征图上目标域图像样本对应的一个点,
Figure 394884DEST_PATH_IMAGE013
为卷积核大小为1的全卷积网络。
在一个示例中,第二特征对齐损失的获取方法如下:对源域图像样本的头部特征图和目标域图像样本的头部特征图进行融合映射处理,得到融合后的头部特征图;基于融合后的头部特征图,计算得到源域图像样本对应的预测结果特征对齐损失和目标域图像样本对应的预测结果特征对齐损失;基于源域图像样本对应的预测结果特征对齐损失和目标域图像样本对应的预测结果特征对齐损失,确定第二特征对齐损失。
可选地,融合映射处理是指将源域图像样本的头部特征图和目标域图像样本的头部特征图映射至同一特征空间。基于源域图像样本对应的预测结果特征表征和目标域图像样本对应的预测结果特征表征,对齐源域图像样本和目标域图像样本的预测结果特征表征,从而使得图像识别模型能够兼顾源域图像样本和目标域图像样本在特征空间中的预测结果特征表征。其中,预测结果特征对齐损失是指图像样本融合映射成融合后的头部特征图所形成的特征损失。
可选地,头部特征对齐损失用于对齐源域图像样本和目标域图像样本的预测结果特征表征,头部特征对齐损失的计算公式如下:
Figure 441337DEST_PATH_IMAGE014
Figure 957769DEST_PATH_IMAGE015
Figure 549419DEST_PATH_IMAGE016
其中,
Figure 416880DEST_PATH_IMAGE017
是指源域图像样本对应的预测结果特征对齐损失,
Figure 267025DEST_PATH_IMAGE018
是指目标域图像样本对应的预测结果特征对齐损失,
Figure 919854DEST_PATH_IMAGE019
是指第二特征对齐损失,
Figure 931672DEST_PATH_IMAGE020
是指源域图像样本的数量,
Figure 771584DEST_PATH_IMAGE021
是指目标域图像样本的数量,
Figure 425419DEST_PATH_IMAGE022
是指在融合后的头部特征图上源域图像样本对应的一个点,
Figure 650864DEST_PATH_IMAGE023
是指在融合后的头部局特征图上目标域图像样本对应的一个点,
Figure 849895DEST_PATH_IMAGE024
为领域分类网络,
Figure 426370DEST_PATH_IMAGE025
为超参数。
在一个示例中,识别损失包括第一识别损失和第二识别损失;真值标注包括源域图像样本中的目标对象的中心点真值、宽真值和高真值,第一识别损失和第二识别损失的具体确定方法可以如下:基于源域图像样本的对象预测标注对应的目标对象的中心点预测值和源域图像样本对应的目标对象的中心点真值,确定第一识别损失;基于源域图像样本的对象预测标注对应的目标对象的宽预测值和高预测值以及源域图像样本对应的目标对象的宽真值和高真值,确定第二识别损失。
可选地,第一识别损失和第二识别损失的计算公式如下:
Figure 618317DEST_PATH_IMAGE026
Figure 698268DEST_PATH_IMAGE027
其中,
Figure 333780DEST_PATH_IMAGE028
是指第一识别损失,
Figure 131972DEST_PATH_IMAGE029
是指第二识别损失,
Figure 127610DEST_PATH_IMAGE030
是指源域图像样本的位置点(x,y)属于目标对象c的中心点的真概率值,
Figure 806941DEST_PATH_IMAGE031
是指对象预测标注对应的源域图像样本的位置点(x,y)属于目标对象c的中心点的预测概率值,
Figure 862621DEST_PATH_IMAGE032
Figure 148109DEST_PATH_IMAGE033
为超参数,N是指源域图像样本的数量,
Figure 432591DEST_PATH_IMAGE034
是指源域图像样本对应的目标对象的宽真值,
Figure 752714DEST_PATH_IMAGE035
是指源域图像样本对应的目标对象的高真值,
Figure 713717DEST_PATH_IMAGE036
是指对象预测标注对应的源域图像样本中的目标对象的宽预测值,
Figure 971654DEST_PATH_IMAGE037
是指对象预测标注对应的源域图像样本中的目标对象的高预测值。
可选地,对第一特征对齐损失和第二特征对齐损失进行加权和处理,得到特征对齐损失;将识别损失和特征对齐损失的差作为模型训练损失。
步骤105,根据模型训练损失调整图像识别模型的参数,得到适用于目标领域的迁移后图像识别模型。
可选地,图像识别模型的目标损失的计算公式如下:
Figure 309094DEST_PATH_IMAGE038
其中,L是指图像识别模型的目标损失,
Figure 483724DEST_PATH_IMAGE039
Figure 366360DEST_PATH_IMAGE040
Figure 892020DEST_PATH_IMAGE041
Figure 501992DEST_PATH_IMAGE042
是指权重参数。本申请实施例通过最大最小准则对图像识别模型的总损失进行计算,得到目标损失,通过目标损失对图像识别模型的参数进行调整,得到适用于目标领域的迁移后图像识别模型。
综上所述,本申请实施例提供的技术方案,通过直接获取集合了目标对象的类别信息和位置信息的头部特征图,由于基于该头部特征图可同时获取目标对象的类别信息和位置信息,而无需分段进行目标对象的位置定位和类别识别,则基于该头部特征图可实现基于单阶段图像识别的领域迁移,提高了模型的识别效率,进而提高了模型的迁移效率。
另外,通过直接基于源域图像样本和目标域图像样本的特征图之间的差异,实现模型的领域迁移,而无需针对目标领域设计出合理的锚点集,领域迁移过程不受锚点集的约束,从而提高了模型的泛化性。
另外,由于本申请无需获取带真值标注的目标域图像样本,从而降低了模型领域迁移的成本。
另外,通过将高维度特征图的语义信息和低维度特征图的定位细节信息融合到同一特征图中,并对该特征图中的各个通道赋予权重,进而增强对图像样本的特征表达。
请参考图4,其示出了本申请另一个实施例提供的图像识别模型的迁移方法的流程图,该方法各步骤的执行主体可以是上文介绍的计算机设备,该方法可以包括如下内容。
1、图像识别模型获取源域图像样本401和目标域图像样本402;其中源域图像样本401带有真值标注,目标域图像样本402不带真值标注。
2、图像识别模型的特征提取网络403基分别对源域图像样本401和目标域图像样本402进行特征提取处理,得到源域图像样本401的多尺度特征图序列和目标域图像样本402的多尺度特征图序列。从源域图像样本401的多尺度特征图序列中选取源域图像样本401的中间特征图,从目标域图像样本402的多尺度特征图序列中选取目标域图像样本402的中间特征图,中间特征图可以是多尺度特征图序列中尺度最小的特征图。
3、图像识别模型基于源域图像样本401的中间特征图和目标域图像样本402的中间特征图,得到第一特征对齐损失404。
4、图像识别模型的特征融合网络405基于源域图像样本401的多尺度特征图序列进行特征调整处理,得到源域图像样本401的头部特征图。图像识别模型400的特征融合网络405基于目标域图像样本402的多尺度特征图序列进行特征融合处理,得到目标域图像样本402的头部特征图。其中,头部特征图用于指示图像样本中的目标对象的类别信息和位置信息。
5、图像识别模型基于源域图像样本401的头部特征图和目标域图像样本402的头部特征图得到第二特征对齐损失406。
6、图像识别模型基于源域图像样本401的头部特征图获取源域图像样本401的对象预测标注,基于源域图像样本401的对象预测标注和源域图像样本401的真值标注得到识别损失407。
7、基于第一特征对齐损失404、第二特征对齐损失406和识别损失407对图像识别模型的参数进行调整,得到适用于目标领域的迁移后图像识别模型。
综上所述,本申请实施例提供的技术方案,通过直接获取集合了目标对象的类别信息和位置信息的头部特征图,由于基于该头部特征图可同时获取目标对象的类别信息和位置信息,而无需分段进行目标对象的位置定位和类别识别,则基于该头部特征图可实现基于单阶段图像识别的领域迁移,提高了模型的识别效率,进而提高了模型的迁移效率。
另外,通过直接基于源域图像样本和目标域图像样本的特征图之间的差异,实现模型的领域迁移,而无需针对目标领域设计出合理的锚点集,领域迁移过程不受锚点集的约束,从而提高了模型的泛化性。
参考图5,其示出了本申请一个实施例提供的图像识别模型的示意图。图像识别模型500包括特征金字塔网络501(共享特征提取网络)、挤压和激励网络502、第一特征对齐损失获取网络503、第二特征对齐损失获取网络504和识别损失获取网络505。
特征金字塔网络501可用于对输入图像样本进行特征提取处理,得到输入图像样本的不同尺度的特征图(即多尺度特征图序列)。输入图像可以只包括源域图像样本(带真值标注),也可以同时包括源域图像样本(带真值标注)和目标域图像样本(无真值标注)。
特征金字塔网络501还用于基于多尺度特征图序列进行特征融合处理,得到融合特征图。
挤压和激励网络502用于对融合特征图进行通道权重赋值处理,得到头部特征图。
第一特征对齐损失获取网络503用于基于从多尺度特征图序列中选择的中间特征图获取第一特征对齐损失。
第二特征对齐损失获取网络504用于基于头部特征图获取第二特征对齐损失。
识别损失获取网络505用于基于头部特征图获取识别损失。
图像识别模型500输出输入图像样本对应的对象预测标注。
可选地,在没有领域迁移的情况下,基于识别损失对图像识别模型500进行训练,得到适用与源领域的图像识别网络。在有领域迁移的需求下,基于识别损失、第一特征对齐损失和第二特征对齐损失对图像识别模型500进行参数细调,得到适用于目标领域的迁移后图像识别模型500。
上文介绍的以及图5示出的图像识别模型的结构,仅是示例性和解释性的,可以结合实际情况,对图像识别模型的结构进行调整。例如,适当地增减卷积层、线性整流层、所需融合特征图的数量等。
需要说明的是,上述图像识别模型的结构同样适用于目标检测模型、图像分割模型等,本申请实施例在此不作限定。
在一个示例性实施例中,以目标检测模型为例。目标领域对应的任务是从真实图像中检测出为杆和牌的目标对象。利用仿真道路下的带杆和牌真值标注的图像样本和真实道路下的真实图像,对目标检测模型进行领域迁移处理,得到迁移后目标检测模型。参考图6,其示出了迁移后目标检测模型的检测结果。迁移后目标检测模型将真实图像中的所有杆和牌都表示了出来。检测结果包括杆601、杆602、杆603和牌604。
在另一示例性实施例中,对于同一张图像,相关技术需要80毫秒才可以获取检测结果,本实施例提供的技术方案在8毫秒以内即可获取检测结果,且具有较好的检测效果。本实施例提供的技术方案输出检测结果的速度是相关技术的十倍以上。
综上所述,本申请实施例提供的技术方案,通过直接获取集合了目标对象的类别信息和位置信息的头部特征图,由于基于该头部特征图可同时获取目标对象的类别信息和位置信息,而无需分段进行目标对象的位置定位和类别识别,则基于该头部特征图可实现基于单阶段图像识别的领域迁移,提高了模型的识别效率,进而提高了模型的迁移效率。
另外,通过直接基于源域图像样本和目标域图像样本的特征图之间的差异,实现模型的领域迁移,而无需针对目标领域设计出合理的锚点集,领域迁移过程不受锚点集的约束,从而提高了模型的泛化性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
参考图7,其示出了本申请一个实施例提供的图像识别模型的迁移练装置的框图。该装置具有实现上述方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是上文介绍的计算机设备,也可以设置在计算机设备中。如图7所示,该装置700包括:图像样本获取模块701、识别结果获取模块702、第一损失获取模块703、第二损失获取模块704和模型参数调整模块705。
图像样本获取模块701,用于获取源域图像样本和目标域图像样本,所述源域图像样本是指源领域对应的带真值标注的图像样本,所述目标域图像样本是指待迁移至的目标领域对应的不带真值标注的图像样本。
头部特征图获取模块702,用于通过待迁移的图像识别模型对所述源域图像样本和所述目标域图像样本分别进行特征提取和融合处理,得到所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图;其中,所述头部特征图用于指示图像样本中的目标对象的类别信息和位置信息。
预测标注获取模块703,用于基于所述源域图像样本的头部特征图确定所述源域图像的对象预测标注,以及基于所述目标域图像样本的头部特征图确定所述目标域图像样本的对象预测标注,所述对象预测标注用于预测标注所述目标对象。
训练损失获取模块704,用于基于所述源域图像样本和所述目标域图像样本在图像识别过程中得到的特征图之间的差异信息,以及所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定模型训练损失;其中,所述特征图包括所述头部特征图。
模型参数调整模块705,用于根据所述模型训练损失调整所述图像识别模型的参数,得到适用于所述目标领域的迁移后图像识别模型。
在一个示例性实施例中,所述头部特征图获取模块702,用于:
通过所述图像识别模型的特征提取网络,对所述源域图像样本和所述目标域图像样本分别进行特征提取处理,得到所述源域图像样本的多尺度特征图序列和所述目标域图像样本的多尺度特征图序列;其中,所述多尺度特征图序列包括在特征提取过程中所获得的多个不同尺度的特征图;
通过所述图像识别模型的特征融合网络,分别对所述源域图像样本的多尺度特征图序列中的多个不同尺度的特征图和所述目标域图像样本的多尺度特征图序列中的多个不同尺度的特征图进行特征调整处理,得到所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图。
在一个示例性实施例中,所述头部特征图包括具有n通道的中心点预测特征图和具有2通道的宽高属性预测特征图,每个中心点预测特征图用于指示一个物种类别对应的目标对象的中心点预测值;所述宽高属性预测特征图用于指示所述目标对象的宽预测值和高预测值,所述n是指所述图像识别模型所要识别的目标对象对应的物种类别数。
在一个示例性实施例中,如图8所示,所述训练损失获取模块704包括:第一损失获取子模块704a、第二损失获取子模块704b、识别损失获取子模块704c和训练损失获取子模块705d。
第一损失获取子模块704a,用于基于所述图像识别处理过程中得到的所述源域图像样本的中间特征图和所述目标域图像样本的中间特征图,确定第一特征对齐损失;其中,所述中间特征图是指由所述图像识别模型的特征提取网络得到的特征图。
第二损失获取子模块704b,用于基于所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图,确定第二特征对齐损失。
识别损失获取子模块704c,用于基于所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定识别损失。
训练损失获取子模块704d,用于基于所述第一特征对齐损失、所述第二特征对齐损失和所述识别损失,确定所述模型训练损失。
在一个示例性实施例中,所述第一损失获取子模块704a,用于:
对所述源域图像样本的中间特征图和所述目标域图像样本的中间特征图进行融合映射处理,得到融合后的中间特征图;
基于所述融合后的中间特征图,计算得到所述源域图像样本对应的图像特征对齐损失和所述目标域图像样本对应的图像特征对齐损失;
基于所述源域图像样本对应的图像特征对齐损失和所述目标域图像样本对应的图像特征对齐损失,确定所述第一特征对齐损失。
在一个示例性实施例中,所述第一特征对齐损失的计算公式如下:
Figure 547440DEST_PATH_IMAGE043
Figure 584666DEST_PATH_IMAGE044
Figure 597622DEST_PATH_IMAGE045
其中,
Figure 27597DEST_PATH_IMAGE046
是指所述源域图像样本对应的图像特征对齐损失,
Figure 176819DEST_PATH_IMAGE047
是指所述目标域图像样本对应的图像特征对齐损失,
Figure 650525DEST_PATH_IMAGE048
是指所述第一特征对齐损失,
Figure 635930DEST_PATH_IMAGE049
是指所述源域图像样本的数量,
Figure 853285DEST_PATH_IMAGE050
是指所述目标域图像样本的数量,
Figure 122592DEST_PATH_IMAGE051
Figure 252353DEST_PATH_IMAGE052
分别是指所述中间特征图的宽和高,
Figure 708742DEST_PATH_IMAGE053
是指在所述融合后的中间特征图上所述源域图像样本对应的一个点,
Figure 729788DEST_PATH_IMAGE054
是指在所述融合后的中间特征图上所述目标域图像样本对应的一个点,
Figure 588022DEST_PATH_IMAGE055
为卷积核大小为1的全卷积网络。
在一个示例性实施例中,所述第二损失获取子模块704b,用于:
对所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图进行融合映射处理,得到融合后的头部特征图;
基于所述融合后的头部特征图,计算得到所述源域图像样本对应的预测结果特征对齐损失和所述目标域图像样本对应的预测结果特征对齐损失;
基于所述源域图像样本对应的预测结果特征对齐损失和所述目标域图像样本对应的预测结果特征对齐损失,确定所述第二特征对齐损失。
在一个示例性实施例中,所述第二特征对齐损失的计算公式如下:
Figure 413984DEST_PATH_IMAGE056
Figure 357669DEST_PATH_IMAGE057
Figure 916826DEST_PATH_IMAGE058
其中,
Figure 645879DEST_PATH_IMAGE059
是指所述源域图像样本对应的预测结果特征对齐损失,
Figure 632290DEST_PATH_IMAGE060
是指所述目标域图像样本对应的预测结果特征对齐损失,
Figure 328850DEST_PATH_IMAGE061
是指所述第二特征对齐损失,
Figure 442431DEST_PATH_IMAGE062
是指所述源域图像样本的数量,
Figure 9679DEST_PATH_IMAGE063
是指所述目标域图像样本的数量,
Figure 432570DEST_PATH_IMAGE064
是指在所述融合后的头部特征图上所述源域图像样本对应的一个点,
Figure 101579DEST_PATH_IMAGE065
是指在所述融合后的头部特征图上所述目标域图像样本对应的一个点,
Figure 2539DEST_PATH_IMAGE066
为领域分类网络,
Figure 955452DEST_PATH_IMAGE067
为超参数。
在一个示例性实施例中,所述识别损失包括第一识别损失和第二识别损失;所述真值标注包括所述源域图像样本中的目标对象的中心点真值、宽真值和高真值;
所述识别损失获取子模块704c,还用于:
基于所述源域图像样本的对象预测标注对应的目标对象的中心点预测值和所述源域图像样本对应的目标对象的中心点真值,确定所述第一识别损失;
基于所述源域图像样本的对象预测标注对应的目标对象的宽预测值和高预测值以及所述源域图像样本对应的目标对象的宽真值和高真值,确定所述第二识别损失。
在一个示例性实施例中,所述第一识别损失和所述第二识别损失的计算公式如下:
Figure 299977DEST_PATH_IMAGE068
Figure 439971DEST_PATH_IMAGE069
其中,
Figure 410201DEST_PATH_IMAGE028
是指所述第一识别损失,
Figure 968352DEST_PATH_IMAGE029
是指所述第二识别损失,
Figure 733046DEST_PATH_IMAGE030
是指所述源域图像样本的位置点(x,y)属于目标对象c的中心点的真概率值,
Figure 360337DEST_PATH_IMAGE031
是指所述对象预测标注对应的所述源域图像样本的位置点(x,y)属于目标对象c的中心点的预测概率值,
Figure 353832DEST_PATH_IMAGE032
Figure 15757DEST_PATH_IMAGE033
为超参数,N是指所述源域图像样本的数量,
Figure 951352DEST_PATH_IMAGE034
是指所述源域图像样本对应的目标对象的宽真值,
Figure 82250DEST_PATH_IMAGE035
是指所述源域图像样本对应的目标对象的高真值,
Figure 128704DEST_PATH_IMAGE036
是指所述对象预测标注对应的所述源域图像样本中的目标对象的宽预测值,
Figure 645136DEST_PATH_IMAGE037
是指所述对象预测标注对应的所述源域图像样本中的目标对象的高预测值。
在一个示例性实施例中,所述训练损失获取子模块704d,用于:
对所述第一特征对齐损失和所述第二特征对齐损失进行加权和处理,得到特征对齐损失;
将所述识别损失和所述特征对齐损失的差作为所述模型训练损失。
在一个示例性实施例中,所述图像识别模型的目标损失的计算公式如下:
Figure 519942DEST_PATH_IMAGE038
其中,L是指所述图像识别模型的目标损失,
Figure 387404DEST_PATH_IMAGE039
Figure 988281DEST_PATH_IMAGE040
Figure 624799DEST_PATH_IMAGE041
Figure 902196DEST_PATH_IMAGE042
是指权重参数。
综上所述,本申请实施例提供的技术方案,通过直接获取集合了目标对象的类别信息和位置信息的头部特征图,由于基于该头部特征图可同时获取目标对象的类别信息和位置信息,而无需分段进行目标对象的位置定位和类别识别,则基于该头部特征图可实现基于单阶段图像识别的领域迁移,提高了模型的识别效率,进而提高了模型的迁移效率。
另外,通过直接基于源域图像样本和目标域图像样本的特征图之间的差异,实现模型的领域迁移,而无需针对目标领域设计出合理的锚点集,领域迁移过程不受锚点集的约束,从而提高了模型的泛化性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图9,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的图像识别模型的迁移方法。具体可以包括如下内容。
该计算机设备900包括处理单元(如CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和FPGA(Field Programmable GateArray,现场可编程逻辑门阵列)等)901、包括RAM(Random-Access Memory,随机存储器)902和ROM( Read-Only Memory,只读存储器)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。该计算机设备900还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System,I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
该基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中,该显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。该基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
该大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。该大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说,该大容量存储设备907可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦写可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请实施例,该计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在该系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述图像识别模型的迁移方法。
在一个示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集在被处理器执行时以实现上述图像识别模型的迁移方法。
可选地,该计算机可读存储介质可以包括:ROM( Read-Only Memory,只读存储器)、RAM(Random-Access Memory,随机存储器)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在一个示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述图像识别模型的迁移方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种图像识别模型的迁移方法,其特征在于,所述方法包括:
获取源域图像样本和目标域图像样本,所述源域图像样本是指源领域对应的带真值标注的图像样本,所述目标域图像样本是指待迁移至的目标领域对应的不带真值标注的图像样本,所述源领域是指自动驾驶场景下的仿真场景,所述目标领域是指所述自动驾驶场景下的真实场景;
通过图像识别模型的特征提取网络,对所述源域图像样本和所述目标域图像样本分别进行特征提取处理,得到所述源域图像样本的多尺度特征图序列和所述目标域图像样本的多尺度特征图序列;其中,所述多尺度特征图序列包括在特征提取过程中所获得的多个不同尺度的特征图;
通过所述图像识别模型的特征融合网络,分别对所述源域图像样本的多尺度特征图序列中的多个不同尺度的特征图和所述目标域图像样本的多尺度特征图序列中的多个不同尺度的特征图进行融合处理,得到所述源域图像样本的融合特征图和所述目标域图像样本的融合特征图,以及分别对所述源域图像样本的融合特征图和所述目标域图像样本的融合特征图进行通道权重调整处理,得到所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图;其中,所述融合特征图包括高维度特征图的语义信息和低维度特征图的定位细节信息,所述头部特征图用于指示图像样本中的目标对象的类别信息和位置信息;
基于所述源域图像样本的头部特征图确定所述源域图像的对象预测标注,以及基于所述目标域图像样本的头部特征图确定所述目标域图像样本的对象预测标注,所述对象预测标注用于预测标注所述目标对象;
基于所述图像识别处理过程中得到的所述源域图像样本的中间特征图和所述目标域图像样本的中间特征图,确定第一特征对齐损失;其中,所述中间特征图是指由所述图像识别模型的特征提取网络得到的特征图,所述中间特征图是所述多尺度特征图序列中尺度最小的特征图;
基于所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图,确定第二特征对齐损失;
基于所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定识别损失;
对所述第一特征对齐损失和所述第二特征对齐损失进行加权和处理,得到特征对齐损失;
将所述识别损失和所述特征对齐损失的差作为所述模型训练损失;
根据所述模型训练损失调整所述图像识别模型的参数,得到适用于所述目标领域的迁移后图像识别模型。
2.根据权利要求1所述的方法,其特征在于,所述头部特征图包括具有n通道的中心点预测特征图和具有2通道的宽高属性预测特征图,每个中心点预测特征图用于指示一个物种类别对应的目标对象的中心点预测值;所述宽高属性预测特征图用于指示所述目标对象的宽预测值和高预测值,所述n是指所述图像识别模型所要识别的目标对象对应的物种类别数。
3.根据权利要求1所述的方法,其特征在于,所述基于所述图像识别处理过程中得到的所述源域图像样本的中间特征图和所述目标域图像样本的中间特征图,确定第一特征对齐损失,包括:
对所述源域图像样本的中间特征图和所述目标域图像样本的中间特征图进行融合映射处理,得到融合后的中间特征图;
基于所述融合后的中间特征图,计算得到所述源域图像样本对应的图像特征对齐损失和所述目标域图像样本对应的图像特征对齐损失;
基于所述源域图像样本对应的图像特征对齐损失和所述目标域图像样本对应的图像特征对齐损失,确定所述第一特征对齐损失。
4.根据权利要求3所述的方法,其特征在于,所述第一特征对齐损失的计算公式如下:
Figure FDA0003464677920000021
Figure FDA0003464677920000022
Figure FDA0003464677920000031
其中,
Figure FDA0003464677920000037
是指所述源域图像样本对应的图像特征对齐损失,
Figure FDA0003464677920000038
是指所述目标域图像样本对应的图像特征对齐损失,Lalign1是指所述第一特征对齐损失,NS是指所述源域图像样本的数量,NT是指所述目标域图像样本的数量,W和H分别是指所述中间特征图的宽和高,
Figure FDA0003464677920000032
是指在所述融合后的中间特征图上所述源域图像样本对应的一个点,
Figure FDA0003464677920000033
是指在所述融合后的中间特征图上所述目标域图像样本对应的一个点,F1为卷积核大小为1的全卷积网络。
5.根据权利要求1所述的方法,其特征在于,所述基于所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图,确定第二特征对齐损失,包括:
对所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图进行融合映射处理,得到融合后的头部特征图;
基于所述融合后的头部特征图,计算得到所述源域图像样本对应的预测结果特征对齐损失和所述目标域图像样本对应的预测结果特征对齐损失;
基于所述源域图像样本对应的预测结果特征对齐损失和所述目标域图像样本对应的预测结果特征对齐损失,确定所述第二特征对齐损失。
6.根据权利要求5所述的方法,其特征在于,所述第二特征对齐损失的计算公式如下:
Figure FDA0003464677920000034
Figure FDA0003464677920000035
Figure FDA0003464677920000036
其中,
Figure FDA0003464677920000039
是指所述源域图像样本对应的预测结果特征对齐损失,
Figure FDA0003464677920000048
是指所述目标域图像样本对应的预测结果特征对齐损失,Lalign2是指所述第二特征对齐损失,NS是指所述源域图像样本的数量,NT是指所述目标域图像样本的数量,
Figure FDA0003464677920000041
是指在所述融合后的头部特征图上所述源域图像样本对应的一个点,
Figure FDA0003464677920000042
是指在所述融合后的头部特征图上所述目标域图像样本对应的一个点,F2为领域分类网络,γ为超参数。
7.根据权利要求1所述的方法,其特征在于,所述识别损失包括第一识别损失和第二识别损失;所述真值标注包括所述源域图像样本中的目标对象的中心点真值、宽真值和高真值;
所述基于所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定识别损失,包括:
基于所述源域图像样本的对象预测标注对应的目标对象的中心点预测值和所述源域图像样本对应的目标对象的中心点真值,确定所述第一识别损失;
基于所述源域图像样本的对象预测标注对应的目标对象的宽预测值和高预测值以及所述源域图像样本对应的目标对象的宽真值和高真值,确定所述第二识别损失。
8.根据权利要求7所述的方法,其特征在于,所述第一识别损失和所述第二识别损失的计算公式如下:
Figure FDA0003464677920000043
Figure FDA0003464677920000044
其中,Lhm是指所述第一识别损失,Lwh是指所述第二识别损失,Yxyc是指所述源域图像样本的位置点(x,y)属于目标对象c的中心点的真概率值,
Figure FDA0003464677920000045
是指所述对象预测标注对应的所述源域图像样本的位置点(x,y)属于目标对象c的中心点的预测概率值,α和β为超参数,N是指所述源域图像样本的数量,w是指所述源域图像样本对应的目标对象的宽真值,h是指所述源域图像样本对应的目标对象的高真值,
Figure FDA0003464677920000046
是指所述对象预测标注对应的所述源域图像样本中的目标对象的宽预测值,
Figure FDA0003464677920000047
是指所述对象预测标注对应的所述源域图像样本中的目标对象的高预测值。
9.根据权利要求1所述的方法,其特征在于,所述图像识别模型的目标损失的计算公式如下:
L=maxmin((λhmLhmwhLwh)-(λ1Lalign12Lalign2)),
其中,L是指所述图像识别模型的目标损失,λhm、λwh、λ1和λ2是指权重参数,Lhm是指所述识别损失对应的第一识别损失,Lwh是指所述识别损失对应的第二识别损失,Lalign1是指所述第一特征对齐损失,Lalign2是指所述第二特征对齐损失。
10.一种图像识别模型的迁移装置,其特征在于,所述装置包括:
图像样本获取模块,用于获取源域图像样本和目标域图像样本,所述源域图像样本是指源领域对应的带真值标注的图像样本,所述目标域图像样本是指待迁移至的目标领域对应的不带真值标注的图像样本,所述源领域是指自动驾驶场景下的仿真场景,所述目标领域是指所述自动驾驶场景下的真实场景;
头部特征图获取模块,用于通过图像识别模型的特征提取网络,对所述源域图像样本和所述目标域图像样本分别进行特征提取处理,得到所述源域图像样本的多尺度特征图序列和所述目标域图像样本的多尺度特征图序列;其中,所述多尺度特征图序列包括在特征提取过程中所获得的多个不同尺度的特征图;通过所述图像识别模型的特征融合网络,分别对所述源域图像样本的多尺度特征图序列中的多个不同尺度的特征图和所述目标域图像样本的多尺度特征图序列中的多个不同尺度的特征图进行融合处理,得到所述源域图像样本的融合特征图和所述目标域图像样本的融合特征图,以及分别对所述源域图像样本的融合特征图和所述目标域图像样本的融合特征图进行通道权重调整处理,得到所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图;其中,所述融合特征图包括高维度特征图的语义信息和低维度特征图的定位细节信息,所述头部特征图用于指示图像样本中的目标对象的类别信息和位置信息;
预测标注获取模块,用于基于所述源域图像样本的头部特征图确定所述源域图像的对象预测标注,以及基于所述目标域图像样本的头部特征图确定所述目标域图像样本的对象预测标注,所述对象预测标注用于预测标注所述目标对象;
训练损失获取模块,用于基于所述图像识别处理过程中得到的所述源域图像样本的中间特征图和所述目标域图像样本的中间特征图,确定第一特征对齐损失;其中,所述中间特征图是指由所述图像识别模型的特征提取网络得到的特征图,所述中间特征图是所述多尺度特征图序列中尺度最小的特征图;基于所述源域图像样本的头部特征图和所述目标域图像样本的头部特征图,确定第二特征对齐损失;基于所述源域图像样本的对象预测标注与其真值标注之间的差异信息,确定识别损失;对所述第一特征对齐损失和所述第二特征对齐损失进行加权和处理,得到特征对齐损失;将所述识别损失和所述特征对齐损失的差作为所述模型训练损失;
模型参数调整模块,用于根据所述模型训练损失调整所述图像识别模型的参数,得到适用于所述目标领域的迁移后图像识别模型。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的图像识别模型的迁移方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的图像识别模型的迁移方法。
13.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机指令,以实现如权利要求1至9任一项所述的图像识别模型的迁移方法。
CN202110398557.5A 2021-04-14 2021-04-14 图像识别模型的迁移方法、装置、设备及存储介质 Active CN112801236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110398557.5A CN112801236B (zh) 2021-04-14 2021-04-14 图像识别模型的迁移方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110398557.5A CN112801236B (zh) 2021-04-14 2021-04-14 图像识别模型的迁移方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112801236A CN112801236A (zh) 2021-05-14
CN112801236B true CN112801236B (zh) 2022-03-11

Family

ID=75811378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110398557.5A Active CN112801236B (zh) 2021-04-14 2021-04-14 图像识别模型的迁移方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112801236B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990390B (zh) * 2021-05-19 2021-08-06 腾讯科技(深圳)有限公司 一种图像识别模型的训练方法、图像识别的方法及装置
CN114333013A (zh) * 2021-12-29 2022-04-12 杭州海康威视数字技术股份有限公司 人脸识别模型的训练方法、装置、电子设备及存储介质
CN114882372A (zh) * 2022-07-11 2022-08-09 浙江大华技术股份有限公司 一种目标检测的方法及设备
CN117709394A (zh) * 2024-02-06 2024-03-15 华侨大学 车辆轨迹预测模型训练方法、多模型迁移预测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7129943B2 (en) * 2002-11-15 2006-10-31 Microsoft Corporation System and method for feature-based light field morphing and texture transfer
CN111461155A (zh) * 2019-01-18 2020-07-28 富士通株式会社 训练分类模型的装置和方法
CN112200062B (zh) * 2020-09-30 2021-09-28 广州云从人工智能技术有限公司 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
CN112232293B (zh) * 2020-11-09 2022-08-26 腾讯科技(深圳)有限公司 图像处理模型训练、图像处理方法及相关设备
CN112529065B (zh) * 2020-12-04 2024-02-13 浙江工业大学 一种基于特征对齐和关键点辅助激励的目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Dual Adaptive Pyramid Network for Cross-Stain Histopathology Image Segmentation》;Hou XX et al;《 MICCAI 2019》;20191010;正文第1、2部分 *
《Scale channel attention network for image segmentation》;Chen JJ et al;《 Springer Link》;20201118;正文Introduction部分、3.2部分 *
《Strong-Weak Distribution Alignment for Adaptive Object Detection》;Saito K et al;《 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;正文第3、4章 *
《基于增强型Tiny-YOLOV3模型的野鸡识别方法》;易诗等;《农业工程学报》;20200817;第36卷(第13期);正文第2.2部分 *

Also Published As

Publication number Publication date
CN112801236A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
WO2020182121A1 (zh) 表情识别方法及相关装置
CN111507378A (zh) 训练图像处理模型的方法和装置
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN110796204A (zh) 视频标签确定方法、装置和服务器
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN113177559B (zh) 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质
CN113255915A (zh) 基于结构化实例图的知识蒸馏方法、装置、设备和介质
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN113240120A (zh) 基于温习机制的知识蒸馏方法、装置、计算机设备和介质
US20230095533A1 (en) Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
Dong et al. Automatic inspection and evaluation system for pavement distress
CN115577768A (zh) 半监督模型训练方法和装置
Yadav et al. An improved deep learning-based optimal object detection system from images
CN112580616B (zh) 人群数量确定方法、装置、设备及存储介质
CN117079276B (zh) 一种基于知识蒸馏的语义分割方法、系统、设备及介质
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN111914809A (zh) 目标对象定位方法、图像处理方法、装置和计算机设备
CN117011566A (zh) 一种目标检测方法、检测模型训练方法、装置及电子设备
CN114596435A (zh) 语义分割标签的生成方法、装置、设备及存储介质
CN116863260A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044402

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant