CN109886345A - 基于关系推理的自监督学习模型训练方法和装置 - Google Patents
基于关系推理的自监督学习模型训练方法和装置 Download PDFInfo
- Publication number
- CN109886345A CN109886345A CN201910146820.4A CN201910146820A CN109886345A CN 109886345 A CN109886345 A CN 109886345A CN 201910146820 A CN201910146820 A CN 201910146820A CN 109886345 A CN109886345 A CN 109886345A
- Authority
- CN
- China
- Prior art keywords
- picture
- learning model
- pictures
- local feature
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明提出一种基于关系推理的自监督学习模型训练方法和装置,通过不同的几何变换操作获取各个图像对应的不同局部观察图像,提取相应图像对应的局部特征,对局部特征进行融合得到相应图像的全局特征,预测局部特征和全局特征之间对应的预测几何变换操作,根据预测几何变换操作和实际几何变换操作之间的差异,构建学习模型的损失函数,通过损失函数的迭代确定学习模型的目标参数,即利用该预测几何变换操作作为监督信号对学习模型进行训练,实现了将预设辅助任务的关系建立于全局特征和局部特征之间,从而使得模型学习得到的特征能够专注于对视觉对象的语义信息的捕获,从而减少预设辅助任务对特征学习的影响,易于向目标任务的迁移。
Description
技术领域
本发明涉及计算机视觉与机器学习技术领域,尤其涉及一种基于关系推理的自监督学习模型训练方法和装置。
背景技术
大规模带标注的数据集的出现是深度学习在计算机视觉领域取得巨大成功的关键因素之一。然而,监督式学习存在一个主要问题:过于依赖大规模数据集,而数据集的收集和手动数据标注需要耗费大量的人力成本。从而,自监督学习方法最近得到业界的广泛关注,自监督学习方法通过挖掘数据的性质,从中学习并生成视觉特征的语义标签信息。
而相关技术中,自监督学习旨在通过设计辅助任务来学习可区别性的视觉特征,如此,目标标签就能够从训练数据或图像中自由获取。可免费获取的结构或标签信息被用于设计辅助任务来训练卷积神经学习模型,通过辅助任务学习得到的学习模型被认为有助于提取有用的视觉语义信息,并且有助于在目标任务上的迁移学习。但是模型的训练依靠最小化与预设任务相关的学习目标,因此,学习的视觉表征不仅包含输入图像的视觉语义信息,还包含与辅助任务相关的知识,这使得表征学习与设计的辅助任务之间关系过于紧密,也就是说目前的预设辅助任务对表征学习的影响较大,阻碍了学习的表征向其他目标任务的迁移,并可能导致对性能的下降。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种基于关系推理的自监督学习模型训练方法,通过不同的几何变换操作获取图像对应的不同局部观察图像,提取对应的局部特征,对局部特征进行融合得到图像的全局特征,预测局部特征和全局特征之间对应的预测几何变换操作,利用该预测几何变换操作作为监督信号对模型进行训练,实现了将预设辅助任务的关系建立于全局特征和局部特征之间,从而使得模型学习得到的特征能够专注于对视觉对象的语义信息的捕获,从而减少预设辅助任务对特征学习的影响,易于向目标任务的迁移。
本发明提出一种基于关系推理的自监督学习模型训练装置。
本发明一方面实施例提出了一种基于关系推理的自监督学习模型训练方法,方法包括以下步骤,
获取样本图片集,对所述样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片;
将每张图片对应的不同局部观察图片输入初始学习模型,得到相应图片对应的不同局部观察图片的局部特征;
将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征;
针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和所述相应图片的全局特征之间的预测几何变换关系,根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,构建所述学习模型的损失函数;
根据所述学习模型的损失函数,对所述学习模型进行修正,确定所述学习模型对应的目标参数,以生成所述学习模型。
本发明又一方面实施例提出了一种基于关系推理的自监督学习模型训练装置,所述装置包括:
确定模块,用于获取样本图片集,对所述样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片;
提取模块,用于将每张图片对应的不同局部观察图片输入初始学习模型,得到相应图片对应的不同局部观察图片的局部特征;
融合模块,用于将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征;
预测构建模块,用于针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和所述相应图片的全局特征之间的预测几何变换关系,根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,构建所述学习模型的损失函数;
生成模块,用于根据所述学习模型的损失函数,对所述学习模型进行修正,确定所述学习模型对应的目标参数,以生成所述学习模型。
本发明实施例所提供的技术方案可以包含如下的有益效果:
通过不同的几何变换操作获取各个图像对应的不同局部观察图像,提取相应图像对应的局部特征,对局部特征进行融合得到相应图像的全局特征,预测局部特征和全局特征之间对应的预测几何变换操作,根据预测几何变换操作和实际几何变换操作之间的差异,构建学习模型的损失函数,通过损失函数的迭代确定学习模型的目标参数,即利用该预测几何变换操作作为监督信号对学习模型进行训练,使模型学习到图像的特征信息,实现了将预设辅助任务的关系建立于全局特征和局部特征之间,从而使得模型学习得到的特征能够专注于对视觉对象的语义信息的捕获,从而减少预设辅助任务对特征学习的影响,易于向目标任务的迁移。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于关系推理的自监督学习模型训练方法的流程示意图;
图2为本发明实施例所提供的图片进行几何变换操作后的示意图;
图3为本发明实施例所提供的另一种基于关系推理的自监督学习模型训练方法的流程示意图;
图4为本发明实施例所提供的基于关系推理的自监督学习模型训练的结构示意图之一;
图5为本发明实施例所提供的基于关系推理的自监督学习模型训练的结构示意图之二;以及
图6为本发明实施例提供的一种基于关系推理的自监督学习模型训练装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于关系推理的自监督学习模型训练方法和装置。
图1为本发明实施例所提供的一种基于关系推理的自监督学习模型训练方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,获取样本图片集,对样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片。
其中,几何变换操作可以为旋转、平移或缩放等,本实施例中对几何变换操作不进行限定。
具体地,针对样本图像集中的每一张图片,根据预先设定的几何变换操作,根据选取的几何变换操作,对样本图片集中的每张图片分别进行几何变换操作,得到每个图片对应不同几何变换操作的局部观察图片gj(xi),其中,xi代表第i个图片,取值为[1,2,…n],gj代表第j个几何变换操作,取值为[1,2,…m]。
图2为本发明实施例所提供的图片进行几何变换操作后的示意图,如图2中所示,图中分别示出了狗的图片、汽车的图片和花朵的图片进行几何操作后的示意图,也就是说该样本图像集包含3张图片,以第一张图片:狗的图片为例进行说明,狗的图片进行了顺时针不同角度的旋转和平移的3种不同的几何变换操作,得到的局部观察图像可分别表示为:对应顺时针旋转90度的几何操作后的局部观察图片g1(x1),对应向右平移的几何操作后的局部观察图片g2(x1),以及对应向左平移的几何操作后的局部观察图片g3(x1)。其中,得到的每一张局部观察图片对应的几何变换操作称为该局部观察图片的实际几何变换操作,例如,g3(x1)对应的实际几何变换操作即为向左平移。
需要说明的是,图2中图片对应的平移的几何变换操作,可以是对原始图片进行裁剪后得到的,也就是说通过对原始图片进行相应的裁剪即实现了对图片进行了平移的几何变换操作,实现平移的效果,避免了图片中留白的问题。
步骤102,将每张图片对应的不同局部观察图片输入初始学习模型,得到相应图片对应的不同局部观察图片的局部特征。
其中,初始学习模型是指还没有完成训练,该模型的参数还需要进行优化。
具体地,将学习模型进行初始化,确定模型的参数,将样本集中的每一张图片对应的不同局部观察图片输入初始学习模型,利用该初始学习模型获取不同局部观察图片的局部特征,局部特征可以用F()函数表示,例如,狗的局部观察图片g3(x1)的局部特征可表示为F(g3(x1))。
步骤103,将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征。
具体地,将每张图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征Ri,Ri=max(F(gj(xi))),其中,F(gj(xi))为每张图片对应的不同局部观察图片的局部特征,max()函数表示执行按位操作。
例如,如图2所示,狗的图片作为图片集中的第一个样本,对应3个不同局部观察图片,每一张局部观察图片的局部特征进行融合,可以得到狗的图片的全局特征R1,R1=max(F(gj(x1))),其中,j取值为1-3。
步骤104,针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和相应图片的全局特征之间对应的预测几何变换操作,根据预测几何变换操作和实际几何变换操作之间的差异,构建学习模型的损失函数。
具体地,针对每张图片对应的不同局部观察图片,利用关系预测模块,预测相应局部观察图片的局部特征和相应图片的全局特征之间对应的预测几何变换关系Φ(F(gj(xi)),Ri),根据预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,通过评估函数构建相应图片对应的损失函数loss(Φ(F(gj(xi)),Ri),lj),进而,确定样本图片集中的所有的图片对应的损失函数,将样本图片集中的所有图片对应的损失函数累加,得到模型的损失函数。其中,局部观察图片对应的实际几何变换关系是根据该局部观察图片对应的实际几何变换操作确定,利用向量进行表示。
可选的,关系预测模块可以是通过多层感知器来实现的。本发明实施例中,实现了将预测几何变换关系对应的预设辅助任务建立于全局特征和局部特征之间,通过预测局部特征和全局特征之间的预测几何变换关系,即为建立的预设辅助任务,来实现对学习网络的训练,以实现将学习模型的特征学习和预测几何变换关系对应的预设辅助任务分离,以提高学习模型学习到的特征的表达能力,并便于根据目标任务进行迁移。
例如,如图2所示,该样本图片集中包含3张图片,每个图片分别通过3种几何变换操作后,得到对应的3个局部观察图片,以第2个样本车的图片为例,获取得到的车的局部观察图片以从左到右的顺序可依次表示为g1(x2)、g2(x2)和g3(x2),从而可以确定车的图片对应的局部特征,分别为F(g1(x2))、F(g2(x2))和F(g3(x2)),首先,将车的图片对应的第一个局部观察图片的局部特征F(g1(x2))输入预测模块,可以预测得到车的图片对应的第一个局部特征F(g1(x2))和车的图片的全局特征R2之间对应的预测几何变换关系Φ(F(g1(x2)),R1),其中,Φ(F(g1(x2)),R1)为预测几何变换关系的向量化表示,将相应的预测几何变换关系Φ(F(g1(x2)),R1)和第一个局部观察图片对应的实际几何变换关系l1进行比对,确定预测几何变换关系和实际几何变换关系之间的匹配程度,根据获取得到的匹配程度,通过评估函数构建该学习模型对应车的图片的第一种几何变换关系下的损失函数loss(Φ(F(g1(x2)),R2),l1)。其中,l1是根据车的图片对应的第一个局部观察图片对应的实际几何变换操作确定的,以向量进行表示。同理,可分别确定车的图片在其它两种几何变换关系下的损失函数,将车的图片在三种几何变换关系下的损失函数相加即得到车的图片在不同集合变换下的损失函数。进而,可确定该学习模型的图片集中所有图片在不同集合变换下的损失函数。进一步,将图片集中所有图片在不同集合变换下的损失函数进行累加,可得到该学习模型的损失函数。
步骤105,根据学习模型的损失函数,对学习模型进行修正,确定学习模型对应的目标参数,以生成学习模型。
具体地,根据学习模型的损失函数,对学习模型的参数进行修正,确定模型的新的参数,进而在确定的模型的新的参数的作用下,重新执行上述步骤102-步骤104,即确定新的局部特征和融合得到新的全局特征,通过不断的迭代,在损失函数最小时,确定学习模型的目标参数,从而完成对学习模型的训练,以使得训练完成的模型学习得到图片和图片特征之间的对应关系。
基于上一实施例本发明实施例提供了一种基于关系推理的自监督学习模型训练方法的可能的实现方式,图3为本发明实施例所提供的另一种基于关系推理的自监督学习模型训练方法的流程示意图。
如图3所示,该方法可以包含如下的步骤:
步骤301,获取样本图片集,对样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片。
步骤302,初始化学习模型的网络参数。
步骤303,利用学习模型对输入的不同局部观察图片进行特征提取,得到不同局部观察图片的局部特征。
步骤304,将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征。
步骤305,针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和相应图片的全局特征之间的预测几何变换关系,根据预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,确定学习模型的损失函数。
具体地,步骤301-步骤305可参照上一实施例中的步骤101-104,原理相同,此处不再赘述。
步骤306,判断学习模型的损失函数是否为最小,若是,执行步骤308,若否,执行步骤307。
步骤307,根据学习模型的损失函数,对学习模型进行修正,更新学习模型的网络参数。
步骤308,确定学习模型的目标参数,学习模型训练完成。
本发明实施例中,在确定模型的损失函数后,利用损失函数对学习模型的网络参数进行更新,使得学习模型利用更新后的网络参数,更新局部特征,进而更新全局特征,确定新的损失函数即返回步骤303开始重新执行,在确定损失函数后,作为一种可能的实现方式,可以利用梯度下降法求解模型的损失函数,即通过梯度下降法来一步步的迭代求解,并持续更新学习模型的损失函数,直至得到最小的损失函数时,学习模型训练迭代完成,学习模型的目标参数确定,学习模型训练完成。
为了进一步清楚的说明上述实施例的基于关系推理的自监督学习模型训练方法,本实施例提供了基于关系推理的自监督学习模型训练的结构示意图,图4为本发明实施例所提供的基于关系推理的自监督学习模型训练的结构示意图之一,图5为本发明实施例所提供的基于关系推理的自监督学习模型训练的结构示意图之二。结合具体的应用场景,通过对学习模型的训练,使得训练完成的学习模型可对图片中的鸭子进行类别识别,由于本实施中的关系预测模块用于局部特征和全局特征之间的预测变换关系进行预测,实现了将特征学习和自监督引进的用于几何关系预测的预设辅助任务进行分离,提高了学习模型学习到的特征的表达能力,同时还可以将该学习模型根据目标任务进行迁移,以识别其他特征,如,位置等。
下面结合图4和图5,对上述的基于关系推理的自监督学习模型训练方法进行说明。
如图4和图5所示,样本图片为鸭子戏水的图片,利用6种不同的几何变换确定6种局部观察图片,将局部观察图片输入初始化的学习模型,该学习模型可以为无监督的神经网络模型,利用学习模型分别得到样本图片的6种局部观察图片对应的局部特征,将局部特征进行融合,得到该样本图片对应的全局特征,进而,利用关系预测模块,对样本图片的每一个局部特征对应的矩阵和样本图片的全局特征对应的矩阵进行几何变换关系预测,利用关系预测模块来预测局部特征和全局特征之间的预测几何变换关系,即为建立的预设辅助任务,来实现对学习网络的训练,以实现将学习模型的特征学习和预测几何变换关系的关系预测模块对应的预设辅助任务分离,以提高学习模型学习到的特征的表达能力。在通过关系预测模块得到样本图片的每一个局部特征和样本图片的全局特征之间的预测几何变换关系后,将该预测几何变换关系与相应的真实几何变换关系进行匹配,得到对应的匹配程度,利用评估函数建立该匹配度的损失函数,也就是该样本图片在相应几何变换下的损失函数,进而将该图片在所有几何变换下的损失函数进行累加得到学习模型的损失函数,进而,在求解损失函数的最小值时,作为一种可能的实现方式,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数,和对应的学习模型的目标模型参数值。从而实现了对图4中学习模型的训练,训练完成后的学习模型学习到了图片和对应的特征的对应关系,其中,对应的特征可以是图片中物体的类别,图片中物体的数量,图片中物体的位置等等,具体本领域技术人员可以根据目标任务,对该学习模型进行特征学习的迁移,提高了学习模型的应用场景。
本发明实施例的基于关系推理的自监督学习模型训练方法中,通过不同的几何变换操作获取各个图像对应的不同局部观察图像,提取相应图像对应的局部特征,对局部特征进行融合得到相应图像的全局特征,预测局部特征和全局特征之间对应的预测几何变换操作,根据预测几何变换操作和实际几何变换操作之间的差异,构建学习模型的损失函数,通过损失函数的迭代确定学习模型的目标参数,即利用该预测几何变换操作作为监督信号对学习模型进行训练,使模型学习到图像的特征信息,实现了将预测几何变换关系对应的预设辅助任务建立于全局特征和局部特征之间,从而使得模型学习得到的特征能够专注于对视觉对象的语义信息的捕获,从而减少预设辅助任务对特征学习的影响,易于向目标任务的迁移。
为了实现上述实施例,本发明还提出一种基于关系推理的自监督学习模型训练装置。
图6为本发明实施例提供的一种基于关系推理的自监督学习模型训练装置的结构示意图。
如图6所示,该装置包括:确定模块51、提取模块52、融合模块53、预测构建模块54和生成模块55。
确定模块51,用于获取样本图片集,对样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片。
提取模块52,用于将每张图片对应的不同局部观察图片输入初始学习模型,得到相应图片对应的不同局部观察图片的局部特征。
融合模块53,用于将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征。
预测构建模块54,用于针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和相应图片的全局特征之间的预测几何变换关系,根据预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,构建学习模型的损失函数。
生成模块55,用于根据学习模型的损失函数,对学习模型进行修正,确定学习模型对应的目标参数,以生成学习模型。
进一步地,在本发明实施例的一种可能的实现方式中,上述确定模块51,具体用于:
根据选取的几何变换操作,对样本图片集中的每张图片分别进行几何变换操作,得到每个图片对应不同几何变换操作的局部观察图片gj(xi),其中,xi代表第i个图片,取值为[1,2,…n],gj代表第j个几何变换操作,取值为[1,2,…m]。
作为一种可能的实现方式,上述融合模块53,具体用于:
将每张图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征Ri,Ri=max(F(gj(xi))),其中,F(gj(xi))为每张图片对应的不同局部观察图片的局部特征,max()函数表示执行按位融合操作。作为一种可能的实现方式,上述预测构建模块54,具体用于:
针对每张图片对应的每一个局部观察图片,利用预测模块,预测相应局部观察图片的局部特征和相应图片的全局特征之间对应的预测几何变换关系Φ(F(gj(xi)),Ri);
根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,通过评估函数构建相应图片对应的损失函数loss(Φ(F(gj(xi)),Ri),lj),其中,lj为相应局部观察图片对应的实际几何变换关系,用于指示输入的局部观察图片的几何变换操作是否是第j个几何变换操作gj;
将样本图片集中的所有图片对应的损失函数累加,得到模型的损失函数。
作为一种可能的实现方式,上述生成模块55,具体用于:
根据随机梯度下降法持续更新局部特征;
根据更新的局部特征,更新对应的全局特征,迭代求解确定最小化的目标损失函数和模型的目标参数值。
需要说明的是,前述对学习模型训练方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的基于关系推理的自监督学习模型训练装置中,通过不同的几何变换操作获取各个图像对应的不同局部观察图像,提取相应图像对应的局部特征,对局部特征进行融合得到相应图像的全局特征,预测局部特征和全局特征之间对应的预测几何变换操作,根据预测几何变换操作和实际几何变换操作之间的差异,构建学习模型的损失函数,通过损失函数的迭代确定学习模型的目标参数,即利用该预测几何变换操作作为监督信号对学习模型进行训练,使模型学习到图像的特征信息,实现了将预测几何变换关系对应的预设辅助任务建立于全局特征和局部特征之间,从而使得模型学习得到的特征能够专注于对视觉对象的语义信息的捕获,从而减少预设辅助任务对特征学习的影响,易于向目标任务的迁移。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于关系推理的自监督学习模型训练方法,其特征在于,包括以下步骤:
获取样本图片集,对所述样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片;
将每张图片对应的不同局部观察图片输入初始学习模型,得到相应图片对应的不同局部观察图片的局部特征;
将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征;
针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和所述相应图片的全局特征之间的预测几何变换关系,根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,构建所述学习模型的损失函数;
根据所述学习模型的损失函数,对所述学习模型进行修正,确定所述学习模型对应的目标参数,以生成所述学习模型。
2.根据权利要求1所述的一种基于关系推理的自监督学习模型训练方法,其特征在于,所述对所述样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片,包括:
根据选取的几何变换操作,对样本图片集中的每张图片分别进行几何变换操作,得到每个图片对应不同几何变换操作的局部观察图片gj(xi),其中,xi代表第i个图片,取值为[1,2,…n],gj代表第j个几何变换操作,取值为[1,2,…m]。
3.根据权利要求2所述的学习模型训练方法,其特征在于,所述将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征,包括:
将每张图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征Ri,Ri=max(F(gj(xi))),其中,F(gj(xi))为每张图片对应的不同局部观察图片的局部特征,max()函数表示执行按位融合操作。
4.根据权利要求3所述的学习模型训练方法,其特征在于,所述针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和所述相应图片的全局特征之间的预测几何变换关系,根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,构建所述学习模型的损失函数,包括:
针对每张图片对应的每一个局部观察图片,利用预测模块,预测相应局部观察图片的局部特征和相应图片的全局特征之间对应的预测几何变换关系Φ(F(gj(xi)),Ri);
根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,通过评估函数构建相应图片对应的损失函数loss(Φ(F(gj(xi)),Ri),lj),其中,lj为相应局部观察图片对应的实际几何变换关系,用于指示输入的局部观察图片的几何变换操作是否是第j个几何变换操作gj;
将样本图片集中的所有图片对应的损失函数累加,得到模型的损失函数。
5.根据权利要求1-4任一所述的模型训练方法,其特征在于,所述根据所述学习模型的损失函数,对所述学习模型进行修正,确定所述学习模型对应的目标参数,以生成所述学习模型,包括:
根据随机梯度下降法持续更新局部特征;
根据更新的局部特征,更新对应的全局特征,迭代求解确定最小化的目标损失函数和模型的目标参数值。
6.一种基于关系推理的自监督学习模型训练装置,其特征在于,所述装置包括:
确定模块,用于获取样本图片集,对所述样本图像集中的每个样本图片采用选定的几何变换操作进行几何变换,以确定每个样本图片对应的不同局部观察图片;
提取模块,用于将每张图片对应的不同局部观察图片输入初始学习模型,得到相应图片对应的不同局部观察图片的局部特征;
融合模块,用于将相应图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征;
预测构建模块,用于针对每张图片,确定相应图片对应的不同局部观察图片的局部特征和所述相应图片的全局特征之间的预测几何变换关系,根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,构建所述学习模型的损失函数;
生成模块,用于根据所述学习模型的损失函数,对所述学习模型进行修正,确定所述学习模型对应的目标参数,以生成所述学习模型。
7.根据权利要求6所述的学习模型训练装置,其特征在于,所述确定模块,用于:
根据选取的几何变换操作,对样本图片集中的每张图片分别进行几何变换操作,得到每个图片对应不同几何变换操作的局部观察图片gj(xi),其中,xi代表第i个图片,取值为[1,2,…n],gj代表第j个几何变换操作,取值为[1,2,…m]。
8.根据权利要求7所述的学习模型训练装置,其特征在于,所述融合模块,用于:
将每张图片对应的不同局部观察图片的局部特征进行融合,得到相应图片的全局特征Ri,Ri=max(F(gj(xi))),其中,F(gj(xi))为每张图片对应的不同局部观察图片的局部特征,max()函数表示执行按位融合操作。
9.根据权利要求8所述的学习模型训练装置,其特征在于,所述预测构建模块,用于:
针对每张图片对应的每一个局部观察图片,利用预测模块,预测相应局部观察图片的局部特征和相应图片的全局特征之间对应的预测几何变换关系Φ(F(gj(xi)),Ri);
根据所述预测几何变换关系和相应局部观察图片对应的实际几何变换关系之间的差异,通过评估函数构建相应图片对应的损失函数loss(Φ(F(gj(xi)),Ri),lj),其中,lj为相应局部观察图片对应的实际几何变换关系,用于指示输入的局部观察图片的几何变换操作是否是第j个几何变换操作gj;
将样本图片集中的所有图片对应的损失函数累加,得到模型的损失函数。
10.根据权利要求6-9任一所述的学习模型训练装置,其特征在于,所述生成模块,包括:
根据随机梯度下降法持续更新局部特征;
根据更新的局部特征,更新对应的全局特征,迭代求解确定最小化的目标损失函数和模型的目标参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910146820.4A CN109886345B (zh) | 2019-02-27 | 2019-02-27 | 基于关系推理的自监督学习模型训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910146820.4A CN109886345B (zh) | 2019-02-27 | 2019-02-27 | 基于关系推理的自监督学习模型训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109886345A true CN109886345A (zh) | 2019-06-14 |
CN109886345B CN109886345B (zh) | 2020-11-13 |
Family
ID=66929705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910146820.4A Active CN109886345B (zh) | 2019-02-27 | 2019-02-27 | 基于关系推理的自监督学习模型训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109886345B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325243A (zh) * | 2020-02-03 | 2020-06-23 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
CN112926747A (zh) * | 2021-03-25 | 2021-06-08 | 支付宝(杭州)信息技术有限公司 | 优化业务模型的方法及装置 |
CN113158949A (zh) * | 2021-04-30 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的运动想象脑电信号分类方法 |
CN113762288A (zh) * | 2021-09-22 | 2021-12-07 | 辽宁师范大学 | 基于交互式特征嵌入的多光谱图像融合方法 |
CN114581347A (zh) * | 2022-01-24 | 2022-06-03 | 中国科学院空天信息创新研究院 | 无参考影像的光学遥感空谱融合方法、装置、设备及介质 |
US11416469B2 (en) | 2020-11-24 | 2022-08-16 | International Business Machines Corporation | Unsupervised feature learning for relational data |
WO2023015942A1 (zh) * | 2021-08-13 | 2023-02-16 | 北京百度网讯科技有限公司 | 确定图像特征的方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139028A (zh) * | 2015-08-13 | 2015-12-09 | 西安电子科技大学 | 基于分层稀疏滤波卷积神经网络的sar图像分类方法 |
CN105279554A (zh) * | 2015-09-29 | 2016-01-27 | 东方网力科技股份有限公司 | 基于哈希编码层的深度神经网络的训练方法及装置 |
US20160358038A1 (en) * | 2015-06-05 | 2016-12-08 | Google Inc. | Spatial transformer modules |
CN106709569A (zh) * | 2015-11-12 | 2017-05-24 | 江南大学 | 一种FitzHugh-Nagumo神经元系统参数估计方法 |
CN106919951A (zh) * | 2017-01-24 | 2017-07-04 | 杭州电子科技大学 | 一种基于点击与视觉融合的弱监督双线性深度学习方法 |
CN107392019A (zh) * | 2017-07-05 | 2017-11-24 | 北京金睛云华科技有限公司 | 一种恶意代码家族的训练和检测方法及装置 |
CN107657625A (zh) * | 2017-09-11 | 2018-02-02 | 南京信息工程大学 | 融合时空多特征表示的无监督视频分割方法 |
CN108288051A (zh) * | 2018-02-14 | 2018-07-17 | 北京市商汤科技开发有限公司 | 行人再识别模型训练方法及装置、电子设备和存储介质 |
CN108304864A (zh) * | 2018-01-17 | 2018-07-20 | 清华大学 | 深度对抗度量学习方法及装置 |
-
2019
- 2019-02-27 CN CN201910146820.4A patent/CN109886345B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160358038A1 (en) * | 2015-06-05 | 2016-12-08 | Google Inc. | Spatial transformer modules |
CN105139028A (zh) * | 2015-08-13 | 2015-12-09 | 西安电子科技大学 | 基于分层稀疏滤波卷积神经网络的sar图像分类方法 |
CN105279554A (zh) * | 2015-09-29 | 2016-01-27 | 东方网力科技股份有限公司 | 基于哈希编码层的深度神经网络的训练方法及装置 |
CN106709569A (zh) * | 2015-11-12 | 2017-05-24 | 江南大学 | 一种FitzHugh-Nagumo神经元系统参数估计方法 |
CN106919951A (zh) * | 2017-01-24 | 2017-07-04 | 杭州电子科技大学 | 一种基于点击与视觉融合的弱监督双线性深度学习方法 |
CN107392019A (zh) * | 2017-07-05 | 2017-11-24 | 北京金睛云华科技有限公司 | 一种恶意代码家族的训练和检测方法及装置 |
CN107657625A (zh) * | 2017-09-11 | 2018-02-02 | 南京信息工程大学 | 融合时空多特征表示的无监督视频分割方法 |
CN108304864A (zh) * | 2018-01-17 | 2018-07-20 | 清华大学 | 深度对抗度量学习方法及装置 |
CN108288051A (zh) * | 2018-02-14 | 2018-07-17 | 北京市商汤科技开发有限公司 | 行人再识别模型训练方法及装置、电子设备和存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325243A (zh) * | 2020-02-03 | 2020-06-23 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
US11416469B2 (en) | 2020-11-24 | 2022-08-16 | International Business Machines Corporation | Unsupervised feature learning for relational data |
CN112926747A (zh) * | 2021-03-25 | 2021-06-08 | 支付宝(杭州)信息技术有限公司 | 优化业务模型的方法及装置 |
CN112926747B (zh) * | 2021-03-25 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 优化业务模型的方法及装置 |
CN113158949A (zh) * | 2021-04-30 | 2021-07-23 | 湖北工业大学 | 一种基于自监督学习的运动想象脑电信号分类方法 |
WO2023015942A1 (zh) * | 2021-08-13 | 2023-02-16 | 北京百度网讯科技有限公司 | 确定图像特征的方法、装置、电子设备和存储介质 |
CN113762288A (zh) * | 2021-09-22 | 2021-12-07 | 辽宁师范大学 | 基于交互式特征嵌入的多光谱图像融合方法 |
CN113762288B (zh) * | 2021-09-22 | 2022-11-29 | 辽宁师范大学 | 基于交互式特征嵌入的多光谱图像融合方法 |
CN114581347A (zh) * | 2022-01-24 | 2022-06-03 | 中国科学院空天信息创新研究院 | 无参考影像的光学遥感空谱融合方法、装置、设备及介质 |
CN114581347B (zh) * | 2022-01-24 | 2024-03-12 | 中国科学院空天信息创新研究院 | 无参考影像的光学遥感空谱融合方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109886345B (zh) | 2020-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886345A (zh) | 基于关系推理的自监督学习模型训练方法和装置 | |
Wang et al. | Automatic image‐based plant disease severity estimation using deep learning | |
US9111375B2 (en) | Evaluation of three-dimensional scenes using two-dimensional representations | |
CN109902271B (zh) | 基于迁移学习的文本数据标注方法、装置、终端及介质 | |
CN106339510A (zh) | 基于人工智能的点击预估方法及装置 | |
JP2021535484A (ja) | 自動的な腫瘍検出及び分類のためのシステム | |
Si Salah et al. | What is a remote sensing change detection technique? Towards a conceptual framework | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN106485272A (zh) | 基于流形约束的跨模态嵌入的零样本分类方法 | |
CN111325200A (zh) | 图像标注方法、装置、设备及计算机可读存储介质 | |
Soui et al. | Deep learning-based model using DensNet201 for mobile user interface evaluation | |
Luciano et al. | Deep similarity network fusion for 3D shape classification | |
US11151370B2 (en) | Text wrap detection | |
CN113592071B (zh) | 设备故障识别模型训练、识别方法、系统、装置及介质 | |
CN109947938A (zh) | 多标记分类方法、系统、可读存储介质及计算机设备 | |
Nguyen et al. | Explaining how deep neural networks forget by deep visualization | |
CN111966836A (zh) | 知识图谱向量表示方法、装置、计算机设备及存储介质 | |
CN114708307B (zh) | 基于相关滤波器的目标跟踪方法、系统、存储介质及设备 | |
CN108491555A (zh) | 显示装置及其显示方法、计算机可读存储介质 | |
Zhu et al. | Guideline-based machine learning for standard plane extraction in 3D cardiac ultrasound | |
CN112989801A (zh) | 一种序列标注方法、装置及设备 | |
Dubost et al. | Hands-free segmentation of medical volumes via binary inputs | |
Chen et al. | Query Re-Training for Modality-Gnostic Incomplete Multi-modal Brain Tumor Segmentation | |
Kubaji | A new deep learning based object detection system for increasing salesman performance= Satış elemanı verimliliği için yeni bir derin öğrenme tabanlı nesne tespit sistemi | |
Zhuang et al. | Multi-class remote sensing change detection based on model fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |