CN116416334A - 一种基于原型的嵌入网络的场景图生成方法 - Google Patents

一种基于原型的嵌入网络的场景图生成方法 Download PDF

Info

Publication number
CN116416334A
CN116416334A CN202310337066.9A CN202310337066A CN116416334A CN 116416334 A CN116416334 A CN 116416334A CN 202310337066 A CN202310337066 A CN 202310337066A CN 116416334 A CN116416334 A CN 116416334A
Authority
CN
China
Prior art keywords
prototype
predicate
distance
host
embedded network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310337066.9A
Other languages
English (en)
Inventor
许辉
郑超凡
陈奇盛
张明星
尹鹏
郭嘉琪
邵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute Of Yibin University Of Electronic Science And Technology
Original Assignee
Research Institute Of Yibin University Of Electronic Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute Of Yibin University Of Electronic Science And Technology filed Critical Research Institute Of Yibin University Of Electronic Science And Technology
Priority to CN202310337066.9A priority Critical patent/CN116416334A/zh
Publication of CN116416334A publication Critical patent/CN116416334A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体‑谓词的匹配结果;S4、根据主客体‑谓词的匹配结果进行图像的场景图生成,完成场景图生成。本发明,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。

Description

一种基于原型的嵌入网络的场景图生成方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于原型的嵌入网络的场景图生成方法。
背景技术
近年来,深度神经网络因为性能优越而被广泛应用于各个领域。除了基础的图像分类、目标检测等认知任务以外,一些需要更高层次语义理解的应用任务随着视觉认知与自然语言处理的发展也受到的极大的关注,比如图像描述生成和图像问答等。然而,基础的认知任务都是孤立地对待图像中的实例,忽视了不同实例之间的视觉关系信息,从而无法充分理解图像中的视觉内容。
图像场景图生成就是一个专门检测不同实例之间的视觉关系的一项任务,其使用图结构的形式来表示视觉关系,其中节点表示图像中检测到的实例,边表示实例与实例之间的关系,包含了不同的关系谓词信息。场景图生成任务可以为下游任务提供一种中等层次的图像抽象特征,便于进一步加工。
然而,由于众多可能的主宾组合在视觉外观上的差异,导致每个谓语范畴内都存在较大的类内变异,如“man-eating-pizza,giraffe-eating-leaf”,在模型的潜在空间而不同类别之间存在严重的类间相似性,如:“man-holding-plate,man-eating-pizza”。上述挑战使得当前的场景图生成方法无法获得可靠的关系预测的鲁棒特征。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于原型的嵌入网络的场景图生成方法解决了目前的场景图生成方法不能捕获紧凑和可区分的关系特征表示的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络(PE-Net)对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
进一步地:所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
进一步地:所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
进一步地:所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
Figure BDA0004156830250000021
Figure BDA0004156830250000022
Figure BDA0004156830250000023
式中,Ws,Wo,Wp均为可学习的参数,ts,to,tp均为类别标签的词嵌入,f(·)为全连接层,h(·)为将视觉特征转化到语义空间的视觉语义函数,
Figure BDA0004156830250000024
为连接运算,σ(·)为sigmoid激活函数,⊙为为哈达玛乘积,xs为第一视觉特征,xo为第二视觉特征,xu为联合特征;
所述SA2中,构建主体s、客体o和谓词p的表达式具体为:
s=Wsts+vs
o=Woto+vo
p=Wptp+up
进一步地:所述S2中,得到主客体的关系表示以及谓词原型的方法具体为:
根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换,得到主客体的关系表示以及谓词原型;
其中,所述主客体与对应的谓词在公共语义空间中进行匹配的表达式
Figure BDA0004156830250000037
主客体的关系表示r以及谓词原型c的表达式具体为:
Figure BDA0004156830250000031
Figure BDA0004156830250000032
c=Wptp
式中,
Figure BDA0004156830250000033
ReLU为激活函数。
进一步地:所述S3中,基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配;
所述原型引导学习的方法具体为构建第一损失函数和三元损失函数,所述第一损失函数
Figure BDA0004156830250000034
的表达式具体为:
Figure BDA0004156830250000035
式中,
Figure BDA0004156830250000036
为一元运算,τ为可学习的温度超参数,ct为真值类别的谓词原型,cj为第j个类别的谓词原型,N为谓词原型类别的数量。
进一步地:得到所述三元损失函数的方法具体为:
SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离,得到第一距离集;
SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离,得到第二距离集;
SB3、将第二距离集进行递增排序得到第三距离集,选择第三距离集中前k1个欧式距离取平均值,得到负原型的距离;
SB4、将真值类别的谓词原型的欧式距离作为正原型的距离,根据正原型的距离和负原型的距离构造三元损失函数。
进一步地:所述SB1中,第一距离集G的表达式具体为:
Figure BDA0004156830250000041
式中,gj为主客体的关系表示与第j个类别的谓词原型cj之间的欧式距离,其表达式具体为:
Figure BDA0004156830250000042
所述SB4中,所述三元损失函数
Figure BDA0004156830250000043
的表达式具体为:
Figure BDA0004156830250000044
式中,max(·)为最大值函数,g+为正原型的距离,g-为负原型的距离,γ1为第一超参数。
进一步地:所述S3中,基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度;
所述原型正则化方法具体为构建第二损失函数和第三损失函数;
其中,所述第二损失函数
Figure BDA0004156830250000045
的表达式具体为:
Figure BDA0004156830250000046
式中,sij为第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度;
构建所述第三损失函数的方法具体为:
SC1、计算每个类别的谓词原型之间的欧式距离,得到第一距离矩阵;
其中,第一距离矩阵
Figure BDA0004156830250000051
R为矩阵,其中第i个类别的谓词原型ci与第j个类别的谓词原型cj之间的欧氏距离dij的表达式具体为:
Figure BDA0004156830250000052
SC2、将第一距离矩阵中的每一行元素按递增顺序排序,得到第二距离矩阵;
其中,第二距离矩阵
Figure BDA0004156830250000053
d′ij为第二距离矩阵中第i个类别的谓词原型ci与第j个类别的谓词原型cj之间的欧氏距离;
SC3、选择第二距离矩阵的每行上前k2个欧氏距离进行加宽,得到加宽距离;
其中,计算加宽距离d-的表达式具体为:
Figure BDA0004156830250000054
SC4、根据加宽距离构造第三损失函数;
其中,第三损失函数
Figure BDA0004156830250000055
的表达式具体为:
Figure BDA0004156830250000056
式中,γ2为第二超参数,其用于调整距离边缘。
进一步地:所述S3中,基于原型的嵌入网络的损失函数
Figure BDA0004156830250000059
的表达式具体为:
Figure BDA0004156830250000057
得到主客体-谓词的匹配结果的方法具体为:
选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果,其中,得到所述余弦相似度最高的类别的谓词原型resr的表达式具体为:
Figure BDA0004156830250000058
式中,qi为主客体的关系表示r与第i个类别的谓词原型ci的相似性。
本发明的有益效果为:
(1)本发明提供了一种基于原型的嵌入网络的场景图生成方法,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。
(2)本发明通过原型引导学习来帮助基于原型的嵌入网络有效地学习主客体-谓词的匹配,并设计原型正则化方法来缓解由于谓词语义重叠引起的主客体-谓词模糊匹配,从而解决谓词语义重叠导致的模糊匹配问题,实现主客体-谓词的精确匹配。
附图说明
图1为一种基于原型的嵌入网络的场景图生成方法流程图。
图2为一种基于原型的嵌入网络的场景图生成方法的具体实施框架图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
Figure BDA0004156830250000071
Figure BDA0004156830250000072
Figure BDA0004156830250000073
式中,Ws,Wo,Wp均为可学习的参数,ts,to,tp均为类别标签的词嵌入,f(·)为全连接层,h(·)为将视觉特征转化到语义空间的视觉语义函数,
Figure BDA0004156830250000074
为连接运算,σ(·)为sigmoid激活函数,⊙为为哈达玛乘积,xs为第一视觉特征,xo为第二视觉特征,xu为联合特征;
第一语义内容vs、第二语义内容vo和第三语义内容up用于建模来自相同主语、宾语和谓语类的每个实例的多样性。
所述SA2中,构建主体s、客体o和谓词p的表达式具体为:
s=WSts+vs
o=Woto+vo
p=Wptp+up
所述S2中,得到主客体的关系表示以及谓词原型的方法具体为:
根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换,得到主客体的关系表示以及谓词原型;
其中,所述主客体与对应的谓词在公共语义空间中进行匹配的表达式
Figure BDA0004156830250000086
主客体的关系表示r以及谓词原型c的表达式具体为:
Figure BDA0004156830250000081
Figure BDA0004156830250000082
c=Wptp
式中,
Figure BDA0004156830250000083
ReLU为激活函数。
本发明基于原型的紧凑且可区分的表示对图像实例进行建模,得到主客体的关系表示以及谓词原型。
本发明将主客体与对应的谓词在公共语义空间中进行匹配,其公式定义如下所示:
Figure BDA0004156830250000084
然而谓词特征随着主客体的不同而不同,这使得基于原型的嵌入网络无法有效地学习匹配,因此,将上述公式进行等价变换,得到确定性匹配目标如下所示:
Figure BDA0004156830250000085
所述S3中,基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配;
在本实施例中,原型引导学习的方法用于帮助基于原型的嵌入网络学习主客体和对应谓词的匹配,使主客体的关系表示接近其对应的谓词原型,本发明利用主客体的关系表示与谓词原型之间的余弦相似度来实现,实现为第一损失函数和三元损失函数。
所述原型引导学习的方法具体为构建第一损失函数和三元损失函数,所述第一损失函数
Figure BDA0004156830250000091
的表达式具体为:
Figure BDA0004156830250000092
式中,
Figure BDA0004156830250000098
为一元运算,τ为可学习的温度超参数,ct为真值类别的谓词原型,t为真值类别的下标,cj为第j个类别的谓词原型,N为谓词原型类别的数量。
得到所述三元损失函数的方法具体为:
SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离,得到第一距离集
Figure BDA0004156830250000093
SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离,得到第二距离集B=G\{gt};
SB3、将第二距离集进行递增排序得到第三距离集
Figure BDA0004156830250000094
选择第三距离集中前k1个欧式距离取平均值,得到负原型的距离;
SB4、将真值类别的谓词原型的欧式距离作为正原型的距离,根据正原型的距离和负原型的距离构造三元损失函数。
所述SB1中,第一距离集G的表达式具体为:
Figure BDA0004156830250000095
式中,gj为主客体的关系表示与第j个类别的谓词原型cj之间的欧式距离,其表达式具体为:
Figure BDA0004156830250000096
所述SB2中,第二距离集B=G\{gt};
所述SB3中,第三距离集
Figure BDA0004156830250000097
得到负原型的距离的表达式具体为g-
Figure BDA0004156830250000101
所述SB4中,所述正原型的距离g+=gt,所述三元损失函数
Figure BDA0004156830250000102
的表达式具体为:
Figure BDA0004156830250000103
式中,max(·)为最大值函数,g+为正原型的距离,g-为负原型的距离,γ1为第一超参数,其用于调整主客体的关系表示与负原型的距离之间的距离阈值。
所述S3中,基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度;
本发明点的原型正则化方法具体为:通过扩大原型之间的区别来鼓励谓词原型的类别间分离,从而缓解谓词之间语义重叠引起的模糊匹配,以进行精确的主客体-谓词匹配。
所述原型正则化方法具体为构建第二损失函数和第三损失函数;
其中,所述第二损失函数
Figure BDA0004156830250000104
的表达式具体为:
Figure BDA0004156830250000105
式中,sij为第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度;
得到第二损失函数
Figure BDA0004156830250000106
的方法具体为:
计算谓词原型之间的余弦相似度,得到相似度矩阵S如下所示:
Figure BDA0004156830250000107
其中,谓词原型矩阵C=[c0;c1;...;cN],
Figure BDA0004156830250000108
通过归一化其中的向量得到,sij表示第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度。
引入S的l2,1范数,并将其最小化来降低每对谓词原型的余弦相似度方式,使它们在语义空间中具有独特性,其计算公式如下:
Figure BDA0004156830250000111
构建所述第三损失函数的方法具体为:
SC1、计算每个类别的谓词原型之间的欧式距离,得到第一距离矩阵;
其中,第一距离矩阵
Figure BDA0004156830250000112
R为矩阵,其中第i个类别的谓词原型ci与第j个类别的谓词原型cj之间的欧氏距离dij的表达式具体为:
Figure BDA0004156830250000113
SC2、将第一距离矩阵中的每一行元素按递增顺序排序,得到第二距离矩阵;
其中,第二距离矩阵
Figure BDA0004156830250000114
d′ij为第二距离矩阵中第i个类别的谓词原型ci与第j个类别的谓词原型cj之间的欧氏距离;
SC3、选择第二距离矩阵的每行上前k2个欧氏距离进行加宽,得到加宽距离;
其中,计算加宽距离d-的表达式具体为:
Figure BDA0004156830250000115
SC4、根据加宽距离构造第三损失函数;
其中,第三损失函数
Figure BDA0004156830250000116
的表达式具体为:
Figure BDA0004156830250000117
式中,γ2为第二超参数,其用于调整距离边缘。
所述S3中,用公共嵌入空间中对应的谓词(即F(s,o)≈p)匹配主客体((s,o))进行关系识别,在原型的嵌入网络的训练阶段,基于原型的嵌入网络的损失函数
Figure BDA0004156830250000118
的表达式具体为:
Figure BDA0004156830250000121
得到主客体-谓词的匹配结果的方法具体为:
在原型的嵌入网络的测试阶段,选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果,其中,得到所述余弦相似度最高的类别的谓词原型resr的表达式具体为:
Figure BDA0004156830250000122
式中,qi为主客体的关系表示r与第i个类别的谓词原型ci的相似性。
如图2所示,本发明将图片输入检测器,得到若干具有特征的图像实例,例如男人、球拍、衬衫和手对应特征的图像实例,进而构建主体、客体和谓词,根据主客体与对应的谓词在公共语义空间中进行匹配的表达式
Figure BDA0004156830250000123
得到主客体的关系表示和谓词原型,其中谓词原型包括“穿”、“握”和“拥有”,根据谓词原型进行内部聚拢和类间推远,并利用主客体的关系表示进行匹配,最后生成场景图。
实施例2:
本实施例针对实施例1的具体仿真实验:
在本实施例中,实验条件为:系统:Ubuntu 20.04,软件:Python 3.7,处理器:Intel(R)Xeon(R)CPU E5-2678v3@2.50GHz×2,内存:256GB。
测试说明:依次使用每种算法对数据集中的训练集进行训练,训练完毕后,分别用每种算法对该数据集测试集上的图片进行预测,得到所预测的场景图。
图像场景图生成任务的具体测试包括三个子任务:
1)谓词分类:给定一张图片中所有实例的边界框以及实例标签,然后对实例之间的关系进行检测分类;
2)场景图分类:给定一张图片中所有实例的边界框,需要对实例进行分类以及检测实例之间的关系;
3)场景图检测:给定一张图片,从零预测一个场景图。
所使用的评估指标包括:Recall@K(R@K)和mean Recall@K(mR@K)。其中Recall@K是指在前K个预测的关系谓词中,正确的谓词所占的比例;meanRecall@K是指每一种关系谓词的Recall@K的均值。所使用的两种评价指标都是值越大代表性能越好,测试结果如表1和表2所示:
Figure BDA0004156830250000131
Figure BDA0004156830250000132
通过表1和表2的实验结果对比,可以得知在使用相同的通用场景图生成方法下,本方案的性能更优,这些结果验证了我们所提出的方法的有效性。
本发明的有益效果为:本发明提供了一种基于原型的嵌入网络的场景图生成方法,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。
本发明通过原型引导学习来帮助基于原型的嵌入网络有效地学习主客体-谓词的匹配,并设计原型正则化方法来缓解由于谓词语义重叠引起的主客体-谓词模糊匹配,从而解决谓词语义重叠导致的模糊匹配问题,实现主客体-谓词的精确匹配。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (10)

1.一种基于原型的嵌入网络的场景图生成方法,其特征在于,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
2.根据权利要求1所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
3.根据权利要求2所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
4.根据权利要求3所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
Figure FDA0004156830230000011
Figure FDA0004156830230000012
Figure FDA0004156830230000013
式中,Ws,Wo,Wp均为可学习的参数,ts,to,tp均为类别标签的词嵌入,f(·)为全连接层,h(·)为将视觉特征转化到语义空间的视觉语义函数,
Figure FDA0004156830230000014
为连接运算,σ(·)为sigmoid激活函数,⊙为为哈达玛乘积,xs为第一视觉特征,xo为第二视觉特征,xu为联合特征;
所述SA2中,构建主体s、客体o和谓词p的表达式具体为:
s=Wsts+s
o=Woto+o
p=ptp+p
5.根据权利要求4所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S2中,得到主客体的关系表示以及谓词原型的方法具体为:
根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换,得到主客体的关系表示以及谓词原型;
其中,所述主客体与对应的谓词在公共语义空间中进行匹配的表达式
Figure FDA0004156830230000021
主客体的关系表示r以及谓词原型c的表达式具体为:
Figure FDA0004156830230000022
Figure FDA0004156830230000023
c=Wptp
式中,
Figure FDA0004156830230000024
ReLU为激活函数。
6.根据权利要求5所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S3中,基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配;
所述原型引导学习的方法具体为构建第一损失函数和三元损失函数,所述第一损失函数
Figure FDA0004156830230000025
的表达式具体为:
Figure FDA0004156830230000026
式中,
Figure FDA0004156830230000027
为一元运算,τ为可学习的温度超参数,ct为真值类别的谓词原型,cj为第j个类别的谓词原型,N为谓词原型类别的数量。
7.根据权利要求6所述的基于原型的嵌入网络的场景图生成方法,其特征在于,得到所述三元损失函数的方法具体为:
SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离,得到第一距离集;
SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离,得到第二距离集;
SB3、将第二距离集进行递增排序得到第三距离集,选择第三距离集中前k1个欧式距离取平均值,得到负原型的距离;
SB4、将真值类别的谓词原型的欧式距离作为正原型的距离,根据正原型的距离和负原型的距离构造三元损失函数。
8.根据权利要求7所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述SB1中,第一距离集G的表达式具体为:
Figure FDA0004156830230000031
式中,gj为主客体的关系表示与第j个类别的谓词原型cj之间的欧式距离,其表达式具体为:
Figure FDA0004156830230000032
所述SB4中,所述三元损失函数
Figure FDA0004156830230000033
的表达式具体为:
Figure FDA0004156830230000034
式中,max(·)为最大值函数,g+为正原型的距离,g-为负原型的距离,γ1为第一超参数。
9.根据权利要求8所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S3中,基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度;
所述原型正则化方法具体为构建第二损失函数和第三损失函数;
其中,所述第二损失函数
Figure FDA0004156830230000041
的表达式具体为:
Figure FDA0004156830230000042
式中,sij为第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度;
构建所述第三损失函数的方法具体为:
SC1、计算每个类别的谓词原型之间的欧式距离,得到第一距离矩阵;
其中,第一距离矩阵
Figure FDA0004156830230000043
R为矩阵,其中第i个类别的谓词原型ci与第j个类别的谓词原型cj之间的欧氏距离dij的表达式具体为:
Figure FDA0004156830230000044
SC2、将第一距离矩阵中的每一行元素按递增顺序排序,得到第二距离矩阵;
其中,第二距离矩阵
Figure FDA0004156830230000045
di j为第二距离矩阵中第i个类别的谓词原型ci与第j个类别的谓词原型cj之间的欧氏距离;
SC3、选择第二距离矩阵的每行上前k2个欧氏距离进行加宽,得到加宽距离;
其中,计算加宽距离d-的表达式具体为:
Figure FDA0004156830230000046
SC4、根据加宽距离构造第三损失函数;
其中,第三损失函数
Figure FDA0004156830230000047
的表达式具体为:
Figure FDA0004156830230000048
式中,γ2为第二超参数,其用于调整距离边缘。
10.根据权利要求9所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S3中,基于原型的嵌入网络的损失函数
Figure FDA0004156830230000049
的表达式具体为:
Figure FDA0004156830230000051
得到主客体-谓词的匹配结果的方法具体为:
选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果,其中,得到所述余弦相似度最高的类别的谓词原型resr的表达式具体为:
Figure FDA0004156830230000052
式中,qi为主客体的关系表示r与第i个类别的谓词原型ci的相似性。
CN202310337066.9A 2023-03-31 2023-03-31 一种基于原型的嵌入网络的场景图生成方法 Pending CN116416334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310337066.9A CN116416334A (zh) 2023-03-31 2023-03-31 一种基于原型的嵌入网络的场景图生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310337066.9A CN116416334A (zh) 2023-03-31 2023-03-31 一种基于原型的嵌入网络的场景图生成方法

Publications (1)

Publication Number Publication Date
CN116416334A true CN116416334A (zh) 2023-07-11

Family

ID=87052628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310337066.9A Pending CN116416334A (zh) 2023-03-31 2023-03-31 一种基于原型的嵌入网络的场景图生成方法

Country Status (1)

Country Link
CN (1) CN116416334A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333744A (zh) * 2023-09-21 2024-01-02 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117333744A (zh) * 2023-09-21 2024-01-02 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN117333744B (zh) * 2023-09-21 2024-05-28 南通大学 一种基于空间特征融合和原型嵌入的无偏场景图生成方法
CN118015522A (zh) * 2024-03-22 2024-05-10 广东工业大学 用于视频场景图生成的时间过渡正则化方法和系统

Similar Documents

Publication Publication Date Title
Li et al. Localizing and quantifying damage in social media images
Khan et al. Real-time plant health assessment via implementing cloud-based scalable transfer learning on AWS DeepLens
WO2019015246A1 (zh) 图像特征获取
CN116416334A (zh) 一种基于原型的嵌入网络的场景图生成方法
Yoon et al. Image-to-image retrieval by learning similarity between scene graphs
Ju et al. Fish species recognition using an improved AlexNet model
CN107292349A (zh) 基于百科知识语义增强的零样本分类方法、装置
Li et al. HEGM: A hierarchical elastic graph matching for hand gesture recognition
Chen et al. Multi-SVM based Dempster–Shafer theory for gesture intention understanding using sparse coding feature
Praveena et al. [Retracted] Effective CBMIR System Using Hybrid Features‐Based Independent Condensed Nearest Neighbor Model
CN113656660B (zh) 跨模态数据的匹配方法、装置、设备及介质
An et al. Hypergraph propagation and community selection for objects retrieval
Al-Jubouri et al. A comparative analysis of automatic deep neural networks for image retrieval
Okokpujie et al. Predictive modeling of trait-aging invariant face recognition system using machine learning
Singh Machine learning in pattern recognition
CN113792594B (zh) 一种基于对比学习的视频中语言片段定位方法及装置
Prasetya et al. Indonesian food items labeling for tourism information using Convolution Neural Network
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN111786999B (zh) 一种入侵行为的检测方法、装置、设备和存储介质
US11574641B2 (en) Method and device with data recognition
Saha et al. Topomorphological approach to automatic posture recognition in ballet dance
CN104200222B (zh) 一种基于因子图模型的图片中对象识别方法
US20240249547A1 (en) Pedestrian attribute recognition method based on a pedestrian attribute recognition system and method for training the same
Ngo et al. Similarity Shape Based on Skeleton Graph Matching.
Almutiry Efficient iris segmentation algorithm using deep learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination