CN116416334A - 一种基于原型的嵌入网络的场景图生成方法 - Google Patents
一种基于原型的嵌入网络的场景图生成方法 Download PDFInfo
- Publication number
- CN116416334A CN116416334A CN202310337066.9A CN202310337066A CN116416334A CN 116416334 A CN116416334 A CN 116416334A CN 202310337066 A CN202310337066 A CN 202310337066A CN 116416334 A CN116416334 A CN 116416334A
- Authority
- CN
- China
- Prior art keywords
- prototype
- predicate
- distance
- host
- embedded network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000014509 gene expression Effects 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000000007 visual effect Effects 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000036992 cognitive tasks Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体‑谓词的匹配结果;S4、根据主客体‑谓词的匹配结果进行图像的场景图生成,完成场景图生成。本发明,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于原型的嵌入网络的场景图生成方法。
背景技术
近年来,深度神经网络因为性能优越而被广泛应用于各个领域。除了基础的图像分类、目标检测等认知任务以外,一些需要更高层次语义理解的应用任务随着视觉认知与自然语言处理的发展也受到的极大的关注,比如图像描述生成和图像问答等。然而,基础的认知任务都是孤立地对待图像中的实例,忽视了不同实例之间的视觉关系信息,从而无法充分理解图像中的视觉内容。
图像场景图生成就是一个专门检测不同实例之间的视觉关系的一项任务,其使用图结构的形式来表示视觉关系,其中节点表示图像中检测到的实例,边表示实例与实例之间的关系,包含了不同的关系谓词信息。场景图生成任务可以为下游任务提供一种中等层次的图像抽象特征,便于进一步加工。
然而,由于众多可能的主宾组合在视觉外观上的差异,导致每个谓语范畴内都存在较大的类内变异,如“man-eating-pizza,giraffe-eating-leaf”,在模型的潜在空间而不同类别之间存在严重的类间相似性,如:“man-holding-plate,man-eating-pizza”。上述挑战使得当前的场景图生成方法无法获得可靠的关系预测的鲁棒特征。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于原型的嵌入网络的场景图生成方法解决了目前的场景图生成方法不能捕获紧凑和可区分的关系特征表示的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络(PE-Net)对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
进一步地:所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
进一步地:所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
进一步地:所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
式中,Ws,Wo,Wp均为可学习的参数,ts,to,tp均为类别标签的词嵌入,f(·)为全连接层,h(·)为将视觉特征转化到语义空间的视觉语义函数,为连接运算,σ(·)为sigmoid激活函数,⊙为为哈达玛乘积,xs为第一视觉特征,xo为第二视觉特征,xu为联合特征;
所述SA2中,构建主体s、客体o和谓词p的表达式具体为:
s=Wsts+vs
o=Woto+vo
p=Wptp+up。
进一步地:所述S2中,得到主客体的关系表示以及谓词原型的方法具体为:
根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换,得到主客体的关系表示以及谓词原型;
c=Wptp
进一步地:所述S3中,基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配;
进一步地:得到所述三元损失函数的方法具体为:
SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离,得到第一距离集;
SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离,得到第二距离集;
SB3、将第二距离集进行递增排序得到第三距离集,选择第三距离集中前k1个欧式距离取平均值,得到负原型的距离;
SB4、将真值类别的谓词原型的欧式距离作为正原型的距离,根据正原型的距离和负原型的距离构造三元损失函数。
进一步地:所述SB1中,第一距离集G的表达式具体为:
式中,gj为主客体的关系表示与第j个类别的谓词原型cj之间的欧式距离,其表达式具体为:
式中,max(·)为最大值函数,g+为正原型的距离,g-为负原型的距离,γ1为第一超参数。
进一步地:所述S3中,基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度;
所述原型正则化方法具体为构建第二损失函数和第三损失函数;
式中,sij为第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度;
构建所述第三损失函数的方法具体为:
SC1、计算每个类别的谓词原型之间的欧式距离,得到第一距离矩阵;
SC2、将第一距离矩阵中的每一行元素按递增顺序排序,得到第二距离矩阵;
SC3、选择第二距离矩阵的每行上前k2个欧氏距离进行加宽,得到加宽距离;
其中,计算加宽距离d-的表达式具体为:
SC4、根据加宽距离构造第三损失函数;
式中,γ2为第二超参数,其用于调整距离边缘。
得到主客体-谓词的匹配结果的方法具体为:
选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果,其中,得到所述余弦相似度最高的类别的谓词原型resr的表达式具体为:
式中,qi为主客体的关系表示r与第i个类别的谓词原型ci的相似性。
本发明的有益效果为:
(1)本发明提供了一种基于原型的嵌入网络的场景图生成方法,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。
(2)本发明通过原型引导学习来帮助基于原型的嵌入网络有效地学习主客体-谓词的匹配,并设计原型正则化方法来缓解由于谓词语义重叠引起的主客体-谓词模糊匹配,从而解决谓词语义重叠导致的模糊匹配问题,实现主客体-谓词的精确匹配。
附图说明
图1为一种基于原型的嵌入网络的场景图生成方法流程图。
图2为一种基于原型的嵌入网络的场景图生成方法的具体实施框架图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于原型的嵌入网络的场景图生成方法,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
所述SA1中,实例变化的语义内容包括第一~第三语义内容,得到第一语义内容vs、第二语义内容vo和第三语义内容up的表达式具体为:
式中,Ws,Wo,Wp均为可学习的参数,ts,to,tp均为类别标签的词嵌入,f(·)为全连接层,h(·)为将视觉特征转化到语义空间的视觉语义函数,为连接运算,σ(·)为sigmoid激活函数,⊙为为哈达玛乘积,xs为第一视觉特征,xo为第二视觉特征,xu为联合特征;
第一语义内容vs、第二语义内容vo和第三语义内容up用于建模来自相同主语、宾语和谓语类的每个实例的多样性。
所述SA2中,构建主体s、客体o和谓词p的表达式具体为:
s=WSts+vs
o=Woto+vo
p=Wptp+up。
所述S2中,得到主客体的关系表示以及谓词原型的方法具体为:
根据主体、客体和谓词将主客体与对应的谓词在公共语义空间中进行匹配的表达式进行等价替换,得到主客体的关系表示以及谓词原型;
c=Wptp
本发明基于原型的紧凑且可区分的表示对图像实例进行建模,得到主客体的关系表示以及谓词原型。
本发明将主客体与对应的谓词在公共语义空间中进行匹配,其公式定义如下所示:
然而谓词特征随着主客体的不同而不同,这使得基于原型的嵌入网络无法有效地学习匹配,因此,将上述公式进行等价变换,得到确定性匹配目标如下所示:
所述S3中,基于原型的嵌入网络通过原型引导学习进行主客体-谓词匹配;
在本实施例中,原型引导学习的方法用于帮助基于原型的嵌入网络学习主客体和对应谓词的匹配,使主客体的关系表示接近其对应的谓词原型,本发明利用主客体的关系表示与谓词原型之间的余弦相似度来实现,实现为第一损失函数和三元损失函数。
得到所述三元损失函数的方法具体为:
SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离,得到第二距离集B=G\{gt};
SB4、将真值类别的谓词原型的欧式距离作为正原型的距离,根据正原型的距离和负原型的距离构造三元损失函数。
所述SB1中,第一距离集G的表达式具体为:
式中,gj为主客体的关系表示与第j个类别的谓词原型cj之间的欧式距离,其表达式具体为:
所述SB2中,第二距离集B=G\{gt};
式中,max(·)为最大值函数,g+为正原型的距离,g-为负原型的距离,γ1为第一超参数,其用于调整主客体的关系表示与负原型的距离之间的距离阈值。
所述S3中,基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度;
本发明点的原型正则化方法具体为:通过扩大原型之间的区别来鼓励谓词原型的类别间分离,从而缓解谓词之间语义重叠引起的模糊匹配,以进行精确的主客体-谓词匹配。
所述原型正则化方法具体为构建第二损失函数和第三损失函数;
式中,sij为第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度;
计算谓词原型之间的余弦相似度,得到相似度矩阵S如下所示:
引入S的l2,1范数,并将其最小化来降低每对谓词原型的余弦相似度方式,使它们在语义空间中具有独特性,其计算公式如下:
构建所述第三损失函数的方法具体为:
SC1、计算每个类别的谓词原型之间的欧式距离,得到第一距离矩阵;
SC2、将第一距离矩阵中的每一行元素按递增顺序排序,得到第二距离矩阵;
SC3、选择第二距离矩阵的每行上前k2个欧氏距离进行加宽,得到加宽距离;
其中,计算加宽距离d-的表达式具体为:
SC4、根据加宽距离构造第三损失函数;
式中,γ2为第二超参数,其用于调整距离边缘。
得到主客体-谓词的匹配结果的方法具体为:
在原型的嵌入网络的测试阶段,选择基于原型的嵌入网络输出的余弦相似度最高的类别的谓词原型作为主客体-谓词的匹配结果,其中,得到所述余弦相似度最高的类别的谓词原型resr的表达式具体为:
式中,qi为主客体的关系表示r与第i个类别的谓词原型ci的相似性。
如图2所示,本发明将图片输入检测器,得到若干具有特征的图像实例,例如男人、球拍、衬衫和手对应特征的图像实例,进而构建主体、客体和谓词,根据主客体与对应的谓词在公共语义空间中进行匹配的表达式得到主客体的关系表示和谓词原型,其中谓词原型包括“穿”、“握”和“拥有”,根据谓词原型进行内部聚拢和类间推远,并利用主客体的关系表示进行匹配,最后生成场景图。
实施例2:
本实施例针对实施例1的具体仿真实验:
在本实施例中,实验条件为:系统:Ubuntu 20.04,软件:Python 3.7,处理器:Intel(R)Xeon(R)CPU E5-2678v3@2.50GHz×2,内存:256GB。
测试说明:依次使用每种算法对数据集中的训练集进行训练,训练完毕后,分别用每种算法对该数据集测试集上的图片进行预测,得到所预测的场景图。
图像场景图生成任务的具体测试包括三个子任务:
1)谓词分类:给定一张图片中所有实例的边界框以及实例标签,然后对实例之间的关系进行检测分类;
2)场景图分类:给定一张图片中所有实例的边界框,需要对实例进行分类以及检测实例之间的关系;
3)场景图检测:给定一张图片,从零预测一个场景图。
所使用的评估指标包括:Recall@K(R@K)和mean Recall@K(mR@K)。其中Recall@K是指在前K个预测的关系谓词中,正确的谓词所占的比例;meanRecall@K是指每一种关系谓词的Recall@K的均值。所使用的两种评价指标都是值越大代表性能越好,测试结果如表1和表2所示:
通过表1和表2的实验结果对比,可以得知在使用相同的通用场景图生成方法下,本方案的性能更优,这些结果验证了我们所提出的方法的有效性。
本发明的有益效果为:本发明提供了一种基于原型的嵌入网络的场景图生成方法,通过原型的嵌入网络建立紧凑且可区分的主客体的关系表示和谓词原型,并在主客体和谓词之间建立匹配以进行关系识别,解决目前场景图生成方法不能捕获紧凑和可区分的关系特征表示的技术问题。
本发明通过原型引导学习来帮助基于原型的嵌入网络有效地学习主客体-谓词的匹配,并设计原型正则化方法来缓解由于谓词语义重叠引起的主客体-谓词模糊匹配,从而解决谓词语义重叠导致的模糊匹配问题,实现主客体-谓词的精确匹配。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (10)
1.一种基于原型的嵌入网络的场景图生成方法,其特征在于,包括以下分步骤:
S1、获取图像,将图像输入目标检测器,得到若干具有特征的图像实例;
S2、通过基于原型的嵌入网络对图像实例进行建模,得到主体、客体和谓词,进而得到主客体的关系表示以及谓词原型;
S3、通过基于原型的嵌入网络识别谓词原型匹配的主客体的关系表示,得到主客体-谓词的匹配结果;
S4、根据主客体-谓词的匹配结果进行图像的场景图生成,完成场景图生成。
2.根据权利要求1所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S1中,图像实例的特征包括第一视觉特征、第二视觉特征和联合特征。
3.根据权利要求2所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S2中,得到主体、客体和谓词的方法具体为:
SA1、根据图像实例的特征得到实例变化的语义内容;
SA2、根据实例变化的语义内容构建主体、客体和谓词。
7.根据权利要求6所述的基于原型的嵌入网络的场景图生成方法,其特征在于,得到所述三元损失函数的方法具体为:
SB1、计算主客体的关系表示与每个类别的谓词原型之间的欧式距离,得到第一距离集;
SB2、去除第一距离集中主客体的关系表示与真值类别的谓词原型之间的欧式距离,得到第二距离集;
SB3、将第二距离集进行递增排序得到第三距离集,选择第三距离集中前k1个欧式距离取平均值,得到负原型的距离;
SB4、将真值类别的谓词原型的欧式距离作为正原型的距离,根据正原型的距离和负原型的距离构造三元损失函数。
9.根据权利要求8所述的基于原型的嵌入网络的场景图生成方法,其特征在于,所述S3中,基于原型的嵌入网络通过原型正则化方法提高主客体-谓词匹配的精度;
所述原型正则化方法具体为构建第二损失函数和第三损失函数;
式中,sij为第i个类别的谓词原型ci与第j个类别的谓词原型cj的余弦相似度;
构建所述第三损失函数的方法具体为:
SC1、计算每个类别的谓词原型之间的欧式距离,得到第一距离矩阵;
SC2、将第一距离矩阵中的每一行元素按递增顺序排序,得到第二距离矩阵;
SC3、选择第二距离矩阵的每行上前k2个欧氏距离进行加宽,得到加宽距离;
其中,计算加宽距离d-的表达式具体为:
SC4、根据加宽距离构造第三损失函数;
式中,γ2为第二超参数,其用于调整距离边缘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337066.9A CN116416334A (zh) | 2023-03-31 | 2023-03-31 | 一种基于原型的嵌入网络的场景图生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337066.9A CN116416334A (zh) | 2023-03-31 | 2023-03-31 | 一种基于原型的嵌入网络的场景图生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416334A true CN116416334A (zh) | 2023-07-11 |
Family
ID=87052628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310337066.9A Pending CN116416334A (zh) | 2023-03-31 | 2023-03-31 | 一种基于原型的嵌入网络的场景图生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416334A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333744A (zh) * | 2023-09-21 | 2024-01-02 | 南通大学 | 一种基于空间特征融合和原型嵌入的无偏场景图生成方法 |
CN118015522A (zh) * | 2024-03-22 | 2024-05-10 | 广东工业大学 | 用于视频场景图生成的时间过渡正则化方法和系统 |
-
2023
- 2023-03-31 CN CN202310337066.9A patent/CN116416334A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117333744A (zh) * | 2023-09-21 | 2024-01-02 | 南通大学 | 一种基于空间特征融合和原型嵌入的无偏场景图生成方法 |
CN117333744B (zh) * | 2023-09-21 | 2024-05-28 | 南通大学 | 一种基于空间特征融合和原型嵌入的无偏场景图生成方法 |
CN118015522A (zh) * | 2024-03-22 | 2024-05-10 | 广东工业大学 | 用于视频场景图生成的时间过渡正则化方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Localizing and quantifying damage in social media images | |
Khan et al. | Real-time plant health assessment via implementing cloud-based scalable transfer learning on AWS DeepLens | |
WO2019015246A1 (zh) | 图像特征获取 | |
CN116416334A (zh) | 一种基于原型的嵌入网络的场景图生成方法 | |
Yoon et al. | Image-to-image retrieval by learning similarity between scene graphs | |
Ju et al. | Fish species recognition using an improved AlexNet model | |
CN107292349A (zh) | 基于百科知识语义增强的零样本分类方法、装置 | |
Li et al. | HEGM: A hierarchical elastic graph matching for hand gesture recognition | |
Chen et al. | Multi-SVM based Dempster–Shafer theory for gesture intention understanding using sparse coding feature | |
Praveena et al. | [Retracted] Effective CBMIR System Using Hybrid Features‐Based Independent Condensed Nearest Neighbor Model | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
An et al. | Hypergraph propagation and community selection for objects retrieval | |
Al-Jubouri et al. | A comparative analysis of automatic deep neural networks for image retrieval | |
Okokpujie et al. | Predictive modeling of trait-aging invariant face recognition system using machine learning | |
Singh | Machine learning in pattern recognition | |
CN113792594B (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
Prasetya et al. | Indonesian food items labeling for tourism information using Convolution Neural Network | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN111786999B (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
US11574641B2 (en) | Method and device with data recognition | |
Saha et al. | Topomorphological approach to automatic posture recognition in ballet dance | |
CN104200222B (zh) | 一种基于因子图模型的图片中对象识别方法 | |
US20240249547A1 (en) | Pedestrian attribute recognition method based on a pedestrian attribute recognition system and method for training the same | |
Ngo et al. | Similarity Shape Based on Skeleton Graph Matching. | |
Almutiry | Efficient iris segmentation algorithm using deep learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |