CN111985520A - 一种基于图卷积神经网络的多模态分类方法 - Google Patents

一种基于图卷积神经网络的多模态分类方法 Download PDF

Info

Publication number
CN111985520A
CN111985520A CN202010412886.6A CN202010412886A CN111985520A CN 111985520 A CN111985520 A CN 111985520A CN 202010412886 A CN202010412886 A CN 202010412886A CN 111985520 A CN111985520 A CN 111985520A
Authority
CN
China
Prior art keywords
neural network
objects
graph
modal
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010412886.6A
Other languages
English (en)
Other versions
CN111985520B (zh
Inventor
王魏
李述
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhigu Artificial Intelligence Research Institute Co ltd
Nanjing University
Original Assignee
Nanjing Zhigu Artificial Intelligence Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhigu Artificial Intelligence Research Institute Co ltd filed Critical Nanjing Zhigu Artificial Intelligence Research Institute Co ltd
Priority to CN202010412886.6A priority Critical patent/CN111985520B/zh
Priority to PCT/CN2020/090879 priority patent/WO2021227091A1/zh
Publication of CN111985520A publication Critical patent/CN111985520A/zh
Application granted granted Critical
Publication of CN111985520B publication Critical patent/CN111985520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于图卷积神经网络的多模态分类方法,包括以下步骤:(一)首先需要用户准备好一个对象库,其中每个对象包含
Figure 228577DEST_PATH_IMAGE001
个模态,通过人工标注的方法为库中的少量对象提供一个类别标记,这些有类别标记的对象称为初始的有标记训练数据,它们和剩余的大量未标记对象一同构成训练数据集;本发明通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息,在多模态图卷积神经网络的每一层中通过分配可训练的权值,使得每个模态所学的表示能够逐步考虑其它模态的结构信息。

Description

一种基于图卷积神经网络的多模态分类方法
技术领域
本发明属于计算机科学与技术中人工智能领域技术领域,具体涉及一种基于图卷积神经网络的多模态分类方法。
背景技术
近年来,实际应用中出现着越来越多的多模态数据,例如,互联网中的多媒体数据往往包含多个模态信息:视频、图像以及周围出现的文本信息;网页数据也包含多个模态信息:网页自身的文本信息和链接到网页的超链接信息。这些多模态数据蕴含着巨大的经济价值,同时利用这些多模态数据往往能够获得比单模态数据更好的结果。例如,在基于信息流的用户内容推荐中,可以同时考虑信息流中的不同模态信息(例如图片、文本)来为用户推荐其感兴趣的内容。在实际应用中,我们很容易从不同模态中发现数据的多重结构信息,例如用户对特定的某一类相似的图片都表现出兴趣,而同时这些用户对另外一类相似的文本表现出兴趣,利用这些基于多模态的结构信息,能够进一步地提升性能。另一方面,图卷积神经网络能够将图结构信息嵌入到神经网络中,且适合处理大规模数据,但并不能被直接应用到多模态场景中,实际应用中的对象经常具有多模态信息,但是传统的多模态方法只是在多个模态上分别训练学习器然后将其集成, 这样的方式容易忽略不同模态中有用的结构信息为此我们提出一种基于图卷积神经网络的多模态分类方法。
发明内容
本发明的目的在于提供一种基于图卷积神经网络的多模态分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)首先需要用户准备好一个对象库,其中每个对象包含
Figure DEST_PATH_IMAGE001
个模态。接下来通过人工标注的方法为库中的少量对象提供一个类别标记,这些有类别标记的对象称为初始的有标记训练数据,它们和剩余的大量未标记对象一同构成训练数据集。
(二)通过特征提取算法,将训练对象库中的对象转化成相应的特征表示,即提取对象库中对象的特征,将所有对象转化成相应的特征向量。由于对象包含
Figure 581692DEST_PATH_IMAGE001
个模态,最终得到的每个对象的特征向量也分为
Figure 967674DEST_PATH_IMAGE001
个部分。
(三)对象的特征提取方法也有很多种,例如对于网页中的一段文本,文本中的每个词出现的次数都可以作为该对象的一个特征,文本的长度也可以作为该网页的一个特征。假设两个模态上特征的个数分别为
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
,那么每个对象就可以对应到
Figure 606466DEST_PATH_IMAGE002
Figure 470516DEST_PATH_IMAGE003
维欧式空间的两个特征向量。
(四)将训练数据集和选定的基分类器类型输入到本发明提出的多模态图卷积神经网络训练算法中,经过训练后就可以得到最终的分类器。
(五)在预测阶段,用户根据待测对象在
Figure 753730DEST_PATH_IMAGE001
个模态上的特征向量分别添加
Figure DEST_PATH_IMAGE004
条最近邻边指向对象库,再讲得到的新图与得到特征向量分别输入给训练得到的
Figure 267538DEST_PATH_IMAGE001
个分类器,分类器就会给用户返回该对象的预测结果,然后在
Figure 3413DEST_PATH_IMAGE001
个预测结果中选择置信度较高的那个作为最终标记输出。
与现有技术相比,本发明的有益效果是:本发明通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息,在多模态图卷积神经网络的每一层中通过分配可训练的权值,使得每个模态所学的表示能够逐步考虑其它模态的结构信息。此外,本发明虽然需要建图,但是可以被用于归纳式的学习场景,在训练时无需得到待测样本。
附图说明
图1是本发明的流程图;
图2是本发明中多模态图卷积神经网络训练算法的流程图;
图3是本发明中多模态图卷积神经网络预测算法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
步骤1,建立一个包含
Figure DEST_PATH_IMAGE005
个信息的对象库作为训练对象库,通过人工标注的方式为对象库中的少量对象赋予一个类别标记,使用
Figure DEST_PATH_IMAGE006
代表第
Figure DEST_PATH_IMAGE007
个对象的类别标记。对于二分类问题,比如说军事新闻网页是第一类,娱乐新闻网页是第二类。如果第
Figure 592526DEST_PATH_IMAGE007
个对象中包含的内容是军事新闻,则
Figure DEST_PATH_IMAGE008
,即该对象属于第一类,如果对象中用户包含的内容是娱乐新闻,则
Figure DEST_PATH_IMAGE009
,该网页属于第二类。假设初始共有
Figure DEST_PATH_IMAGE010
个网页被赋予了标记,剩下的
Figure DEST_PATH_IMAGE011
个对象没有赋予标记。
步骤 2,通过特征提取算法,提取对象库中对象的特征,将所有对象转化成相应的双模态特征向量对;使用
Figure DEST_PATH_IMAGE012
表示其中经过特征提取后的第
Figure 543296DEST_PATH_IMAGE007
个对象的双模态特征向量对,也可以称其为样本
Figure DEST_PATH_IMAGE013
;双模态的特征可以用矩阵
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
表示。
步骤 3,让用户选择需要使用的
Figure 363091DEST_PATH_IMAGE004
及距离空间,可以是各种常见的距离空间,包括欧氏距离, Cosine距离等, 然后根据所选的
Figure 586262DEST_PATH_IMAGE004
值及距离空间建立
Figure 41383DEST_PATH_IMAGE004
-近邻图, 对于模态
Figure DEST_PATH_IMAGE016
用邻接图表示为
Figure DEST_PATH_IMAGE017
。假设所使用的距离度量可以表示为
Figure DEST_PATH_IMAGE018
,那么若样本
Figure 659708DEST_PATH_IMAGE007
是样本
Figure DEST_PATH_IMAGE019
Figure 292815DEST_PATH_IMAGE004
近邻,则
Figure DEST_PATH_IMAGE020
,其中
Figure DEST_PATH_IMAGE021
为超参数,通常从
Figure DEST_PATH_IMAGE022
中选取;
步骤 4,使用多模态图卷积神经网络训练算法训练分类器,其中多模态图卷积神经网络的具体结构为:
1)隐层结构为:
Figure DEST_PATH_IMAGE023
,对于
Figure DEST_PATH_IMAGE024
,其中
Figure DEST_PATH_IMAGE025
是第
Figure 846742DEST_PATH_IMAGE016
个网络在第
Figure DEST_PATH_IMAGE026
层的表示,
Figure DEST_PATH_IMAGE027
是可训练参数,
Figure DEST_PATH_IMAGE028
混合图卷积被定义为
Figure DEST_PATH_IMAGE029
,其中
Figure DEST_PATH_IMAGE030
是图卷积权重,
Figure DEST_PATH_IMAGE031
,其中
Figure DEST_PATH_IMAGE032
代表
Figure 138177DEST_PATH_IMAGE017
的第
Figure 499757DEST_PATH_IMAGE007
行第
Figure 303765DEST_PATH_IMAGE019
个元素。
2)输出层结构为:
Figure DEST_PATH_IMAGE033
,其中
Figure 187014DEST_PATH_IMAGE026
是卷积层层数。
步骤5,得到待预测样本,用与步骤2相同的特征提取算法提取特征,用与步骤3相同的距离度量建立新图,建图的方法为除了原有的边以外,为每一个待测样本寻找其在原有对象库中的
Figure 734670DEST_PATH_IMAGE004
近邻,并将其连边。
步骤6,将特征与新图一起输入步骤4中训练好的多模态图卷积神经网络。最后根据输出值推断出预测标记。
如图2所示,加权多模态图卷积神经网络方法的训练流程为:
步骤7,最大迭代轮数
Figure DEST_PATH_IMAGE034
,图卷积网络层数;初始化多模态图卷积神经网络
Figure DEST_PATH_IMAGE035
,将其中图卷积层中的参数
Figure DEST_PATH_IMAGE036
初始化为
Figure DEST_PATH_IMAGE037
步骤8,若
Figure DEST_PATH_IMAGE038
,转到步骤11;否则继续训练转到步骤9
步骤9,分别为模态
Figure DEST_PATH_IMAGE039
,固定
Figure DEST_PATH_IMAGE040
,使用有标记数据及损失函数计算损失,并使用优化器例如SGD或者Adam优化算法更新网络中参数
Figure DEST_PATH_IMAGE041
步骤10,通过分别为模态
Figure 921063DEST_PATH_IMAGE039
,固定
Figure 410819DEST_PATH_IMAGE041
,使用有标记数据及损失函数计算损失,并使用优化器例如SGD或者Adam更新网络中参数
Figure 830299DEST_PATH_IMAGE040
,其中根据对应梯度的计算方法为
Figure DEST_PATH_IMAGE042
之后令迭代计数器t加1,转到步骤8。
步骤11,输出得到的网络
Figure 650487DEST_PATH_IMAGE035
如图3所示,加权多模态图卷积神经网络方法的预测流程为:
步骤12,对于待预测的
Figure DEST_PATH_IMAGE043
个样本,首先利用步骤2中的方法提取特征
步骤13,再利用步骤3所使用的同样的距离度量为每个待预测样本在对象库中寻找
Figure 897579DEST_PATH_IMAGE004
个最近的邻居并对应的新图
Figure DEST_PATH_IMAGE044
赋权,其中
Figure DEST_PATH_IMAGE045
步骤14,预测时使用
Figure DEST_PATH_IMAGE046
的结果,其中
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
是待测样本的特征矩阵。
步骤15,先集成各模态预测结果
Figure DEST_PATH_IMAGE049
步骤16,再根据对各类的预测值输出结果
Figure DEST_PATH_IMAGE050
,其中
Figure DEST_PATH_IMAGE051
对应的是待预测样本。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)建立一个对象库作为训练数据集,其中对象库包含n个对象,给对象库中的少量对象赋予一个类别标记,用l表示有标记的对象数目,u表示未标记的对象数目;
(二)通过特征提取算法,提取对象库中不同模态对应的特征,假设具有V个模态,为每个对象生成特征向量对(特征1,特征2,...,特征V)。
(三)为每一个模态的特征建立一个k-近邻图,对于模态v,其邻接矩阵记作Av
(四)将数据的特征向量以及每一个模态的k-近邻图输入到多模态图卷积神经网络中,为每个模态分别训练得到一个分类器;
(五)获取待测对象,用t表示待测对象数目并用步骤(二)中相同的方法得到其特征向量对,用步骤(三)中的建图方法将新的样本加入到图中。
(六)将各个模态上的特征向量及所有更新后的k-近邻图输入步骤(四)所训练得到的对应分类器中,获得V个预测标记,并输出其中置信度较高的那个作为最终标记。
2.如权利要求1所述的基于图卷积神经网络的多模态分类方法,其特征在于,所述步骤(四)中使用了新的多模态图卷积神经网络,其具体结构为:
在训练时,所实用的在第v个模态中训练的网络:
(1)隐层结构为:
Figure FDA0002493938600000011
对于k∈{1,2,…,Kv-1},其中
Figure FDA0002493938600000012
是第v个网络在第K层的表示,
Figure FDA0002493938600000013
是可训练参数,
Figure FDA0002493938600000014
混合图卷积被定义为
Figure FDA0002493938600000021
其中
Figure FDA0002493938600000022
是图卷积权重,Dv=∑jAv(ij),其中Av(ij)代表Av的第i行第j个元素,
Figure FDA0002493938600000023
(2)输出层结构为:
Figure FDA0002493938600000024
其中Kv是第v个网络的多模态图卷积层层数。
在预测时,所使用的结构有:
S1先集成各模态输出表示
Figure FDA0002493938600000025
S2再根据对各类的预测值输出结果
Figure FDA0002493938600000026
3.如权利要求1所述的基于图卷积神经网络的多模态分类方法,其特征在于,所述步骤(四),使用多模态图卷积神经网络作为分类器,其具体步骤为:
S1最大迭代轮数T,图卷积网络层数;初始化多模态图卷积神经网络f1,f2,...,fV,将其中图卷积层中的参数
Figure FDA0002493938600000027
初始化为
Figure FDA0002493938600000028
Figure FDA0002493938600000029
S2若t>T,转到步骤5);否则继续训练转到步骤3)
S3分别为模态v=1,2,...,V,固定
Figure FDA00024939386000000210
使用有标记数据及损失函数计算损失,并使用优化器例如SGD或者Adam优化算法更新网络中参数
Figure FDA00024939386000000211
S4通过分别为模态v=1,2,...,V,固定
Figure FDA00024939386000000212
使用有标记数据及损失函数计算损失,并使用优化器例如SGD或者Adam更新网络中参数
Figure FDA00024939386000000213
其中根据对应梯度的计算方法为
Figure FDA0002493938600000031
之后令迭代计数器t加1,转到步骤2).
S5输出得到的网络f1,f2,...,fV
4.如权利要求1所述的基于图卷积神经网络的多模态分类方法,其特征在于,所述步骤(五),能够归纳式地预测待测样本的标记,无需在训练时得到待测样本信息,其具体步骤为:
S1对于待预测的t个样本,首先利用步骤(二)中的方法提取特征
S2再利用步骤(三)所使用的同样的距离度量为每个待预测样本在对象库中寻找k个最近的邻居并对应的新图Av′赋权,其中
Figure FDA0002493938600000032
S3预测时使用fv(Xv′,Av′,v=1,2,...,V)的结果,其中
Figure FDA0002493938600000033
Figure FDA0002493938600000034
是待测样本的特征矩阵。
S4先集成各模态输出表示
Figure FDA0002493938600000035
Figure FDA0002493938600000036
S5再根据对各类的预测值输出结果
Figure FDA0002493938600000037
其中i∈n+1,...,n+t对应的是待预测样本。
CN202010412886.6A 2020-05-15 2020-05-15 一种基于图卷积神经网络的多模态分类方法 Active CN111985520B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010412886.6A CN111985520B (zh) 2020-05-15 2020-05-15 一种基于图卷积神经网络的多模态分类方法
PCT/CN2020/090879 WO2021227091A1 (zh) 2020-05-15 2020-05-18 一种基于图卷积神经网络的多模态分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010412886.6A CN111985520B (zh) 2020-05-15 2020-05-15 一种基于图卷积神经网络的多模态分类方法

Publications (2)

Publication Number Publication Date
CN111985520A true CN111985520A (zh) 2020-11-24
CN111985520B CN111985520B (zh) 2022-08-16

Family

ID=73442010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010412886.6A Active CN111985520B (zh) 2020-05-15 2020-05-15 一种基于图卷积神经网络的多模态分类方法

Country Status (2)

Country Link
CN (1) CN111985520B (zh)
WO (1) WO2021227091A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283578A (zh) * 2021-04-14 2021-08-20 南京大学 一种基于标记风险控制的数据去噪方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114359627A (zh) * 2021-12-15 2022-04-15 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置
CN114662033B (zh) * 2022-04-06 2024-05-03 昆明信息港传媒有限责任公司 一种基于文本和图像的多模态有害链接识别
CN116049597B (zh) * 2023-01-10 2024-04-19 北京百度网讯科技有限公司 网页的多任务模型的预训练方法、装置及电子设备
CN116130089B (zh) * 2023-02-02 2024-01-02 湖南工商大学 基于超图神经网络的多模态抑郁症检测系统、装置及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN109583519A (zh) * 2018-12-27 2019-04-05 中国石油大学(华东) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
CN109766935A (zh) * 2018-12-27 2019-05-17 中国石油大学(华东) 一种基于超图p-Laplacian图卷积神经网络的半监督分类方法
CN110046656A (zh) * 2019-03-28 2019-07-23 南京邮电大学 基于深度学习的多模态场景识别方法
US20190325342A1 (en) * 2018-04-20 2019-10-24 Sri International Embedding multimodal content in a common non-euclidean geometric space
CN111046227A (zh) * 2019-11-29 2020-04-21 腾讯科技(深圳)有限公司 一种视频查重方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782015A (zh) * 2019-10-25 2020-02-11 腾讯科技(深圳)有限公司 神经网络的网络结构优化器的训练方法、装置及存储介质
CN111046664A (zh) * 2019-11-26 2020-04-21 哈尔滨工业大学(深圳) 基于多粒度的图卷积神经网络的假新闻检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
US20190325342A1 (en) * 2018-04-20 2019-10-24 Sri International Embedding multimodal content in a common non-euclidean geometric space
CN109583519A (zh) * 2018-12-27 2019-04-05 中国石油大学(华东) 一种基于p-Laplacian图卷积神经网络的半监督分类方法
CN109766935A (zh) * 2018-12-27 2019-05-17 中国石油大学(华东) 一种基于超图p-Laplacian图卷积神经网络的半监督分类方法
CN110046656A (zh) * 2019-03-28 2019-07-23 南京邮电大学 基于深度学习的多模态场景识别方法
CN111046227A (zh) * 2019-11-29 2020-04-21 腾讯科技(深圳)有限公司 一种视频查重方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283578A (zh) * 2021-04-14 2021-08-20 南京大学 一种基于标记风险控制的数据去噪方法

Also Published As

Publication number Publication date
WO2021227091A1 (zh) 2021-11-18
CN111985520B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111985520B (zh) 一种基于图卷积神经网络的多模态分类方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN106202256B (zh) 基于语义传播及混合多示例学习的Web图像检索方法
CN111626362B (zh) 图像处理方法、装置、计算机设备和存储介质
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
Rad et al. Image annotation using multi-view non-negative matrix factorization with different number of basis vectors
CN111488524B (zh) 一种面向注意力的语义敏感的标签推荐方法
CN112801762B (zh) 基于商品感知的多模态视频高光检测方法及其系统
CN112417097A (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
Dai et al. Multi-granularity association learning for on-the-fly fine-grained sketch-based image retrieval
CN117635275A (zh) 基于大数据的智能电商运营商品管理平台及方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN113535949A (zh) 基于图片和句子的多模态联合事件检测方法
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Gao et al. Acd: Action concept discovery from image-sentence corpora
CN115269984A (zh) 一种专业情报推荐方法和系统
Guntuku et al. Evaluating visual and textual features for predicting user ‘likes’
CN115080699A (zh) 基于模态特异自适应缩放与注意力网络的跨模态检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221129

Address after: 210023 163 Xianlin Road, Qixia District, Nanjing, Jiangsu

Patentee after: NANJING University

Patentee after: Nanjing Zhigu Artificial Intelligence Research Institute Co.,Ltd.

Address before: 210000 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee before: Nanjing Zhigu Artificial Intelligence Research Institute Co.,Ltd.

TR01 Transfer of patent right