CN111985520A - 一种基于图卷积神经网络的多模态分类方法 - Google Patents
一种基于图卷积神经网络的多模态分类方法 Download PDFInfo
- Publication number
- CN111985520A CN111985520A CN202010412886.6A CN202010412886A CN111985520A CN 111985520 A CN111985520 A CN 111985520A CN 202010412886 A CN202010412886 A CN 202010412886A CN 111985520 A CN111985520 A CN 111985520A
- Authority
- CN
- China
- Prior art keywords
- neural network
- objects
- graph
- modal
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
Description
技术领域
本发明属于计算机科学与技术中人工智能领域技术领域,具体涉及一种基于图卷积神经网络的多模态分类方法。
背景技术
近年来,实际应用中出现着越来越多的多模态数据,例如,互联网中的多媒体数据往往包含多个模态信息:视频、图像以及周围出现的文本信息;网页数据也包含多个模态信息:网页自身的文本信息和链接到网页的超链接信息。这些多模态数据蕴含着巨大的经济价值,同时利用这些多模态数据往往能够获得比单模态数据更好的结果。例如,在基于信息流的用户内容推荐中,可以同时考虑信息流中的不同模态信息(例如图片、文本)来为用户推荐其感兴趣的内容。在实际应用中,我们很容易从不同模态中发现数据的多重结构信息,例如用户对特定的某一类相似的图片都表现出兴趣,而同时这些用户对另外一类相似的文本表现出兴趣,利用这些基于多模态的结构信息,能够进一步地提升性能。另一方面,图卷积神经网络能够将图结构信息嵌入到神经网络中,且适合处理大规模数据,但并不能被直接应用到多模态场景中,实际应用中的对象经常具有多模态信息,但是传统的多模态方法只是在多个模态上分别训练学习器然后将其集成, 这样的方式容易忽略不同模态中有用的结构信息为此我们提出一种基于图卷积神经网络的多模态分类方法。
发明内容
本发明的目的在于提供一种基于图卷积神经网络的多模态分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)首先需要用户准备好一个对象库,其中每个对象包含个模态。接下来通过人工标注的方法为库中的少量对象提供一个类别标记,这些有类别标记的对象称为初始的有标记训练数据,它们和剩余的大量未标记对象一同构成训练数据集。
(三)对象的特征提取方法也有很多种,例如对于网页中的一段文本,文本中的每个词出现的次数都可以作为该对象的一个特征,文本的长度也可以作为该网页的一个特征。假设两个模态上特征的个数分别为和,那么每个对象就可以对应到和维欧式空间的两个特征向量。
(四)将训练数据集和选定的基分类器类型输入到本发明提出的多模态图卷积神经网络训练算法中,经过训练后就可以得到最终的分类器。
(五)在预测阶段,用户根据待测对象在个模态上的特征向量分别添加条最近邻边指向对象库,再讲得到的新图与得到特征向量分别输入给训练得到的个分类器,分类器就会给用户返回该对象的预测结果,然后在个预测结果中选择置信度较高的那个作为最终标记输出。
与现有技术相比,本发明的有益效果是:本发明通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息,在多模态图卷积神经网络的每一层中通过分配可训练的权值,使得每个模态所学的表示能够逐步考虑其它模态的结构信息。此外,本发明虽然需要建图,但是可以被用于归纳式的学习场景,在训练时无需得到待测样本。
附图说明
图1是本发明的流程图;
图2是本发明中多模态图卷积神经网络训练算法的流程图;
图3是本发明中多模态图卷积神经网络预测算法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
步骤1,建立一个包含个信息的对象库作为训练对象库,通过人工标注的方式为对象库中的少量对象赋予一个类别标记,使用代表第个对象的类别标记。对于二分类问题,比如说军事新闻网页是第一类,娱乐新闻网页是第二类。如果第个对象中包含的内容是军事新闻,则,即该对象属于第一类,如果对象中用户包含的内容是娱乐新闻,则,该网页属于第二类。假设初始共有个网页被赋予了标记,剩下的个对象没有赋予标记。
步骤 3,让用户选择需要使用的及距离空间,可以是各种常见的距离空间,包括欧氏距离, Cosine距离等, 然后根据所选的值及距离空间建立-近邻图, 对于模态用邻接图表示为。假设所使用的距离度量可以表示为,那么若样本是样本的近邻,则,其中为超参数,通常从中选取;
步骤 4,使用多模态图卷积神经网络训练算法训练分类器,其中多模态图卷积神经网络的具体结构为:
步骤6,将特征与新图一起输入步骤4中训练好的多模态图卷积神经网络。最后根据输出值推断出预测标记。
如图2所示,加权多模态图卷积神经网络方法的训练流程为:
如图3所示,加权多模态图卷积神经网络方法的预测流程为:
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)建立一个对象库作为训练数据集,其中对象库包含n个对象,给对象库中的少量对象赋予一个类别标记,用l表示有标记的对象数目,u表示未标记的对象数目;
(二)通过特征提取算法,提取对象库中不同模态对应的特征,假设具有V个模态,为每个对象生成特征向量对(特征1,特征2,...,特征V)。
(三)为每一个模态的特征建立一个k-近邻图,对于模态v,其邻接矩阵记作Av;
(四)将数据的特征向量以及每一个模态的k-近邻图输入到多模态图卷积神经网络中,为每个模态分别训练得到一个分类器;
(五)获取待测对象,用t表示待测对象数目并用步骤(二)中相同的方法得到其特征向量对,用步骤(三)中的建图方法将新的样本加入到图中。
(六)将各个模态上的特征向量及所有更新后的k-近邻图输入步骤(四)所训练得到的对应分类器中,获得V个预测标记,并输出其中置信度较高的那个作为最终标记。
3.如权利要求1所述的基于图卷积神经网络的多模态分类方法,其特征在于,所述步骤(四),使用多模态图卷积神经网络作为分类器,其具体步骤为:
S2若t>T,转到步骤5);否则继续训练转到步骤3)
S5输出得到的网络f1,f2,...,fV。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412886.6A CN111985520B (zh) | 2020-05-15 | 2020-05-15 | 一种基于图卷积神经网络的多模态分类方法 |
PCT/CN2020/090879 WO2021227091A1 (zh) | 2020-05-15 | 2020-05-18 | 一种基于图卷积神经网络的多模态分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412886.6A CN111985520B (zh) | 2020-05-15 | 2020-05-15 | 一种基于图卷积神经网络的多模态分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985520A true CN111985520A (zh) | 2020-11-24 |
CN111985520B CN111985520B (zh) | 2022-08-16 |
Family
ID=73442010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010412886.6A Active CN111985520B (zh) | 2020-05-15 | 2020-05-15 | 一种基于图卷积神经网络的多模态分类方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111985520B (zh) |
WO (1) | WO2021227091A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283578A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于标记风险控制的数据去噪方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359627A (zh) * | 2021-12-15 | 2022-04-15 | 南京视察者智能科技有限公司 | 一种基于图卷积的目标检测后处理方法及装置 |
CN114662033B (zh) * | 2022-04-06 | 2024-05-03 | 昆明信息港传媒有限责任公司 | 一种基于文本和图像的多模态有害链接识别 |
CN116049597B (zh) * | 2023-01-10 | 2024-04-19 | 北京百度网讯科技有限公司 | 网页的多任务模型的预训练方法、装置及电子设备 |
CN116130089B (zh) * | 2023-02-02 | 2024-01-02 | 湖南工商大学 | 基于超图神经网络的多模态抑郁症检测系统、装置及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934055A (zh) * | 2017-03-20 | 2017-07-07 | 南京大学 | 一种基于不充分模态信息的半监督网页自动分类方法 |
CN109583519A (zh) * | 2018-12-27 | 2019-04-05 | 中国石油大学(华东) | 一种基于p-Laplacian图卷积神经网络的半监督分类方法 |
CN109766935A (zh) * | 2018-12-27 | 2019-05-17 | 中国石油大学(华东) | 一种基于超图p-Laplacian图卷积神经网络的半监督分类方法 |
CN110046656A (zh) * | 2019-03-28 | 2019-07-23 | 南京邮电大学 | 基于深度学习的多模态场景识别方法 |
US20190325342A1 (en) * | 2018-04-20 | 2019-10-24 | Sri International | Embedding multimodal content in a common non-euclidean geometric space |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782015A (zh) * | 2019-10-25 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 神经网络的网络结构优化器的训练方法、装置及存储介质 |
CN111046664A (zh) * | 2019-11-26 | 2020-04-21 | 哈尔滨工业大学(深圳) | 基于多粒度的图卷积神经网络的假新闻检测方法及系统 |
-
2020
- 2020-05-15 CN CN202010412886.6A patent/CN111985520B/zh active Active
- 2020-05-18 WO PCT/CN2020/090879 patent/WO2021227091A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934055A (zh) * | 2017-03-20 | 2017-07-07 | 南京大学 | 一种基于不充分模态信息的半监督网页自动分类方法 |
US20190325342A1 (en) * | 2018-04-20 | 2019-10-24 | Sri International | Embedding multimodal content in a common non-euclidean geometric space |
CN109583519A (zh) * | 2018-12-27 | 2019-04-05 | 中国石油大学(华东) | 一种基于p-Laplacian图卷积神经网络的半监督分类方法 |
CN109766935A (zh) * | 2018-12-27 | 2019-05-17 | 中国石油大学(华东) | 一种基于超图p-Laplacian图卷积神经网络的半监督分类方法 |
CN110046656A (zh) * | 2019-03-28 | 2019-07-23 | 南京邮电大学 | 基于深度学习的多模态场景识别方法 |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283578A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于标记风险控制的数据去噪方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021227091A1 (zh) | 2021-11-18 |
CN111985520B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
CN111985520B (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN110008338B (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
CN111626362B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
Rad et al. | Image annotation using multi-view non-negative matrix factorization with different number of basis vectors | |
CN111488524B (zh) | 一种面向注意力的语义敏感的标签推荐方法 | |
CN112801762B (zh) | 基于商品感知的多模态视频高光检测方法及其系统 | |
CN112417097A (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
Dai et al. | Multi-granularity association learning for on-the-fly fine-grained sketch-based image retrieval | |
CN117635275A (zh) | 基于大数据的智能电商运营商品管理平台及方法 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN113535949A (zh) | 基于图片和句子的多模态联合事件检测方法 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Gao et al. | Acd: Action concept discovery from image-sentence corpora | |
CN115269984A (zh) | 一种专业情报推荐方法和系统 | |
Guntuku et al. | Evaluating visual and textual features for predicting user ‘likes’ | |
CN115080699A (zh) | 基于模态特异自适应缩放与注意力网络的跨模态检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221129 Address after: 210023 163 Xianlin Road, Qixia District, Nanjing, Jiangsu Patentee after: NANJING University Patentee after: Nanjing Zhigu Artificial Intelligence Research Institute Co.,Ltd. Address before: 210000 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province Patentee before: Nanjing Zhigu Artificial Intelligence Research Institute Co.,Ltd. |
|
TR01 | Transfer of patent right |