CN111985520B - 一种基于图卷积神经网络的多模态分类方法 - Google Patents
一种基于图卷积神经网络的多模态分类方法 Download PDFInfo
- Publication number
- CN111985520B CN111985520B CN202010412886.6A CN202010412886A CN111985520B CN 111985520 B CN111985520 B CN 111985520B CN 202010412886 A CN202010412886 A CN 202010412886A CN 111985520 B CN111985520 B CN 111985520B
- Authority
- CN
- China
- Prior art keywords
- graph
- neural network
- mode
- objects
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明属于计算机科学与技术中人工智能领域技术领域,具体涉及一种基于图卷积神经网络的多模态分类方法。
背景技术
近年来,实际应用中出现着越来越多的多模态数据,例如,互联网中的多媒体数据往往包含多个模态信息:视频、图像以及周围出现的文本信息;网页数据也包含多个模态信息:网页自身的文本信息和链接到网页的超链接信息。这些多模态数据蕴含着巨大的经济价值,同时利用这些多模态数据往往能够获得比单模态数据更好的结果。例如,在基于信息流的用户内容推荐中,可以同时考虑信息流中的不同模态信息(例如图片、文本)来为用户推荐其感兴趣的内容。在实际应用中,我们很容易从不同模态中发现数据的多重结构信息,例如用户对特定的某一类相似的图片都表现出兴趣,而同时这些用户对另外一类相似的文本表现出兴趣,利用这些基于多模态的结构信息,能够进一步地提升性能。另一方面,图卷积神经网络能够将图结构信息嵌入到神经网络中,且适合处理大规模数据,但并不能被直接应用到多模态场景中,实际应用中的对象经常具有多模态信息,但是传统的多模态方法只是在多个模态上分别训练学习器然后将其集成,这样的方式容易忽略不同模态中有用的结构信息为此我们提出一种基于图卷积神经网络的多模态分类方法。
发明内容
本发明的目的在于提供一种基于图卷积神经网络的多模态分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)首先需要用户准备好一个对象库,其中每个对象包含V个模态。接下来通过人工标注的方法为库中的少量对象提供一个类别标记,这些有类别标记的对象称为初始的有标记训练数据,它们和剩余的大量未标记对象一同构成训练数据集。
(二)通过特征提取算法,将训练对象库中的对象转化成相应的特征表示,即提取对象库中对象的特征,将所有对象转化成相应的特征向量。由于对象包含V个模态,最终得到的每个对象的特征向量也分为V个部分。
(三)对象的特征提取方法也有很多种,例如对于网页中的一段文本,文本中的每个词出现的次数都可以作为该对象的一个特征,文本的长度也可以作为该网页的一个特征。假设两个模态上特征的个数分别为d1和d2,那么每个对象就可以对应到d1和d2维欧式空间的两个特征向量。
(四)将训练数据集和选定的基分类器类型输入到本发明提出的多模态图卷积神经网络训练算法中,经过训练后就可以得到最终的分类器。
(五)在预测阶段,用户根据待测对象在V个模态上的特征向量分别添加k条最近邻边指向对象库,再讲得到的新图与得到特征向量分别输入给训练得到的V个分类器,分类器就会给用户返回该对象的预测结果,然后在V个预测结果中选择置信度较高的那个作为最终标记输出。
与现有技术相比,本发明的有益效果是:本发明通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息,在多模态图卷积神经网络的每一层中通过分配可训练的权值,使得每个模态所学的表示能够逐步考虑其它模态的结构信息。此外,本发明虽然需要建图,但是可以被用于归纳式的学习场景,在训练时无需得到待测样本。
附图说明
图1是本发明的流程图;
图2是本发明中多模态图卷积神经网络训练算法的流程图;
图3是本发明中多模态图卷积神经网络预测算法的流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
步骤1,建立一个包含n个信息的对象库作为训练对象库,通过人工标注的方式为对象库中的少量对象赋予一个类别标记,使用yi代表第i个对象的类别标记。对于二分类问题,比如说军事新闻网页是第一类,娱乐新闻网页是第二类。如果第i个对象中包含的内容是军事新闻,则yi=1,即该对象属于第一类,如果对象中用户包含的内容是娱乐新闻,则yi=0,该网页属于第二类。假设初始共有l个网页被赋予了标记,剩下的u=n-l个对象没有赋予标记,C表示类别标记数目。
步骤2,通过特征提取算法,提取对象库中对象的特征,将所有对象转化成相应的双模态特征向量对;使用xi=(x1,i,x2,i)表示其中经过特征提取后的第i个对象的双模态特征向量对,也可以称其为样本xi;双模态的特征可以用矩阵X1和X2表示。
步骤3,让用户选择需要使用的k及距离空间,可以是各种常见的距离空间,包括欧氏距离,Cosine距离等,然后根据所选的k值及距离空间建立k-近邻图,对于模态v用邻接矩阵表示为Av。假设所使用的距离度量可以表示为d(xi,xj),那么若样本i是样本j的k近邻,则Av(ij)=exp(-d(xi,xj)/σ2),其中σ为超参数,通常从{0.01,0.1,1}中选取;
步骤4,使用多模态图卷积神经网络训练算法训练分类器,其中多模态图卷积神经网络的具体结构为:
步骤5,得到待预测样本,用与步骤2相同的特征提取算法提取特征,用与步骤3相同的距离度量建立新图,建图的方法为除了原有的边以外,为每一个待测样本寻找其在原有对象库中的k近邻,并将其连边。
步骤6,将特征与新图一起输入步骤4中训练好的多模态图卷积神经网络。最后根据输出值推断出预测标记。
如图2所示,加权多模态图卷积神经网络方法的训练流程为:
步骤8,若r>R,转到步骤11;否则继续训练转到步骤9
步骤11,输出得到的网络f1,f2,...,fV。
如图3所示,加权多模态图卷积神经网络方法的预测流程为:
步骤12,对于待预测的u个样本,首先利用步骤2中的方法提取特征
步骤13,再利用步骤3所使用的同样的距离度量为每个待预测样本在对象库中寻找k个最近的邻居并对应的新图Av′赋权。
步骤15,先集成各模态预测结果
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种基于图卷积神经网络的多模态分类方法,包括以下步骤:
(一)建立一个对象库作为训练数据集,其中对象库包含n个对象,给对象库中的少量对象赋予一个类别标记,用l表示有标记的对象数目,u表示未标记的对象数目,C表示类别标记数目;
(二)通过特征提取算法,提取对象库中不同模态对应的特征,假设具有V个模态,为每个对象生成特征向量对,特征1,特征2,...,特征V;
(三)为每一个模态的特征建立一个k-近邻图,对于模态v,其邻接矩阵记作Av,v=1,2,…,V;
(四)将数据的特征向量以及每一个模态的k-近邻图输入到多模态图卷积神经网络中,为每个模态分别训练得到一个分类器;
(五)获取待测对象,用u表示待测对象数目并用步骤(二)中相同的方法得到其特征向量对,用步骤(三)中的建图方法将新的样本加入到图中;
(六)将各个模态上的特征向量及所有更新后的k-近邻图输入步骤(四)所训练得到的对应分类器中,获得V个预测标记,并输出其中置信度较高的那个作为最终标记;
所述步骤(四)中使用了新的多模态图卷积神经网络,其具体结构为:
在训练时,所实用的在第v个模态中训练的网络:
在预测时,所使用的结构有:
所述步骤(四),使用多模态图卷积神经网络作为分类器,其具体步骤为:
S2若r>R,转到步骤5);否则继续训练转到步骤3);
S5输出得到的网络f1,f2,...,fV。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412886.6A CN111985520B (zh) | 2020-05-15 | 2020-05-15 | 一种基于图卷积神经网络的多模态分类方法 |
PCT/CN2020/090879 WO2021227091A1 (zh) | 2020-05-15 | 2020-05-18 | 一种基于图卷积神经网络的多模态分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010412886.6A CN111985520B (zh) | 2020-05-15 | 2020-05-15 | 一种基于图卷积神经网络的多模态分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985520A CN111985520A (zh) | 2020-11-24 |
CN111985520B true CN111985520B (zh) | 2022-08-16 |
Family
ID=73442010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010412886.6A Active CN111985520B (zh) | 2020-05-15 | 2020-05-15 | 一种基于图卷积神经网络的多模态分类方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111985520B (zh) |
WO (1) | WO2021227091A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283578A (zh) * | 2021-04-14 | 2021-08-20 | 南京大学 | 一种基于标记风险控制的数据去噪方法 |
CN114662033B (zh) * | 2022-04-06 | 2024-05-03 | 昆明信息港传媒有限责任公司 | 一种基于文本和图像的多模态有害链接识别 |
CN116049597B (zh) * | 2023-01-10 | 2024-04-19 | 北京百度网讯科技有限公司 | 网页的多任务模型的预训练方法、装置及电子设备 |
CN116130089B (zh) * | 2023-02-02 | 2024-01-02 | 湖南工商大学 | 基于超图神经网络的多模态抑郁症检测系统、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934055A (zh) * | 2017-03-20 | 2017-07-07 | 南京大学 | 一种基于不充分模态信息的半监督网页自动分类方法 |
CN110046656A (zh) * | 2019-03-28 | 2019-07-23 | 南京邮电大学 | 基于深度学习的多模态场景识别方法 |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055555B2 (en) * | 2018-04-20 | 2021-07-06 | Sri International | Zero-shot object detection |
CN109766935A (zh) * | 2018-12-27 | 2019-05-17 | 中国石油大学(华东) | 一种基于超图p-Laplacian图卷积神经网络的半监督分类方法 |
CN109583519A (zh) * | 2018-12-27 | 2019-04-05 | 中国石油大学(华东) | 一种基于p-Laplacian图卷积神经网络的半监督分类方法 |
CN110782015A (zh) * | 2019-10-25 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 神经网络的网络结构优化器的训练方法、装置及存储介质 |
CN111046664A (zh) * | 2019-11-26 | 2020-04-21 | 哈尔滨工业大学(深圳) | 基于多粒度的图卷积神经网络的假新闻检测方法及系统 |
-
2020
- 2020-05-15 CN CN202010412886.6A patent/CN111985520B/zh active Active
- 2020-05-18 WO PCT/CN2020/090879 patent/WO2021227091A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934055A (zh) * | 2017-03-20 | 2017-07-07 | 南京大学 | 一种基于不充分模态信息的半监督网页自动分类方法 |
CN110046656A (zh) * | 2019-03-28 | 2019-07-23 | 南京邮电大学 | 基于深度学习的多模态场景识别方法 |
CN111046227A (zh) * | 2019-11-29 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频查重方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2021227091A1 (zh) | 2021-11-18 |
CN111985520A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985520B (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
Zahavy et al. | Is a picture worth a thousand words? A deep multi-modal architecture for product classification in e-commerce | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
Najafabadi et al. | Deep learning applications and challenges in big data analytics | |
Zhang et al. | Constructing deep sparse coding network for image classification | |
Liu et al. | Open-world semantic segmentation via contrasting and clustering vision-language embedding | |
CN113761936A (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
CN112597296B (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
CN112528780A (zh) | 通过混合时域自适应的视频动作分割 | |
Rad et al. | Image annotation using multi-view non-negative matrix factorization with different number of basis vectors | |
Yang et al. | STA-TSN: Spatial-temporal attention temporal segment network for action recognition in video | |
CN113609922B (zh) | 基于模态匹配的连续手语语句识别方法 | |
Zhu et al. | Image-text matching with fine-grained relational dependency and bidirectional attention-based generative networks | |
Liu et al. | Relation-based discriminative cooperation network for zero-shot classification | |
Furht et al. | Deep learning techniques in big data analytics | |
CN114418032A (zh) | 一种基于自协调对比学习的五模态商品预训练方法及检索系统 | |
CN115588122A (zh) | 一种基于多模态特征融合的新闻分类方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN113642602B (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
CN113297387B (zh) | 一种基于nkd-gnn的图文不匹配新闻检测方法 | |
Ke et al. | Spatial, structural and temporal feature learning for human interaction prediction | |
De Fausti et al. | Towards automated website classification by deep learning | |
Benuwa et al. | Group sparse based locality–sensitive dictionary learning for video semantic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221129 Address after: 210023 163 Xianlin Road, Qixia District, Nanjing, Jiangsu Patentee after: NANJING University Patentee after: Nanjing Zhigu Artificial Intelligence Research Institute Co.,Ltd. Address before: 210000 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province Patentee before: Nanjing Zhigu Artificial Intelligence Research Institute Co.,Ltd. |