CN114186080A - 基于语义共享的深度跨模态检索方法及系统 - Google Patents
基于语义共享的深度跨模态检索方法及系统 Download PDFInfo
- Publication number
- CN114186080A CN114186080A CN202111381465.2A CN202111381465A CN114186080A CN 114186080 A CN114186080 A CN 114186080A CN 202111381465 A CN202111381465 A CN 202111381465A CN 114186080 A CN114186080 A CN 114186080A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- mask
- modal
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义共享的深度跨模态检索方法及系统,属于多模态学习领域,该方法包括如下步骤:提取图片和文本的细粒度特征;使用共享模型学习多模态一致性表示;通过掩码预测和分类预测优化模型;基于模型进行跨模态检索。本发明采用深度自注意力网络作为基本模型,对多模态数据分别提取细粒度特征并使用共享模型在同一语义空间中学习不同模态数据的一致性表示,解决了以往跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题,通过标签预测和掩码预测多任务损失函数对共享深度自注意力网络模型进行参数学习,有效地提升了跨模态检索的精度。
Description
技术领域
本发明属于多模态学习领域,特别涉及一种基于语义共享的深度跨模态检索方法及系统。
背景技术
随着多媒体数据的快速增长,单一模态的检索难以满足当下的数据分析需求,相关跨模态检索算法应运而生。现阶段的跨模态检索聚焦于拟合文本和图片间的关联,主要挑战在于如何度量数据间的内容相似性。传统的跨模态检索算法通常使用多模态数据的全局特征或者局部特征进行相似性计算并使用模态间的一致性损失进行特征约束。经研究发现,现有的跨模态检索算法问题主要为:使用模态间的一致性损失进行特征约束导致了弱模态对强模态的干扰问题,造成检索准确度难以进一步提升。
目前在跨模态检索任务中,对于样本的使用关注点从利用样本的全局信息转变到局部信息,在一定程度上提高了模型的性能,但是并未解决模态一致性损失的干扰问题。
发明内容
本发明为解决传统跨模态检索任务中一致性损失函数对模型的干扰问题,提出了一种基于语义共享的深度跨模态检索方法及系统,使用共享模型在同一语义空间中学习多模态一致性表示代替一致性损失,有效地提升了跨模态检索的精度。
本发明采用的技术方案如下:一种基于语义共享的深度跨模态检索方法,包括如下步骤:
步骤1,提取图片和文本的细粒度特征;
步骤2,使用共享模型学习多模态一致性表示;
步骤3,通过掩码预测和分类预测优化模型;
步骤4,基于模型进行跨模态检索。
进一步的,所述步骤1中,提取图片和文本的细粒度特征表示包括以下步骤:
对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息。
对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息。
对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,以图片为例,公式如下所示:
进一步的,所述步骤2中,在模型中使用共享模型学习多模态一致性表示包括以下步骤:
使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
进一步的,所述步骤3中,在模型中通过掩码预测和分类预测优化模型包括以下步骤:
①使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
②对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,分别为图片和文本掩码的区域信息和单词信息(对图片区域和文本单词以15%的概率进行掩码), 分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,可以为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
③使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
本发明还提供一种基于语义共享的深度跨模态检索系统,包括:
特征提取模块,用于提取图片和文本的细粒度特征;
多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
模型优化模块,用于通过掩码预测和分类预测优化模型;
跨模态检索模块,用于基于模型进行跨模态检索。
本发明采用深度自注意力网络作为基本模型,对多模态数据分别提取细粒度特征,通过共享模型在统一的语义空间学习不同模态数据的统一表示,并使用标签预测和掩码预测优化模型,与现有技术相比,本发明具有以下特征:
首先,本发明使用共享模型学习不同模态数据的一致性表示来解决传统跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题。
其次,本发明使用标签预测和掩码预测多任务损失函数对共享深度自注意力网络进行学习并用作跨模态检索任务。
附图说明
图1为本发明整体流程图。
图2为本发明特征提取细节流程图。
图3为本发明中跨模态检索模型框架图。
具体实施方式
以下结合附图说明本发明的具体实施方式。
如图1所示,本发明公开了一种基于语义共享的深度跨模态检索方法,需要说明的是,本发明的核心步骤是在模型中通过共享模型为不同模态的数据学习一致性嵌入,具体实施方式的描述主要侧重于步骤2和步骤3,步骤1以及步骤4未公开的内容可采用已有技术实现,具体描述如下:
步骤1.提取图片和文本的细粒度特征:
跨模态检索的首要任务是对数据的特征提取,特征提取的优劣与模型最终的检索性能息息相关,如图2所示,本发明对图片和文本分别进行细粒度表征学习得到图片区域和文本单词特征,考虑到深度自注意力网络输入需要序列的位置信息,此处分别计算图文的位置信息编码,并将不同模态特征维度对齐,具体步骤如下:
①对于文本使用双向门控循环神经网络对单词进行编码,并记录单词位置信息。
②对于图片使用提取区域特征的卷积神经网络提取细粒度编码,并根据区域位置计算位置信息,具体形式如下:
其中(a1,b1),(a2,b2)分别为图片的左上角和右下角的位置坐标,W,H分别为图片的宽和高,每一个区域的位置信息用五维的向量p表示。
③对提取的图片和文本特征与对应位置编码进行维度对齐并相加得到共享模型的输入,公式如下所示:
ψ1,ψ2表示为全连接函数,φ为非线性映射函数得到共享模型最终的输入。
步骤2.使用共享模型学习多模态一致性表示:
本发明对文本和图片特征采用共享模型学习不同模态数据的一致性表示来解决传统跨模态算法使用一致性损失函数导致弱模态对强模态的干扰问题,使用共享的深度自注意力网络将位于不同模态投影到统一的语义空间以捕捉图文间细粒度关联,具体形式如下:
步骤3.通过掩码预测和分类预测优化模型:
本发明使用掩码预测和分类预测任务训练共享模型,以获得多模态数据的一致性表示,具体步骤如下:
①使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
②对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为
③使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
步骤4.基于模型进行跨模态检索:
如图3所示,首先对图片以及文本进行区域化的输出处理,其次利用相应的位置信息与掩码信息使用共享模型进行多模态一致性的特征表示的学习,再进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度(比如:欧氏距离,余弦距离等),利用相似度矩阵计算归一化折损累计增益(NDCG)指标评估模型的性能。
本发明还提供一种基于语义共享的深度跨模态检索系统,包括:
①特征提取模块,用于提取图片和文本的细粒度特征;
②多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
③模型优化模块,用于通过掩码预测和分类预测优化模型;
④跨模态检索模块,用于基于模型进行跨模态检索。
上述模块的具体实现方式与前述的检索方法部分相同,本发明不再赘述。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于语义共享的深度跨模态检索方法,其特征在于,包括如下步骤:
步骤1,提取图片和文本的细粒度特征;
步骤2,使用共享模型学习多模态一致性表示;
步骤3,通过掩码预测和分类预测优化模型;
步骤4,基于模型进行跨模态检索。
4.如权利要求3所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,在模型中通过掩码预测和分类预测优化模型,包括以下步骤:
(1)使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
(2)对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为:
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,分别为图片和文本掩码的区域信息和单词信息,分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
(3)使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
5.如权利要求4所述的基于语义共享的深度跨模态检索方法,其特征在于,所述步骤3中,使用共享模型学习多模态一致性特征表示进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度,利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。
6.一种基于语义共享的深度跨模态检索系统,其特征在于,包括:
特征提取模块,用于提取图片和文本的细粒度特征;
多模态一致性表示模块,用于使用共享模型学习多模态一致性表示;
模型优化模块,用于通过掩码预测和分类预测优化模型;
跨模态检索模块,用于基于模型进行跨模态检索。
9.根据权利要求8所述的基于语义共享的深度跨模态检索系统,其特征在于,所述模型优化模块用于实现:
使用共享模型获取多模态一致性表示,预测分类标签计算损失函数优化模型,具体形式为:
对原始输入数据进行随机掩码并针对该掩码特征进行预测,优化编码能力,具体形式为:
其中m为掩码区域的索引值,vi、wi分别表示第i个图片以及文本实例,分别为图片和文本掩码的区域信息和单词信息,分别表示图片和文本中被掩码区域的上下文信息,gv,gw分别为图片以及文本的分类器,目的是希望通过掩码区域的上下文信息对掩码区域进行预测,Pgw,Pgv表示对图片以及文本的掩码预测的概率,为任何凸函数,最终L2表示图片和文本基于上下文对掩码部分进行预测的损失值之和;
使用分类损失和掩码损失共同优化图文共享深度自注意力网络,最终的损失函数形式为:
L=L1+λL2
其中λ为掩码损失权重。
10.根据权利要求9所述的基于语义共享的深度跨模态检索系统,其特征在于,所述跨模态检索模块用于实现:使用共享模型学习多模态一致性特征表示进行跨模态检索,计算通过共享模型得到图文的一致性表示的相似度,利用相似度矩阵计算归一化折损累计增益指标评估模型的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111381465.2A CN114186080B (zh) | 2021-11-21 | 2021-11-21 | 基于语义共享的深度跨模态检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111381465.2A CN114186080B (zh) | 2021-11-21 | 2021-11-21 | 基于语义共享的深度跨模态检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114186080A true CN114186080A (zh) | 2022-03-15 |
CN114186080B CN114186080B (zh) | 2024-06-11 |
Family
ID=80602249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111381465.2A Active CN114186080B (zh) | 2021-11-21 | 2021-11-21 | 基于语义共享的深度跨模态检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186080B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017358A (zh) * | 2022-08-09 | 2022-09-06 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
CN116051859A (zh) * | 2023-02-21 | 2023-05-02 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348109A (zh) * | 2020-11-18 | 2021-02-09 | 浙江树人学院(浙江树人大学) | 一种基于度量距离损失框架的半监督学习方法、设备及存储介质 |
CN112487822A (zh) * | 2020-11-04 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习的跨模态检索方法 |
US20210256365A1 (en) * | 2017-04-10 | 2021-08-19 | Peking University Shenzhen Graduate School | Cross-media retrieval method based on deep semantic space |
-
2021
- 2021-11-21 CN CN202111381465.2A patent/CN114186080B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210256365A1 (en) * | 2017-04-10 | 2021-08-19 | Peking University Shenzhen Graduate School | Cross-media retrieval method based on deep semantic space |
CN112487822A (zh) * | 2020-11-04 | 2021-03-12 | 杭州电子科技大学 | 一种基于深度学习的跨模态检索方法 |
CN112348109A (zh) * | 2020-11-18 | 2021-02-09 | 浙江树人学院(浙江树人大学) | 一种基于度量距离损失框架的半监督学习方法、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017358A (zh) * | 2022-08-09 | 2022-09-06 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
CN116051859A (zh) * | 2023-02-21 | 2023-05-02 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
CN116051859B (zh) * | 2023-02-21 | 2023-09-08 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114186080B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
US20200242348A1 (en) | Systems and methods for generating and using semantic images in deep learning for classification and data extraction | |
WO2022142611A1 (zh) | 文字识别方法及装置、存储介质、计算机设备 | |
CN114911914A (zh) | 一种跨模态图文检索方法 | |
CN118966329B (zh) | 一种基于视频内容读取分析的知识库构建方法 | |
CN114896434B (zh) | 一种基于中心相似度学习的哈希码生成方法及装置 | |
CN114186080A (zh) | 基于语义共享的深度跨模态检索方法及系统 | |
CN115238690A (zh) | 一种基于bert的军事领域复合命名实体识别方法 | |
CN113722490A (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
CN116229482A (zh) | 网络舆情分析中视觉多模态文字检测识别及纠错方法 | |
CN116956214B (zh) | 基于正则化集成学习的多模态细粒度论文分类方法和系统 | |
CN116304042A (zh) | 一种基于多模态特征自适应融合的虚假新闻检测方法 | |
CN116452862A (zh) | 基于领域泛化学习的图像分类方法 | |
CN117079298A (zh) | 信息提取方法、信息提取系统的训练方法和信息提取系统 | |
CN116229494A (zh) | 一种基于小样本数据的证照关键信息抽取方法 | |
CN110347853B (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN114722798B (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN115546553A (zh) | 一种基于动态特征抽取和属性修正的零样本分类方法 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN118172713B (zh) | 视频标签的识别方法、装置、计算机设备和存储介质 | |
CN118069844A (zh) | 智能决策方法、装置、设备及存储介质 | |
CN117095228A (zh) | 基于语义无关特征学习的图像篡改检测方法及装置 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 | |
CN115187893B (zh) | 基于图学习的视频参与度预测方法、系统、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |