CN114880493A - 一种基于文本概念扩展的跨模态检索算法 - Google Patents
一种基于文本概念扩展的跨模态检索算法 Download PDFInfo
- Publication number
- CN114880493A CN114880493A CN202210429614.6A CN202210429614A CN114880493A CN 114880493 A CN114880493 A CN 114880493A CN 202210429614 A CN202210429614 A CN 202210429614A CN 114880493 A CN114880493 A CN 114880493A
- Authority
- CN
- China
- Prior art keywords
- text
- concept
- video
- similarity
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及跨模态检索技术领域,具体涉及一种基于文本概念扩展的跨模态检索算法,包括对视频进行预处理,得到视频嵌入特征表示;对文本进行预处理得到文本嵌入特征表示;计算视频嵌入特征表示和文本嵌入特征表示的相似度得到隐空间相似度;通过编码器对视频进行加深得到视频概念;利用语法解析对文本进行解析得到初始概念;通过文本概念扩展机制对初始概念进行拓展得到文本概念;计算视频概念与文本概念之间的相似度得到概念空间相似度;对隐空间相似度和概念空间相似度进行加权计算得到融合相似度模型;基于检索指令并利用融合相似度模型进行检索排序,解决了视频信息量与文本信息量不平衡,降低了检索性能的问题。
Description
技术领域
本发明涉及跨模态检索技术领域,尤其涉及一种基于文本概念扩展的跨模态检索算法。
背景技术
跨模态检索需要利用给定模态数据从海量信息中找到在语义层面相关联的数据,因此,跨模态技术主要解决的问题是如何对齐不同模态数据的语义。
现有的视频文本检索算法为不同模态的样本找到一个公共的嵌入空间,在这个共享空间内实现异构模态间的关系度量。这一类方法的优势在于视频和文本编码器的多样性,能够得到不同模态表征能力较强的特征,从而实现更精准的检索。
以上方法分别以概念和深度特征作为桥梁,但是缺乏对视频文本检索问题的深入探讨。由于视频包含音频、图像等多个模态,视频含有非常丰富的信息量。相比于视频,文本中的信息要少很多,这种信息量存在不平衡,降低了检索性能的问题。
发明内容
本发明的目的在于提供一种基于文本概念扩展的跨模态检索算法,旨在解决视频信息量与文本信息量不平衡,降低了检索性能的问题。
为实现上述目的,本发明提供了一种基于文本概念扩展的跨模态检索算法,包括以下步骤:
对视频进行预处理,得到视频嵌入特征表示;
对文本进行预处理,得到文本嵌入特征表示;
计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;
通过编码器对所述视频进行加深,得到视频概念;
利用语法解析对所述文本进行解析,得到初始概念;
通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;
计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;
对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;
基于检索指令并利用所述融合相似度模型进行检索排序。
其中,所述对视频进行预处理,得到视频嵌入特征表示的具体方式为:
按照预设帧率对视频进行关键帧抽取,得到视频帧;
利用残差网络提取所述视频帧的特征,得到图像层级特征;
采用注意力机制来聚合所述图像层级特征,并学习整个视频的特征表示,得到视频层级表征;
将所述视频层级表征映射到隐空间中,得到视频嵌入特征表示。
其中,所述对文本进行预处理,得到文本嵌入特征表示的具体方式为:
利用预训练模型对文本进行训练,得到句子层级表征;
将所述句子层级表征映射到所述隐空间中,得到文本嵌入特征表示。
其中,所述编码器采用多种概念检测器叠加得到。
其中,所述通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念的具体方式为:
利用外部知识库找到概念间的联系,得到常识知识图谱;
利用所述文本中包含概念的共现频率构建关联知识图谱;
利用图注意力网络分别在所述常识知识图谱和关联知识图谱传播概念的响应值,分别得到补全常识知识图谱和补全关联知识图谱;
将所述补全常识知识图谱和所述补全关联知识图谱加和,得到文本概念。
本发明的一种基于文本概念扩展的跨模态检索算法,通过对视频进行预处理,得到视频嵌入特征表示;对文本进行预处理,得到文本嵌入特征表示;计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;通过编码器对所述视频进行加深,得到视频概念;利用语法解析对所述文本进行解析,得到初始概念;通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;基于检索指令并利用所述融合相似度模型进行检索排序,本发明通过对文本概念进行扩展,从而增加了文本的信息量,解决了视频信息量与文本信息量不平衡,降低了检索性能的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于文本概念扩展的跨模态检索算法的流程图。
图2是对视频进行预处理,得到视频嵌入特征表示的流程图。
图3是对文本进行预处理,得到文本嵌入特征表示的流程图。
图4是通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念的流程图。
图5是本发明提供的一种基于文本概念扩展的跨模态检索算法的原理图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1至图5,本发明提供一种基于文本概念扩展的跨模态检索算法,包括以下步骤:
S1对视频进行预处理,得到视频嵌入特征表示;
具体方式为:
S11按照预设帧率对视频进行关键帧抽取,得到视频帧;
S12利用残差(ResNet)网络提取所述视频帧的特征,得到图像层级特征;
S13采用注意力机制(Transformer)来聚合所述图像层级特征,并学习整个视频的特征表示,得到视频层级表征;
S14将所述视频层级表征映射到隐空间中,得到视频嵌入特征表示fv(V)。
S2对文本进行预处理,得到文本嵌入特征表示;
具体方式为:
S21利用预训练模型对文本进行训练,得到句子层级表征;
具体的,所述预训练模型为Bert预训练模型。
S22将所述句子层级表征映射到所述隐空间中,得到文本嵌入特征表示ft(T)。
具体的,利用全连接层将所述句子层级表征映射到所述隐空间中,得到文本嵌入特征表示。
S3计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;
具体的通过计算所述视频嵌入特征表示和所述文本嵌入特征表示的余弦相似度,记为:
本算法采用三元组损失(Triplet Loss)作为训练该分支的损失函数,并加入在训练批次内选取难样本的操作。给定一个成对的样本(V,T),损失函数表示为:
Llat(V,T)=max(0,m+simlat(V-,T)-simlat(V,T))+max(0,m+simlat(V,T-)-simlat(V,T)),
其中,V-表示的是与文本T不成对但是相似度最高的视频,而T-表示的是与视频V不成对但是相似度最高的文本。
S4通过编码器对所述视频进行加深,得到视频概念gv(V);
具体的,所述编码器采用多种概念检测器叠加得到。
S5利用语法解析对所述文本进行解析,得到初始概念;
具体的,在文本的初始概念表征中,文本所包含的概念对应维度的值为1,文本中没有的概念对应维度的值则为0。
S6通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;
具体的,由于文本的长度受限,文本中包含的概念也非常有限,与视频概念的不平衡使得对齐困难。由此,本发明提出了文本概念扩展机制,其目的在于根据文本中现有的概念,结合外部知识以及数据内的关联关系,扩展得到与文本语义相关但是文本中不包含的概念,从而减少模态间的信息差,达到更好的对齐效果。
具体方式为:
S61利用外部知识库找到不同概念间的联系,得到常识知识图谱;
具体的,利用外部知识库ConceptNet,找到不同概念间的联系,构建出以概念为节点,连边表示概念间的联系的常识知识图谱。
S62利用所述文本中包含概念的共现频率构建关联知识图谱;
具体的,利用一条文本中包含的概念的共现的频率,构建出以概念为节点,连边表示概念的共现概率的关联知识图谱。在两个图中,文本中包含的初始概念的节点值初始化为1,其他的节点则初始化为0。
S63利用图注意力网络分别在所述常识知识图谱和关联知识图谱传播概念的响应值,分别得到补全常识知识图谱和补全关联知识图谱;
具体的,所述图注意力网络为图注意力卷积网络,利用图注意力卷积网络分别在两张图中分别传播概念的响应值。根据图中的连接关系,经过若干次传播后,部分原先初始化为0的节点,即句子中不包含但是与句子有相关性的概念会被激活,从而实现文本语义补全的目的,分别得到补全常识知识图谱和补全关联知识图谱。
S64将所述补全常识知识图谱和所述补全关联知识图谱加和,得到文本概念。
将所述补全常识知识图谱和所述补全关联知识图谱加和,即得到了综合外部知识和内部关联的概念扩展结果。最终得到的扩展后的文本概念表征记为gt(T)。
S7计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;
具体的,得到了两个模态在概念空间的表示后,即可计算不同模态样本的相似度。与特征空间不同的是,概念表示并没有经过归一化,而是每个维度的值都在0到1之间的一个向量。将这个向量看做直方图,即可采用Jaccard相似度来衡量两个样本之间的距离,记为:
其中K表示概念空间的维度,即整个概念集合中元素的数量。
训练概念分支的损失函数与隐空间分支相同,即给定一个成对的样本(V,T),损失函数表示为:
Lcon(V,T)=max(0,m+simcon(V-,T)-simcon(V,T))+max(0,m+simcon(V,T-)-simcon(V,T))。
S8对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;
具体的,为了实现两个分支的融合,本发明还对隐空间相似度和概念空间相似度加权计算,得到融合的样本相似度,并对融合的样本相似度也加入一个三元组损失,记为:
simfusion(V,T)=γ·simlat(V,T)+(1-γ)·simcon(V,T),
Lfus(V,T)=max(0,m+simfus(V-,T)-simfus(V,T))+max(0,m+simfus(V,T-)-simfus(V,T)),
其中,γ为平衡特征隐空间和概念空间重要性的超参数。本发明实现了端到端的训练,整个算法最终的损失函数为:
L=Lcon(V,T)+α·Lcon(V,T)+β·Lfus(V,T),
其中,α,β为平衡不同损失函数的超参数。
S9基于检索指令并利用所述融合相似度模型进行检索排序。
具体的,训练得到最终的模型后,本发明在测试阶段也采用两个分支结合的方式,即利用特征隐空间和概念空间的融合相似度模型Lfus(V,T),进行检索排序。
传统的视频文本检索算法只关注如何对齐异构模态,而忽略了不同模态间存在信息不平衡的问题。该发明针对视频语义要比文本语义丰富的问题,提出了基于文本概念扩展的跨模态检索。一方面,通过结合概念建模信息和深度特征,实现了更多粒度的语义表征,在提高了跨模态检索的性能的同时,还加入了概念信息层面的可解释性。另一方面,利用外部知识以及数据内部的关联关系,在文本原有的概念的基础上实现了概念的扩展,得到了语义相关的新概念,通过对文本语义的补全,有效缓解了视频和文本异构模态数据间信息不平衡的问题,提升了跨模态检索的准确性。主要利用了双流结构,实现了概念信息和深度特征的结合,在提升了检索准确率的基础上,还加入了概念信息层面的可解释性,还利用外部知识以及挖掘数据内部的关联关系,设计了针对文本信息的概念扩展机制,实现了对文本内容的补全。
以上所揭露的仅为本发明一种基于文本概念扩展的跨模态检索算法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (5)
1.一种基于文本概念扩展的跨模态检索算法,其特征在于,包括以下步骤:
对视频进行预处理,得到视频嵌入特征表示;
对文本进行预处理,得到文本嵌入特征表示;
计算所述视频嵌入特征表示和所述文本嵌入特征表示的相似度,得到隐空间相似度;
通过编码器对所述视频进行加深,得到视频概念;
利用语法解析对所述文本进行解析,得到初始概念;
通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念;
计算所述视频概念与所述文本概念之间的相似度,得到概念空间相似度;
对所述隐空间相似度和所述概念空间相似度进行加权计算,得到融合相似度模型;
基于检索指令并利用所述融合相似度模型进行检索排序。
2.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,
所述对视频进行预处理,得到视频嵌入特征表示的具体方式为:
按照预设帧率对视频进行关键帧抽取,得到视频帧;
利用残差网络提取所述视频帧的特征,得到图像层级特征;
采用注意力机制来聚合所述图像层级特征,并学习整个视频的特征表示,得到视频层级表征;
将所述视频层级表征映射到隐空间中,得到视频嵌入特征表示。
3.如权利要求2所述的基于文本概念扩展的跨模态检索算法,其特征在于,
所述对文本进行预处理,得到文本嵌入特征表示的具体方式为:
利用预训练模型对文本进行训练,得到句子层级表征;
将所述句子层级表征映射到所述隐空间中,得到文本嵌入特征表示。
4.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,所述编码器采用多种概念检测器叠加得到。
5.如权利要求1所述的基于文本概念扩展的跨模态检索算法,其特征在于,
所述通过文本概念扩展机制对所述初始概念进行拓展,得到文本概念的具体方式为:
利用外部知识库找到概念间的联系,得到常识知识图谱;
利用所述文本中包含概念的共现频率构建关联知识图谱;
利用图注意力网络分别在所述常识知识图谱和关联知识图谱传播概念的响应值,分别得到补全常识知识图谱和补全关联知识图谱;
将所述补全常识知识图谱和所述补全关联知识图谱加和,得到文本概念。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210429614.6A CN114880493A (zh) | 2022-04-22 | 2022-04-22 | 一种基于文本概念扩展的跨模态检索算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210429614.6A CN114880493A (zh) | 2022-04-22 | 2022-04-22 | 一种基于文本概念扩展的跨模态检索算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114880493A true CN114880493A (zh) | 2022-08-09 |
Family
ID=82671325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210429614.6A Pending CN114880493A (zh) | 2022-04-22 | 2022-04-22 | 一种基于文本概念扩展的跨模态检索算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880493A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578680A (zh) * | 2022-09-09 | 2023-01-06 | 北京理工大学 | 一种视频理解方法 |
CN117435749A (zh) * | 2023-12-21 | 2024-01-23 | 摩斯智联科技有限公司 | 生成知识图谱的方法、装置和存储介质 |
-
2022
- 2022-04-22 CN CN202210429614.6A patent/CN114880493A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578680A (zh) * | 2022-09-09 | 2023-01-06 | 北京理工大学 | 一种视频理解方法 |
CN117435749A (zh) * | 2023-12-21 | 2024-01-23 | 摩斯智联科技有限公司 | 生成知识图谱的方法、装置和存储介质 |
CN117435749B (zh) * | 2023-12-21 | 2024-03-15 | 摩斯智联科技有限公司 | 生成知识图谱的方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114880493A (zh) | 一种基于文本概念扩展的跨模态检索算法 | |
CN109960810B (zh) | 一种实体对齐方法及装置 | |
CN109902301B (zh) | 基于深度神经网络的关系推理方法、装置及设备 | |
CN111488734A (zh) | 基于全局交互和句法依赖的情感特征表示学习系统及方法 | |
WO2021062990A1 (zh) | 视频分割方法、装置、设备及介质 | |
CN112948546B (zh) | 面向多源异构数据源的智能问答方法及装置 | |
CN111930906A (zh) | 基于语义块的知识图谱问答方法及装置 | |
WO2021212601A1 (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN116680384A (zh) | 知识问答方法、装置、设备及存储介质 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN114780777B (zh) | 基于语义增强的跨模态检索方法及装置、存储介质和终端 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN112231491A (zh) | 基于知识结构的相似试题识别方法 | |
CN113343692B (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN114942998A (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 | |
CN113239184B (zh) | 知识库获取方法、装置、计算机设备及存储介质 | |
CN112015890B (zh) | 电影剧本摘要的生成方法和装置 | |
CN114064487A (zh) | 一种代码缺陷检测方法 | |
JP4989086B2 (ja) | Udtに対するデータフォーマットについてストリーミングチェックを行うシステムおよび方法 | |
CN114817552A (zh) | 一种习题关联关系处理方法、装置、设备及存储介质 | |
CN115859963A (zh) | 一种面向新词义原推荐的相似性判别方法及系统 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN109522920A (zh) | 基于结合语义特征的同义判别模型的训练方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |