CN112528062B - 一种跨模态武器检索方法及系统 - Google Patents

一种跨模态武器检索方法及系统 Download PDF

Info

Publication number
CN112528062B
CN112528062B CN202011411876.7A CN202011411876A CN112528062B CN 112528062 B CN112528062 B CN 112528062B CN 202011411876 A CN202011411876 A CN 202011411876A CN 112528062 B CN112528062 B CN 112528062B
Authority
CN
China
Prior art keywords
data
feature
text
attention
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011411876.7A
Other languages
English (en)
Other versions
CN112528062A (zh
Inventor
王开业
范波
谭启涛
方能炜
谭董
敬龙儿
崔斌
蒋登位
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Original Assignee
Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd filed Critical Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority to CN202011411876.7A priority Critical patent/CN112528062B/zh
Publication of CN112528062A publication Critical patent/CN112528062A/zh
Application granted granted Critical
Publication of CN112528062B publication Critical patent/CN112528062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及武器检索技术领域,公开一种跨模态武器检索方法,包括:获取被检索文本数据和被检索图像数据;基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面。本发明不仅能实现跨模态数据的无缝融合,而且提高了武器装备的检索速度,进一步提高了军事领域的机动化、智能化水平。

Description

一种跨模态武器检索方法及系统
技术领域
本发明属于武器检索技术领域,具体涉及一种跨模态武器检索方法及系统。
背景技术
武器装备数据的存在形式多种多样,包括武器的图片数据,武器的音频数据和描述武器本身的文本数据等。每一种数据的来源或者形式,都可以称为一种模态。实现不同模态间武器数据的快速检索,成为提升其机动化、智能化水平的核心要素。
现有技术中,对于武器的检索方法主要是采用基于语义网的武器装备知识智能检索框架,通过构建武器装备领域本体和RDF实体并建立索引,用基于语义的向量空间模型算法检索。通过给每个模态赋予固定的重要性权重,或是学习不同模态的动态权重,但是不同模态本身会有冗余性和互补性,即需要考虑不同的模态特性和模态不变特性,因此简单使用冗余信息计算的不同模式的动态权重不能正确地反映每种模式的重要性,无法对不同模态之间的相关性进行无缝融合;进而导致检索效率低下。
发明内容
本发明的目的在于提供一种跨模态武器检索方法及系统,用以解决现有技术中简单使用冗余信息计算的不同模式的动态权重不能正确地反映每种模式的重要性,无法对不同模态之间的相关性进行无缝融合;进而导致检索效率低下技术问题。
为了实现上述目的,本发明采用以下的技术方案:
一种跨模态的武器检索方法,所述方法包括:
步骤1:获取被检索文本数据和被检索图像数据;
步骤2:基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;
步骤3:基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;能够解决深度网络的退化问题,同时也更好地提取图像深层特征。
步骤4:基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果
步骤5:基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面。
进一步的,所述方法还包括:
步骤6:计算所述检索结果的准确率的置信区间,对所述检索结果的准确率进行评价。
进一步的,假设所述被检索文本数据为X,X的维度是[batch_size,sequence_length],所述BERT特征提取模型提取特征数据的步骤包括:
步骤2.1、对所述被检索文本数据的字向量和位置进行编码,编码方式为:
X=EmbeddingLookup(X)+PositionEncoding; (1)
其中,X∈Rbatch_size*sequence_length*embed_size
步骤2.2、基于自注意力机制对编码后的文本数据进行特征捕捉,捕捉方式为:
Q=Linear(X)=XWQ; (2)
K=Linear(X)=XWK; (3)
V=Linear(X)=XWV; (4)
Xattention=SelfAttention(Q,K,V); (5)
步骤2.3、进行残差连接与层归一化,包括:
Xattention=X+Xattention; (6)
Xattention=LayerNorm(Xattention) (7)
步骤2.4、两层线性映射并利用激活函数进行激活,包括:
Xhidden=Activate(Linear(Linear(Xattention))) (8)
步骤2.5、返回步骤2.3,直至文本数据特征提取完毕,包括:
Xhidden=Xattention+Xhidden (9)
Xhidden=LayerNorm(Xhidden) (10)
其中,Xhidden∈Rbatch_size*sequence_length*embed_size
进一步的,所述ResNet特征提取模型提取图像特征数据包括:
步骤3.1、获取各个残差单元的输出,其中,每个所述残差单元包含多层结构,计算方法为:
yl=h(xl)+F(xl,Wl) (11)
xl+1=f(yl) (12)
其中,xl和xl+1分别表示第l个残差单元的输入和输出,F是残差函数,f是Relu激活函数;
步骤3.2、根据步骤a,计算从浅层l到深层L的学习特征为:
步骤3.3、利用链式规则,计算反向过程的梯度:
其中,表示损失函数到达L的梯度,数值1表示短路机制可以无损地传播梯度。
进一步的,所述基于Attention融合和双判别器对抗网络的复合特征融合模型用于分别捉特征数据的动态共性和不变性,挖掘不同模态的数据的共同特征的潜在数据,并推动不同模态数据间的知识转让。
进一步的,所述基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面包括:
步骤5.1、基于BM25F算法模型对所述特征融合结果在各个field中分值进行加权求和,以获得BM25F的最终值,计算方法如下:
其中,boostc是相应域的权值,lc是field的长度,bc是调节因;
步骤5.2、将计算得出的多个BM25F的最终值按照数值从大到小进行排序,并将数值最大的最终值作为检索结果返回。
进一步的,所述计算所述检索结果的准确率的置信区间,对所述检索结果的准确率进行评价包括:
假设检索模型真实的检索正确率为p为,则样本集的检索可以看作概率为p的二项分布实验,期望为Np,方差为Np(1-p),设X是在一次测试过程中、样本中被正确检索的个数,acc=X/N表示本次的检索正确率,则依据中心极限定理可知,当样本数量足够大时,则以下统计量
服从标准正态分布,在选定置信度α后,可以计算acc的置信区间为
将其转化为等式、利用一元二次多项式根的公式
求解,得到p的置信区间为
根据计算得到的p的置信区间的值,对所述检索结果的准确率进行评价。
本发明还提供一种跨模态武器检索系统,所述系统包括:
数据获取模块,用于获取被检索文本数据和被检索图像数据;
文本特征提取模块,用于基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;
图像特征提取模块,用于基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;
特征融合模块,用于基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果
决策模块,用于基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面。
进一步的,还包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如上述的跨模态武器检索方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的跨模态武器检索方法。
本发明的有益效果为:通过BERT特征提取模型提取文本特征数据,以及通过ResNet特征提取模型提取图像特征数据,然后通过Attention融合和双判别器对抗网络的复合特征融合模型进行特征融合,最后基于BM25F算法模型对所述特征融合结果进行检索并返回检索结果。不仅能实现跨模态数据的无缝融合,而且提高了武器装备的检索速度,进一步提高了其机动化、智能化水平。
附图说明
图1是本发明实施例跨模态武器检索方法的流程图;
图2是本发明实施例跨模态武器检索系统的模块图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明保护的范围。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时,表示不存在中间单元。另外,应当以类似方式来解释用于描述单元之间的关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
应当理解,本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。若本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解,若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
应当理解,还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
应当理解,在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清。
实施例一
为了解决现有技术中油气管道缺陷修复业务缺乏客观全面的指导方法的技术问题,本申请实施例提供了一种油气管道缺陷修复的知识图谱构建方法,该方法通过将现有的管道修复隐性知识显性化,借助可视化的图数据和知识推理,并基于语义搜索和语义匹配为用户提供管道修复业务知识参考,为缺陷修复知识点的积累、传递和共享奠定了基础,在为缺陷修复业务活动中的用户提供知识服务的同时,拓展了用户技能提升的途径。
请具体参见图1,示出了一种跨模态的武器检索方法的流程图,所述方法包括:
步骤1:获取被检索文本数据和被检索图像数据;
步骤2:基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;
在本发明实施例中,假设所述被检索文本数据为X,X的维度是[batch_size,sequence_length],所述BERT特征提取模型提取特征数据的步骤包括:
步骤2.1、对所述被检索文本数据的字向量和位置进行编码,编码方式为:
X=EmbeddingLookup(X)+PositionEncoding; (1)
其中,X∈Rbatch_size*sequence_length*embed_size
步骤2.2、基于自注意力机制对编码后的文本数据进行特征捕捉,捕捉方式为:
Q=Linear(X)=XWQ; (2)
K=Linear(X)=XWK; (3)
V=Linear(X)=XWV; (4)
Xattention=SelfAttention(Q,K,V); (5)
步骤2.3、进行残差连接与层归一化,包括:
Xattention=X+Xattention; (6)
Xattention=LayerNorm(Xattention) (7)
步骤2.4、两层线性映射并利用激活函数进行激活,包括:
Xhidden=Activate(Linear(Linear(Xattention))) (8)
步骤2.5、返回步骤2.3,直至文本数据特征提取完毕,包括:
Xhidden=Xattention+Xhidden (9)
Xhidden=LayerNorm(Xhidden) (10)
其中,Xhidden∈Rbatch_size*sequence_length*embed_size
步骤3:基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;
在本发明实施例中,所述ResNet特征提取模型提取图像特征数据包括:
步骤3.1、获取各个残差单元的输出,其中,每个所述残差单元包含多层结构,计算方法为:
yl=h(xl)+F(xl,Wl) (11)
xl+1=f(yl) (12)
其中,xl和xl+1分别表示第l个残差单元的输入和输出,F是残差函数,f是Relu激活函数;
步骤3.2、根据步骤a,计算从浅层l到深层L的学习特征为:
步骤3.3、利用链式规则,计算反向过程的梯度:
其中,表示损失函数到达L的梯度,数值1表示短路机制可以无损地传播梯度。而另外一项残差梯度则需要经过带有weights的层,梯度不是直接传递过来的。残差梯度不会那么巧全为-1,而且就算其比较小,有1的存在也不会导致梯度消失。
步骤4:基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果;
在本发明实施例中,所述基于Attention融合和双判别器对抗网络的复合特征融合模型用于分别捉特征数据的动态共性和不变性,挖掘不同模态的数据的共同特征的潜在数据,并推动不同模态数据间的知识转让。
步骤5:基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面。
在本发明实施例中,所述步骤5具体包括:
步骤5.1、基于BM25F算法模型对所述特征融合结果在各个field中分值进行加权求和,以获得BM25F的最终值,计算方法如下:
其中,boostc是相应域的权值,lc是field的长度,bc是调节因;
步骤5.2、将计算得出的多个BM25F的最终值按照数值从大到小进行排序,并将数值最大的最终值作为检索结果返回。
在本发明实施例中,如何度量不同模态数据之间的相似度使用的是联合表示方法,即把跨模态匹配问题变成了一个纯粹的空间映射问题。所谓"映射"这一跨模态检索的本质就是对不同模态的信号分别进行编码得到其语义表示的embedding,同时要建立一个度量方法用该距离来判断这些embedding之间的关系。而本实施例采用基于Attention融合和双判别器对抗网络的复合特征融合模型进行特征融合,并基于于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面,有效解决了不同模态数据之间的相似度计算问题。
在本发明实施例中,由于分隔开图像和文本两个不同模态的信号,所以可以分别在离线阶段计算出各自的顶层embedding。存储后在线使用时,只要计算2个模态向量的距离即可。如果是pair相关性过滤,则只要计算2个向量的cosine/L2距离;如果是在线检索召回,则提前将一个模态的embedding集合构建成检索空间,使用BM25算法去搜索就行。这类方法的核心是得到高质量的embedding,因此可以当做是表示学习这一分支。
在本发明实施例中,所述方法还包括:
步骤6:计算所述检索结果的准确率的置信区间,对所述检索结果的准确率进行评价。
在本发明实施例中,所述计算所述检索结果的准确率的置信区间,对所述检索结果的准确率进行评价包括:
假设检索模型真实的检索正确率为p为,则样本集的检索可以看作概率为p的二项分布实验,期望为Np,方差为Np(1-p),设X是在一次测试过程中、样本中被正确检索的个数,acc=X/N表示本次的检索正确率,则依据中心极限定理可知,当样本数量足够大时,则以下统计量
服从标准正态分布,在选定置信度α后,可以计算acc的置信区间为
将其转化为等式、利用一元二次多项式根的公式
求解,得到p的置信区间为
根据计算得到的p的置信区间的值,对所述检索结果的准确率进行评价。
如图2所示,本发明还提供一种跨模态武器检索系统,所述系统包括:
数据获取模块,用于获取被检索文本数据和被检索图像数据;
文本特征提取模块,用于基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;
图像特征提取模块,用于基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;
特征融合模块,用于基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果
决策模块,用于基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面。
进一步的,还包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如上述的跨模态武器检索方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的跨模态武器检索方法。
本发明的有益效果为:通过BERT特征提取模型提取文本特征数据,以及通过ResNet特征提取模型提取图像特征数据,然后通过Attention融合和双判别器对抗网络的复合特征融合模型进行特征融合,最后基于BM25F算法模型对所述特征融合结果进行检索并返回检索结果。不仅能实现跨模态数据的无缝融合,而且提高了武器装备的检索速度,进一步提高了其机动化、智能化水平。
实施例三
本发明实施例还提供一种终端设备,所述终端设备包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的一种跨模态武器检索方法。
应当理解,在本申请实施例中,处理器可以是中央处理单元,该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
实施例四
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述的方法。所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型。

Claims (7)

1.一种跨模态的武器检索方法,其特征在于,所述方法包括:
步骤1:获取被检索文本数据和被检索图像数据;
步骤2:基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;
步骤3:基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;
步骤4:基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果;
步骤5:基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面;
假设所述被检索文本数据为X,X的维度是[batch_size,sequence_length],所述BERT特征提取模型提取特征数据的步骤包括:
步骤2.1、对所述被检索文本数据的字向量和位置进行编码,编码方式为:
X=EmbeddingLookup(X)+PositionEncoding ; (1)
其中,X∈Rbatch_size*sequence_length*embed_size
步骤2.2、基于自注意力机制对编码后的文本数据进行特征捕捉,捕捉方式为:
Q=XWQ (2)
K=XWK (3)
V=XWV (4)
Xattention=SelfAttention(Q,K,V); (5)
步骤2.3、进行残差连接与层归一化,包括:
Xattention=X+Xattention; (6)
Xattention=LayerNorm(Xattention) (7)
步骤2.4、两层线性映射并利用激活函数进行激活,包括:
Xhidden=Activate(Linear(Linear(Xattention))) (8)
步骤2.5、返回步骤2.3,直至文本数据特征提取完毕,包括:
Xhidden=Xattention+Xhidden (9)
Xhidden=LayerNorm(Xhidden) (10)
其中,Xhidden∈Rbatch_size*sequence_length*embed_size
所述ResNet特征提取模型提取图像特征数据包括:
步骤3.1、获取各个残差单元的输出,其中,每个所述残差单元包含多层结构,计算方法为:
yl=h(xl)+F(xl,Wl) (11)
xl+1=f(yl) (12)
其中,xl和xl+1分别表示第l个残差单元的输入和输出,F是残差函数,f是Relu激活函数;
步骤3.2、根据步骤a,计算从浅层l到深层L的学习特征为:
步骤3.3、利用链式规则,计算反向过程的梯度:
其中,表示损失函数到达L的梯度,数值1表示短路机制可以无损地传播梯度;
所述基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面包括:
步骤5.1、基于BM25F算法模型对所述特征融合结果在各个field中分值进行加权求和,以获得BM25F的最终值,计算方法如下:
其中,boostc是相应域的权值,lc是field的长度,bc是调节因;
步骤5.2、将计算得出的多个BM25F的最终值按照数值从大到小进行排序,并将数值最大的最终值作为检索结果返回。
2.根据权利要求1所述的一种跨模态的武器检索方法,其特征在于,所述方法还包括:
步骤6:计算所述检索结果的准确率的置信区间,对所述检索结果的准确率进行评价。
3.根据权利要求1所述的一种跨模态的武器检索方法,其特征在于,所述基于Attention融合和双判别器对抗网络的复合特征融合模型用于分别捉特征数据的动态共性和不变性,挖掘不同模态的数据的共同特征的潜在数据,并推动不同模态数据间的知识转让。
4.根据权利要求2所述的一种跨模态的武器检索方法,其特征在于,所述计算所述检索结果的准确率的置信区间,对所述检索结果的准确率进行评价包括:
假设检索模型真实的检索正确率为p,则样本集的检索可以看作概率为p的二项分布实验,期望为Np,方差为Np(1-p),设X是在一次测试过程中、样本中被正确检索的个数,acc=X/N表示本次的检索正确率,则依据中心极限定理可知,当样本数量足够大时,则以下统计量
服从标准正态分布,在选定置信度α后,可以计算acc的置信区间为
将其转化为等式、利用一元二次多项式根的公式
求解,得到p的置信区间为
根据计算得到的p的置信区间的值,对所述检索结果的准确率进行评价。
5.一种跨模态武器检索系统,其特征在于,所述系统包括:
数据获取模块,用于获取被检索文本数据和被检索图像数据;
文本特征提取模块,用于基于BERT特征提取模型,在所述被检索文本数据中提取文本特征数据,并根据所述文本特征数据计算文本低维向量;
图像特征提取模块,用于基于ResNet特征提取模型,在所述被检索图像数据中提取图像特征数据,并根据所述图像特征数据计算图像低维向量;
特征融合模块,用于基于Attention融合和双判别器对抗网络的复合特征融合模型,对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果
决策模块,用于基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面;
假设所述被检索文本数据为X,X的维度是[batch_size,sequence_length],所述BERT特征提取模型提取特征数据的步骤包括:
步骤2.1、对所述被检索文本数据的字向量和位置进行编码,编码方式为:
X=EmbeddingLookup(X)+PositionEncoding; (1)
其中,X∈Rbatch_size*sequence_length*embed_size
步骤2.2、基于自注意力机制对编码后的文本数据进行特征捕捉,捕捉方式为:
Q=Linear(X)=XWQ; (2)
K=Linear(X)=XWK; (3)
V=Linear(X)=XWV; (4)
Xattention=SelfAttention(Q,K,V); (5)
步骤2.3、进行残差连接与层归一化,包括:
Xattention=X+Xattention; (6)
Xattention=LayerNorm(Xattention) (7)
步骤2.4、两层线性映射并利用激活函数进行激活,包括:
Xhidden=Activate(Linear(Linear(Xattention))) (8)
步骤2.5、返回步骤2.3,直至文本数据特征提取完毕,包括:
Xhidden=Xattention+Xhidden (9)
Xhidden=LayerNorm(Xhidden) (10)
其中,Xhidden∈Rbatch_size*sequence_length*embed_size
所述ResNet特征提取模型提取图像特征数据包括:
步骤3.1、获取各个残差单元的输出,其中,每个所述残差单元包含多层结构,计算方法为:
yl=h(xl)+F(xl,Wl) (11)
xl+1=f(yl) (12)
其中,xl和xl+1分别表示第l个残差单元的输入和输出,F是残差函数,f是Relu激活函数;
步骤3.2、根据步骤a,计算从浅层l到深层L的学习特征为:
步骤3.3、利用链式规则,计算反向过程的梯度:
其中,表示损失函数到达L的梯度,数值1表示短路机制可以无损地传播梯度;
所述基于BM25F算法模型对所述特征融合结果进行检索,并将检索结果返回至人机交互界面包括:
步骤5.1、基于BM25F算法模型对所述特征融合结果在各个field中分值进行加权求和,以获得BM25F的最终值,计算方法如下:
其中,boostc是相应域的权值,lc是field的长度,bc是调节因;
步骤5.2、将计算得出的多个BM25F的最终值按照数值从大到小进行排序,并将数值最大的最终值作为检索结果返回。
6.根据权利要求5所述的跨模态武器检索系统,其特征在于,还包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~4任意一项所述的跨模态武器检索方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~4任意一项所述的跨模态武器检索方法。
CN202011411876.7A 2020-12-03 2020-12-03 一种跨模态武器检索方法及系统 Active CN112528062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011411876.7A CN112528062B (zh) 2020-12-03 2020-12-03 一种跨模态武器检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011411876.7A CN112528062B (zh) 2020-12-03 2020-12-03 一种跨模态武器检索方法及系统

Publications (2)

Publication Number Publication Date
CN112528062A CN112528062A (zh) 2021-03-19
CN112528062B true CN112528062B (zh) 2024-03-22

Family

ID=74998514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011411876.7A Active CN112528062B (zh) 2020-12-03 2020-12-03 一种跨模态武器检索方法及系统

Country Status (1)

Country Link
CN (1) CN112528062B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267003B (zh) * 2022-03-02 2022-06-10 城云科技(中国)有限公司 道路破损检测方法、装置及应用
CN116383409B (zh) * 2023-04-17 2023-09-01 北京中科智易科技股份有限公司 军事知识图谱的构建方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109886326A (zh) * 2019-01-31 2019-06-14 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111680490A (zh) * 2020-06-10 2020-09-18 东南大学 一种跨模态的文档处理方法、装置及电子设备
CN111949806A (zh) * 2020-08-03 2020-11-17 中电科大数据研究院有限公司 一种基于Resnet-Bert网络模型的跨媒体检索方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140198234A1 (en) * 2011-09-21 2014-07-17 Nikon Corporation Image processing apparatus, program, image processing method, and imaging apparatus
US12131365B2 (en) * 2019-03-25 2024-10-29 The Board Of Trustees Of The University Of Illinois Search engine use of neural network regressor for multi-modal item recommendations based on visual semantic embeddings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109886326A (zh) * 2019-01-31 2019-06-14 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111680490A (zh) * 2020-06-10 2020-09-18 东南大学 一种跨模态的文档处理方法、装置及电子设备
CN111949806A (zh) * 2020-08-03 2020-11-17 中电科大数据研究院有限公司 一种基于Resnet-Bert网络模型的跨媒体检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
David Semedo 等.Diachronic Cross-modal Embeddings.《MM '19: Proceedings of the 27th ACM International Conference on Multimedia》.2019,2061–2069. *
基于MapReduce的结构化查询机制的设计与实现;范波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110715(第07期);I139-13 *
基于视觉–文本关系对齐的跨模态视频片段检索;陈卓 等;《中国科学:信息科学》;20200612;第50卷(第06期);862-876 *
面向Web规模RDF图数据的智能查询及检索机制;姜洋;《中国博士学位论文全文数据库 信息科技辑》;20151115(第11期);I138-52 *

Also Published As

Publication number Publication date
CN112528062A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
US11093560B2 (en) Stacked cross-modal matching
CN111598214B (zh) 一种基于图卷积神经网络的跨模态检索方法
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN110210513B (zh) 数据分类方法、装置及终端设备
CN107346328A (zh) 一种基于多粒度层级网络的跨模态关联学习方法
CN112528062B (zh) 一种跨模态武器检索方法及系统
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN114791958A (zh) 一种基于变分自编码器的零样本跨模态检索方法
CN115690245A (zh) 一种基于属性驱动gan的文本生成图像的方法
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN117112829B (zh) 医疗数据跨模态检索方法、装置和相关设备
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
CN116578738B (zh) 一种基于图注意力和生成对抗网络的图文检索方法和装置
CN113536015A (zh) 一种基于深度辨识度迁移的跨模态检索方法
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
CN116955543A (zh) 连贯性评估模型训练和连贯性评估方法、装置及设备
CN115712869A (zh) 基于分层注意力网络的多模态谣言检测方法及系统
CN112949777B (zh) 相似图像确定方法及装置、电子设备和存储介质
CN114329064A (zh) 视频处理方法、装置、计算机设备及存储介质
CN117611845B (zh) 多模态数据的关联识别方法、装置、设备及存储介质
Zhao Construction of Safety Early Warning Model for Construction of Engineering Based on Convolution Neural Network
CN118230224B (zh) 标签打分方法、标签打分模型训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant