CN112528062B

CN112528062B - 一种跨模态武器检索方法及系统

Info

Publication number: CN112528062B
Application number: CN202011411876.7A
Authority: CN
Inventors: 王开业; 范波; 谭启涛; 方能炜; 谭董; 敬龙儿; 崔斌; 蒋登位
Original assignee: Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Current assignee: Chengdu Aerospace Science And Industry Big Data Research Institute Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2024-03-22
Anticipated expiration: 2040-12-03
Also published as: CN112528062A

Abstract

本发明涉及武器检索技术领域，公开一种跨模态武器检索方法，包括：获取被检索文本数据和被检索图像数据；基于BERT特征提取模型，在所述被检索文本数据中提取文本特征数据，并根据所述文本特征数据计算文本低维向量；基于ResNet特征提取模型，在所述被检索图像数据中提取图像特征数据，并根据所述图像特征数据计算图像低维向量；基于Attention融合和双判别器对抗网络的复合特征融合模型，对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面。本发明不仅能实现跨模态数据的无缝融合，而且提高了武器装备的检索速度，进一步提高了军事领域的机动化、智能化水平。

Description

一种跨模态武器检索方法及系统

技术领域

本发明属于武器检索技术领域，具体涉及一种跨模态武器检索方法及系统。

背景技术

武器装备数据的存在形式多种多样，包括武器的图片数据，武器的音频数据和描述武器本身的文本数据等。每一种数据的来源或者形式，都可以称为一种模态。实现不同模态间武器数据的快速检索，成为提升其机动化、智能化水平的核心要素。

现有技术中，对于武器的检索方法主要是采用基于语义网的武器装备知识智能检索框架，通过构建武器装备领域本体和RDF实体并建立索引，用基于语义的向量空间模型算法检索。通过给每个模态赋予固定的重要性权重，或是学习不同模态的动态权重，但是不同模态本身会有冗余性和互补性，即需要考虑不同的模态特性和模态不变特性，因此简单使用冗余信息计算的不同模式的动态权重不能正确地反映每种模式的重要性，无法对不同模态之间的相关性进行无缝融合；进而导致检索效率低下。

发明内容

本发明的目的在于提供一种跨模态武器检索方法及系统，用以解决现有技术中简单使用冗余信息计算的不同模式的动态权重不能正确地反映每种模式的重要性，无法对不同模态之间的相关性进行无缝融合；进而导致检索效率低下技术问题。

为了实现上述目的，本发明采用以下的技术方案：

一种跨模态的武器检索方法，所述方法包括：

步骤1：获取被检索文本数据和被检索图像数据；

步骤2：基于BERT特征提取模型，在所述被检索文本数据中提取文本特征数据，并根据所述文本特征数据计算文本低维向量；

步骤3：基于ResNet特征提取模型，在所述被检索图像数据中提取图像特征数据，并根据所述图像特征数据计算图像低维向量；能够解决深度网络的退化问题，同时也更好地提取图像深层特征。

步骤4：基于Attention融合和双判别器对抗网络的复合特征融合模型，对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果

步骤5：基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面。

进一步的，所述方法还包括：

步骤6：计算所述检索结果的准确率的置信区间，对所述检索结果的准确率进行评价。

进一步的，假设所述被检索文本数据为X，X的维度是[batch_size，sequence_length]，所述BERT特征提取模型提取特征数据的步骤包括：

步骤2.1、对所述被检索文本数据的字向量和位置进行编码，编码方式为：

X＝EmbeddingLookup(X)+PositionEncoding； (1)

其中，X∈R^{batch_size*sequence_length*embed_size}，

步骤2.2、基于自注意力机制对编码后的文本数据进行特征捕捉，捕捉方式为：

Q＝Linear(X)＝XW_Q； (2)

K＝Linear(X)＝XW_K； (3)

V＝Linear(X)＝XW_V； (4)

X_attention＝SelfAttention(Q,K,V)； (5)

步骤2.3、进行残差连接与层归一化，包括：

X_attention＝X+X_attention； (6)

X_attention＝LayerNorm(X_attention) (7)

步骤2.4、两层线性映射并利用激活函数进行激活，包括：

X_hidden＝Activate(Linear(Linear(X_attention))) (8)

步骤2.5、返回步骤2.3，直至文本数据特征提取完毕，包括：

X_hidden＝X_attention+X_hidden (9)

X_hidden＝LayerNorm(X_hidden) (10)

其中，X_hidden∈R^{batch_size*sequence_length*embed_size}。

进一步的，所述ResNet特征提取模型提取图像特征数据包括：

步骤3.1、获取各个残差单元的输出，其中，每个所述残差单元包含多层结构，计算方法为：

y_l＝h(x_l)+F(x_l,W_l) (11)

x_l+1＝f(y_l) (12)

其中，x_l和x_l+1分别表示第l个残差单元的输入和输出，F是残差函数，f是Relu激活函数；

步骤3.2、根据步骤a，计算从浅层l到深层L的学习特征为：

步骤3.3、利用链式规则，计算反向过程的梯度：

其中，表示损失函数到达L的梯度，数值1表示短路机制可以无损地传播梯度。

进一步的，所述基于Attention融合和双判别器对抗网络的复合特征融合模型用于分别捉特征数据的动态共性和不变性，挖掘不同模态的数据的共同特征的潜在数据，并推动不同模态数据间的知识转让。

进一步的，所述基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面包括：

步骤5.1、基于BM25F算法模型对所述特征融合结果在各个field中分值进行加权求和，以获得BM25F的最终值，计算方法如下：

其中，boost_c是相应域的权值，l_c是field的长度，b_c是调节因；

步骤5.2、将计算得出的多个BM25F的最终值按照数值从大到小进行排序，并将数值最大的最终值作为检索结果返回。

进一步的，所述计算所述检索结果的准确率的置信区间，对所述检索结果的准确率进行评价包括：

假设检索模型真实的检索正确率为p为，则样本集的检索可以看作概率为p的二项分布实验，期望为N_p，方差为N_p(1-p)，设X是在一次测试过程中、样本中被正确检索的个数，acc＝X/N表示本次的检索正确率，则依据中心极限定理可知，当样本数量足够大时，则以下统计量

服从标准正态分布，在选定置信度α后，可以计算acc的置信区间为

将其转化为等式、利用一元二次多项式根的公式

求解，得到p的置信区间为

根据计算得到的p的置信区间的值，对所述检索结果的准确率进行评价。

本发明还提供一种跨模态武器检索系统，所述系统包括：

数据获取模块，用于获取被检索文本数据和被检索图像数据；

文本特征提取模块，用于基于BERT特征提取模型，在所述被检索文本数据中提取文本特征数据，并根据所述文本特征数据计算文本低维向量；

图像特征提取模块，用于基于ResNet特征提取模型，在所述被检索图像数据中提取图像特征数据，并根据所述图像特征数据计算图像低维向量；

特征融合模块，用于基于Attention融合和双判别器对抗网络的复合特征融合模型，对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果

决策模块，用于基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面。

进一步的，还包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如上述的跨模态武器检索方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述的跨模态武器检索方法。

本发明的有益效果为：通过BERT特征提取模型提取文本特征数据，以及通过ResNet特征提取模型提取图像特征数据，然后通过Attention融合和双判别器对抗网络的复合特征融合模型进行特征融合，最后基于BM25F算法模型对所述特征融合结果进行检索并返回检索结果。不仅能实现跨模态数据的无缝融合，而且提高了武器装备的检索速度，进一步提高了其机动化、智能化水平。

附图说明

图1是本发明实施例跨模态武器检索方法的流程图；

图2是本发明实施例跨模态武器检索系统的模块图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明保护的范围。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，在本文中若将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，在本文中若将单元称作与另一个单元“直接相连”或“直接耦合”时，表示不存在中间单元。另外，应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。

应当理解，本文使用的术语仅用于描述特定实施例，并不意在限制本发明的示例实施例。若本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解，若术语“包括”、“包括了”、“包含”和/或“包含了”在本文中被使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

应当理解，还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清。

实施例一

为了解决现有技术中油气管道缺陷修复业务缺乏客观全面的指导方法的技术问题，本申请实施例提供了一种油气管道缺陷修复的知识图谱构建方法，该方法通过将现有的管道修复隐性知识显性化，借助可视化的图数据和知识推理，并基于语义搜索和语义匹配为用户提供管道修复业务知识参考，为缺陷修复知识点的积累、传递和共享奠定了基础，在为缺陷修复业务活动中的用户提供知识服务的同时，拓展了用户技能提升的途径。

请具体参见图1，示出了一种跨模态的武器检索方法的流程图，所述方法包括：

步骤1：获取被检索文本数据和被检索图像数据；

在本发明实施例中，假设所述被检索文本数据为X，X的维度是[batch_size，sequence_length]，所述BERT特征提取模型提取特征数据的步骤包括：

X＝EmbeddingLookup(X)+PositionEncoding； (1)

其中，X∈R^{batch_size*sequence_length*embed_size}，

Q＝Linear(X)＝XW_Q； (2)

K＝Linear(X)＝XW_K； (3)

V＝Linear(X)＝XW_V； (4)

X_attention＝SelfAttention(Q,K,V)； (5)

步骤2.3、进行残差连接与层归一化，包括：

X_attention＝X+X_attention； (6)

X_attention＝LayerNorm(X_attention) (7)

步骤2.4、两层线性映射并利用激活函数进行激活，包括：

X_hidden＝Activate(Linear(Linear(X_attention))) (8)

步骤2.5、返回步骤2.3，直至文本数据特征提取完毕，包括：

X_hidden＝X_attention+X_hidden (9)

X_hidden＝LayerNorm(X_hidden) (10)

其中，X_hidden∈R^{batch_size*sequence_length*embed_size}。

步骤3：基于ResNet特征提取模型，在所述被检索图像数据中提取图像特征数据，并根据所述图像特征数据计算图像低维向量；

在本发明实施例中，所述ResNet特征提取模型提取图像特征数据包括：

y_l＝h(x_l)+F(x_l,W_l) (11)

x_l+1＝f(y_l) (12)

步骤3.2、根据步骤a，计算从浅层l到深层L的学习特征为：

步骤3.3、利用链式规则，计算反向过程的梯度：

其中，表示损失函数到达L的梯度，数值1表示短路机制可以无损地传播梯度。而另外一项残差梯度则需要经过带有weights的层，梯度不是直接传递过来的。残差梯度不会那么巧全为-1，而且就算其比较小，有1的存在也不会导致梯度消失。

步骤4：基于Attention融合和双判别器对抗网络的复合特征融合模型，对所述文本低维向量和所述图像低维向量进行特征融合以获得特征融合结果；

在本发明实施例中，所述基于Attention融合和双判别器对抗网络的复合特征融合模型用于分别捉特征数据的动态共性和不变性，挖掘不同模态的数据的共同特征的潜在数据，并推动不同模态数据间的知识转让。

在本发明实施例中，所述步骤5具体包括：

在本发明实施例中，如何度量不同模态数据之间的相似度使用的是联合表示方法，即把跨模态匹配问题变成了一个纯粹的空间映射问题。所谓"映射"这一跨模态检索的本质就是对不同模态的信号分别进行编码得到其语义表示的embedding，同时要建立一个度量方法用该距离来判断这些embedding之间的关系。而本实施例采用基于Attention融合和双判别器对抗网络的复合特征融合模型进行特征融合，并基于于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面，有效解决了不同模态数据之间的相似度计算问题。

在本发明实施例中，由于分隔开图像和文本两个不同模态的信号，所以可以分别在离线阶段计算出各自的顶层embedding。存储后在线使用时，只要计算2个模态向量的距离即可。如果是pair相关性过滤，则只要计算2个向量的cosine/L2距离；如果是在线检索召回，则提前将一个模态的embedding集合构建成检索空间，使用BM25算法去搜索就行。这类方法的核心是得到高质量的embedding，因此可以当做是表示学习这一分支。

在本发明实施例中，所述方法还包括：

在本发明实施例中，所述计算所述检索结果的准确率的置信区间，对所述检索结果的准确率进行评价包括：

将其转化为等式、利用一元二次多项式根的公式

求解，得到p的置信区间为

如图2所示，本发明还提供一种跨模态武器检索系统，所述系统包括：

实施例三

本发明实施例还提供一种终端设备，所述终端设备包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的一种跨模态武器检索方法。

应当理解，在本申请实施例中，处理器可以是中央处理单元，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

实施例四

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述的方法。所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型。

Claims

1.一种跨模态的武器检索方法，其特征在于，所述方法包括：

步骤1：获取被检索文本数据和被检索图像数据；

步骤5：基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面；

假设所述被检索文本数据为X，X的维度是[batch_size，sequence_length]，所述BERT特征提取模型提取特征数据的步骤包括：

X＝EmbeddingLookup(X)+PositionEncoding ； (1)

其中，X∈R^{batch_size*sequence_length*embed_size}，

Q＝XW_Q (2)

K＝XW_K (3)

V＝XW_V (4)

X_attention＝SelfAttention(Q,K,V)； (5)

步骤2.3、进行残差连接与层归一化，包括：

X_attention＝X+X_attention； (6)

X_attention＝LayerNorm(X_attention) (7)

步骤2.4、两层线性映射并利用激活函数进行激活，包括：

X_hidden＝Activate(Linear(Linear(X_attention))) (8)

步骤2.5、返回步骤2.3，直至文本数据特征提取完毕，包括：

X_hidden＝X_attention+X_hidden (9)

X_hidden＝LayerNorm(X_hidden) (10)

其中，X_hidden∈R^{batch_size*sequence_length*embed_size}；

所述ResNet特征提取模型提取图像特征数据包括：

y_l＝h(x_l)+F(x_l,W_l) (11)

x_l+1＝f(y_l) (12)

步骤3.2、根据步骤a，计算从浅层l到深层L的学习特征为：

步骤3.3、利用链式规则，计算反向过程的梯度：

其中，表示损失函数到达L的梯度，数值1表示短路机制可以无损地传播梯度；

所述基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面包括：

2.根据权利要求1所述的一种跨模态的武器检索方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种跨模态的武器检索方法，其特征在于，所述基于Attention融合和双判别器对抗网络的复合特征融合模型用于分别捉特征数据的动态共性和不变性，挖掘不同模态的数据的共同特征的潜在数据，并推动不同模态数据间的知识转让。

4.根据权利要求2所述的一种跨模态的武器检索方法，其特征在于，所述计算所述检索结果的准确率的置信区间，对所述检索结果的准确率进行评价包括：

假设检索模型真实的检索正确率为p，则样本集的检索可以看作概率为p的二项分布实验，期望为N_p，方差为N_p(1-p)，设X是在一次测试过程中、样本中被正确检索的个数，acc＝X/N表示本次的检索正确率，则依据中心极限定理可知，当样本数量足够大时，则以下统计量

将其转化为等式、利用一元二次多项式根的公式

求解，得到p的置信区间为

5.一种跨模态武器检索系统，其特征在于，所述系统包括：

决策模块，用于基于BM25F算法模型对所述特征融合结果进行检索，并将检索结果返回至人机交互界面；

X＝EmbeddingLookup(X)+PositionEncoding； (1)

其中，X∈R^{batch_size*sequence_length*embed_size}，

Q＝Linear(X)＝XW_Q； (2)

K＝Linear(X)＝XW_K； (3)

V＝Linear(X)＝XW_V； (4)

X_attention＝SelfAttention(Q,K,V)； (5)

步骤2.3、进行残差连接与层归一化，包括：

X_attention＝X+X_attention； (6)

X_attention＝LayerNorm(X_attention) (7)

步骤2.4、两层线性映射并利用激活函数进行激活，包括：

X_hidden＝Activate(Linear(Linear(X_attention))) (8)

步骤2.5、返回步骤2.3，直至文本数据特征提取完毕，包括：

X_hidden＝X_attention+X_hidden (9)

X_hidden＝LayerNorm(X_hidden) (10)

其中，X_hidden∈R^{batch_size*sequence_length*embed_size}；

所述ResNet特征提取模型提取图像特征数据包括：

y_l＝h(x_l)+F(x_l,W_l) (11)

x_l+1＝f(y_l) (12)

步骤3.2、根据步骤a，计算从浅层l到深层L的学习特征为：

步骤3.3、利用链式规则，计算反向过程的梯度：

6.根据权利要求5所述的跨模态武器检索系统，其特征在于，还包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～4任意一项所述的跨模态武器检索方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～4任意一项所述的跨模态武器检索方法。