CN115860152B

CN115860152B - 一种面向人物军事知识发现的跨模态联合学习方法

Info

Publication number: CN115860152B
Application number: CN202310138596.0A
Authority: CN
Inventors: 张文峰; 贾学良; 杨理想; 余祖应; 周亚
Original assignee: Nanjing Xingyao Intelligent Technology Co ltd
Current assignee: Nanjing Xingyao Intelligent Technology Co ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-27
Anticipated expiration: 2043-02-20
Also published as: CN115860152A

Abstract

本发明公开了一种面向人物军事知识发现的跨模态联合学习方法，采用Batching和算子融合方法显著降低了模型计算开销，提升了模型吞吐量和预测速度，同时采用基于模型的方式从图像模态获取了更为丰富的人物军事知识特征，使图像模态人物军事知识不再局限于单一的人脸知识维度，实现了跨模态人物军事知识实体融合，建立了多模态知识图谱。

Description

一种面向人物军事知识发现的跨模态联合学习方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及一种面向人物军事知识发现的跨模态联合学习方法。

背景技术

“主语-谓语-宾语（Subject-Predicate-Object，SPO）”三元组是一种形式简单但功能强大的语义数据表示方法，包含大量三元组的SPO语义网络构成的知识图谱，被广泛用于知识发现。具体而言，首先从非结构化数据中以SPO三元组的形式抽取知识实体及其之间的语义关系，构建表示领域核心知识内涵与知识结构SPO语义网络；在此基础上，利用知识实体对齐、关系融合等手段进一步融合第三方数据（关联数据集、相关知识图谱等）以丰富与完善知识图谱；最后，通过知识推理规则、实体间路径发现、链路关系预测等方法进行知识发现。

军事领域因其数据模态的多样性，导致人物军事知识发现不能单纯依赖于一种数据模态，例如，从文本模态数据中往往能获取到人物的出生、履历等信息，而从图像模态的数据中能够获取人脸、军衔、服饰特征等信息。传统的知识图谱手段往往仅针对单一文本模态的数据，且知识抽取手段具有较强的数据依赖性，导致知识发现层次相对较浅，知识完整度不高。随着多模态学习研究的深入，开始将视觉信息融入文本知识图谱，形成多模态知识图谱。多模态知识图谱在传统知识图谱的基础上，构建了多种模态下的实体，以及不同模态实体间的语义关系，并通过多模态实体对齐技术实现跨模态信息的融合。然而，这种单纯依赖跨模态语义关系的实体层面的融合因为缺少外部知识约束，无法很好地建立跨模态人物军事知识的关联，尤其在一对多、多对多等情形下的人物军事知识关联效果不佳。

综上所述，现有方法因数据来源及处理手段单一，未能有效建立跨模态知识的互补增强、相互印证，导致人物军事知识挖掘完整度不高、复杂人物军事知识关联效果不佳等问题。

发明内容

有鉴于此，本发明提供了一种面向人物军事知识发现的跨模态联合学习方法，能够实现跨模态人物军事知识实体融合，建立多模态知识图谱。

本发明提供的一种面向人物军事知识发现的跨模态联合学习方法，包括以下步骤：

识别图像数据中的人物军事特征知识，所述人物军事特征知识包括军徽、肩章、旗帜及人脸特征，建立图像人物知识集合；识别文本中的人物属性关系知识，所述人物属性关系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系，建立文本人物知识集合；通过对图像人物知识集合及文本人物知识集合进行频繁项统计及跨模态贡献度计算，得到两个集合中所有知识的置信度，根据置信度进行跨模态的知识发现和关联；采用基于图神经网络的跨模态知识图谱对齐方式，建立融合结构信息和属性信息的人物实体更新公式如公式（1）所示及对齐评分函数如公式（2）所示，实现图像人物知识集合和文本人物知识集合的对齐融合；

（1），其中，

和

分别表示经过第一层图卷积层之后人物实体的结构嵌入矩阵和属性嵌入矩阵，

和

分别表示第一层图卷积层的结构嵌入权重矩阵和属性嵌入权重矩阵，

表示结构信息，

表示人物实体度矩阵,

表示神经元激活函数；每经过一层图卷积运算，所有人物实体均能够获得其邻居节点的信息，并用于更新自身的嵌入向量；

（2），其中，

表示人脸实体face的结构嵌入向量，

表示人名实体p的结构嵌入向量，d_s和d_a分别表示结构嵌入维度和属性嵌入纬度，

表示嵌入方式的重要程度,

表示人脸实体face的属性嵌入向量，

表示人名实体p的属性嵌入向量，f()表示统计频次；根据置信度建立跨模态人物知识联合学习评分公式如公式（3）所示：

（3），其中，c(p|face) 为置信度，

表示权重系数；根据建立的跨模态人物知识联合学习评分公式、图像人物知识集合及文本人物知识集合构建结构化跨模态人物知识集合。

进一步地，所述识别图像数据中的人物军事特征知识包括采用基于YOLOv3的人脸检测模型框架，得到图像数据中人脸的位置坐标。

进一步地，所述识别文本中的人物属性关系知识包括对文本数据进行特殊字符处理、中英文字符转换以及标签格式转换，并对文本数据按固定窗口长度进行切分。

进一步地，所述固定窗口长度为256位。

进一步地，所述通过对图像人物知识集合及文本人物知识集合进行频繁项统计及跨模态贡献度计算，得到两个集合中所有知识的置信度，根据置信度进行跨模态的知识发现和关联的方式为：步骤7.1、将图像人物知识集合中的人脸实体与文本人物知识集合中的人名实体进行笛卡尔积组合，得到共现知识对(faceID, p)；以人物知识作为节点，以知识间的共现关联作为边，初步建立跨模态人物知识的关系网络；步骤7.2、对跨模态人物知识的关系网络进行网络剪枝，去除网络中错误的人物知识；步骤7.3、对跨模态人物知识的关系网络中的共现知识对进行频繁项统计，每个人脸对应的统计频次为：f(p_i|face)=Count (face,p_i)，再通过Softmax函数将统计频次转换为置信度：c(p|face)=softmax(f(p| face))；步骤7.4、对于人名实体p₁，p₂，…，p_n和人脸实体face₁，face₂，…，face_m，n为人名实体的数量，m为人脸实体的数量；当n=m=1时，置信度较高，形成三元组(face，p，c)；当n=1且m >1时，根据人脸实体的质量q_M将置信度c进行加权均分，得到m个三元组（face，p，

）,..., （face，p,

）；当n>1且m=1时，根据文本中的核心人名实体按照人名重要度将置信度

进行加权均分，得到m个三元组（face，p，

）,..., （face，p,

）；当n>1且m>1时，将人名实体和人脸实体分别按重要度和质量进行组合，对置信度c进行加权均分，得出m*n个三元组。

进一步地，所述识别文本中的人物属性关系知识，所述人物属性关系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系，建立文本人物知识集合的方式为：首先定义一个字典D_c，采用BERT-Base预训练模型得到字向量，并将字向量存储到字典中，作为Encoder层的输入；Encoder层采用双向LSTM网络结构，将输入序列信息压缩为一个固定大小的状态向量S；引入注意力机制对Encoder层输出的状态向量S进行处理得到加权求和特征向量及隐含层状态向量；Decoder层采用LSTM网络结构，Decoder层的输入为加权求和特征向量、隐含层状态向量及真实标签；将Decoder层的输出输入到softmax层实现对概率归一化，并根据得到的概率进行分类得到最优序列标签，得到命名实体；采用依存句法分析关注确定人名实体与人物属性知识间的语义关系完善人物属性知识，建立文本人物知识集合。

进一步地，还包括采用基于军事语料训练好的指针网络关系抽取模型抽取得到人物属性知识，包括人物别称、毕业院校、任职机构、任职时间、隶属部队、子女关系及配偶关系。

进一步地，所述依存句法分析采用Python开源库SpaCy实现。

本发明采用Batching和算子融合方法，显著降低了模型计算开销，提升了模型吞吐量和预测速度，同时采用基于模型的方式从图像模态获取了更为丰富的人物军事知识特征，使图像模态人物军事知识不再局限于单一的人脸知识维度，实现了跨模态人物军事知识实体融合，建立多模态知识图谱。

本发明采用依存分析和命名实体结合的手段，挖掘人名实体的潜在知识关联，结合自训练的基于指针网络的关系抽取模型，在保证抽取准确率的同时，进一步扩充了文本人物军事知识发现的丰富度和领域专业程度。

本发明采用跨模态知识图谱的对齐手段，基于图卷积神经网络捕获图的全局和局部结构信息，结合结构信息和属性信息学习人物实体节点表示，大大丰富了人物实体节点的语义特征，提升跨模态人物军事知识实体融合的效果。综合对齐评分函数和人物军事知识置信度得分，建立跨模态人物军事知识联合学习评分公式，增加对人物军事知识联合学习的约束，提升了跨模态人物军事知识关联的可信度和人物军事知识发现的完整度。

附图说明

图1 为本发明提供的一种面向人物军事知识发现的跨模态联合学习方法的处理流程示意图。

具体实施方式

下面结合附图，对本发明进行详细描述。

本发明提供的一种面向人物军事知识发现的跨模态联合学习方法，其核心思想是：识别图片中人物军事特征知识，包括军徽、肩章、旗帜以及人脸特征的识别；融合命名实体识别、依存句法分析以及基于指针网络的关系抽取模型等多种手段，抽取并发现具有军事领域特色的文本人物属性关系知识，如职位、军衔、隶属部队、指挥关系等；采用频繁项统计和跨模态贡献度策略对人物知识置信度打分，实现跨模态人物知识的发现和关联；采用基于图神经网络的跨模态知识图谱对齐手段，实现图像人物知识集合和文本人物知识集合的对齐融合，给出了融合结构信息和属性信息的人物实体更新公式以及对齐评分函数；结合人物知识置信度得分，建立跨模态人物知识联合学习评分公式，以此构建多模态知识图谱。

本发明提供的一种面向人物军事知识发现的跨模态联合学习方法，具体流程如图1所示，具体包括以下步骤：步骤1、收集包含人物图像和人物军事知识的开源自媒体数据，建立包含多模态类型的跨模态数据库。对不同模态数据经过数据预处理，采取一般数据标注手段进行数据标注，并将数据分为训练集、测试集和验证集。

数据预处理的操作过程包括对图像数据及文本数据的预处理。

其中，对于图像数据，利用基于YOLOv3的人脸检测模型框架，得到图片中人脸的位置坐标。因为人脸检测时只包括了脸部，所以需要对检测框进行一定的扩充，将其他部位的信息提取出来。具体来讲，由于YOLOv3中对目标框预测的回归信息是预测框的中心坐标以及预测框的高度和宽度，所以最终将检测框的高度设置扩充0.3倍，宽度设置扩充0.1倍。最后，使用OpenCV将图片统一转换为160×160的尺寸。

对于文本数据，需要进行特殊字符处理、中英文字符转换以及标签格式转换，此外，根据模型单次输入序列长度限制，需要在不影响标签信息的前提下对文本数据按固定窗口长度进行切分，此处最大序列长度选为256位。

步骤2、对图像数据进行人脸识别得到人脸图像。

对图像数据进行人脸识别的过程包括：将裁剪的人脸图片通过特征提取网络得到128维的特征向量，将向量信息存储在文本文件中。之后，对待检测的人脸图片，同样进行人脸检测、扩充以及裁剪，重新调整到160×160尺寸，通过特征提取网络对人脸信息进行提取，得到128维特征向量。最后，将待检测图片的特征向量与文本文件中的注册人脸信息进行对比，即计算两者的欧式距离。设定两者的距离阈值为0.2，若两者的欧氏距离小于设定阈值，则认为两者的相似度很高，是同一个人；相反，若两者的距离超出阈值则认为两者不属于同一个人的人脸。

进一步地，特征提取网络可选取Inception-ResNet V1，输入的图像首先经过Stem网络卷积改变特征图的尺寸，增加通道数并提升维度信息，使模型更具鲁棒性。然后通过Inception-ResNet结构引入残差连接，提高训练速度。Inception结构间的衔接采用Reduction结构，利用1

1的卷积核进行降维处理后再进行维度的提升，以减少参数量的计算。采用平均池化进行特征图的回归，既可以保留输入信息的边缘特征，还能减少过拟合的风险。为了避免遇到表达瓶颈，采用了双通道，然后进行Concat完成下采样。最后，采用Dropout对得到的特征图进行随机失活，再通过全连接层，将其展平为特征向量，与后续的Embedding层做衔接。

损失函数选择三元组损失（Triplet Loss），代表了多分支的网络结构。网络优化的方向是对三元组进行优化，最终训练的网络模型使得同类样本间的欧氏距离远远小于不同类样本之间的距离。激活函数选择Relu，公式为：f(x)=max(0,x)。Relu函数为取最大值函数，在正区间范围内不存在饱和问题，从而保持梯度不衰减，解决了梯度消失的问题。采用指数衰减的学习率策略，采用L2正则化，优化器选择AdaGrad（Adaptive GradientAlgorithm），对稀疏性数据表现更好，提高了梯度下降法的鲁棒性。

步骤3、对图像数据进行场景分析，获取图像数据中的外部特征；再基于步骤2得到的人脸图像，对图像数据进行图片内容解析得到人脸特征。

对图像数据进行图片内容解析，其目的是获取图像模态数据包含的人物军事知识，具体过程包括：首先基于训练好的MMDetection模型工具箱对图片进行场景解析，识别徽章、肩章、旗帜、服饰等外部特征；然后基于InsightFace模型，对步骤2检测、裁剪得到的人脸图像，进行人物年龄、性别、人脸质量等人脸特征识别。由此从图像模态获取了更为丰富的人物军事知识特征，使图像模态人物军事知识不再局限于单一的人脸知识维度。

步骤4、采用基于BERT+Seq2Seq的模型结构，对文本数据进行命名实体识别处理，获取人物的姓名、职业、国籍、所属机构、军衔、隶属部队及指挥关系等结构化知识，得到文本数据对应的命名实体。

具体操作为：首先定义一个字典D_c，采用BERT-Base预训练模型得到字向量，并将字向量存储到字典中，作为Encoder层的输入。其中，BERT-Base预训练模型包含12层，隐藏层维度为768，采用12个头注意力，字向量长度设为256，训练阶段学习率设为3e-5，batch_size设为32，epoch设为4。

Encoder层采用双向LSTM网络结构，计算公式为：

，

，

，

，

，其中，f_t、i_t及o_t分别为遗忘门、输入门和输出门，W_f、W_i及W_o均为权重矩阵，b_f、b_i及b_o均为偏置向量，C_t为t时刻的输入，h_t-1,c_t为t-1时刻隐藏层输出的向量， C_t-1为t-1时刻的状态向量，

为t时刻的即时状态,

和tanh为不同的神经元激活函数。双向LSTM隐藏层数设为1，前向、后向神经元个数均设为128。进一步地，由于在Encoder阶段将输入序列信息压缩为一个固定大小的状态向量S会产生信息损失，因此可采用注意力机制来提高Decoder阶段的准确性，计算公式为：

，

，

，其中，c_t为注意力机制输出的加权求和特征向量，h_t为编码器网络隐藏层向量，a_it为权重值，s_i-t为解码器网络的隐含层状态向量。

Decoder层采用LSTM网络结构，输入包含t时刻的加权求和特征向量c_t、隐含层的状态向量s_t和t-1时刻的真实标签y_t-1。经过LSTM处理输入到softmax层得到y_t，t时刻第i个样本的概率分布计算公式为：

，

，softmax层实现对概率归一化并输出类别，计算公式为：

，其中，W为权重矩阵，b为偏置向量，c_i 为t时刻第i个样本的注意力机制输出的加权求和特征向量，s_i为t时刻第i个样本的隐含层的状态向量，y_i-1为t时刻第i-1个样本的真实标签，利用上述公式对概率进行归一化，并根据得到的概率进行分类得到最优序列标签，最后使用训练好的模型对测试集进行标签推理。

此外，BERT中包含大量小算子，且Attention计算量较大，为降低模型计算开销，提升模型吞吐量和预测速度，采用Batching方法，通过将多次预测合并到一个Batch进行推理，降低Kernel Launch次数，充分利用多个GPU SM，提高整体吞吐，并采用算子融合方法，提高小算子访存效率来减少小算子的耗时开销。

步骤5、对步骤4得到的命名实体，采用依存句法分析发现人名实体与人物属性知识间潜在的语义关系完善人物属性知识。

依存句法分析关注词本身以及词之间的二元依存关系，能够更加直接地分析出句子中的主语谓语等成分。在同一段文本中，如果有明确的命名实体指代和依存关系，便能够得到准确的人物属性知识。依存句法分析具体可以通过第三方Python开源库SpaCy实现。

采用依存句法分析和命名实体结合的手段，挖掘人名实体的潜在知识关联，结合自训练的基于指针网络的关系抽取模型，在保证抽取准确率的同时，进一步扩充了文本人物军事知识发现的丰富度和领域专业程度。

步骤6、为弥补依存句法分析中对人物军事知识抽取存在的不足，进一步丰富人物属性知识，采用基于军事语料训练好的指针网络关系抽取模型进行人物属性知识抽取，例如：“人物别称”、“毕业院校”、“任职机构”、“任职时间”、“隶属部队”、“子女关系”、“配偶关系”等，并与步骤5获取到的人物属性知识进行融合得到新的人物属性知识。由此得到如表1所示的结构化数据。

表1跨模态人物军事知识表。

步骤7、对于图像数据，以人脸作为统计标识，可以得到每张图像对应的知识特征及质量特征集合，如性别、年龄、场景、服饰、国旗、焦点人脸及人脸面积等，记为

；对于文本数据，以人名作为统计标识，可以得到每个人名p对应的文本结构化知识集合p=Collection (p,l,o,j,r,...)，包含国籍、机构、职业、军衔及组织等；挖掘跨模态知识间的互补关系，建立跨模态人物军事知识的关联关系。

具体包括以下步骤：步骤7.1、基于“同一文章中出现的人名和人脸大概率是相关的”这一常识性假设，将表1的人名实体和人物目标进行笛卡尔积组合，得到大量知识集合的共现知识对(faceID, p)，如：(faceID₁₁, p₁₁)，(faceID₁₂, p₁₂)，…，(faceID_1p, p_1p)。需要说明的是，此处的faceID和p分别代表对应模态的知识集合；将人物军事知识作为节点，知识之间的共现关联作为边，初步建立跨模态人物军事知识的关系网络。

步骤7.2、对跨模态人物军事知识的关系网络进行网络剪枝，以去除网络中错误的人物军事知识。

比对faceID和p的知识集合交集，结合先验知识图谱进行交叉验证和推理，发现交集中存在的明显逻辑矛盾的知识节点，删除与上述知识节点相关的边。同时，本步骤能够对人物军事知识的正确性做进一步的验证。

步骤7.3、对经过剪枝的跨模态人物军事知识的关系网络进行边权重增强，以凸显重要知识的置信度。

具体来讲，对跨模态人物军事知识的关系网络中的共现知识对进行频繁项统计，每个人脸对应的统计频次为：f(p_i|face)=Count(face,p_i)，再通过Softmax函数转换为置信度：c(p|face)=softmax(f(p|face))。

为了进一步提高人物军事知识的显著性，本发明设计了一种目标贡献度策略，在进行统计频次计算的同时，将人名、人脸的重要度与特征质量纳入考量，提高此类知识的统计权重，从而对不同知识的置信度做层次化区分。最后将每一个face对应的人名pair按照置信度c进行降序排列，可以推测该人脸对应的人名就是pair对中置信度最高的组合。采用相同的思路迭代进行上述步骤，可以得到人物p的其他高置信度属性知识。

本发明设计的人名实体和图像人物目标的贡献度策略，具体为：对于从文本中识别出人名实体p₁，p₂，…，p_n和从配图中识别出的人脸face₁，face₂，…，face_m，有以下几种情况：第一种情况，当n=m=1时，即同一人名对应同一人脸时，根据大众的发文习惯，有极高的置信度（假设为c）认为配图中的人脸face对应的就是人名实体p，由此形成高质量的三元组 (face，p，c)；第二种情况，当n=1且m>1时，即同一人名对应多个人脸时，根据配图中人脸特征的质量（q_m，例如人脸面积、焦点人脸及人脸背景）将置信度c进行加权均分，得出

个三元组（face，p，

）, ..., （face，p,

）；第三种情况，当n>1且m =1时，即多个人名对应同一人脸时，通过步骤5找到文本中的核心人名实体（例如主语），按照人名重要度将置信度

进行加权均分，得出

个三元组（face，p，

）, ..., （face，p,

）；第四种情况，当n>1且m>1时，即多个人名对应多个人脸时，结合第二种情况和第三种情况，将人名人脸分别按重要度和质量进行组合，对置信度c进行加权均分，得出m*n个三元组。

步骤8、基于多模态实体对齐进行跨模态知识融合，利用步骤7得到的跨模态人物军事知识的关联关系建立知识约束，形成对跨模态知识融合的补充与相互印证，构建多模态知识图谱。

具体操作如下：首先基于图像人物军事知识集合faceID和文本人物军事知识集合

分别构建知识图谱，分别记为KG1和KG2；然后采用基于图的模型进行跨模态人物实体对齐。

具体来讲，采用图神经网络作为编码器来捕获子图结构，根据消息传递规则将来自邻域的信息聚集到目标人物节点，让具有相似邻域的实体在嵌入空间中彼此靠近，较好地捕捉图的全局或局部结构信息。为此，使用两个图卷积网络（GCN）分别处理两个待对齐的知识图谱KG1和KG2，两个GCN 通过共享权重矩阵将来自KG1和KG2的人物实体嵌入到统一的向量空间中，并借助人物实体节点之间的结构来传播对齐关系。组合结构信息和属性信息来共同学习人物实体节点表示，人物实体更新公式定义为：

，其中，

和

和

分别表示第一层图卷积层的结构嵌入权重矩阵和属性嵌入权重矩阵，由两个GCN共享，A_*用来表征结构信息，D_*为人物实体度矩阵。每经过一层图卷积运算，所有人物实体均能够获得其邻居节点的信息，并用于更新自身的嵌入向量。综合结构嵌入和属性嵌入，对齐的评分函数可定义为：

，其中，

表示人名实体p的结构嵌入向量，

用于衡量两种嵌入的重要性。结合步骤7得到的“人脸-人名”知识置信度得分c(p|face)，可以得到最终的跨模态人物军事知识联合学习评分公式：

。

根据计算出来的分数确定跨模态人物军事知识之间的相关性，由此建立多模态知识图谱。

本发明中，多模态知识图谱为结构化人物军事知识，表示为：

，

，其中,P_i表示第i个人物的知识集合，p_i表示人名，face_i表示人脸，

表示一系列人物军事知识。综合上述步骤，即可融合跨模态信息，形成多模态人物军事知识互补，多源人物军事知识交叉印证，全面、深入地发掘人物军事知识。当有更多数据进入模型，通过不断的模型反馈与迭代，还可实现跨模态联合学习的持续演进。

基于常识性人名-人脸概率统计假设，采用频繁项统计和跨模态贡献度的策略建立跨模态人物军事知识关联，并通过加权手段提高人物军事知识的置信度。此外，采用跨模态知识图谱的对齐手段，基于图卷积神经网络捕获图的全局和局部结构信息，结合结构信息和属性信息学习人物实体节点表示，大大丰富了人物实体节点的语义特征，提升跨模态人物军事知识实体融合的效果。综合对齐评分函数和人物军事知识置信度得分，建立跨模态人物军事知识联合学习评分公式，增加对人物军事知识联合学习的约束，提升了跨模态人物军事知识关联的可信度和人物军事知识发现的完整度。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向人物军事知识发现的跨模态联合学习方法，其特征在于，包括以下步骤：

（1）

其中，

和/>

分别表示经过第一层图卷积层之后人物实体的结构嵌入矩阵和属性嵌入矩阵，/>

和/>

分别表示第一层图卷积层的结构嵌入权重矩阵和属性嵌入权重矩阵，/>

表示结构信息，/>

表示人物实体度矩阵,/>

（2）

其中，

表示人脸实体face的结构嵌入向量，/>

表示人名实体p的结构嵌入向量，d_s和d_a分别表示结构嵌入维度和属性嵌入纬度，/>

表示嵌入方式的重要程度,

表示人脸实体face的属性嵌入向量，/>

表示人名实体p的属性嵌入向量，f()表示统计频次；

根据置信度建立跨模态人物知识联合学习评分公式如公式（3）所示：

（3）

其中，c(p|face) 为置信度，

表示权重系数；

根据建立的跨模态人物知识联合学习评分公式、图像人物知识集合及文本人物知识集合构建结构化跨模态人物知识集合；

所述通过对图像人物知识集合及文本人物知识集合进行频繁项统计及跨模态贡献度计算，得到两个集合中所有知识的置信度，根据置信度进行跨模态的知识发现和关联的方式为：

步骤7.1、将图像人物知识集合中的人脸实体与文本人物知识集合中的人名实体进行笛卡尔积组合，得到共现知识对(faceID, p)；以人物知识作为节点，以知识间的共现关联作为边，初步建立跨模态人物知识的关系网络；

步骤7.2、对跨模态人物知识的关系网络进行网络剪枝，去除网络中错误的人物知识；

步骤7.3、对跨模态人物知识的关系网络中的共现知识对进行频繁项统计，每个人脸对应的统计频次为：f(p_i|face)=Count(face,p_i)，再通过Softmax函数将统计频次转换为置信度：c(p|face)=softmax(f(p|face))；

步骤7.4、对于人名实体p₁，p₂，…，p_n和人脸实体face₁，face₂，…，face_m，n为人名实体的数量，m为人脸实体的数量；当n=m=1时，置信度较高，形成三元组(face，p，c)；当n=1且m>1时，根据人脸实体的质量q_M将置信度c进行加权均分，得到m个三元组（face，p，

）,..., （face，p, />

）；当n>1且m=1时，根据文本中的核心人名实体按照人名重要度将置信度/>

进行加权均分，得到m个三元组（face，p，/>

）,..., （face，p,

2.根据权利要求1所述的跨模态联合学习方法，其特征在于，所述识别图像数据中的人物军事特征知识包括采用基于YOLOv3的人脸检测模型框架，得到图像数据中人脸的位置坐标。

3.根据权利要求1所述的跨模态联合学习方法，其特征在于，所述识别文本中的人物属性关系知识包括对文本数据进行特殊字符处理、中英文字符转换以及标签格式转换，并对文本数据按固定窗口长度进行切分。

4.根据权利要求3所述的跨模态联合学习方法，其特征在于，所述固定窗口长度为256位。

5.根据权利要求1所述的跨模态联合学习方法，其特征在于，所述识别文本中的人物属性关系知识，所述人物属性关系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系，建立文本人物知识集合的方式为：

首先定义一个字典D_c，采用BERT-Base预训练模型得到字向量，并将字向量存储到字典中，作为Encoder层的输入；Encoder层采用双向LSTM网络结构，将输入序列信息压缩为一个固定大小的状态向量S；引入注意力机制对Encoder层输出的状态向量S进行处理得到加权求和特征向量及隐含层状态向量；Decoder层采用LSTM网络结构，Decoder层的输入为加权求和特征向量、隐含层状态向量及真实标签；将Decoder层的输出输入到softmax层实现对概率归一化，并根据得到的概率进行分类得到最优序列标签，得到命名实体；

采用依存句法分析关注确定人名实体与人物属性知识间的语义关系完善人物属性知识，建立文本人物知识集合。

6.根据权利要求5所述的跨模态联合学习方法，其特征在于，还包括采用基于军事语料训练好的指针网络关系抽取模型抽取得到人物属性知识，包括人物别称、毕业院校、任职机构、任职时间、隶属部队、子女关系及配偶关系。

7.根据权利要求5所述的跨模态联合学习方法，其特征在于，所述依存句法分析采用Python开源库SpaCy实现。