CN115860152B - 一种面向人物军事知识发现的跨模态联合学习方法 - Google Patents

一种面向人物军事知识发现的跨模态联合学习方法 Download PDF

Info

Publication number
CN115860152B
CN115860152B CN202310138596.0A CN202310138596A CN115860152B CN 115860152 B CN115860152 B CN 115860152B CN 202310138596 A CN202310138596 A CN 202310138596A CN 115860152 B CN115860152 B CN 115860152B
Authority
CN
China
Prior art keywords
knowledge
character
face
modal
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310138596.0A
Other languages
English (en)
Other versions
CN115860152A (zh
Inventor
张文峰
贾学良
杨理想
余祖应
周亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xingyao Intelligent Technology Co ltd
Original Assignee
Nanjing Xingyao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xingyao Intelligent Technology Co ltd filed Critical Nanjing Xingyao Intelligent Technology Co ltd
Priority to CN202310138596.0A priority Critical patent/CN115860152B/zh
Publication of CN115860152A publication Critical patent/CN115860152A/zh
Application granted granted Critical
Publication of CN115860152B publication Critical patent/CN115860152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向人物军事知识发现的跨模态联合学习方法,采用Batching和算子融合方法显著降低了模型计算开销,提升了模型吞吐量和预测速度,同时采用基于模型的方式从图像模态获取了更为丰富的人物军事知识特征,使图像模态人物军事知识不再局限于单一的人脸知识维度,实现了跨模态人物军事知识实体融合,建立了多模态知识图谱。

Description

一种面向人物军事知识发现的跨模态联合学习方法
技术领域
本发明属于计算机自然语言处理技术领域,具体涉及一种面向人物军事知识发现的跨模态联合学习方法。
背景技术
“主语-谓语-宾语(Subject-Predicate-Object,SPO)”三元组是一种形式简单但功能强大的语义数据表示方法,包含大量三元组的SPO语义网络构成的知识图谱,被广泛用于知识发现。具体而言,首先从非结构化数据中以SPO三元组的形式抽取知识实体及其之间的语义关系,构建表示领域核心知识内涵与知识结构SPO语义网络;在此基础上,利用知识实体对齐、关系融合等手段进一步融合第三方数据(关联数据集、相关知识图谱等)以丰富与完善知识图谱;最后,通过知识推理规则、实体间路径发现、链路关系预测等方法进行知识发现。
军事领域因其数据模态的多样性,导致人物军事知识发现不能单纯依赖于一种数据模态,例如,从文本模态数据中往往能获取到人物的出生、履历等信息,而从图像模态的数据中能够获取人脸、军衔、服饰特征等信息。传统的知识图谱手段往往仅针对单一文本模态的数据,且知识抽取手段具有较强的数据依赖性,导致知识发现层次相对较浅,知识完整度不高。随着多模态学习研究的深入,开始将视觉信息融入文本知识图谱,形成多模态知识图谱。多模态知识图谱在传统知识图谱的基础上,构建了多种模态下的实体,以及不同模态实体间的语义关系,并通过多模态实体对齐技术实现跨模态信息的融合。然而,这种单纯依赖跨模态语义关系的实体层面的融合因为缺少外部知识约束,无法很好地建立跨模态人物军事知识的关联,尤其在一对多、多对多等情形下的人物军事知识关联效果不佳。
综上所述,现有方法因数据来源及处理手段单一,未能有效建立跨模态知识的互补增强、相互印证,导致人物军事知识挖掘完整度不高、复杂人物军事知识关联效果不佳等问题。
发明内容
有鉴于此,本发明提供了一种面向人物军事知识发现的跨模态联合学习方法,能够实现跨模态人物军事知识实体融合,建立多模态知识图谱。
本发明提供的一种面向人物军事知识发现的跨模态联合学习方法,包括以下步骤:
识别图像数据中的人物军事特征知识,所述人物军事特征知识包括军徽、肩章、旗 帜及人脸特征,建立图像人物知识集合;识别文本中的人物属性关系知识,所述人物属性关 系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系,建立文本人物知 识集合;通过对图像人物知识集合及文本人物知识集合进行频繁项统计及跨模态贡献度计 算,得到两个集合中所有知识的置信度,根据置信度进行跨模态的知识发现和关联;采用基 于图神经网络的跨模态知识图谱对齐方式,建立融合结构信息和属性信息的人物实体更新 公式如公式(1)所示及对齐评分函数如公式(2)所示,实现图像人物知识集合和文本人物知 识集合的对齐融合;
Figure SMS_9
(1),其中,
Figure SMS_3
Figure SMS_5
分别表示经过第一层图卷积层之后人物实体的结构嵌入矩阵和属 性嵌入矩阵,
Figure SMS_4
Figure SMS_8
分别表示第一层图卷积层的结构嵌入权重矩阵和属性嵌入权重 矩阵,
Figure SMS_12
表示结构信息,
Figure SMS_15
表示人物实体度矩阵,
Figure SMS_11
表示神经元激活函数;每经过一层 图卷积运算,所有人物实体均能够获得其邻居节点的信息,并用于更新自身的嵌入向量;
Figure SMS_14
(2),其 中,
Figure SMS_1
表示人脸实体face的结构嵌入向量,
Figure SMS_7
表示人名实体p的结构嵌 入向量,ds和da分别表示结构嵌入维度和属性嵌入纬度,
Figure SMS_6
表示嵌入方式的重要程度,
Figure SMS_10
表示人脸实体face的属性嵌入向量,
Figure SMS_13
表示人名实体p的属性嵌入向 量,f()表示统计频次;根据置信度建立跨模态人物知识联合学习评分公式如公式(3)所 示:
Figure SMS_16
(3),其中,c(p|face) 为置信度,
Figure SMS_2
表示权重系数;根据建立的跨模态人物知识联合学习评分公式、图像人物知 识集合及文本人物知识集合构建结构化跨模态人物知识集合。
进一步地,所述识别图像数据中的人物军事特征知识包括采用基于YOLOv3的人脸检测模型框架,得到图像数据中人脸的位置坐标。
进一步地,所述识别文本中的人物属性关系知识包括对文本数据进行特殊字符处理、中英文字符转换以及标签格式转换,并对文本数据按固定窗口长度进行切分。
进一步地,所述固定窗口长度为256位。
进一步地,所述通过对图像人物知识集合及文本人物知识集合进行频繁项统计及 跨模态贡献度计算,得到两个集合中所有知识的置信度,根据置信度进行跨模态的知识发 现和关联的方式为:步骤7.1、将图像人物知识集合中的人脸实体与文本人物知识集合中的 人名实体进行笛卡尔积组合,得到共现知识对(faceID, p);以人物知识作为节点,以知识 间的共现关联作为边,初步建立跨模态人物知识的关系网络;步骤7.2、对跨模态人物知识 的关系网络进行网络剪枝,去除网络中错误的人物知识;步骤7.3、对跨模态人物知识的关 系网络中的共现知识对进行频繁项统计,每个人脸对应的统计频次为:f(pi|face)=Count (face,pi),再通过Softmax函数将统计频次转换为置信度:c(p|face)=softmax(f(p| face));步骤7.4、对于人名实体p1,p2,…,pn和人脸实体face1,face2,…,facem,n为人名实 体的数量,m为人脸实体的数量;当n=m=1时,置信度较高,形成三元组(face,p,c);当n=1且m >1时,根据人脸实体的质量qM将置信度c进行加权均分,得到m个三元组(face,p,
Figure SMS_17
),..., (face,p,
Figure SMS_18
);当n>1且m=1时,根据文本中的核心人 名实体按照人名重要度将置信度
Figure SMS_19
进行加权均分,得到m个三元组(face,p,
Figure SMS_20
),..., (face,p,
Figure SMS_21
);当n>1且m>1时,将人名实体和人脸实体分别按重要度 和质量进行组合,对置信度c进行加权均分,得出m*n个三元组。
进一步地,所述识别文本中的人物属性关系知识,所述人物属性关系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系,建立文本人物知识集合的方式为:首先定义一个字典Dc,采用BERT-Base预训练模型得到字向量,并将字向量存储到字典中,作为Encoder层的输入;Encoder层采用双向LSTM网络结构,将输入序列信息压缩为一个固定大小的状态向量S;引入注意力机制对Encoder层输出的状态向量S进行处理得到加权求和特征向量及隐含层状态向量;Decoder层采用LSTM网络结构,Decoder层的输入为加权求和特征向量、隐含层状态向量及真实标签;将Decoder层的输出输入到softmax层实现对概率归一化,并根据得到的概率进行分类得到最优序列标签,得到命名实体;采用依存句法分析关注确定人名实体与人物属性知识间的语义关系完善人物属性知识,建立文本人物知识集合。
进一步地,还包括采用基于军事语料训练好的指针网络关系抽取模型抽取得到人物属性知识,包括人物别称、毕业院校、任职机构、任职时间、隶属部队、子女关系及配偶关系。
进一步地,所述依存句法分析采用Python开源库SpaCy实现。
本发明采用Batching和算子融合方法,显著降低了模型计算开销,提升了模型吞吐量和预测速度,同时采用基于模型的方式从图像模态获取了更为丰富的人物军事知识特征,使图像模态人物军事知识不再局限于单一的人脸知识维度,实现了跨模态人物军事知识实体融合,建立多模态知识图谱。
本发明采用依存分析和命名实体结合的手段,挖掘人名实体的潜在知识关联,结合自训练的基于指针网络的关系抽取模型,在保证抽取准确率的同时,进一步扩充了文本人物军事知识发现的丰富度和领域专业程度。
本发明采用跨模态知识图谱的对齐手段,基于图卷积神经网络捕获图的全局和局部结构信息,结合结构信息和属性信息学习人物实体节点表示,大大丰富了人物实体节点的语义特征,提升跨模态人物军事知识实体融合的效果。综合对齐评分函数和人物军事知识置信度得分,建立跨模态人物军事知识联合学习评分公式,增加对人物军事知识联合学习的约束,提升了跨模态人物军事知识关联的可信度和人物军事知识发现的完整度。
附图说明
图1 为本发明提供的一种面向人物军事知识发现的跨模态联合学习方法的处理流程示意图。
具体实施方式
下面结合附图,对本发明进行详细描述。
本发明提供的一种面向人物军事知识发现的跨模态联合学习方法,其核心思想是:识别图片中人物军事特征知识,包括军徽、肩章、旗帜以及人脸特征的识别;融合命名实体识别、依存句法分析以及基于指针网络的关系抽取模型等多种手段,抽取并发现具有军事领域特色的文本人物属性关系知识,如职位、军衔、隶属部队、指挥关系等;采用频繁项统计和跨模态贡献度策略对人物知识置信度打分,实现跨模态人物知识的发现和关联;采用基于图神经网络的跨模态知识图谱对齐手段,实现图像人物知识集合和文本人物知识集合的对齐融合,给出了融合结构信息和属性信息的人物实体更新公式以及对齐评分函数;结合人物知识置信度得分,建立跨模态人物知识联合学习评分公式,以此构建多模态知识图谱。
本发明提供的一种面向人物军事知识发现的跨模态联合学习方法,具体流程如图1所示,具体包括以下步骤:步骤1、收集包含人物图像和人物军事知识的开源自媒体数据,建立包含多模态类型的跨模态数据库。对不同模态数据经过数据预处理,采取一般数据标注手段进行数据标注,并将数据分为训练集、测试集和验证集。
数据预处理的操作过程包括对图像数据及文本数据的预处理。
其中,对于图像数据,利用基于YOLOv3的人脸检测模型框架,得到图片中人脸的位置坐标。因为人脸检测时只包括了脸部,所以需要对检测框进行一定的扩充,将其他部位的信息提取出来。具体来讲,由于YOLOv3中对目标框预测的回归信息是预测框的中心坐标以及预测框的高度和宽度,所以最终将检测框的高度设置扩充0.3倍,宽度设置扩充0.1倍。最后,使用OpenCV将图片统一转换为160×160的尺寸。
对于文本数据,需要进行特殊字符处理、中英文字符转换以及标签格式转换,此外,根据模型单次输入序列长度限制,需要在不影响标签信息的前提下对文本数据按固定窗口长度进行切分,此处最大序列长度选为256位。
步骤2、对图像数据进行人脸识别得到人脸图像。
对图像数据进行人脸识别的过程包括:将裁剪的人脸图片通过特征提取网络得到128维的特征向量,将向量信息存储在文本文件中。之后,对待检测的人脸图片,同样进行人脸检测、扩充以及裁剪,重新调整到160×160尺寸,通过特征提取网络对人脸信息进行提取,得到128维特征向量。最后,将待检测图片的特征向量与文本文件中的注册人脸信息进行对比,即计算两者的欧式距离。设定两者的距离阈值为0.2,若两者的欧氏距离小于设定阈值,则认为两者的相似度很高,是同一个人;相反,若两者的距离超出阈值则认为两者不属于同一个人的人脸。
进一步地,特征提取网络可选取Inception-ResNet V1,输入的图像首先经过Stem网络卷积改变特征图的尺寸,增加通道数并提升维度信息,使模型更具鲁棒性。然后通过Inception-ResNet结构引入残差连接,提高训练速度。Inception结构间的衔接采用Reduction结构,利用1
Figure SMS_22
1的卷积核进行降维处理后再进行维度的提升,以减少参数量的计算。采用平均池化进行特征图的回归,既可以保留输入信息的边缘特征,还能减少过拟合的风险。为了避免遇到表达瓶颈,采用了双通道,然后进行Concat完成下采样。最后,采用Dropout对得到的特征图进行随机失活,再通过全连接层,将其展平为特征向量,与后续的Embedding层做衔接。
损失函数选择三元组损失(Triplet Loss),代表了多分支的网络结构。网络优化的方向是对三元组进行优化,最终训练的网络模型使得同类样本间的欧氏距离远远小于不同类样本之间的距离。激活函数选择Relu,公式为:f(x)=max(0,x)。Relu函数为取最大值函数,在正区间范围内不存在饱和问题,从而保持梯度不衰减,解决了梯度消失的问题。采用指数衰减的学习率策略,采用L2正则化,优化器选择AdaGrad(Adaptive GradientAlgorithm),对稀疏性数据表现更好,提高了梯度下降法的鲁棒性。
步骤3、对图像数据进行场景分析,获取图像数据中的外部特征;再基于步骤2得到的人脸图像,对图像数据进行图片内容解析得到人脸特征。
对图像数据进行图片内容解析,其目的是获取图像模态数据包含的人物军事知识,具体过程包括:首先基于训练好的MMDetection模型工具箱对图片进行场景解析,识别徽章、肩章、旗帜、服饰等外部特征;然后基于InsightFace模型,对步骤2检测、裁剪得到的人脸图像,进行人物年龄、性别、人脸质量等人脸特征识别。由此从图像模态获取了更为丰富的人物军事知识特征,使图像模态人物军事知识不再局限于单一的人脸知识维度。
步骤4、采用基于BERT+Seq2Seq的模型结构,对文本数据进行命名实体识别处理,获取人物的姓名、职业、国籍、所属机构、军衔、隶属部队及指挥关系等结构化知识,得到文本数据对应的命名实体。
具体操作为:首先定义一个字典Dc,采用BERT-Base预训练模型得到字向量,并将字向量存储到字典中,作为Encoder层的输入。其中,BERT-Base预训练模型包含12层,隐藏层维度为768,采用12个头注意力,字向量长度设为256,训练阶段学习率设为3e-5,batch_size设为32,epoch设为4。
Encoder层采用双向LSTM网络结构,计算公式为:
Figure SMS_23
Figure SMS_26
Figure SMS_29
Figure SMS_24
Figure SMS_27
,其中,ft、it及ot分别为遗忘门、输入门和输出门,Wf、Wi及Wo均为 权重矩阵,bf、bi及bo均为偏置向量,Ct为t时刻的输入,ht-1,ct为t-1时刻隐藏层输出的向量, Ct-1为t-1时刻的状态向量,
Figure SMS_30
为t时刻的即时状态,
Figure SMS_32
和tanh为不同的神经元激活函数。 双向LSTM隐藏层数设为1,前向、后向神经元个数均设为128。进一步地,由于在Encoder阶段 将输入序列信息压缩为一个固定大小的状态向量S会产生信息损失,因此可采用注意力机 制来提高Decoder阶段的准确性,计算公式为:
Figure SMS_25
Figure SMS_28
Figure SMS_31
,其中,ct为注意力机制输出的加权求和特征向量,ht为编码器 网络隐藏层向量,ait为权重值,si-t为解码器网络的隐含层状态向量。
Decoder层采用LSTM网络结构,输入包含t时刻的加权求和特征向量ct、隐含层的 状态向量st和t-1时刻的真实标签yt-1。经过LSTM处理输入到softmax层得到yt,t时刻第i个 样本的概率分布计算公式为:
Figure SMS_33
Figure SMS_34
,softmax层实现对概率归一化并输出类别,计算公式为:
Figure SMS_35
,其中,W为权重矩阵,b为偏置向量,ci 为t时刻第i个样本的注意力机制输出的加权求和特征向量,si为t时刻第i个样本的隐含层 的状态向量,yi-1为t时刻第i-1个样本的真实标签,利用上述公式对概率进行归一化,并根 据得到的概率进行分类得到最优序列标签,最后使用训练好的模型对测试集进行标签推 理。
此外,BERT中包含大量小算子,且Attention计算量较大,为降低模型计算开销,提升模型吞吐量和预测速度,采用Batching方法,通过将多次预测合并到一个Batch进行推理,降低Kernel Launch次数,充分利用多个GPU SM,提高整体吞吐,并采用算子融合方法,提高小算子访存效率来减少小算子的耗时开销。
步骤5、对步骤4得到的命名实体,采用依存句法分析发现人名实体与人物属性知识间潜在的语义关系完善人物属性知识。
依存句法分析关注词本身以及词之间的二元依存关系,能够更加直接地分析出句子中的主语谓语等成分。在同一段文本中,如果有明确的命名实体指代和依存关系,便能够得到准确的人物属性知识。依存句法分析具体可以通过第三方Python开源库SpaCy实现。
采用依存句法分析和命名实体结合的手段,挖掘人名实体的潜在知识关联,结合自训练的基于指针网络的关系抽取模型,在保证抽取准确率的同时,进一步扩充了文本人物军事知识发现的丰富度和领域专业程度。
步骤6、为弥补依存句法分析中对人物军事知识抽取存在的不足,进一步丰富人物属性知识,采用基于军事语料训练好的指针网络关系抽取模型进行人物属性知识抽取,例如:“人物别称”、“毕业院校”、“任职机构”、“任职时间”、“隶属部队”、“子女关系”、“配偶关系”等,并与步骤5获取到的人物属性知识进行融合得到新的人物属性知识。由此得到如表1所示的结构化数据。
表1跨模态人物军事知识表。
Figure SMS_36
步骤7、对于图像数据,以人脸作为统计标识,可以得到每张图像对应的知识特征 及质量特征集合,如性别、年龄、场景、服饰、国旗、焦点人脸及人脸面积等,记为
Figure SMS_37
;对于文本数 据,以人名作为统计标识,可以得到每个人名p对应的文本结构化知识集合p=Collection (p,l,o,j,r,...),包含国籍、机构、职业、军衔及组织等;挖掘跨模态知识间的互补关系,建 立跨模态人物军事知识的关联关系。
具体包括以下步骤:步骤7.1、基于“同一文章中出现的人名和人脸大概率是相关的”这一常识性假设,将表1的人名实体和人物目标进行笛卡尔积组合,得到大量知识集合的共现知识对(faceID, p),如:(faceID11, p11),(faceID12, p12),…,(faceID1p, p1p)。需要说明的是,此处的faceID和p分别代表对应模态的知识集合;将人物军事知识作为节点,知识之间的共现关联作为边,初步建立跨模态人物军事知识的关系网络。
步骤7.2、对跨模态人物军事知识的关系网络进行网络剪枝,以去除网络中错误的人物军事知识。
比对faceID和p的知识集合交集,结合先验知识图谱进行交叉验证和推理,发现交集中存在的明显逻辑矛盾的知识节点,删除与上述知识节点相关的边。同时,本步骤能够对人物军事知识的正确性做进一步的验证。
步骤7.3、对经过剪枝的跨模态人物军事知识的关系网络进行边权重增强,以凸显重要知识的置信度。
具体来讲,对跨模态人物军事知识的关系网络中的共现知识对进行频繁项统计,每个人脸对应的统计频次为:f(pi|face)=Count(face,pi),再通过Softmax函数转换为置信度:c(p|face)=softmax(f(p|face))。
为了进一步提高人物军事知识的显著性,本发明设计了一种目标贡献度策略,在进行统计频次计算的同时,将人名、人脸的重要度与特征质量纳入考量,提高此类知识的统计权重,从而对不同知识的置信度做层次化区分。最后将每一个face对应的人名pair按照置信度c进行降序排列,可以推测该人脸对应的人名就是pair对中置信度最高的组合。采用相同的思路迭代进行上述步骤,可以得到人物p的其他高置信度属性知识。
本发明设计的人名实体和图像人物目标的贡献度策略,具体为:对于从文本中识 别出人名实体p1,p2,…,pn和从配图中识别出的人脸face1,face2,…,facem,有以下几种情 况:第一种情况,当n=m=1时,即同一人名对应同一人脸时,根据大众的发文习惯,有极高的 置信度(假设为c)认为配图中的人脸face对应的就是人名实体p,由此形成高质量的三元组 (face,p,c);第二种情况,当n=1且m>1时,即同一人名对应多个人脸时,根据配图中人脸特 征的质量(qm,例如人脸面积、焦点人脸及人脸背景)将置信度c进行加权均分,得出
Figure SMS_38
个三 元组(face,p,
Figure SMS_39
), ..., (face,p,
Figure SMS_40
);第三种情况,当n>1且m =1时,即多个人名对应同一人脸时,通过步骤5找到文本中的核心人名实体(例如主语),按 照人名重要度将置信度
Figure SMS_41
进行加权均分,得出
Figure SMS_42
个三元组(face,p,
Figure SMS_43
), ..., (face,p,
Figure SMS_44
);第四种情况,当n>1且m>1时,即多个人名对应多个人脸时,结 合第二种情况和第三种情况,将人名人脸分别按重要度和质量进行组合,对置信度c进行加 权均分,得出m*n个三元组。
步骤8、基于多模态实体对齐进行跨模态知识融合,利用步骤7得到的跨模态人物军事知识的关联关系建立知识约束,形成对跨模态知识融合的补充与相互印证,构建多模态知识图谱。
具体操作如下:首先基于图像人物军事知识集合faceID和文本人物军事知识集合
Figure SMS_45
分别构建知识图谱,分别记为KG1和KG2;然后采用基于图的模型进行跨模态人物实体对齐。
具体来讲,采用图神经网络作为编码器来捕获子图结构,根据消息传递规则将来 自邻域的信息聚集到目标人物节点,让具有相似邻域的实体在嵌入空间中彼此靠近,较好 地捕捉图的全局或局部结构信息。为此,使用两个图卷积网络(GCN)分别处理两个待对齐的 知识图谱KG1和KG2,两个GCN 通过共享权重矩阵将来自KG1和KG2的人物实体嵌入到统一的 向量空间中,并借助人物实体节点之间的结构来传播对齐关系。组合结构信息和属性信息 来共同学习人物实体节点表示,人物实体更新公式定义为:
Figure SMS_48
,其中,
Figure SMS_51
Figure SMS_54
分 别表示经过第一层图卷积层之后人物实体的结构嵌入矩阵和属性嵌入矩阵,
Figure SMS_46
Figure SMS_50
分别表示第一层图卷积层的结构嵌入权重矩阵和属性嵌入权重矩阵,由两个GCN共享,A*用 来表征结构信息,D*为人物实体度矩阵。每经过一层图卷积运算,所有人物实体均能够获得 其邻居节点的信息,并用于更新自身的嵌入向量。综合结构嵌入和属性嵌入,对齐的评分函 数可定义为:
Figure SMS_53
,其 中,
Figure SMS_55
表示人名实体p的结构嵌入向量,
Figure SMS_47
表示人名实体p的结构嵌入 向量,ds和da分别表示结构嵌入维度和属性嵌入纬度,
Figure SMS_49
用于衡量两种嵌入的重要性。结合 步骤7得到的“人脸-人名”知识置信度得分c(p|face),可以得到最终的跨模态人物军事知 识联合学习评分公式:
Figure SMS_52
根据计算出来的分数确定跨模态人物军事知识之间的相关性,由此建立多模态知识图谱。
本发明中,多模态知识图谱为结构化人物军事知识,表示为:
Figure SMS_56
Figure SMS_57
,其中,Pi表 示第i个人物的知识集合,pi表示人名,facei表示人脸,
Figure SMS_58
表示一 系列人物军事知识。综合上述步骤,即可融合跨模态信息,形成多模态人物军事知识互补, 多源人物军事知识交叉印证,全面、深入地发掘人物军事知识。当有更多数据进入模型,通 过不断的模型反馈与迭代,还可实现跨模态联合学习的持续演进。
基于常识性人名-人脸概率统计假设,采用频繁项统计和跨模态贡献度的策略建立跨模态人物军事知识关联,并通过加权手段提高人物军事知识的置信度。此外,采用跨模态知识图谱的对齐手段,基于图卷积神经网络捕获图的全局和局部结构信息,结合结构信息和属性信息学习人物实体节点表示,大大丰富了人物实体节点的语义特征,提升跨模态人物军事知识实体融合的效果。综合对齐评分函数和人物军事知识置信度得分,建立跨模态人物军事知识联合学习评分公式,增加对人物军事知识联合学习的约束,提升了跨模态人物军事知识关联的可信度和人物军事知识发现的完整度。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种面向人物军事知识发现的跨模态联合学习方法,其特征在于,包括以下步骤:
识别图像数据中的人物军事特征知识,所述人物军事特征知识包括军徽、肩章、旗帜及人脸特征,建立图像人物知识集合;识别文本中的人物属性关系知识,所述人物属性关系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系,建立文本人物知识集合;通过对图像人物知识集合及文本人物知识集合进行频繁项统计及跨模态贡献度计算,得到两个集合中所有知识的置信度,根据置信度进行跨模态的知识发现和关联;采用基于图神经网络的跨模态知识图谱对齐方式,建立融合结构信息和属性信息的人物实体更新公式如公式(1)所示及对齐评分函数如公式(2)所示,实现图像人物知识集合和文本人物知识集合的对齐融合;
Figure QLYQS_1
(1)
其中,
Figure QLYQS_2
和/>
Figure QLYQS_3
分别表示经过第一层图卷积层之后人物实体的结构嵌入矩阵和属性嵌入矩阵,/>
Figure QLYQS_4
和/>
Figure QLYQS_5
分别表示第一层图卷积层的结构嵌入权重矩阵和属性嵌入权重矩阵,/>
Figure QLYQS_6
表示结构信息,/>
Figure QLYQS_7
表示人物实体度矩阵,/>
Figure QLYQS_8
表示神经元激活函数;每经过一层图卷积运算,所有人物实体均能够获得其邻居节点的信息,并用于更新自身的嵌入向量;
Figure QLYQS_9
(2)
其中,
Figure QLYQS_10
表示人脸实体face的结构嵌入向量,/>
Figure QLYQS_11
表示人名实体p的结构嵌入向量,ds和da分别表示结构嵌入维度和属性嵌入纬度,/>
Figure QLYQS_12
表示嵌入方式的重要程度,
Figure QLYQS_13
表示人脸实体face的属性嵌入向量,/>
Figure QLYQS_14
表示人名实体p的属性嵌入向量,f()表示统计频次;
根据置信度建立跨模态人物知识联合学习评分公式如公式(3)所示:
Figure QLYQS_15
(3)
其中,c(p|face) 为置信度,
Figure QLYQS_16
表示权重系数;
根据建立的跨模态人物知识联合学习评分公式、图像人物知识集合及文本人物知识集合构建结构化跨模态人物知识集合;
所述通过对图像人物知识集合及文本人物知识集合进行频繁项统计及跨模态贡献度计算,得到两个集合中所有知识的置信度,根据置信度进行跨模态的知识发现和关联的方式为:
步骤7.1、将图像人物知识集合中的人脸实体与文本人物知识集合中的人名实体进行笛卡尔积组合,得到共现知识对(faceID, p);以人物知识作为节点,以知识间的共现关联作为边,初步建立跨模态人物知识的关系网络;
步骤7.2、对跨模态人物知识的关系网络进行网络剪枝,去除网络中错误的人物知识;
步骤7.3、对跨模态人物知识的关系网络中的共现知识对进行频繁项统计,每个人脸对应的统计频次为:f(pi|face)=Count(face,pi),再通过Softmax函数将统计频次转换为置信度:c(p|face)=softmax(f(p|face));
步骤7.4、对于人名实体p1,p2,…,pn和人脸实体face1,face2,…,facem,n为人名实体的数量,m为人脸实体的数量;当n=m=1时,置信度较高,形成三元组(face,p,c);当n=1且m>1时,根据人脸实体的质量qM将置信度c进行加权均分,得到m个三元组(face,p,
Figure QLYQS_17
),..., (face,p, />
Figure QLYQS_18
);当n>1且m=1时,根据文本中的核心人名实体按照人名重要度将置信度/>
Figure QLYQS_19
进行加权均分,得到m个三元组(face,p,/>
Figure QLYQS_20
),..., (face,p,
Figure QLYQS_21
);当n>1且m>1时,将人名实体和人脸实体分别按重要度和质量进行组合,对置信度c进行加权均分,得出m*n个三元组。
2.根据权利要求1所述的跨模态联合学习方法,其特征在于,所述识别图像数据中的人物军事特征知识包括采用基于YOLOv3的人脸检测模型框架,得到图像数据中人脸的位置坐标。
3.根据权利要求1所述的跨模态联合学习方法,其特征在于,所述识别文本中的人物属性关系知识包括对文本数据进行特殊字符处理、中英文字符转换以及标签格式转换,并对文本数据按固定窗口长度进行切分。
4.根据权利要求3所述的跨模态联合学习方法,其特征在于,所述固定窗口长度为256位。
5.根据权利要求1所述的跨模态联合学习方法,其特征在于,所述识别文本中的人物属性关系知识,所述人物属性关系知识包括姓名、职业、国籍、所属机构、职位、军衔、隶属部队及指挥关系,建立文本人物知识集合的方式为:
首先定义一个字典Dc,采用BERT-Base预训练模型得到字向量,并将字向量存储到字典中,作为Encoder层的输入;Encoder层采用双向LSTM网络结构,将输入序列信息压缩为一个固定大小的状态向量S;引入注意力机制对Encoder层输出的状态向量S进行处理得到加权求和特征向量及隐含层状态向量;Decoder层采用LSTM网络结构,Decoder层的输入为加权求和特征向量、隐含层状态向量及真实标签;将Decoder层的输出输入到softmax层实现对概率归一化,并根据得到的概率进行分类得到最优序列标签,得到命名实体;
采用依存句法分析关注确定人名实体与人物属性知识间的语义关系完善人物属性知识,建立文本人物知识集合。
6.根据权利要求5所述的跨模态联合学习方法,其特征在于,还包括采用基于军事语料训练好的指针网络关系抽取模型抽取得到人物属性知识,包括人物别称、毕业院校、任职机构、任职时间、隶属部队、子女关系及配偶关系。
7.根据权利要求5所述的跨模态联合学习方法,其特征在于,所述依存句法分析采用Python开源库SpaCy实现。
CN202310138596.0A 2023-02-20 2023-02-20 一种面向人物军事知识发现的跨模态联合学习方法 Active CN115860152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138596.0A CN115860152B (zh) 2023-02-20 2023-02-20 一种面向人物军事知识发现的跨模态联合学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138596.0A CN115860152B (zh) 2023-02-20 2023-02-20 一种面向人物军事知识发现的跨模态联合学习方法

Publications (2)

Publication Number Publication Date
CN115860152A CN115860152A (zh) 2023-03-28
CN115860152B true CN115860152B (zh) 2023-06-27

Family

ID=85658447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138596.0A Active CN115860152B (zh) 2023-02-20 2023-02-20 一种面向人物军事知识发现的跨模态联合学习方法

Country Status (1)

Country Link
CN (1) CN115860152B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117033666B (zh) * 2023-10-07 2024-01-26 之江实验室 一种多模态知识图谱的构建方法、装置、存储介质及设备
CN117332785B (zh) * 2023-10-10 2024-03-01 山东省计算中心(国家超级计算济南中心) 一种从网络安全威胁情报联合抽取实体与关系的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542243A (zh) * 2020-12-05 2021-03-23 大连东软教育科技集团有限公司 一种icu电子病历知识图谱构建方法、系统和存储介质
CN112818385A (zh) * 2021-01-20 2021-05-18 海南大学 基于常识推理的多模态资源的本质内容处理方法及系统
CN113886567A (zh) * 2021-08-31 2022-01-04 安徽商贸职业技术学院 一种基于知识图谱的教学方法及系统
CN113936637A (zh) * 2021-10-18 2022-01-14 上海交通大学 基于多模态知识图谱的语音自适应补全系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474949B2 (en) * 2014-08-19 2019-11-12 Qualcomm Incorporated Knowledge-graph biased classification for data
US10540345B2 (en) * 2016-12-09 2020-01-21 Microsoft Technology Licensing, Llc Reducing churn in knowledge graphs
US11176326B2 (en) * 2019-01-03 2021-11-16 International Business Machines Corporation Cognitive analysis of criteria when ingesting data to build a knowledge graph
CN111159428A (zh) * 2019-12-30 2020-05-15 智慧神州(北京)科技有限公司 经济领域知识图谱事件关系自动抽取的方法和装置
CN112163100A (zh) * 2020-10-14 2021-01-01 广州欢网科技有限责任公司 维基数据中明星库的知识图谱扩充方法及系统
CN112417166B (zh) * 2020-11-20 2022-08-26 山东省计算中心(国家超级计算济南中心) 一种知识图谱三元组置信度评价方法
CN113722474A (zh) * 2021-03-12 2021-11-30 腾讯科技(深圳)有限公司 文本分类方法、装置、设备及存储介质
CN113641826B (zh) * 2021-06-29 2024-03-26 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN114625849A (zh) * 2022-02-28 2022-06-14 中山大学 一种上下文感知的渐进式注意的视频问答方法与系统
CN114491001B (zh) * 2022-04-18 2022-08-30 南京星耀智能科技有限公司 一种军事领域下的实体搜索方法
CN115080761A (zh) * 2022-06-08 2022-09-20 昆明理工大学 一种基于语义感知的低资源知识图谱实体对齐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542243A (zh) * 2020-12-05 2021-03-23 大连东软教育科技集团有限公司 一种icu电子病历知识图谱构建方法、系统和存储介质
CN112818385A (zh) * 2021-01-20 2021-05-18 海南大学 基于常识推理的多模态资源的本质内容处理方法及系统
CN113886567A (zh) * 2021-08-31 2022-01-04 安徽商贸职业技术学院 一种基于知识图谱的教学方法及系统
CN113936637A (zh) * 2021-10-18 2022-01-14 上海交通大学 基于多模态知识图谱的语音自适应补全系统

Also Published As

Publication number Publication date
CN115860152A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
Zellers et al. From recognition to cognition: Visual commonsense reasoning
Dong et al. Automatic age estimation based on deep learning algorithm
Er et al. Attention pooling-based convolutional neural network for sentence modelling
CN115860152B (zh) 一种面向人物军事知识发现的跨模态联合学习方法
CN108256450A (zh) 一种基于深度学习的人脸识别和人脸验证的监督学习方法
CN109344285A (zh) 一种面向监控的视频图谱构建和挖掘方法、设备
CN109255359B (zh) 一种基于复杂网络分析方法的视觉问答问题解决方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN109886161A (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN111582397A (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
Zhou et al. Self-selective attention using correlation between instances for distant supervision relation extraction
Park et al. Attribute and-or grammar for joint parsing of human attributes, part and pose
CN109117891A (zh) 融合社交关系和命名特征的跨社交媒体账户匹配方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
Koner et al. Scenes and surroundings: Scene graph generation using relation transformer
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
Yu Analysis of task degree of English learning based on deep learning framework and image target recognition
Gong et al. Autonomous learning of foreign language based on facial emotion recognition and cloud computing
Tunc et al. Age group and gender classification using convolutional neural networks with a fuzzy logic-based filter method for noise reduction
CN114168769B (zh) 基于gat关系推理的视觉问答方法
CN113779520B (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
CN115018215A (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
Elebe et al. Efficient detection of refugees and migrants in Turkey using convolutional neural network
Suzon Face mask detection in real time using python

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant