CN112200317B

CN112200317B - 多模态知识图谱构建方法

Info

Publication number: CN112200317B
Application number: CN202011043062.2A
Authority: CN
Inventors: 代翔; 崔莹; 李春豹; 杨露; 黄刘; 刘鑫; 潘磊
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2024-05-07
Anticipated expiration: 2040-09-28
Also published as: CN112200317A

Abstract

本发明公开的一种多模态知识图谱构建方法，涉及大数据领域知识工程技术，本发明通过下述技术方案予以实现：首先基于多模态数据特征表示模型提取多模态数据语义特征，构建基于预训练模型的文本、图像、音视频等数据特征提取模型，分别完成单模态数据语义特征提取；其次，基于无监督图、属性图、异构图嵌入等方式，将不同类型数据投射到同一向量空间中进行表示，实现跨模态的多模态知识表示；在上述工作的基础上，将需要进行融合对齐的两个图谱分别转化为向量表示形式，然后基于得到的多模态知识表示，根据先验对齐数据学习知识图谱间实体对的映射关系，完成多模态知识融合消歧，解码映射到知识图谱中的相应节点，生成融合后新图谱、实体及其属性。

Description

多模态知识图谱构建方法

技术领域

本发明涉及人工智能领域知识工程技术，尤其涉及多模态知识图谱构建方法。

背景技术

随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识支柱，以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。传统的手工设计的图像特征繁琐,随着网络和技术的发展,用传统识别方法处理大数据背景下产生的海量图像,已经无法满足人们的需求。近年来，知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。知识图谱作为一种知识表示、存储的手段，因其表达能力强、扩展性好，并能够兼顾人类认知与机器自动处理，被认为是解决认知智能长期挑战和深度学习可解释性等困境的一种手段。知识图谱(Knowledge Graph)源于语义网、图数据库等相关学术研究领域，不同领域对知识图谱研究的侧重有所不同，如自然语言处理、知识工程、机器学习、数据库和数据管理等领域都有不同的研究与应用。知识图谱构建首先需要确定可用数据源，如结构化数据、机器可读的开放本体或辞典、开放链接数据和开放知识库、行业知识库和行业垂直网站、在线百科（维基、互动、百度）和文本等数据。然后，有效地采集数据，如开放链接数据采集、百科采集、文本信息采集（网络爬虫与主题爬虫）等。知识图谱（KG）是人工智能时代实现概念识别、实体发现、属性预测、协同推理、知识演化和关系挖掘等功能的底层关键技术，也是大知识与数据融合、数据认知与推理的核心技术。知识图谱构建过程是一个人机结合的不断迭代过程，以机器自动学习为主、专家定义与修正结合。需要人工介入的工作包括Schema定义、部分结构化知识准备、机器学习结果校验，依据用户的反馈、语料的增加与更新，不断进行模型的更新与迭代。在知识图谱构建过程，知识抽取、知识融合和知识计算是关键的工作。特别是针对文本数据，需要结合NLP技术从文本中抽取知识，也可以基于知识反向标注文本；利用RDF图模型，融合不同领域、不同结构、不同格式的知识；领域知识与业务计算相组合，在知识图谱上进行推理、机器学习、网络分析等知识计算。不同行业领域的数据来源广泛、形式多样，其每一种来源或形式都可以看作是一种模态，例如视频、图片、语音以及工业场景下的传感数据，红外、声谱等。而多模态数据学习与知识图谱的交互作用为人工智能的应用落地和大数据的价值闭环提供了极富想象力的可能性。知识图谱是一种比较通用的语义知识的形式化描述框架，它用节点表示语义符号，用边表示符号之间的语义关系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱技术包括知识表示、知识图谱构建和知识图谱应用三方面。知识图谱是由一些相互连接的实体和他们的属性构成的。目前，知识图谱并没有一个标准的定义，单单从字面上理解，知识图谱应该是一种更加结构化（主要是基于图）的知识库，将散乱的知识有效的组织起来，方便人们的查阅。本质上，知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。基本组成单位是“实体关系实体”三元组，以及实体及其相关属性值对，实体间通过关系相互联结，构成网状的知识结构。目前存在的表示方式仍是基于三元组形式完成的语义映射，在面对复杂的知识类型、多源融合的信息时，其表达能力仍然有限。知识图谱的重要性不仅在于它是一个全局知识库，更是支撑智能搜索和深度问答等智能应用的基础。大规模的知识库不仅蕴含了海量的知识，其结构、数据特征也极其复杂，这些对知识库实体对齐算法的准确率、执行效率提出了一定的挑战。识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看，知识图谱在本质上是一种概念网络，其中的节点表示物理世界的实体或概念，而实体间的各种语义关系则构成网络中的边．由此，知识图谱是对物理世界的一种符号表达。知识图谱本质是为了表示知识。目前，知识图谱已经被广泛用于处理结构化数据（采用本体+D2R技术）和文本数据（采用文本信息抽取技术），但是还有一类非结构化数据，即视觉数据，则相对关注度较低，而且相缺乏有效的技术手段来从这些数据中提取结构化知识。最近几年，虽然有一些多模态视觉技术提出，这些技术主要还是为了提升图像分类、图像生成、图像问答的效果，不能很好地支撑多模态知识图谱的构建。视觉数据库通常是图像或视频数据的丰富来源，并提供关于知识图谱中实体的充分视觉信息。显然，如果可以在在更大范围内进行链接预测和实体对齐，进而进行实体关系抽取，可以使现有的模型在综合考虑文本和视觉特征时获得更好的性能，这也是我们研究多模态知识图谱（multi-modal knowledge graph）的意义所在。然而，这些知识图谱很少有可视化的数据资源。目前，多模态知识图谱的研究重点主要集中在描述多媒体的可用数据集中，现有的工作重点是捕获多媒体文件的高级元数据(如作者、创建日期、文件大小、清晰度、持续时间)，而不是多媒体内容本身的音频或视觉特性。仅通过多媒体外部特征进行关联构建的知识图谱，其语义信息单一，无法有效地支撑知识挖掘推理等工作。

知识图谱的构建是一件困难的事情，是目前人工智能领域研究的热点和难点，特别是知识图谱的自动化构建。知识体系的构建也叫知识建模，是指采用什么样的方式表达知识，其核心就是构建一个本体对目标知识进行描述。所谓的本体是一个知识描述框架，它定义了知识的类别体系，每个类别下所属的概念和实体、某类概念和实体所具有的属性以及概念之间、实体之间的语义关系。知识表示表示是人类世界的一些经验、事实、思想等。例如，物理课本上的各种概念和定理；知识表示通常由大量的本体论约定的概念和实体组成，通过某一种有效的方式组织起来，使得知识系统能够得以搭建并支持高效的知识推理，方便人们表达和分享对世界的认知。知识表示是知识图谱中非常重要的概念，知识表示之于知识图谱的重要性，就好比内功心法之于绝世武功的重要性。知识图谱中的知识表示也是如此，知识的表示形式和手段决定了知识推理的形式和难度；此外，知识表示的形式也决定了知识获取的形式和难度。可见，一种合适的知识表示方法对知识图谱的构建至关重要。知识表示技术可以分成符号主义和联结主义。具体的表示方法可以分为三类。基于符号逻辑的知识表示主要包括逻辑表示法、产生式表示法和框架表示等。在目前大规模数据时代，已经不能很好地解决知识表示的问题。知识表示主要包括XML语言、RDF描述框架和OWL语言等。知识体系的构建有两种方法：一种是自顶向下：即先构建一个完善的知识体系，再将知识填充到这个知识体系中；另外一种是自底向上：即在知识抽取的过程中，自动的扩充和构建知识体系。目前比较流行的自底向上的方法。目前大多数知识图谱都是采用自底向上的方式进行构建，知识图谱大致的构建流程是个不断迭代更新的过程。通常，信息抽取包括如下的基本任务：实体识别，实体消歧，关系抽取以及事件抽取等。实体消岐是专门用于解决同名实体产生歧义问题的技术。实体消岐主要采用聚类的方法，聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度，常用的方法有：空间向量模型（词袋模型）、语义模型（与空间向量模型相似，不同的地方在于语义模型不仅包含词袋向量，而且包含一部分语义特征）；社会网络模型（该模型的基本假设是物以类聚人以群分，在社会化环境中，实体指称项的意义在很大程度上是由与其相关联的实体所决定的）；百科知识模型（百科类网站通常会为每个实体分配一个单独页面，其中包括指向其他实体页面的连接，百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度）。实体对齐主要用于消除异构数据中实体冲突、指向不明等不一致性问题，可以从顶层创建一个大规模的统一知识库，从而帮助机器理解多源异质的数据，形成高质量的知识库。成对实体对齐基于传统概率模型的实体对齐方法。基于机器学习的实体对齐方法。局部实体对齐方法：局部实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重，并通过加权求和计算总体的相似度，还可以使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度，算法为每个实体建立了名称向量与虚拟文档向量，名称向量用于标识实体的属性，虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值。全局集体实体对齐方法基于相似性传播的集体实体对齐方法。基于概率模型的集体实体对齐方法。知识体系的融合是两个或多个异构知识体系进行融合，相同的类别、属性、关系进行映射；实例的融合，就是两个图谱中的实例进行融合，包括实体实例和关系实例。虽然现有技术如IMGpedia和MMKG融合了多模态的知识，构建了多模态知识图谱，但其中也存在一些问题，例如在IMGpedia中关系类型稀疏，关系数量少，图像分类不清晰等，在MMKG中图像并没有作为单独的图像实体存在，而是依赖于相应的传统文本实体。这些问题对于多模态任务的发展有着较大制约。多模态知识图谱是在传统知识图谱的基础上，构建的多种模态（例如视觉模态）下的实体，以及多种模态实体间的多模态语义关系。例如在最新的一个多模态百科图谱Richpedia中，首先构建了图像模态伦敦眼图像与文本模态知识图谱实体（DBpedia实体：London eye）之间的多模态语义关系（rpo:imageof），之后还构建了图像模态实体伦敦眼与图像模态实体大本钟之间的多模态语义关系（rpo:nextTo）。与一般的文本知识图谱不同，Richpedia的出发点是构造一个多模态知识图谱，其中包含了全面的图像实体及其之间的关系。但是，文本知识图谱实体的图像资源有很大一部分是长尾分布。换句话说，平均每一个文本知识图谱实体在Wikipedia中只有很少的视觉信息。可视关系识别是视觉场景理解的关键之一，但是由于可视关系的稀疏性，大量长尾关系的有效预测往往具有很大的难度。虽然可以将图片的可视特征空间映射到关系空间使得在映射后的语义空间中头实体和可视关系的向量和接近于尾实体向量。这种做法虽然简单易实现，但无法避免TransE在应对一对多、多对多等关系预测时的不足。从多模态知识图谱的角度而言，文本知识图谱实体所包含的图像实体不仅要相关性高而且还要具有多样性，因此很难基于不同图像的像素特征直接检测出这些语义关系。从搜索引擎中获取的图像实体难免存在重复问题。

对于知识尤其是多模态图谱的构建，传统的做法把将不同模态分别完成抽取并通过图谱融合来形成最后的多模态图谱。先基于文本和图像进行信息抽取，对于抽取得到的多个特定模态图谱融合成多模态知识图谱。这样构建形成的多模态图谱存在以下问题：源头上并没有考虑不同模态特征之间的依赖和对应关系，使得最终融合的结果无法很好地刻画多模态数据本身蕴含的各种关联。

发明内容

本发明的发明目的是针对现有技术存在的不足之处，提供一种多模态知识图谱构建方法，通过提取多模态数据语义信息，进而通过融合关联将多媒体数据用于知识图谱构建中，使得知识图谱内容更加丰富，为认知智能提供基础知识库支撑。

本发明的上述目的可以通过以下措施来得到，一种多模态知识图谱构建方法，其特征在于包括如下步骤：

多模态数据语义特征提取：基于多模态数据特征表示模型提取多模态数据语义特征，构建基于预训练模型的文本、图像、音视频的数据特征提取模型，基于特征提取模型分别完成单模态数据语义特征提取、文本数据语义特征提取、图像特征提取、视频特征提取、图像数据的文本化描述信息提取和文本化描述、视频的文本化描述信息提取；

多模态知识表示：基于无监督图嵌入、属性图嵌入、异构图嵌入等方式，将不同类型数据投射到同一向量空间中进行表示，实现跨模态的多模态知识表示；

多模态知识融合消歧：在上述工作的基础上，将需要进行融合对齐的两个图谱分别转化为向量表示形式，然后基于得到的多模态知识表示，根据先验对齐数据学习知识图谱间实体对的映射关系，解码映射到知识图谱中的相应节点，生成融合后新图谱、实体及其属性，抽取模态特征不同视觉对象之间的关联，形成多模态场景，通过多模态知识融合自动消歧多模态数据，得到候选实体表示进行语义匹配排序，通过消息传递，将实体链接到多模态场景，形成多模态知识图谱。

本发明相比于现有技术具有如下有益效果：

丰富图谱语义信息，为人工智能由感知智能向认知智能推进助力。本发明采用模态数据语义特征提取、多模态知识表示、多模态知识融合消歧等步骤，利用多模态数据语义特征提取方法，可针对文本、图像、音视频等数据分别完成单模态数据语义特征提取，每一类型数据分别提取数据自身向量化特征和文本化描述特征，进而通过文本化描述信息进行关联。在传统单文本模态知识图谱基础之上添加了图像、音视频等多媒体信息，使知识类型更加丰富、立体，使智能认知更全面。

本发明基于无监督图嵌入、属性图嵌入、异构图嵌入等方式，将不同类型数据投射到同一向量空间中进行表示，实现跨模态的知识表示，进一步可支撑多模态知识融合与消歧；通过基于无监督图嵌入、属性图嵌入、异构图嵌入等方式，将不同类型数据投射到同一向量空间中进行表示，实现跨模态的知识表示，在实体类型缺失、实体属性值缺失或冲突时，可通过多维度描述进行查证补全，多维度描述，互补印证，使知识可信度更高，进而提升知识可信度和使用性。

本发明采用基于多模态知识表示的方法将需要进行融合对齐的两个图谱分别转化为向量表示形式，然后基于得到的知识表示根据先验对齐数据学习知识图谱间实体对的映射关系。实现多模态知识融合消歧，方便计算、推理，为知识推理提供多层次基础支撑，为知识图谱应用落地提供保障。知识推理常涉及关系推理、实体类型识别、实体属性值推理等，多模态知识图谱可提供多层次支撑：可解释的多模态实体关系、向量特征级的多模态实体关系，方便计算推理，扩展现有图谱仅够支撑基于规则的简单推理，为知识图谱应用落地提供有效途径。

附图说明

图1是本发明多模态知识图谱构建方法原理示意图。

图2 是本发明多模态知识表示原理示意图。

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

具体实施方式

参阅图1。根据本发明，采用如下步骤：

在多模态数据语义特征提取中，基于预训练模型的领域文本、图像、音视频等数据特征构建提取模型，基于特征提取模型分别完成单模态数据语义特征提取，具体步骤如下：

图像数据语义特征提取

从图像特征提取和图像的文本化描述两个层次完成图像数据语义特征抽取；

图像特征提取

采用包含 8 层神经网络，其中有 5 层卷积和 2 层全连接隐藏层，以及 1 个全连接输出层，卷积神经网络之AlexNet模型、深度学习VGG模型、残差网络ResNet或密集卷积网络DenseNet等深度神经网络的图像特征提取技术来提取图像中物体语义信息，进而构建具有较强表达能力的图像特征。基于AlexNet深度神经网络的图像特征提取方法，将能够从图像素材中提取更有效的隐藏信息，有利于后期构建知识图谱。

图像数据的文本化描述信息提取

采用编码器-解码器模型。具体的图像文本化特征提取步骤将如下所示：首先，在编码器部分使用LSTM递归神经网络编码句子，使用深度卷积网络（CNN）编码图像特征，构建联合多模态空间用来排列图像和描述，然后，在解码器部分使用基于深度神经网络的语言模型从编码器构建的多模态共享空间中产生新颖的描述。

视频数据语义特征提取

视频数据语义特征抽取主要从视频特征提取和视频的文本化描述两个层次完成，其中，视频特征提取采用双路CNN与长短期记忆网络（LSTM）LSTM相结合的视频特征提取方法。总体思路是在CNN框架中寻找时间域上的某个模式来表达局部运动信息，从而获得总体识别性能的提升。基本思想是用LSTM对帧的双路CNN最后一层的激活在时间轴上进行整合。具体实现是LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入，从左向右推进时间，从下到上通过5层LSTM，最上的softmax层在每个时间点给出分类结果，不同时间上的同一层网络进行参数共享。训练时，视频的分类结果在每帧都进行BP（backPropagation），同时，在网络架构中加入光流特征，作为每秒一帧的采样所引起的帧之间隐含的运动信息丢失的补偿。

视频的文本化描述信息提取采用学习直接将序列帧映射成序列句子模型S2VT（sequence to sequence - video to text）进行视频的文本描述提取。使用编码器-解码器结构encoder-decoder结构。编码器是将有用的视频信息使用神经网络CNN转化成特征并使长短期记忆网络LSTM对神经网络CNN特征进行时序建模，然后供解码器使用。解码器的结构和机器翻译任务的模型类似，使用两层的长短期记忆网络LSTM。使用分层长短期记忆网络LSTM将对增加的长距离依赖性（long-termdependency）有帮助，但同时会增加模型复杂度和训练时间，效果好坏因不同的情景会有所不同。

文本数据语义特征提取

文本数据语义提取包括词汇级、句法级、篇章级、跨篇章级等文本语义特征提取，其中，词汇级语义提取的结果支撑后续句法级、篇章级、跨篇章级文本语义特征的提取；词汇级文本语义提取主要提取文本中的实体、关键词、实体关系、新词发现等，句法级文本语义提取主要实现文本依存句法分析、文本句子相似度计算、元事件提取、句际关系分析等功能，篇章级文本语义提取主要完成文本分类聚类、文本篇章结构分析、句际关系提取、文本情感分析、主题提取、观点提取、事件提取等功能。

参阅图2。在多模态知识表示中：多模态知识表示主要用于针对实体类型缺失、属性值缺失，将包含文本、图像、视频等多类型实体的知识图谱分别采用无监督图嵌入、属性图嵌入知识合并为异构图嵌入等方式进行统一图向量知识表示，实现知识的补全、实体类型缺失补全和属性值缺失补全表示。具体步骤如下：

实体类型缺失补全：利用无监督图嵌入方法进行实体类型缺失补全。不需要节点的标签信息，基于Deep Walk算法技术，将随机游走得到的节点序列当做句子，通过随机游走生成器随机游走获取节点序列，从截断的随机游走序列中得到网络的局部信息，再通过一个语言模型更新程序局部信息来学习节点的潜在表示，进而结合word2vec词向量模型训练词向量来映射每个词到一个向量，得到节点的向量表示，实现实体类型的补全。

属性值缺失补全：属性图嵌入的出发点是无监督图嵌入方法没有考虑节点的属性信息，如文本内容等，采取的方法是将节点属性和边缘属性加入图嵌入过程，改善节点的向量表示质量。

多模态知识表示：利用异构图嵌入技术，考虑多模态知识图谱中节点的多类型特性，通过联合最小化每种模态的损失来学习节点嵌入，同时考虑到图谱的动态变化，构建动态异构图嵌入模型，增强图嵌入模型的可扩展性和稳健性。

多模态知识融合消歧：基于多模态知识表示的方法，将需要进行融合对齐的两个图谱分别转化为向量表示形式，然后基于得到的知识表示根据先验对齐数据学习知识图谱间实体对的映射关系。针对两个不同图谱数据，完成基于知识表示模型的实体对齐、基于实体属性阈值和知识来源可信度的实体属性检测和消歧，生成融合后新图谱的概念、实体及其属性。

实体对齐，即实体匹配，是判断相同或不同图谱中两个实体是否表示同一物理对象的过程，实体对齐可以分为成对实体对齐和协同实体对齐两类不同的算法。成对实体对齐是指独立地判断两实体是否对应同一物理对象，通过匹配实体属性等特征，判断他们的对齐程度。协同实体对齐认为不同实体间的对齐是相互影响的，通过协调不用对象间的匹配情况达到一个全局最优的对齐结果。本发明使用基于图嵌入的知识表示方法生成图谱实体向量，在基于向量相似度计算实现图谱实体对齐。

实体属性冲突检测与消解，即识别对齐后实体属性的冲突项。对冲突的处理策略分为冲突忽略、冲突避免、冲突消解三类。同时，可以通过投票和质量估计的方法实现实体属性冲突检测与消解。本发明使用基于实体属性阈值范围和领域数据特点实现冲突避免，使用图谱知识来源可信度计算实现图谱属性冲突消解。

在上述实体对齐，即实体匹配中，将实体对齐分为成对实体对齐和协同实体对齐两类不同的算法，其中，成对实体对齐为独立地判断两实体是否对应同一物理对象，协同实体对齐为不同实体间的对齐；基于图嵌入的知识表示方法生成图谱实体向量，在基于向量相似度计算实现图谱实体对齐，通过匹配实体属性特征，判断成对实体对齐的对齐程度通过协调不用对象间的匹配情况达到一个全局最优的对齐结果；识别对齐后实体属性的冲突项，基于实体属性阈值范围和领域数据特点实现冲突避免，使用图谱知识来源可信度计算实现图谱属性冲突消解。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种多模态知识图谱构建方法，其特征在于，包括如下步骤：

多模态知识表示：基于无监督图嵌入、属性图嵌入和异构图嵌入，将不同类型数据投射到同一向量空间中进行表示，实现跨模态的多模态知识表示；

多模态知识融合消歧：在上述工作的基础上，将需要进行融合对齐的两个图谱分别转化为向量表示形式，然后基于得到的多模态知识表示，根据先验对齐数据学习知识图谱间实体对的映射关系，解码映射到知识图谱中的相应节点，生成融合后新图谱、实体及其属性，抽取模态特征不同视觉对象之间的关联，形成多模态场景，通过多模态知识融合自动消歧多模态数据，得到候选实体表示进行语义匹配排序，通过消息传递，将实体链接到多模态场景，形成多模态知识图谱；

在图像特征提取中，采用包含8层神经网络，其中有5层卷积和2层全连接隐藏层，以及1个全连接输出层卷积神经网络之AlexNet模型、深度学习VGG模型、残差网络ResNet或密集卷积网络DenseNet的深度神经网络的图像特征提取技术来提取图像中物体语义信息，进而构建具有较强表达能力的图像特征；

在图像数据的文本化描述信息提取中，采用编码器-解码器模型，首先，在编码器部分使用LSTM递归神经网络编码句子和深度卷积网络CNN编码图像特征，构建联合多模态空间用来排列图像和描述，然后，在解码器部分使用基于深度神经网络的语言模型，从编码器构建的多模态共享空间中产生新颖的描述；

从视频特征提取和视频的文本化描述两个层次完成视频数据语义特征抽取和视频特征提取，采用双路CNN与长短期记忆网络LSTM相结合的视频特征提取方法，在CNN框架中寻找时间域上的某个模式来表达局部运动信息，用LSTM对帧的双路CNN最后一层的激活在时间轴上进行整合，LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入，从左向右推进时间，从下到上通过5层LSTM，最上的softmax层在每个时间点给出分类结果，不同时间上的同一层网络进行参数共享，训练时，视频的分类结果在每帧都进行BP，即backPropagation，同时，在网络架构中加入光流特征，作为每秒一帧的采样所引起的帧之间隐含的运动信息丢失的补偿；

视频的文本化描述信息提取，直接将序列帧映射成序列句子模型S2VT，即sequence tosequence-video to text，进行视频的文本描述提取，使用编码器-解码器结构encoder-decoder，将有用的视频信息使用神经网络CNN转化成特征，并使用长短期记忆网络LSTM对神经网络CNN特征进行时序建模，然后供解码器使用；

在文本数据语义特征提取中，文本数据语义提取包括词汇级、句法级、篇章级、跨篇章级的文本语义特征提取，其中，词汇级语义提取的结果支撑后续句法级、篇章级、跨篇章级文本语义特征的提取；词汇级文本语义提取主要提取文本中的实体、关键词、实体关系、新词发现，句法级文本语义提取实现文本依存句法分析、文本句子相似度计算、元事件提取、句际关系分析；篇章级文本语义提取完成文本分类聚类、文本篇章结构分析、句际关系提取、文本情感分析、主题提取、观点提取和事件。

2.如权利要求1所述的多模态知识图谱构建方法，其特征在于：在多模态知识表示中：针对实体类型缺失、属性值缺失，将包含文本、图像、视频多类型实体的知识图谱分别采用无监督图嵌入、属性图嵌入知识合并为异构图嵌入方式进行统一图向量知识表示，实现知识的补全、实体类型缺失补全和属性值缺失补全表示。

3.如权利要求2所述的多模态知识图谱构建方法，其特征在于：实体类型缺失补全利用无监督图嵌入方法进行实体类型缺失补全，基于Deep Walk算法技术，将随机游走得到的节点序列当做句子，通过随机游走生成器随机游走获取节点序列，从截断的随机游走序列中得到网络的局部信息，再通过一个语言模型更新程序局部信息来学习节点的潜在表示，进而结合word2vec词向量模型训练词向量来映射每个词到一个向量，得到节点的向量表示，实现实体类型的补全；属性值缺失补全采取的方法是将节点属性和边缘属性加入图嵌入过程，改善节点的向量表示质量；多模态知识表示利用异构图嵌入技术，通过联合最小化每种模态的损失来学习节点嵌入，根据图谱的动态变化构建动态异构图嵌入模型性。

4.如权利要求1所述的多模态知识图谱构建方法，其特征在于：在多模态知识融合消歧，基于多模态知识表示的方法将需要进行融合对齐的两个图谱分别转化为向量表示形式，然后基于得到的知识表示，根据先验对齐数据学习知识图谱间实体对的映射关系，针对两个不同图谱数据，完成基于知识表示模型的实体对齐，基于实体属性阈值和知识来源可信度的实体属性检测和消歧，生成融合后新图谱的概念、实体及其属性。

5.如权利要求4所述的多模态知识图谱构建方法，其特征在于：实体对齐，即实体匹配，实体对齐分为成对实体对齐和协同实体对齐两类不同的算法，其中，成对实体对齐为独立地判断两实体是否对应同一物理对象，协同实体对齐为不同实体间的对齐；基于图嵌入的知识表示方法生成图谱实体向量，在基于向量相似度计算实现图谱实体对齐，通过匹配实体属性特征，判断成对实体对齐的对齐程度通过协调不用对象间的匹配情况达到一个全局最优的对齐结果；识别对齐后实体属性的冲突项，基于实体属性阈值范围和领域数据特点实现冲突避免，使用图谱知识来源可信度计算实现图谱属性冲突消解。