CN112200317B - 多模态知识图谱构建方法 - Google Patents
多模态知识图谱构建方法 Download PDFInfo
- Publication number
- CN112200317B CN112200317B CN202011043062.2A CN202011043062A CN112200317B CN 112200317 B CN112200317 B CN 112200317B CN 202011043062 A CN202011043062 A CN 202011043062A CN 112200317 B CN112200317 B CN 112200317B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- modal
- data
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 89
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 44
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000007812 deficiency Effects 0.000 claims description 8
- 238000005295 random walk Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000008451 emotion Effects 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000019771 cognition Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010225 co-occurrence analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的一种多模态知识图谱构建方法,涉及大数据领域知识工程技术,本发明通过下述技术方案予以实现:首先基于多模态数据特征表示模型提取多模态数据语义特征,构建基于预训练模型的文本、图像、音视频等数据特征提取模型,分别完成单模态数据语义特征提取;其次,基于无监督图、属性图、异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的多模态知识表示;在上述工作的基础上,将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的多模态知识表示,根据先验对齐数据学习知识图谱间实体对的映射关系,完成多模态知识融合消歧,解码映射到知识图谱中的相应节点,生成融合后新图谱、实体及其属性。
Description
技术领域
本发明涉及人工智能领域知识工程技术,尤其涉及多模态知识图谱构建方法。
背景技术
随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。传统的手工设计的图像特征繁琐,随着网络和技术的发展,用传统识别方法处理大数据背景下产生的海量图像,已经无法满足人们的需求。近年来,知识图谱在语义搜索、问答、知识管理等领域得到了广泛的应用。知识图谱作为一种知识表示、存储的手段,因其表达能力强、扩展性好,并能够兼顾人类认知与机器自动处理,被认为是解决认知智能长期挑战和深度学习可解释性等困境的一种手段。知识图谱(Knowledge Graph)源于语义网、图数据库等相关学术研究领域,不同领域对知识图谱研究的侧重有所不同,如自然语言处理、知识工程、机器学习、数据库和数据管理等领域都有不同的研究与应用。知识图谱构建首先需要确定可用数据源,如结构化数据、机器可读的开放本体或辞典、开放链接数据和开放知识库、行业知识库和行业垂直网站、在线百科(维基、互动、百度)和文本等数据。然后,有效地采集数据,如开放链接数据采集、百科采集、文本信息采集(网络爬虫与主题爬虫)等。知识图谱(KG)是人工智能时代实现概念识别、实体发现、属性预测、协同推理、知识演化和关系挖掘等功能的底层关键技术,也是大知识与数据融合、数据认知与推理的核心技术。知识图谱构建过程是一个人机结合的不断迭代过程,以机器自动学习为主、专家定义与修正结合。需要人工介入的工作包括Schema定义、部分结构化知识准备、机器学习结果校验,依据用户的反馈、语料的增加与更新,不断进行模型的更新与迭代。在知识图谱构建过程,知识抽取、知识融合和知识计算是关键的工作。特别是针对文本数据,需要结合NLP技术从文本中抽取知识,也可以基于知识反向标注文本;利用RDF图模型,融合不同领域、不同结构、不同格式的知识;领域知识与业务计算相组合,在知识图谱上进行推理、机器学习、网络分析等知识计算。不同行业领域的数据来源广泛、形式多样,其每一种来源或形式都可以看作是一种模态,例如视频、图片、语音以及工业场景下的传感数据,红外、声谱等。而多模态数据学习与知识图谱的交互作用为人工智能的应用落地和大数据的价值闭环提供了极富想象力的可能性。知识图谱是一种比较通用的语义知识的形式化描述框架,它用节点表示语义符号,用边表示符号之间的语义关系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。知识图谱技术包括知识表示、知识图谱构建和知识图谱应用三方面。知识图谱是由一些相互连接的实体和他们的属性构成的。目前,知识图谱并没有一个标准的定义,单单从字面上理解,知识图谱应该是一种更加结构化(主要是基于图)的知识库,将散乱的知识有效的组织起来,方便人们的查阅。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。基本组成单位是“实体关系实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。目前存在的表示方式仍是基于三元组形式完成的语义映射,在面对复杂的知识类型、多源融合的信息时,其表达能力仍然有限。知识图谱的重要性不仅在于它是一个全局知识库,更是支撑智能搜索和深度问答等智能应用的基础。大规模的知识库不仅蕴含了海量的知识,其结构、数据特征也极其复杂,这些对知识库实体对齐算法的准确率、执行效率提出了一定的挑战。识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体或概念,而实体间的各种语义关系则构成网络中的边.由此,知识图谱是对物理世界的一种符号表达。知识图谱本质是为了表示知识。目前,知识图谱已经被广泛用于处理结构化数据(采用本体+D2R技术)和文本数据(采用文本信息抽取技术),但是还有一类非结构化数据,即视觉数据,则相对关注度较低,而且相缺乏有效的技术手段来从这些数据中提取结构化知识。最近几年,虽然有一些多模态视觉技术提出,这些技术主要还是为了提升图像分类、图像生成、图像问答的效果,不能很好地支撑多模态知识图谱的构建。视觉数据库通常是图像或视频数据的丰富来源,并提供关于知识图谱中实体的充分视觉信息。显然,如果可以在在更大范围内进行链接预测和实体对齐,进而进行实体关系抽取,可以使现有的模型在综合考虑文本和视觉特征时获得更好的性能,这也是我们研究多模态知识图谱(multi-modal knowledge graph)的意义所在。然而,这些知识图谱很少有可视化的数据资源。目前,多模态知识图谱的研究重点主要集中在描述多媒体的可用数据集中,现有的工作重点是捕获多媒体文件的高级元数据(如作者、创建日期、文件大小、清晰度、持续时间),而不是多媒体内容本身的音频或视觉特性。仅通过多媒体外部特征进行关联构建的知识图谱,其语义信息单一,无法有效地支撑知识挖掘推理等工作。
知识图谱的构建是一件困难的事情,是目前人工智能领域研究的热点和难点,特别是知识图谱的自动化构建。知识体系的构建也叫知识建模,是指采用什么样的方式表达知识,其核心就是构建一个本体对目标知识进行描述。所谓的本体是一个知识描述框架,它定义了知识的类别体系,每个类别下所属的概念和实体、某类概念和实体所具有的属性以及概念之间、实体之间的语义关系。知识表示表示是人类世界的一些经验、事实、思想等。例如,物理课本上的各种概念和定理;知识表示通常由大量的本体论约定的概念和实体组成,通过某一种有效的方式组织起来,使得知识系统能够得以搭建并支持高效的知识推理,方便人们表达和分享对世界的认知。知识表示是知识图谱中非常重要的概念,知识表示之于知识图谱的重要性,就好比内功心法之于绝世武功的重要性。知识图谱中的知识表示也是如此,知识的表示形式和手段决定了知识推理的形式和难度;此外,知识表示的形式也决定了知识获取的形式和难度。可见,一种合适的知识表示方法对知识图谱的构建至关重要。知识表示技术可以分成符号主义和联结主义。具体的表示方法可以分为三类。基于符号逻辑的知识表示主要包括逻辑表示法、产生式表示法和框架表示等。在目前大规模数据时代,已经不能很好地解决知识表示的问题。知识表示主要包括XML语言、RDF描述框架和OWL语言等。知识体系的构建有两种方法:一种是自顶向下:即先构建一个完善的知识体系,再将知识填充到这个知识体系中;另外一种是自底向上:即在知识抽取的过程中,自动的扩充和构建知识体系。目前比较流行的自底向上的方法。目前大多数知识图谱都是采用自底向上的方式进行构建,知识图谱大致的构建流程是个不断迭代更新的过程。通常,信息抽取包括如下的基本任务:实体识别,实体消歧,关系抽取以及事件抽取等。实体消岐是专门用于解决同名实体产生歧义问题的技术。实体消岐主要采用聚类的方法,聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度,常用的方法有:空间向量模型(词袋模型)、语义模型(与空间向量模型相似,不同的地方在于语义模型不仅包含词袋向量,而且包含一部分语义特征);社会网络模型(该模型的基本假设是物以类聚人以群分,在社会化环境中,实体指称项的意义在很大程度上是由与其相关联的实体所决定的);百科知识模型(百科类网站通常会为每个实体分配一个单独页面,其中包括指向其他实体页面的连接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度)。实体对齐主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识库。成对实体对齐基于传统概率模型的实体对齐方法。基于机器学习的实体对齐方法。局部实体对齐方法:局部实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可以使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度,算法为每个实体建立了名称向量与虚拟文档向量,名称向量用于标识实体的属性,虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值。全局集体实体对齐方法基于相似性传播的集体实体对齐方法。基于概率模型的集体实体对齐方法。知识体系的融合是两个或多个异构知识体系进行融合,相同的类别、属性、关系进行映射;实例的融合,就是两个图谱中的实例进行融合,包括实体实例和关系实例。虽然现有技术如IMGpedia和MMKG融合了多模态的知识,构建了多模态知识图谱,但其中也存在一些问题,例如在IMGpedia中关系类型稀疏,关系数量少,图像分类不清晰等,在MMKG中图像并没有作为单独的图像实体存在,而是依赖于相应的传统文本实体。这些问题对于多模态任务的发展有着较大制约。多模态知识图谱是在传统知识图谱的基础上,构建的多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。例如在最新的一个多模态百科图谱Richpedia中,首先构建了图像模态伦敦眼图像与文本模态知识图谱实体(DBpedia实体:London eye)之间的多模态语义关系(rpo:imageof),之后还构建了图像模态实体伦敦眼与图像模态实体大本钟之间的多模态语义关系(rpo:nextTo)。与一般的文本知识图谱不同,Richpedia的出发点是构造一个多模态知识图谱,其中包含了全面的图像实体及其之间的关系。但是,文本知识图谱实体的图像资源有很大一部分是长尾分布。换句话说,平均每一个文本知识图谱实体在Wikipedia中只有很少的视觉信息。可视关系识别是视觉场景理解的关键之一,但是由于可视关系的稀疏性,大量长尾关系的有效预测往往具有很大的难度。虽然可以将图片的可视特征空间映射到关系空间使得在映射后的语义空间中头实体和可视关系的向量和接近于尾实体向量。这种做法虽然简单易实现,但无法避免TransE在应对一对多、多对多等关系预测时的不足。从多模态知识图谱的角度而言,文本知识图谱实体所包含的图像实体不仅要相关性高而且还要具有多样性,因此很难基于不同图像的像素特征直接检测出这些语义关系。从搜索引擎中获取的图像实体难免存在重复问题。
对于知识尤其是多模态图谱的构建,传统的做法把将不同模态分别完成抽取并通过图谱融合来形成最后的多模态图谱。先基于文本和图像进行信息抽取,对于抽取得到的多个特定模态图谱融合成多模态知识图谱。这样构建形成的多模态图谱存在以下问题:源头上并没有考虑不同模态特征之间的依赖和对应关系,使得最终融合的结果无法很好地刻画多模态数据本身蕴含的各种关联。
发明内容
本发明的发明目的是针对现有技术存在的不足之处,提供一种多模态知识图谱构建方法,通过提取多模态数据语义信息,进而通过融合关联将多媒体数据用于知识图谱构建中,使得知识图谱内容更加丰富,为认知智能提供基础知识库支撑。
本发明的上述目的可以通过以下措施来得到,一种多模态知识图谱构建方法,其特征在于包括如下步骤:
多模态数据语义特征提取:基于多模态数据特征表示模型提取多模态数据语义特征,构建基于预训练模型的文本、图像、音视频的数据特征提取模型,基于特征提取模型分别完成单模态数据语义特征提取、文本数据语义特征提取、图像特征提取、视频特征提取、图像数据的文本化描述信息提取和文本化描述、视频的文本化描述信息提取;
多模态知识表示:基于无监督图嵌入、属性图嵌入、异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的多模态知识表示;
多模态知识融合消歧:在上述工作的基础上,将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的多模态知识表示,根据先验对齐数据学习知识图谱间实体对的映射关系,解码映射到知识图谱中的相应节点,生成融合后新图谱、实体及其属性,抽取模态特征不同视觉对象之间的关联,形成多模态场景,通过多模态知识融合自动消歧多模态数据,得到候选实体表示进行语义匹配排序,通过消息传递,将实体链接到多模态场景,形成多模态知识图谱。
本发明相比于现有技术具有如下有益效果:
丰富图谱语义信息,为人工智能由感知智能向认知智能推进助力。本发明采用模态数据语义特征提取、多模态知识表示、多模态知识融合消歧等步骤,利用多模态数据语义特征提取方法,可针对文本、图像、音视频等数据分别完成单模态数据语义特征提取,每一类型数据分别提取数据自身向量化特征和文本化描述特征,进而通过文本化描述信息进行关联。在传统单文本模态知识图谱基础之上添加了图像、音视频等多媒体信息,使知识类型更加丰富、立体,使智能认知更全面。
本发明基于无监督图嵌入、属性图嵌入、异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的知识表示,进一步可支撑多模态知识融合与消歧;通过基于无监督图嵌入、属性图嵌入、异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的知识表示,在实体类型缺失、实体属性值缺失或冲突时,可通过多维度描述进行查证补全,多维度描述,互补印证,使知识可信度更高,进而提升知识可信度和使用性。
本发明采用基于多模态知识表示的方法将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的知识表示根据先验对齐数据学习知识图谱间实体对的映射关系。实现多模态知识融合消歧,方便计算、推理,为知识推理提供多层次基础支撑,为知识图谱应用落地提供保障。知识推理常涉及关系推理、实体类型识别、实体属性值推理等,多模态知识图谱可提供多层次支撑:可解释的多模态实体关系、向量特征级的多模态实体关系,方便计算推理,扩展现有图谱仅够支撑基于规则的简单推理,为知识图谱应用落地提供有效途径。
附图说明
图1是本发明多模态知识图谱构建方法原理示意图。
图2 是本发明多模态知识表示原理示意图。
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
具体实施方式
参阅图1。根据本发明,采用如下步骤:
多模态数据语义特征提取:基于多模态数据特征表示模型提取多模态数据语义特征,构建基于预训练模型的文本、图像、音视频的数据特征提取模型,基于特征提取模型分别完成单模态数据语义特征提取、文本数据语义特征提取、图像特征提取、视频特征提取、图像数据的文本化描述信息提取和文本化描述、视频的文本化描述信息提取;
多模态知识表示:基于无监督图嵌入、属性图嵌入、异构图嵌入等方式,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的多模态知识表示;
多模态知识融合消歧:在上述工作的基础上,将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的多模态知识表示,根据先验对齐数据学习知识图谱间实体对的映射关系,解码映射到知识图谱中的相应节点,生成融合后新图谱、实体及其属性,抽取模态特征不同视觉对象之间的关联,形成多模态场景,通过多模态知识融合自动消歧多模态数据,得到候选实体表示进行语义匹配排序,通过消息传递,将实体链接到多模态场景,形成多模态知识图谱。
在多模态数据语义特征提取中,基于预训练模型的领域文本、图像、音视频等数据特征构建提取模型,基于特征提取模型分别完成单模态数据语义特征提取,具体步骤如下:
图像数据语义特征提取
从图像特征提取和图像的文本化描述两个层次完成图像数据语义特征抽取;
图像特征提取
采用包含 8 层神经网络,其中有 5 层卷积和 2 层全连接隐藏层,以及 1 个全连接输出层,卷积神经网络之AlexNet模型、深度学习VGG模型、残差网络ResNet或密集卷积网络DenseNet等深度神经网络的图像特征提取技术来提取图像中物体语义信息,进而构建具有较强表达能力的图像特征。基于AlexNet深度神经网络的图像特征提取方法,将能够从图像素材中提取更有效的隐藏信息,有利于后期构建知识图谱。
图像数据的文本化描述信息提取
采用编码器-解码器模型。具体的图像文本化特征提取步骤将如下所示:首先,在编码器部分使用LSTM递归神经网络编码句子,使用深度卷积网络(CNN)编码图像特征,构建联合多模态空间用来排列图像和描述,然后,在解码器部分使用基于深度神经网络的语言模型从编码器构建的多模态共享空间中产生新颖的描述。
视频数据语义特征提取
视频数据语义特征抽取主要从视频特征提取和视频的文本化描述两个层次完成,其中,视频特征提取采用双路CNN与长短期记忆网络(LSTM)LSTM相结合的视频特征提取方法。总体思路是在CNN框架中寻找时间域上的某个模式来表达局部运动信息,从而获得总体识别性能的提升。基本思想是用LSTM对帧的双路CNN最后一层的激活在时间轴上进行整合。具体实现是LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入,从左向右推进时间,从下到上通过5层LSTM,最上的softmax层在每个时间点给出分类结果,不同时间上的同一层网络进行参数共享。训练时,视频的分类结果在每帧都进行BP(backPropagation),同时,在网络架构中加入光流特征,作为每秒一帧的采样所引起的帧之间隐含的运动信息丢失的补偿。
视频的文本化描述信息提取采用学习直接将序列帧映射成序列句子模型S2VT(sequence to sequence - video to text)进行视频的文本描述提取。使用编码器-解码器结构encoder-decoder结构。编码器是将有用的视频信息使用神经网络CNN转化成特征并使长短期记忆网络LSTM对神经网络CNN特征进行时序建模,然后供解码器使用。解码器的结构和机器翻译任务的模型类似,使用两层的长短期记忆网络LSTM。使用分层长短期记忆网络LSTM将对增加的长距离依赖性(long-termdependency)有帮助,但同时会增加模型复杂度和训练时间,效果好坏因不同的情景会有所不同。
文本数据语义特征提取
文本数据语义提取包括词汇级、句法级、篇章级、跨篇章级等文本语义特征提取,其中,词汇级语义提取的结果支撑后续句法级、篇章级、跨篇章级文本语义特征的提取;词汇级文本语义提取主要提取文本中的实体、关键词、实体关系、新词发现等,句法级文本语义提取主要实现文本依存句法分析、文本句子相似度计算、元事件提取、句际关系分析等功能,篇章级文本语义提取主要完成文本分类聚类、文本篇章结构分析、句际关系提取、文本情感分析、主题提取、观点提取、事件提取等功能。
参阅图2。在多模态知识表示中:多模态知识表示主要用于针对实体类型缺失、属性值缺失,将包含文本、图像、视频等多类型实体的知识图谱分别采用无监督图嵌入、属性图嵌入知识合并为异构图嵌入等方式进行统一图向量知识表示,实现知识的补全、实体类型缺失补全和属性值缺失补全表示。具体步骤如下:
实体类型缺失补全:利用无监督图嵌入方法进行实体类型缺失补全。不需要节点的标签信息,基于Deep Walk算法技术,将随机游走得到的节点序列当做句子,通过随机游走生成器随机游走获取节点序列,从截断的随机游走序列中得到网络的局部信息,再通过一个语言模型更新程序局部信息来学习节点的潜在表示,进而结合word2vec词向量模型训练词向量来映射每个词到一个向量,得到节点的向量表示,实现实体类型的补全。
属性值缺失补全:属性图嵌入的出发点是无监督图嵌入方法没有考虑节点的属性信息,如文本内容等,采取的方法是将节点属性和边缘属性加入图嵌入过程,改善节点的向量表示质量。
多模态知识表示:利用异构图嵌入技术,考虑多模态知识图谱中节点的多类型特性,通过联合最小化每种模态的损失来学习节点嵌入,同时考虑到图谱的动态变化,构建动态异构图嵌入模型,增强图嵌入模型的可扩展性和稳健性。
多模态知识融合消歧:基于多模态知识表示的方法,将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的知识表示根据先验对齐数据学习知识图谱间实体对的映射关系。针对两个不同图谱数据,完成基于知识表示模型的实体对齐、基于实体属性阈值和知识来源可信度的实体属性检测和消歧,生成融合后新图谱的概念、实体及其属性。
实体对齐,即实体匹配,是判断相同或不同图谱中两个实体是否表示同一物理对象的过程,实体对齐可以分为成对实体对齐和协同实体对齐两类不同的算法。成对实体对齐是指独立地判断两实体是否对应同一物理对象,通过匹配实体属性等特征,判断他们的对齐程度。协同实体对齐认为不同实体间的对齐是相互影响的,通过协调不用对象间的匹配情况达到一个全局最优的对齐结果。本发明使用基于图嵌入的知识表示方法生成图谱实体向量,在基于向量相似度计算实现图谱实体对齐。
实体属性冲突检测与消解,即识别对齐后实体属性的冲突项。对冲突的处理策略分为冲突忽略、冲突避免、冲突消解三类。同时,可以通过投票和质量估计的方法实现实体属性冲突检测与消解。本发明使用基于实体属性阈值范围和领域数据特点实现冲突避免,使用图谱知识来源可信度计算实现图谱属性冲突消解。
在上述实体对齐,即实体匹配中,将实体对齐分为成对实体对齐和协同实体对齐两类不同的算法,其中,成对实体对齐为独立地判断两实体是否对应同一物理对象,协同实体对齐为不同实体间的对齐;基于图嵌入的知识表示方法生成图谱实体向量,在基于向量相似度计算实现图谱实体对齐,通过匹配实体属性特征,判断成对实体对齐的对齐程度通过协调不用对象间的匹配情况达到一个全局最优的对齐结果;识别对齐后实体属性的冲突项,基于实体属性阈值范围和领域数据特点实现冲突避免,使用图谱知识来源可信度计算实现图谱属性冲突消解。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (5)
1.一种多模态知识图谱构建方法,其特征在于,包括如下步骤:
多模态数据语义特征提取:基于多模态数据特征表示模型提取多模态数据语义特征,构建基于预训练模型的文本、图像、音视频的数据特征提取模型,基于特征提取模型分别完成单模态数据语义特征提取、文本数据语义特征提取、图像特征提取、视频特征提取、图像数据的文本化描述信息提取和文本化描述、视频的文本化描述信息提取;
多模态知识表示:基于无监督图嵌入、属性图嵌入和异构图嵌入,将不同类型数据投射到同一向量空间中进行表示,实现跨模态的多模态知识表示;
多模态知识融合消歧:在上述工作的基础上,将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的多模态知识表示,根据先验对齐数据学习知识图谱间实体对的映射关系,解码映射到知识图谱中的相应节点,生成融合后新图谱、实体及其属性,抽取模态特征不同视觉对象之间的关联,形成多模态场景,通过多模态知识融合自动消歧多模态数据,得到候选实体表示进行语义匹配排序,通过消息传递,将实体链接到多模态场景,形成多模态知识图谱;
在图像特征提取中,采用包含8层神经网络,其中有5层卷积和2层全连接隐藏层,以及1个全连接输出层卷积神经网络之AlexNet模型、深度学习VGG模型、残差网络ResNet或密集卷积网络DenseNet的深度神经网络的图像特征提取技术来提取图像中物体语义信息,进而构建具有较强表达能力的图像特征;
在图像数据的文本化描述信息提取中,采用编码器-解码器模型,首先,在编码器部分使用LSTM递归神经网络编码句子和深度卷积网络CNN编码图像特征,构建联合多模态空间用来排列图像和描述,然后,在解码器部分使用基于深度神经网络的语言模型,从编码器构建的多模态共享空间中产生新颖的描述;
从视频特征提取和视频的文本化描述两个层次完成视频数据语义特征抽取和视频特征提取,采用双路CNN与长短期记忆网络LSTM相结合的视频特征提取方法,在CNN框架中寻找时间域上的某个模式来表达局部运动信息,用LSTM对帧的双路CNN最后一层的激活在时间轴上进行整合,LSTM把每个连续帧的双路CNN最后一层卷积特征作为输入,从左向右推进时间,从下到上通过5层LSTM,最上的softmax层在每个时间点给出分类结果,不同时间上的同一层网络进行参数共享,训练时,视频的分类结果在每帧都进行BP,即backPropagation,同时,在网络架构中加入光流特征,作为每秒一帧的采样所引起的帧之间隐含的运动信息丢失的补偿;
视频的文本化描述信息提取,直接将序列帧映射成序列句子模型S2VT,即sequence tosequence-video to text,进行视频的文本描述提取,使用编码器-解码器结构encoder-decoder,将有用的视频信息使用神经网络CNN转化成特征,并使用长短期记忆网络LSTM对神经网络CNN特征进行时序建模,然后供解码器使用;
在文本数据语义特征提取中,文本数据语义提取包括词汇级、句法级、篇章级、跨篇章级的文本语义特征提取,其中,词汇级语义提取的结果支撑后续句法级、篇章级、跨篇章级文本语义特征的提取;词汇级文本语义提取主要提取文本中的实体、关键词、实体关系、新词发现,句法级文本语义提取实现文本依存句法分析、文本句子相似度计算、元事件提取、句际关系分析;篇章级文本语义提取完成文本分类聚类、文本篇章结构分析、句际关系提取、文本情感分析、主题提取、观点提取和事件。
2.如权利要求1所述的多模态知识图谱构建方法,其特征在于:在多模态知识表示中:针对实体类型缺失、属性值缺失,将包含文本、图像、视频多类型实体的知识图谱分别采用无监督图嵌入、属性图嵌入知识合并为异构图嵌入方式进行统一图向量知识表示,实现知识的补全、实体类型缺失补全和属性值缺失补全表示。
3.如权利要求2所述的多模态知识图谱构建方法,其特征在于:实体类型缺失补全利用无监督图嵌入方法进行实体类型缺失补全,基于Deep Walk算法技术,将随机游走得到的节点序列当做句子,通过随机游走生成器随机游走获取节点序列,从截断的随机游走序列中得到网络的局部信息,再通过一个语言模型更新程序局部信息来学习节点的潜在表示,进而结合word2vec词向量模型训练词向量来映射每个词到一个向量,得到节点的向量表示,实现实体类型的补全;属性值缺失补全采取的方法是将节点属性和边缘属性加入图嵌入过程,改善节点的向量表示质量;多模态知识表示利用异构图嵌入技术,通过联合最小化每种模态的损失来学习节点嵌入,根据图谱的动态变化构建动态异构图嵌入模型性。
4.如权利要求1所述的多模态知识图谱构建方法,其特征在于:在多模态知识融合消歧,基于多模态知识表示的方法将需要进行融合对齐的两个图谱分别转化为向量表示形式,然后基于得到的知识表示,根据先验对齐数据学习知识图谱间实体对的映射关系,针对两个不同图谱数据,完成基于知识表示模型的实体对齐,基于实体属性阈值和知识来源可信度的实体属性检测和消歧,生成融合后新图谱的概念、实体及其属性。
5.如权利要求4所述的多模态知识图谱构建方法,其特征在于:实体对齐,即实体匹配,实体对齐分为成对实体对齐和协同实体对齐两类不同的算法,其中,成对实体对齐为独立地判断两实体是否对应同一物理对象,协同实体对齐为不同实体间的对齐;基于图嵌入的知识表示方法生成图谱实体向量,在基于向量相似度计算实现图谱实体对齐,通过匹配实体属性特征,判断成对实体对齐的对齐程度通过协调不用对象间的匹配情况达到一个全局最优的对齐结果;识别对齐后实体属性的冲突项,基于实体属性阈值范围和领域数据特点实现冲突避免,使用图谱知识来源可信度计算实现图谱属性冲突消解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043062.2A CN112200317B (zh) | 2020-09-28 | 2020-09-28 | 多模态知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043062.2A CN112200317B (zh) | 2020-09-28 | 2020-09-28 | 多模态知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112200317A CN112200317A (zh) | 2021-01-08 |
CN112200317B true CN112200317B (zh) | 2024-05-07 |
Family
ID=74007634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011043062.2A Active CN112200317B (zh) | 2020-09-28 | 2020-09-28 | 多模态知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200317B (zh) |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784061B (zh) * | 2021-01-27 | 2024-08-09 | 数贸科技(北京)有限公司 | 知识图谱的构建方法、装置、计算设备及存储介质 |
CN113159371B (zh) * | 2021-01-27 | 2022-05-20 | 南京航空航天大学 | 基于跨模态数据融合的未知目标特征建模与需求预测方法 |
CN112784049B (zh) * | 2021-01-28 | 2023-05-12 | 电子科技大学 | 一种面向文本数据的在线社交平台多元知识获取方法 |
CN112784065B (zh) * | 2021-02-01 | 2023-07-14 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
CN112818135B (zh) * | 2021-02-24 | 2022-11-01 | 华侨大学 | 一种基于公共语义空间学习构建图文知识图谱方法 |
CN112860916B (zh) * | 2021-03-09 | 2022-09-16 | 齐鲁工业大学 | 一种面向影视的多层次知识图谱生成方法 |
CN113010780B (zh) * | 2021-03-11 | 2022-07-15 | 北京三快在线科技有限公司 | 一种模型训练以及点击率预估方法及装置 |
CN113012770B (zh) * | 2021-03-17 | 2022-05-10 | 中南大学 | 基于多模态深度神经网络药物-药物相互作用事件预测 |
CN113032672A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
CN113051407B (zh) * | 2021-03-26 | 2022-10-21 | 烽火通信科技股份有限公司 | 一种网络智能运维知识图谱协同构建和共享方法与装置 |
CN113065000B (zh) * | 2021-03-29 | 2021-10-22 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
CN112948508B (zh) * | 2021-04-15 | 2024-04-30 | 平安科技(深圳)有限公司 | 基于多层关联知识图谱的信息预测方法、装置、设备及介质 |
CN113127708B (zh) * | 2021-04-20 | 2024-06-07 | 中国科学技术大学 | 信息交互方法、装置、设备及存储介质 |
CN112992317B (zh) * | 2021-05-10 | 2021-11-02 | 明品云(北京)数据科技有限公司 | 一种医学数据处理方法、系统、设备及介质 |
CN113111864A (zh) * | 2021-05-13 | 2021-07-13 | 上海巽联信息科技有限公司 | 基于多模态下的智能表格抽取算法 |
CN113220911B (zh) * | 2021-05-25 | 2024-02-02 | 中国农业科学院农业信息研究所 | 一种农业多源异构数据的分析与挖掘方法及其应用 |
WO2022252107A1 (zh) * | 2021-06-01 | 2022-12-08 | 眼灵(上海)智能科技有限公司 | 一种基于眼部图像的疾病检测系统及方法 |
CN113220861B (zh) * | 2021-06-01 | 2022-09-02 | 中国电子科技集团公司第五十四研究所 | 一种面向专业领域的知识图谱问答系统 |
CN113486190B (zh) * | 2021-06-21 | 2024-01-12 | 北京邮电大学 | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 |
CN113360673B (zh) * | 2021-06-21 | 2023-07-07 | 浙江师范大学 | 多模态知识图谱的实体对齐方法、装置及存储介质 |
CN113239184B (zh) * | 2021-07-09 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113420551A (zh) * | 2021-07-13 | 2021-09-21 | 华中师范大学 | 一种建模实体相似性的生物医学实体关系抽取方法 |
CN113590808B (zh) * | 2021-08-05 | 2023-10-10 | 苏州工业园区企业发展服务中心 | 一种基于科技资源的知识抽取方法 |
CN113343642B (zh) * | 2021-08-09 | 2021-11-02 | 浙江浙能技术研究院有限公司 | 基于有监督序列生成网络的集团级kks编码自动映射方法 |
CN113343643B (zh) * | 2021-08-09 | 2021-11-02 | 浙江浙能技术研究院有限公司 | 一种基于有监督的多模型编码映射推荐方法 |
CN113792152B (zh) * | 2021-08-23 | 2023-07-04 | 南京信息工程大学 | 一种三角图与知识图谱的融合方法 |
CN113806552B (zh) * | 2021-08-30 | 2022-06-14 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和存储介质 |
CN113707309B (zh) * | 2021-08-31 | 2024-08-20 | 平安科技(深圳)有限公司 | 基于机器学习的疾病预测方法及装置 |
CN113849577A (zh) * | 2021-09-27 | 2021-12-28 | 联想(北京)有限公司 | 数据增强方法及装置 |
CN113971837B (zh) * | 2021-10-27 | 2024-08-20 | 厦门大学 | 一种基于知识的多模态特征融合的动态图神经手语翻译方法 |
CN114064918B (zh) * | 2021-11-06 | 2022-12-27 | 中国电子科技集团公司第五十四研究所 | 一种多模态事件知识图谱构建方法 |
CN113761226A (zh) * | 2021-11-10 | 2021-12-07 | 中国电子科技集团公司第二十八研究所 | 一种多模态机场数据的本体构建方法 |
CN113972005A (zh) * | 2021-11-19 | 2022-01-25 | 北京明略软件系统有限公司 | 人工智能辅助诊疗方法、系统、存储介质及电子设备 |
CN113821702A (zh) * | 2021-11-24 | 2021-12-21 | 中国电子科技集团公司第二十八研究所 | 一种城市多维空间多元异构信息数据处理方法 |
CN114186069B (zh) * | 2021-11-29 | 2023-09-29 | 江苏大学 | 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法 |
CN114360731A (zh) * | 2021-12-09 | 2022-04-15 | 武汉科技大学 | 一种面向老年照护的医养结合知识服务系统构建方法 |
CN114398492B (zh) * | 2021-12-24 | 2022-08-30 | 森纵艾数(北京)科技有限公司 | 一种在数字领域的知识图谱构建方法、终端及介质 |
CN114020936B (zh) * | 2022-01-06 | 2022-04-01 | 北京融信数联科技有限公司 | 多模态事理图谱的构建方法、系统和可读存储介质 |
CN114357193B (zh) * | 2022-01-10 | 2024-04-02 | 中国科学技术大学 | 一种知识图谱实体对齐方法、系统、设备与存储介质 |
CN114049493B (zh) * | 2022-01-11 | 2022-04-01 | 北京融信数联科技有限公司 | 基于智能体图谱的图像识别方法、系统和可读存储介质 |
CN114610911B (zh) * | 2022-03-04 | 2023-09-19 | 中国电子科技集团公司第十研究所 | 多模态知识本征表示学习方法、装置、设备及存储介质 |
CN114818671B (zh) * | 2022-03-10 | 2023-05-26 | 中国电子科技集团公司第十研究所 | 一种融合价值堆叠的异构知识动态表示学习方法 |
CN114912656A (zh) * | 2022-04-07 | 2022-08-16 | 浙江师范大学 | 基于多模态互补图神经网络的认知诊断方法和系统 |
CN114638160B (zh) * | 2022-05-11 | 2023-04-07 | 西南交通大学 | 一种面向复杂装备数字孪生模型的知识服务方法 |
CN114936901B (zh) * | 2022-05-21 | 2024-05-28 | 山东大学 | 基于跨模态语义推理与融合的视觉感知推荐方法及系统 |
CN115062208B (zh) * | 2022-05-30 | 2024-01-23 | 苏州浪潮智能科技有限公司 | 数据处理方法、系统及计算机设备 |
CN114880527B (zh) * | 2022-06-09 | 2023-03-24 | 哈尔滨工业大学(威海) | 一种基于多预测任务的多模态知识图谱表示方法 |
CN114925176B (zh) * | 2022-07-22 | 2022-10-11 | 北京融信数联科技有限公司 | 一种智能体多模态认知图谱的构建方法、系统和介质 |
CN115292513A (zh) * | 2022-07-22 | 2022-11-04 | 山东浪潮科学研究院有限公司 | 基于多视图学习的教学知识图谱构建及检索方法及系统 |
CN115080766B (zh) * | 2022-08-16 | 2022-12-06 | 之江实验室 | 基于预训练模型的多模态知识图谱表征系统及方法 |
CN115168620A (zh) * | 2022-09-09 | 2022-10-11 | 之江实验室 | 一种面向知识图谱实体对齐的自监督联合学习方法 |
CN115496077B (zh) * | 2022-11-18 | 2023-04-18 | 之江实验室 | 一种基于模态观察和评分的多模态情感分析方法和装置 |
CN118152581A (zh) * | 2022-12-06 | 2024-06-07 | 马上消费金融股份有限公司 | 知识图谱补全方法及装置、电子设备、计算机可读介质 |
CN115618270B (zh) * | 2022-12-16 | 2023-04-11 | 国家电网有限公司客户服务中心 | 多模态意图识别方法、装置、电子设备和存储介质 |
CN116385841B (zh) * | 2023-02-28 | 2023-11-21 | 南京航空航天大学 | 一种基于知识图谱的多模态地物目标识别方法 |
CN116028654B (zh) * | 2023-03-30 | 2023-06-13 | 中电科大数据研究院有限公司 | 知识节点的多模态融合更新方法 |
CN116051132B (zh) * | 2023-04-03 | 2023-06-30 | 之江实验室 | 一种违规商品识别方法、装置、计算机设备和存储介质 |
CN116050429B (zh) * | 2023-04-03 | 2023-05-30 | 中国电子科技集团公司第十五研究所 | 基于多模态数据关联的地理环境实体构建系统及方法 |
CN116090360B (zh) * | 2023-04-12 | 2023-07-14 | 安徽思高智能科技有限公司 | 一种基于多模态实体对齐的rpa流程推荐方法 |
CN116226434B (zh) * | 2023-05-04 | 2023-07-21 | 浪潮电子信息产业股份有限公司 | 一种多元异构模型训练及应用方法、设备及可读存储介质 |
CN116257142B (zh) * | 2023-05-12 | 2023-07-21 | 福建省亿鑫海信息科技有限公司 | 基于多模态数据特征化的安全监测方法及终端 |
CN116452072B (zh) * | 2023-06-19 | 2023-08-29 | 华南师范大学 | 一种教学评价方法、系统、设备和可读存储介质 |
CN117150031A (zh) * | 2023-07-24 | 2023-12-01 | 青海师范大学 | 一种面向多模态数据的处理方法及系统 |
CN117033666B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种多模态知识图谱的构建方法、装置、存储介质及设备 |
CN117151121B (zh) * | 2023-10-26 | 2024-01-12 | 安徽农业大学 | 一种基于波动阈值与分割化的多意图口语理解方法 |
CN117151659B (zh) * | 2023-10-31 | 2024-03-22 | 浙江万维空间信息技术有限公司 | 一种基于大语言模型的生态修复工程全生命周期追溯方法 |
CN117236435B (zh) * | 2023-11-08 | 2024-01-30 | 中国标准化研究院 | 一种设计理性知识网络的知识融合方法、装置及存储介质 |
CN117312578B (zh) * | 2023-11-28 | 2024-02-23 | 烟台云朵软件有限公司 | 一种非遗传承图谱的构建方法与系统 |
CN117633328B (zh) * | 2024-01-25 | 2024-04-12 | 武汉博特智能科技有限公司 | 基于数据挖掘的新媒体内容监测方法及系统 |
CN118093791B (zh) * | 2024-04-24 | 2024-07-02 | 北京中关村科金技术有限公司 | 结合云计算的ai知识库生成方法及系统 |
CN118133946B (zh) * | 2024-05-07 | 2024-07-23 | 烟台海颐软件股份有限公司 | 一种多模态知识分层识别和受控对齐方法 |
CN118245616B (zh) * | 2024-05-28 | 2024-08-27 | 北京警察学院 | 一种多模态知识图谱整合方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010051966A1 (en) * | 2008-11-07 | 2010-05-14 | Lingupedia Investments Sarl | Method for semantic processing of natural language using graphical interlingua |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN110968701A (zh) * | 2019-11-05 | 2020-04-07 | 量子数聚(北京)科技有限公司 | 用于图神经网络的关系图谱建立方法以及装置、设备 |
CN111340103A (zh) * | 2020-02-24 | 2020-06-26 | 安徽大学 | 一种基于图嵌入典型相关分析的特征层融合方法及其装置 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
CN111694965A (zh) * | 2020-05-29 | 2020-09-22 | 中国科学院上海微系统与信息技术研究所 | 一种基于多模态知识图谱的图像场景检索系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956682B2 (en) * | 2019-02-05 | 2021-03-23 | International Business Machines Corporation | Image object disambiguation resolution using learner model based conversation templates |
-
2020
- 2020-09-28 CN CN202011043062.2A patent/CN112200317B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010051966A1 (en) * | 2008-11-07 | 2010-05-14 | Lingupedia Investments Sarl | Method for semantic processing of natural language using graphical interlingua |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN110968701A (zh) * | 2019-11-05 | 2020-04-07 | 量子数聚(北京)科技有限公司 | 用于图神经网络的关系图谱建立方法以及装置、设备 |
CN111340103A (zh) * | 2020-02-24 | 2020-06-26 | 安徽大学 | 一种基于图嵌入典型相关分析的特征层融合方法及其装置 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
CN111694965A (zh) * | 2020-05-29 | 2020-09-22 | 中国科学院上海微系统与信息技术研究所 | 一种基于多模态知识图谱的图像场景检索系统及方法 |
Non-Patent Citations (4)
Title |
---|
From Vision to Content: Construction of Domain-Specific Multi-Modal Knowledge Graph;Xiaoming Zhang等;《IEEE Access》;20190805;108278-108294 * |
Multi-source knowledge fusion: a survey;Xiaojuan Zhao等;《World Wide Web》;20200408;第23卷;2567-2592 * |
基于领域知识图谱的个性化推荐方法研究;汪沛;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180115(第01期);I138-2039 * |
面向深度学习的多模态融合技术研究综述;何俊等;《计算机工程》;20200531;第46卷(第05期);1-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN112200317A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200317B (zh) | 多模态知识图谱构建方法 | |
Yang et al. | Image-text multimodal emotion classification via multi-view attentional network | |
Rahate et al. | Multimodal co-learning: Challenges, applications with datasets, recent advances and future directions | |
CN110489395B (zh) | 自动获取多源异构数据知识的方法 | |
JP7468929B2 (ja) | 地理知識取得方法 | |
Gao et al. | Video captioning with attention-based LSTM and semantic consistency | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN112288091A (zh) | 基于多模态知识图谱的知识推理方法 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
Li et al. | Multi-level similarity learning for image-text retrieval | |
CN112597296A (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
Shi et al. | Heterogeneous graph representation learning and applications | |
Zheng et al. | Visual entity linking via multi-modal learning | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
He et al. | Deep learning in natural language generation from images | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
Senior et al. | Graph neural networks in vision-language image understanding: A survey | |
CN111259152A (zh) | 一种深度多层网络驱动的特征聚合类别划分器 | |
Park et al. | Survey and challenges of story generation models-A multimodal perspective with five steps: Data embedding, topic modeling, storyline generation, draft story generation, and story evaluation | |
CN118051630A (zh) | 一种基于多模态共识感知和动量对比的图文检索系统及其方法 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 | |
CN117765450A (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |