CN114925176A - 一种智能体多模态认知图谱的构建方法、系统和介质 - Google Patents

一种智能体多模态认知图谱的构建方法、系统和介质 Download PDF

Info

Publication number
CN114925176A
CN114925176A CN202210859565.XA CN202210859565A CN114925176A CN 114925176 A CN114925176 A CN 114925176A CN 202210859565 A CN202210859565 A CN 202210859565A CN 114925176 A CN114925176 A CN 114925176A
Authority
CN
China
Prior art keywords
cognitive
modal
entity
extraction
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210859565.XA
Other languages
English (en)
Other versions
CN114925176B (zh
Inventor
张广志
于笑博
成立立
刘畔青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiling Rongxin Datalnfo Science and Technology Ltd
Original Assignee
Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiling Rongxin Datalnfo Science and Technology Ltd filed Critical Beiling Rongxin Datalnfo Science and Technology Ltd
Priority to CN202210859565.XA priority Critical patent/CN114925176B/zh
Publication of CN114925176A publication Critical patent/CN114925176A/zh
Application granted granted Critical
Publication of CN114925176B publication Critical patent/CN114925176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种智能体多模态认知图谱的构建方法、系统和介质。该方法包括:构建智能体多模态认知图谱的初始认知体系,基于智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和逻辑推理规则进行认知加工;从而通过构建智能体多模态认知图谱的初始认知体系构建初始的事理逻辑推理规则,基于已有认知体系对感知器获取的多模态数据进行多模态识别和认知抽取,以及对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和事理逻辑推理规则进行认知加工,为认知智能提供多模态本体实体及事理逻辑知识库支撑。

Description

一种智能体多模态认知图谱的构建方法、系统和介质
技术领域
本申请涉及大数据与人工智能领域的知识工程领域,具体而言,涉及一种智能体多模态认知图谱的构建方法、系统和介质。
背景技术
人工智能已经从计算智能、感知智能,进入到认知智能阶段。认知即个体对知识进行获取、加工、应用的过程,这是人脑的高级信息处理方式;认知智能即让机器具有“读懂语义、逻辑推理、学习判断”的能力。机器认知智能的两个核心是“理解”与“解释”。认知智能的实现需要以知识为驱动力,这涉及到知识表示、语义理解、联想推理、智能问答、情感计算、决策规划等关键技术。
随着深度学习的兴起,人工智能迎来了新的发展高潮。人工智能的一个发展瓶颈在于,如何让机器掌握人类知识。例如,人类能轻易理解“吃过饭”后,就“不饿”了这样的常识知识,而让机器理解并掌握大量这样的知识是一件极其困难的事情,而这也是通往强人工智能的必由之路。
人类的认知是基于对人类所处的这个物理世界的感知,并在人类的进化过程中,逐步发展出一套概念体系和逻辑规则,人类对世界的认知与概念体系、逻辑规则的不断进化相互促进。人类对世界的感知依托于人类的眼、耳、口、鼻等各种感觉器官,人类对世界的思考和记忆,依托于大脑里的多模态“认知图谱”——神经元体系。人类的记忆分为形象记忆、动作记忆、情绪记忆、逻辑记忆,通过神经元机制的多模态计算推理,形成对世界的认知。
知识图谱的出现,为认知智能的发展注入了“加速剂”。但目前的知识图谱,主要是以传统本体概念为基础进行知识组织的,而在知识处理领域,这种传统本体概念存在着一些局限性,传统本体对于概念的描述着重对其抽象概念、静态特征的描述,而缺乏对具体形象、动态特征等的描述。
针对上述问题,目前亟待有效的技术解决方案。
发明内容
本申请实施例的目的在于提供一种智能体多模态认知图谱的构建方法、系统和介质,可以通过构建智能体多模态认知图谱的初始认知体系构建初始的事理逻辑推理规则,基于已有认知体系对感知器获取的多模态数据进行多模态识别和认知抽取,以及对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和事理逻辑推理规则进行认知加工,为认知智能提供多模态本体实体及事理逻辑知识库支撑。
本申请实施例还提供了一种智能体多模态认知图谱的构建方法,包括以下步骤:
构建智能体多模态认知图谱的初始认知体系;
基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取;
对抽取的多模态认知进行融合,包括多模态实体链接和认知合并;
根据认知图谱和逻辑推理规则进行认知加工。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述构建智能体多模态认知图谱的初始认知体系,包括:
通过OpenGL构建空间坐标系与比例尺;
通过OpenGL构建仿真物理世界的虚拟现实场景;
构建所述虚拟现实场景的多模态认知关系图谱,并根据空间坐标系和时序映射各种事物在空间和时间上的位置关系以及各种逻辑的关联关系。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述通过OpenGL构建仿真物理世界的虚拟现实场景,包括:
根据基本图形单元建立景物模型,并对所述景物模型进行数学描述;
将所述景物模型嵌入三维空间中相应位置,并设置视点观察感兴趣的景观;
计算所述景物模型中物体的色彩并确定光照条件、纹理粘贴方式;
根据所述景物模型的数学描述和色彩信息转换至屏幕像素进行光栅化。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,包括:
基于所述智能体多模态认知图谱结合预训练数据对多模态数据进行识别,并建立多模态数据的对应和依赖关系;
基于所述多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述基于多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取,包括:
所述图像识别包括图像分割、目标检测和识别,包括根据分割的物体与所述智能体多模态认知图谱中图像进行阈值对比和相似度计算,若相似概率超过预设阈值则判定为同一类别物体;
所述文本处理包括分词处理、词性标注以及命名实体识别;
抽取多模态数据中的原子信息元素进行所述实体抽取,包括基于规则和词典的方法、基于统计的方法以及混合方法;
所述实体关系抽取和实体属性抽取包括基于规则的关系提取、弱监督关系提取、监督关系提取、模糊监督关系提取、无监督的关系提取;
所述事件抽取是将事件信息抽取并结构化表现,包括开放域或限定域事件抽取、事理关系抽取。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,具体包括:
根据获得的相同实体对应到认知库中同一个正确的实体上;
根据知识库中实体进行判断是否存在相同实体或相关实体;
通过实体抽取的相关技术获取到实体对象并对应到所述认知库中对应正确实体获得多模态实体链接;
根据构建好的所述智能体多模态认知图谱融入第三方认知库中完成多模态认知合并,其中包括融入数据层和模式层;
所述模式层的融合包括概念的融合、概念上下位关系的融合以及概念属性定义的融合;
所述数据层的融合包括实体的融合和实体属性的融合。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述根据认知图谱和逻辑推理规则进行认知加工,具体包括:
根据所述认知图谱和逻辑推理规则进行认知加工包括本体构建、认知推理以及质量评估;
所述本体构建采用数据驱动的自动化方式构建本体,所述本体构建过程包括实体并列关系相似度计算、实体上下位关系抽取以及本体的生成;
所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富;
所述质量评估包括准确率和覆盖率评估。
可选地,在本申请实施例所述的智能体多模态认知图谱的构建方法中,所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富,包括:
推理规则的推理方式包括演绎推理、归纳推理、类比推理、因推理以及确定性推理和不确定性推理;
所述不确定性推理包括控制方法和模型方法;
所述模型方法分为数值模型方法和非数值模型方法。
第二方面,本申请实施例提供了一种智能体多模态认知图谱的构建系统,该系统包括:存储器及处理器,所述存储器中包括智能体多模态认知图谱的构建方法的程序,所述智能体多模态认知图谱的构建方法的程序被所述处理器执行时实现以下步骤:
构建智能体多模态认知图谱的初始认知体系;
基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取;
对抽取的多模态认知进行融合,包括多模态实体链接和认知合并;
根据认知图谱和逻辑推理规则进行认知加工。
第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括智能体多模态认知图谱的构建方法程序,所述智能体多模态认知图谱的构建方法程序被处理器执行时,实现如上述任一项所述的一种智能体多模态认知图谱的构建方法的步骤。
由上可知,本申请实施例提供的一种智能体多模态认知图谱的构建方法、系统和介质根据构建智能体多模态认知图谱的初始认知体系,基于智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和逻辑推理规则进行认知加工;从而通过构建智能体多模态认知图谱的初始认知体系构建初始的事理逻辑推理规则,基于已有认知体系对感知器获取的多模态数据进行多模态识别和认知抽取,以及对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和事理逻辑推理规则进行认知加工,为认知智能提供多模态本体实体及事理逻辑知识库支撑。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种智能体多模态认知图谱的构建方法的一种流程图;
图2为本申请实施例提供的一种智能体多模态认知图谱的构建方法中构建智能体多模态认知图谱的初始认知体系的一种流程图;
图3为本申请实施例提供的一种智能体多模态认知图谱的构建方法中通过OpenGL构建仿真物理世界的虚拟现实场景的一种流程图;
图4为本申请实施例提供的一种智能体多模态认知图谱的构建系统的一种结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施例中的一种智能体多模态认知图谱的构建方法的一种流程图。该智能体多模态认知图谱的构建方法用于终端设备中,例如电脑、手机终端等。该智能体多模态认知图谱的构建方法,包括以下步骤:
S101、构建智能体多模态认知图谱的初始认知体系;
S102、基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取;
S103、对抽取的多模态认知进行融合,包括多模态实体链接和认知合并;
S104、根据认知图谱和逻辑推理规则进行认知加工。
需要说明的是,初始认知体系包括空间坐标系、仿真物理世界的虚拟现实世界、多模态认知关系图谱,时空参考系,可以在以知觉者自己为中心的参考系,和以知觉者以外的事物所建立的参考系之间切换,仿物理世界的虚拟现实世界,多模态认知关系图谱,是依托于空间坐标系和时序,映射各种事物在空间和时间上的位置关系,以及各种逻辑上的关联关系的多模态网络图谱;根据认知图谱和逻辑推理规则进行认知加工包括本体构建、事件本体构建、认知推理和质量评估等认知加工过程,本体构建是智能体多模态认知图谱内实体连通的语义基础,本体可以通过人工总结专家经验进行手动编程,也可以由深度学习驱动进行自动构建,事件本体构建是智能体多模态认知图谱内事件连通的语义基础,事件本体可以通过人工总结专家经验进行手动编程,也可以由深度学习驱动进行自动构建,认知推理基于已有智能体多模态认知图谱,根据事理逻辑推理规则,通过对已有实体间关系、已有事件间关系的计算,找到实体间新关联、事件间新关联,是智能体多模态认知图谱更新的重要手段,质量评估是认知加工最后的“质检”环节,确保智能体多模态认知图谱的合理性。
请参照图2,图2是本申请一些实施例中的一种智能体多模态认知图谱的构建方法中构建智能体多模态认知图谱的初始认知体系的一种流程图。根据本发明实施例,所述构建智能体多模态认知图谱的初始认知体系,具体为:
S201、通过OpenGL构建空间坐标系与比例尺;
S202、通过OpenGL构建仿真物理世界的虚拟现实场景;
S203、构建所述虚拟现实场景的多模态认知关系图谱,并根据空间坐标系和时序映射各种事物在空间和时间上的位置关系以及各种逻辑的关联关系。
需要说明的是,空间坐标系包括模型坐标系、世界坐标系和观察坐标系;模型坐标系中模型指的就是一个三维的物体,每个物体都有其自身的模型坐标系,也就是说物体A的模型坐标系为Coordinate System A,物体B的模型坐标系为Coordinate System B,二者的模型坐标系不同,模型坐标系是一个假想的坐标系,该坐标系与物体的相对位置始终不变;世界坐标系是我们生活的真实的3D场景,在OpenGL中有且只有一个世界坐标系,模型坐标系中的模型坐标左乘模型矩阵之后会转化为世界坐标,假设模型坐标系中有一点S,其坐标为(Xmodel,Ymodel,Zmodel),该点左乘模型矩阵Mmodel之后就会得到该点在世界坐标系中的坐标Pworld(Xworld,Yworld,Zworld),即:
Figure DEST_PATH_IMAGE001
观察坐标系是Camera坐标系,假如个体C站在世界坐标系中,C的眼睛就是Camera,C的眼睛平视前方,并且保持视线方向与头顶的朝向互相垂直,C的眼睛就是视坐标系的坐标原点,C的视线方向就是视坐标系Z轴的负半轴方向,C的头顶的朝向就是视坐标系的Y轴正半轴方向,与YOZ相互垂直向右的指向就是X轴正半轴的方向,X轴正半轴可由Y与Z叉乘得到,Camera的视坐标系也可以称为uvn坐标系,对应着世界坐标系的XYZ三个轴。
还需要说明的是,构建虚拟现实场景的多模态认知关系图谱,依托于空间坐标系 和时序,映射各种事物在空间和时间上的位置关系以及各种逻辑上的关联关系,有向图
Figure 88959DEST_PATH_IMAGE002
, 其中
Figure DEST_PATH_IMAGE003
分别代表实体、关系、属性和属性值,其中
Figure 674662DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
分别代表关系三元组和属性三元组,三元组
Figure 727675DEST_PATH_IMAGE006
表示实体
Figure DEST_PATH_IMAGE007
与实体
Figure 31617DEST_PATH_IMAGE008
具有关系
Figure 306741DEST_PATH_IMAGE010
,三元组
Figure DEST_PATH_IMAGE011
表示 实体
Figure 340425DEST_PATH_IMAGE012
具有属性
Figure DEST_PATH_IMAGE013
,其属性值为
Figure 239373DEST_PATH_IMAGE014
;实体分为逻辑实体和三维图形实体,逻辑 实体是指文字概念上的实体,三维图形实体是指可视化的三维图形,逻辑实体又分为物体 (逻辑)实体和事件实体,物体(逻辑)实体可以和三维图形实体一一对应,比如“太阳”(文字 概念)对应一个“太阳”的三维图形,事件实体是相关物体的一系列动态变化过程的组合,比 如“日出”是地球和太阳在相对运动的过程中产生的一系列场景视觉效果变化的过程的组 合,实体可以具有多种属性,比如人具有身高、体重、性别、年龄、动作、表情等属性,属性可 以是文字概念形式,比如身高170cm,也可以是图形或动画形式,比如“跑”对应一个动作的 动画,实体之间可以具有多种关系,可以是空间、时序上的关系比如上下、左右、前后、先后 等,也可以是逻辑上的关系比如朋友、师生等。
请参照图3,图3是本申请一些实施例中的一种智能体多模态认知图谱的构建方法中通过OpenGL构建仿真物理世界的虚拟现实场景的一种流程图。根据本发明实施例,所述通过OpenGL构建仿真物理世界的虚拟现实场景,具体为:
S301、根据基本图形单元建立景物模型,并对所述景物模型进行数学描述;
S302、将所述景物模型嵌入三维空间中相应位置,并设置视点观察感兴趣的景观;
S303、计算所述景物模型中物体的色彩并确定光照条件、纹理粘贴方式;
S304、根据所述景物模型的数学描述和色彩信息转换至屏幕像素进行光栅化。
需要说明的是,使用OpenGL构建仿物理世界的虚拟现实场景包括天空、云、太阳、月亮、星星、山、河流、建筑、花、草、树、木等各种现实世界的事物,构建场景的主要图形操作的基本步骤是:首先根据基本图形单元建立景物模型,并且对所建立的模型进行数学描述(OpenGL中把点、线、多边形、图像和位图都作为基本图形单元),后把景物模型放在三维空间中的合适的位置并且设置视点(viewpoint)以观察所感兴趣的景观,再计算模型中所有物体的色彩,其中的色彩根据应用要求来确定,同时确定光照条件、纹理粘贴方式,最后把景物模型的数学描述及其色彩信息转换至计算机屏幕上的象素,这个过程也就是光栅化。
根据本发明实施例,所述基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,具体为:
基于所述智能体多模态认知图谱结合预训练数据对多模态数据进行识别,并建立多模态数据的对应和依赖关系;
基于所述多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取。
需要说明的是,实体抽取指在多模态数据源中识别出特定的元素标签,并与实体库中的标签相链接;实体关系抽取意在找到多模态数据源中实体间的关系,可分为全局抽取和局部抽取;实体属性抽取可以看作实体和其属性值之间的关系;事件抽取是将多模态数据源中的事件信息(事件的时间、地点、人物、原因、结果)抽取,并结构化地表现出来,包括事件抽取,事理关系抽取(包含事件顺承、因果、上下位关系抽取)。
根据本发明实施例,所述基于多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取,具体为:
所述图像识别包括图像分割、目标检测和识别,包括根据分割的物体与所述智能体多模态认知图谱中图像进行阈值对比和相似度计算,若相似概率超过预设阈值则判定为同一类别物体;
所述文本处理包括分词处理、词性标注以及命名实体识别;
抽取多模态数据中的原子信息元素进行所述实体抽取,包括基于规则和词典的方法、基于统计的方法以及混合方法;
所述实体关系抽取和实体属性抽取包括基于规则的关系提取、弱监督关系提取、监督关系提取、模糊监督关系提取、无监督的关系提取;
所述事件抽取是将事件信息抽取并结构化表现,包括开放域或限定域事件抽取、事理关系抽取。
需要说明的是,图像分割是使用Mask R-CNN算法的Faster R-CNN分支,把图像输入到网络得到相应的特征图,然后使用RPN结构生成候选框,将RPN生成的候选框投影到特征图上获得相应的特征矩阵,将每个特征矩阵通过RoIAlign缩放到7x7大小的特征图,接着将特征图拉平然后通过一系列的全连接层分别预测class和回归box,再使用Mask分支,通过RoIAlign操作把每个特征矩阵缩放到14x14大小的特征图,然后经过卷积进行更深层的特征提取,此时shape不变,然后通过转置卷积ConvTranspose2d 2x2, s2, p0之后,得到shape为28x28x256的图像,然后经过一个1x1的卷积改变通道数为num_cls,于是最后得到的便是28x28xnum_cls的Mask图像,其中对于输入的这个候选框,会给出这个框属于不同类别的28x28的Mask,然后和原图中对应位置进行贴合,得到实例分割的结果图;目标检测与识别是将分割出的实例与智能体多模态认知图谱里已有的图像进行比对,通过MD5、直方图、PSNR、SSIM相似度算法计算相似概率,如果相似概率超过一定阈值可以判定为同一物体或同一类物体就可以识别出具体的物体,如果与智能体多模态认知图谱里已有的图片进行比对得不到结果再通过搜索引擎进行图像比对;文本处理的分词处理包括基于词典的方法(正向最大匹配算法MM、逆向最大匹配算法RMM、双向最大匹配法BM),和基于统计的方法(HMM模型),词性标注采用隐马尔可夫模型、感知机、条件随机场等方法,命名实体识别是先结合已有的智能体多模态认知图谱的命名实体库,对每一条规则进行权重的赋值,然后再通过实体与规则的相符程度进行类型的判断,再利用隐马尔可夫模型、最大熵模型、条件随机场等,基于人工标注的语料将命名实体识别任务作为序列标注问题来解决;实体抽取主要抽取的是多模态数据中的原子信息元素,其中基于规则和词典的方法是借助于已有的智能体多模态认知图谱建立的知识库和词典,以模式和字符串相匹配为主要手段,基于统计的方法是基于计机器学习方法的包括Bert+BiLSTM+CRF模型、隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF),混合方法是规则、词典和机器学习方法之间的融合,其核心是融合方法技术,在基于统计的学习方法中引入部分规则将机器学习和人工知识结合起来;事件抽取是将事件信息(事件的时间、地点、人物、原因、结果等)抽取,并结构化地表现出来,包括开放域或限定域事件抽取,事理关系抽取;事件抽取分为元事件抽取和主题事件抽取,其中元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) ,元事件抽取方法包括基于模式匹配的元事件抽取、基于机器学习的元事件抽取、基于神经网络的抽取方法,主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成,主题事件抽取方法包括基于事件框架的主题事件抽取、基于本体的主题事件抽取。
根据本发明实施例,所述对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,具体为:
根据获得的相同实体对应到认知库中同一个正确的实体上;
根据知识库中实体进行判断是否存在相同实体或相关实体;
通过实体抽取的相关技术获取到实体对象并对应到所述认知库中对应正确实体获得多模态实体链接;
根据构建好的所述智能体多模态认知图谱融入第三方认知库中完成多模态认知合并,其中包括融入数据层和模式层;
所述模式层的融合包括概念的融合、概念上下位关系的融合以及概念属性定义的融合;
所述数据层的融合包括实体的融合和实体属性的融合。
需要说明的是,从本体层和实体层两方面,通过认知库的对齐、关联、合并等方式,将多个智能体多模态认知图谱或信息源中的本体、实体、事件本体、事件进行链接,形成一个更加统一、稠密的智能体多模态认知图谱,是实现认知共享和推理的重要方法,本体层的认知融合主要表现为本体对齐、事件本体对齐,是指确定本体概念、本体关系、本体属性等本体之间映射关系,以及确定事件本体、事理关系、事件属性的过程,一般通过基于已有智能体多模态认知图谱的深度学习算法对本体间的相似度、事件本体间的相似度进行计算来实现,根据自然语言类型,可分为单语言对齐和跨语言对齐,其中跨语言对齐是实现知识国际交流的重要方式,实体层的认知融合主要表现为共指消解和实体对齐、具体事件对齐,共指消解意在将同一信息源中同一实体、同一事件的不同标签统一,实现消歧的目的,实体对齐、事件对齐是将不同信息源中同一实体、同一事件进行统一,使信息源之间产生联结。
根据本发明实施例,所述根据认知图谱和逻辑推理规则进行认知加工,具体为:
根据所述认知图谱和逻辑推理规则进行认知加工包括本体构建、认知推理以及质量评估;
所述本体构建采用数据驱动的自动化方式构建本体,所述本体构建过程包括实体并列关系相似度计算、实体上下位关系抽取以及本体的生成;
所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富;
所述质量评估包括准确率和覆盖率评估。
需要说明的是,实体并列关系相似度计算适用于考察任意给定的两个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这两个实体越有可能属于同一语义类别,所谓并列关系是相对于纵向的概念隶属关系而言的,实体并列关系相似度计算方法有两种:模式匹配法和分布相似度,其中,模式匹配法采用预先定义实体对模式的方法,通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率,据此计算实体对之间的相似度,分布相似度方法的前提假设是在相似的上下文管径中频繁出现的实体之间具有语义上的相似性;实体上下位关系抽取是用于确定概念之间的隶属(IsA)关系,主要方法是基于语法模式(如Hearst模式)抽取IsA实体对,或利用概率模型判定IsA关系和区分上下位词,以及借助概念分类知识来帮助训练模型以提高算法精度;本体的生成主要任务是对各层次得到的概念进行聚类,并对其进行语义类的标定,为该类的中的实体指定一个或多个公共上位词;质量评估是认知加工最后的“质检”环节,确保智能体多模态认知图谱的合理性,其中准确率是指实体和关系(由图中的节点和边编码)正确地表示现实生活中的现象的程度,准确率可以进一步细分为三个维度:syntactic accuracy 句法准确性、semanticaccuracy 语义准确性和 timeliness 及时性;覆盖率是指避免遗漏与域相关的元素否则可能会产生不完整的查询结果或推导结果、有偏差的模型。
根据本发明实施例,所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富,具体为:
推理规则的推理方式包括演绎推理、归纳推理、类比推理、因推理以及确定性推理和不确定性推理;
所述不确定性推理包括控制方法和模型方法;
所述模型方法分为数值模型方法和非数值模型方法。
需要说明的是,演绎推理又称逻辑推理,由一般到特殊,归纳推理由特殊到一般,类比推理由特殊到特殊,因推理又称反绎推理(或反向演绎),由特殊到解释;确定性推理是指推理时所用的知识与证据都是确定的,推出的结论也是确定的,其真值或者为真或者为假;不确定性推理的推理时所用的知识与证据不都是确定的,推出的结论也是不确定的,不确定性推理方法主要分为控制方法和模型方法两类,控制方法没有处理不确定性的统一模型,其效果极大地依赖于控制策略,不确定性推理的控制方法主要取决于控制策略,包括相关性指导、机缘控制、启发式搜索、随机过程控制,模型方法具体可分为数值模型方法和非数值模型方法两类,按其依据的理论不同,数值模型方法主要有基于概率的方法和基于模糊理论的推理方法,纯概率方法虽然有严格的理论依据,但通常要求给出事件的先验概率和条件概率,而这些数据又不易获得,因此使其应用受到限制,在概率论的基础上提出了一理论和方法,主要有可信度方法、证据理论、基于概率的贝叶斯推理方法。
如图4所示,本发明还公开了一种智能体多模态认知图谱的构建系统,包括存储器41和处理器42,所述存储器中包括智能体多模态认知图谱的构建方法程序,所述智能体多模态认知图谱的构建方法程序被所述处理器执行时实现如下步骤:
构建智能体多模态认知图谱的初始认知体系;
基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取;
对抽取的多模态认知进行融合,包括多模态实体链接和认知合并;
根据认知图谱和逻辑推理规则进行认知加工。
需要说明的是,初始认知体系包括空间坐标系、仿真物理世界的虚拟现实世界、多模态认知关系图谱,时空参考系,可以在以知觉者自己为中心的参考系,和以知觉者以外的事物所建立的参考系之间切换,仿物理世界的虚拟现实世界,多模态认知关系图谱,是依托于空间坐标系和时序,映射各种事物在空间和时间上的位置关系,以及各种逻辑上的关联关系的多模态网络图谱;根据认知图谱和逻辑推理规则进行认知加工包括本体构建、事件本体构建、认知推理和质量评估等认知加工过程,本体构建是智能体多模态认知图谱内实体连通的语义基础,本体可以通过人工总结专家经验进行手动编程,也可以由深度学习驱动进行自动构建,事件本体构建是智能体多模态认知图谱内事件连通的语义基础,事件本体可以通过人工总结专家经验进行手动编程,也可以由深度学习驱动进行自动构建,认知推理基于已有智能体多模态认知图谱,根据事理逻辑推理规则,通过对已有实体间关系、已有事件间关系的计算,找到实体间新关联、事件间新关联,是智能体多模态认知图谱更新的重要手段,质量评估是认知加工最后的“质检”环节,确保智能体多模态认知图谱的合理性。
根据本发明实施例,所述构建智能体多模态认知图谱的初始认知体系,具体为:
通过OpenGL构建空间坐标系与比例尺;
通过OpenGL构建仿真物理世界的虚拟现实场景;
构建所述虚拟现实场景的多模态认知关系图谱,并根据空间坐标系和时序映射各种事物在空间和时间上的位置关系以及各种逻辑的关联关系。
需要说明的是,空间坐标系包括模型坐标系、世界坐标系和观察坐标系;模型坐标系中模型指的就是一个三维的物体,每个物体都有其自身的模型坐标系,也就是说物体A的模型坐标系为Coordinate System A,物体B的模型坐标系为Coordinate System B,二者的模型坐标系不同,模型坐标系是一个假想的坐标系,该坐标系与物体的相对位置始终不变;世界坐标系是我们生活的真实的3D场景,在OpenGL中有且只有一个世界坐标系,模型坐标系中的模型坐标左乘模型矩阵之后会转化为世界坐标,假设模型坐标系中有一点S,其坐标为(Xmodel,Ymodel,Zmodel),该点左乘模型矩阵Mmodel之后就会得到该点在世界坐标系中的坐标Pworld(Xworld,Yworld,Zworld),即:
Figure DEST_PATH_IMAGE015
观察坐标系是Camera坐标系,假如个体C站在世界坐标系中,C的眼睛就是Camera,C的眼睛平视前方,并且保持视线方向与头顶的朝向互相垂直,C的眼睛就是视坐标系的坐标原点,C的视线方向就是视坐标系Z轴的负半轴方向,C的头顶的朝向就是视坐标系的Y轴正半轴方向,与YOZ相互垂直向右的指向就是X轴正半轴的方向,X轴正半轴可由Y与Z叉乘得到,Camera的视坐标系也可以称为uvn坐标系,对应着世界坐标系的XYZ三个轴。
还需要说明的是,构建虚拟现实场景的多模态认知关系图谱,依托于空间坐标系 和时序,映射各种事物在空间和时间上的位置关系以及各种逻辑上的关联关系,有向图
Figure 358507DEST_PATH_IMAGE016
, 其中
Figure DEST_PATH_IMAGE017
分别代表实体、关系、属性和属性值,其中
Figure 171743DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
分别代表关系三元组和属性三元组,三元组
Figure 558468DEST_PATH_IMAGE020
表示实体
Figure 392432DEST_PATH_IMAGE022
与实体
Figure 405387DEST_PATH_IMAGE023
具有关系
Figure 287893DEST_PATH_IMAGE024
,三元组
Figure 532055DEST_PATH_IMAGE025
表示实 体
Figure 474603DEST_PATH_IMAGE026
具有属性
Figure DEST_PATH_IMAGE027
,其属性值为
Figure 178117DEST_PATH_IMAGE028
;实体分为逻辑实体和三维图形实体,逻辑实 体是指文字概念上的实体,三维图形实体是指可视化的三维图形,逻辑实体又分为物体(逻 辑)实体和事件实体,物体(逻辑)实体可以和三维图形实体一一对应,比如“太阳”(文字概 念)对应一个“太阳”的三维图形,事件实体是相关物体的一系列动态变化过程的组合,比如 “日出”是地球和太阳在相对运动的过程中产生的一系列场景视觉效果变化的过程的组合, 实体可以具有多种属性,比如人具有身高、体重、性别、年龄、动作、表情等属性,属性可以是 文字概念形式,比如身高170cm,也可以是图形或动画形式,比如“跑”对应一个动作的动画, 实体之间可以具有多种关系,可以是空间、时序上的关系比如上下、左右、前后、先后等,也 可以是逻辑上的关系比如朋友、师生等。
根据本发明实施例,所述通过OpenGL构建仿真物理世界的虚拟现实场景,具体为:
根据基本图形单元建立景物模型,并对所述景物模型进行数学描述;
将所述景物模型嵌入三维空间中相应位置,并设置视点观察感兴趣的景观;
计算所述景物模型中物体的色彩并确定光照条件、纹理粘贴方式;
根据所述景物模型的数学描述和色彩信息转换至屏幕像素进行光栅化。
需要说明的是,使用OpenGL构建仿物理世界的虚拟现实场景包括天空、云、太阳、月亮、星星、山、河流、建筑、花、草、树、木等各种现实世界的事物,构建场景的主要图形操作的基本步骤是:首先根据基本图形单元建立景物模型,并且对所建立的模型进行数学描述(OpenGL中把点、线、多边形、图像和位图都作为基本图形单元),后把景物模型放在三维空间中的合适的位置并且设置视点(viewpoint)以观察所感兴趣的景观,再计算模型中所有物体的色彩,其中的色彩根据应用要求来确定,同时确定光照条件、纹理粘贴方式,最后把景物模型的数学描述及其色彩信息转换至计算机屏幕上的象素,这个过程也就是光栅化。
根据本发明实施例,所述基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,具体为:
基于所述智能体多模态认知图谱结合预训练数据对多模态数据进行识别,并建立多模态数据的对应和依赖关系;
基于所述多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取。
需要说明的是,实体抽取指在多模态数据源中识别出特定的元素标签,并与实体库中的标签相链接;实体关系抽取意在找到多模态数据源中实体间的关系,可分为全局抽取和局部抽取;实体属性抽取可以看作实体和其属性值之间的关系;事件抽取是将多模态数据源中的事件信息(事件的时间、地点、人物、原因、结果)抽取,并结构化地表现出来,包括事件抽取,事理关系抽取(包含事件顺承、因果、上下位关系抽取)。
根据本发明实施例,所述基于多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取,具体为:
所述图像识别包括图像分割、目标检测和识别,包括根据分割的物体与所述智能体多模态认知图谱中图像进行阈值对比和相似度计算,若相似概率超过预设阈值则判定为同一类别物体;
所述文本处理包括分词处理、词性标注以及命名实体识别;
抽取多模态数据中的原子信息元素进行所述实体抽取,包括基于规则和词典的方法、基于统计的方法以及混合方法;
所述实体关系抽取和实体属性抽取包括基于规则的关系提取、弱监督关系提取、监督关系提取、模糊监督关系提取、无监督的关系提取;
所述事件抽取是将事件信息抽取并结构化表现,包括开放域或限定域事件抽取、事理关系抽取。
需要说明的是,图像分割是使用Mask R-CNN算法的Faster R-CNN分支,把图像输入到网络得到相应的特征图,然后使用RPN结构生成候选框,将RPN生成的候选框投影到特征图上获得相应的特征矩阵,将每个特征矩阵通过RoIAlign缩放到7x7大小的特征图,接着将特征图拉平然后通过一系列的全连接层分别预测class和回归box,再使用Mask分支,通过RoIAlign操作把每个特征矩阵缩放到14x14大小的特征图,然后经过卷积进行更深层的特征提取,此时shape不变,然后通过转置卷积ConvTranspose2d 2x2, s2, p0之后,得到shape为28x28x256的图像,然后经过一个1x1的卷积改变通道数为num_cls,于是最后得到的便是28x28xnum_cls的Mask图像,其中对于输入的这个候选框,会给出这个框属于不同类别的28x28的Mask,然后和原图中对应位置进行贴合,得到实例分割的结果图;目标检测与识别是将分割出的实例与智能体多模态认知图谱里已有的图像进行比对,通过MD5、直方图、PSNR、SSIM相似度算法计算相似概率,如果相似概率超过一定阈值可以判定为同一物体或同一类物体就可以识别出具体的物体,如果与智能体多模态认知图谱里已有的图片进行比对得不到结果再通过搜索引擎进行图像比对;文本处理的分词处理包括基于词典的方法(正向最大匹配算法MM、逆向最大匹配算法RMM、双向最大匹配法BM),和基于统计的方法(HMM模型),词性标注采用隐马尔可夫模型、感知机、条件随机场等方法,命名实体识别是先结合已有的智能体多模态认知图谱的命名实体库,对每一条规则进行权重的赋值,然后再通过实体与规则的相符程度进行类型的判断,再利用隐马尔可夫模型、最大熵模型、条件随机场等,基于人工标注的语料将命名实体识别任务作为序列标注问题来解决;实体抽取主要抽取的是多模态数据中的原子信息元素,其中基于规则和词典的方法是借助于已有的智能体多模态认知图谱建立的知识库和词典,以模式和字符串相匹配为主要手段,基于统计的方法是基于计机器学习方法的包括Bert+BiLSTM+CRF模型、隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF),混合方法是规则、词典和机器学习方法之间的融合,其核心是融合方法技术,在基于统计的学习方法中引入部分规则将机器学习和人工知识结合起来;事件抽取是将事件信息(事件的时间、地点、人物、原因、结果等)抽取,并结构化地表现出来,包括开放域或限定域事件抽取,事理关系抽取;事件抽取分为元事件抽取和主题事件抽取,其中元事件表示一个动作的发生或状态的变化,往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) ,元事件抽取方法包括基于模式匹配的元事件抽取、基于机器学习的元事件抽取、基于神经网络的抽取方法,主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成,主题事件抽取方法包括基于事件框架的主题事件抽取、基于本体的主题事件抽取。
根据本发明实施例,所述对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,具体为:
根据获得的相同实体对应到认知库中同一个正确的实体上;
根据知识库中实体进行判断是否存在相同实体或相关实体;
通过实体抽取的相关技术获取到实体对象并对应到所述认知库中对应正确实体获得多模态实体链接;
根据构建好的所述智能体多模态认知图谱融入第三方认知库中完成多模态认知合并,其中包括融入数据层和模式层;
所述模式层的融合包括概念的融合、概念上下位关系的融合以及概念属性定义的融合;
所述数据层的融合包括实体的融合和实体属性的融合。
需要说明的是,从本体层和实体层两方面,通过认知库的对齐、关联、合并等方式,将多个智能体多模态认知图谱或信息源中的本体、实体、事件本体、事件进行链接,形成一个更加统一、稠密的智能体多模态认知图谱,是实现认知共享和推理的重要方法,本体层的认知融合主要表现为本体对齐、事件本体对齐,是指确定本体概念、本体关系、本体属性等本体之间映射关系,以及确定事件本体、事理关系、事件属性的过程,一般通过基于已有智能体多模态认知图谱的深度学习算法对本体间的相似度、事件本体间的相似度进行计算来实现,根据自然语言类型,可分为单语言对齐和跨语言对齐,其中跨语言对齐是实现知识国际交流的重要方式,实体层的认知融合主要表现为共指消解和实体对齐、具体事件对齐,共指消解意在将同一信息源中同一实体、同一事件的不同标签统一,实现消歧的目的,实体对齐、事件对齐是将不同信息源中同一实体、同一事件进行统一,使信息源之间产生联结。
根据本发明实施例,所述根据认知图谱和逻辑推理规则进行认知加工,具体为:
根据所述认知图谱和逻辑推理规则进行认知加工包括本体构建、认知推理以及质量评估;
所述本体构建采用数据驱动的自动化方式构建本体,所述本体构建过程包括实体并列关系相似度计算、实体上下位关系抽取以及本体的生成;
所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富;
所述质量评估包括准确率和覆盖率评估。
需要说明的是,实体并列关系相似度计算适用于考察任意给定的两个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这两个实体越有可能属于同一语义类别,所谓并列关系是相对于纵向的概念隶属关系而言的,实体并列关系相似度计算方法有两种:模式匹配法和分布相似度,其中,模式匹配法采用预先定义实体对模式的方法,通过模式匹配取得给定关键字组合在同一语料单位中共同出现的频率,据此计算实体对之间的相似度,分布相似度方法的前提假设是在相似的上下文管径中频繁出现的实体之间具有语义上的相似性;实体上下位关系抽取是用于确定概念之间的隶属(IsA)关系,主要方法是基于语法模式(如Hearst模式)抽取IsA实体对,或利用概率模型判定IsA关系和区分上下位词,以及借助概念分类知识来帮助训练模型以提高算法精度;本体的生成主要任务是对各层次得到的概念进行聚类,并对其进行语义类的标定,为该类的中的实体指定一个或多个公共上位词;质量评估是认知加工最后的“质检”环节,确保智能体多模态认知图谱的合理性,其中准确率是指实体和关系(由图中的节点和边编码)正确地表示现实生活中的现象的程度,准确率可以进一步细分为三个维度:syntactic accuracy 句法准确性、semanticaccuracy 语义准确性和 timeliness 及时性;覆盖率是指避免遗漏与域相关的元素否则可能会产生不完整的查询结果或推导结果、有偏差的模型。
根据本发明实施例,所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富,具体为:
推理规则的推理方式包括演绎推理、归纳推理、类比推理、因推理以及确定性推理和不确定性推理;
所述不确定性推理包括控制方法和模型方法;
所述模型方法分为数值模型方法和非数值模型方法。
需要说明的是,演绎推理又称逻辑推理,由一般到特殊,归纳推理由特殊到一般,类比推理由特殊到特殊,因推理又称反绎推理(或反向演绎),由特殊到解释;确定性推理是指推理时所用的知识与证据都是确定的,推出的结论也是确定的,其真值或者为真或者为假;不确定性推理的推理时所用的知识与证据不都是确定的,推出的结论也是不确定的,不确定性推理方法主要分为控制方法和模型方法两类,控制方法没有处理不确定性的统一模型,其效果极大地依赖于控制策略,不确定性推理的控制方法主要取决于控制策略,包括相关性指导、机缘控制、启发式搜索、随机过程控制,模型方法具体可分为数值模型方法和非数值模型方法两类,按其依据的理论不同,数值模型方法主要有基于概率的方法和基于模糊理论的推理方法,纯概率方法虽然有严格的理论依据,但通常要求给出事件的先验概率和条件概率,而这些数据又不易获得,因此使其应用受到限制,在概率论的基础上提出了一理论和方法,主要有可信度方法、证据理论、基于概率的贝叶斯推理方法。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种智能体多模态认知图谱的构建方法程序,所述智能体多模态认知图谱的构建方法程序被处理器执行时,实现如上述任一项所述的一种智能体多模态认知图谱的构建方法的步骤。
本发明公开的一种智能体多模态认知图谱的构建方法、系统和介质根据构建智能体多模态认知图谱的初始认知体系,基于智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和逻辑推理规则进行认知加工;从而通过构建智能体多模态认知图谱的初始认知体系构建初始的事理逻辑推理规则,基于已有认知体系对感知器获取的多模态数据进行多模态识别和认知抽取,以及对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,根据认知图谱和事理逻辑推理规则进行认知加工,为认知智能提供多模态本体实体及事理逻辑知识库支撑。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种智能体多模态认知图谱的构建方法,其特征在于,包括以下步骤:
构建智能体多模态认知图谱的初始认知体系;
基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取;
对抽取的多模态认知进行融合,包括多模态实体链接和认知合并;
根据认知图谱和逻辑推理规则进行认知加工。
2.根据权利要求1所述的智能体多模态认知图谱的构建方法,其特征在于,所述构建智能体多模态认知图谱的初始认知体系,包括:
通过OpenGL构建空间坐标系与比例尺;
通过OpenGL构建仿真物理世界的虚拟现实场景;
构建所述虚拟现实场景的多模态认知关系图谱,并根据空间坐标系和时序映射各种事物在空间和时间上的位置关系以及各种逻辑的关联关系。
3.根据权利要求2所述的智能体多模态认知图谱的构建方法,其特征在于,所述通过OpenGL构建仿真物理世界的虚拟现实场景,包括:
根据基本图形单元建立景物模型,并对所述景物模型进行数学描述;
将所述景物模型嵌入三维空间中相应位置,并设置视点观察感兴趣的景观;
计算所述景物模型中物体的色彩并确定光照条件、纹理粘贴方式;
根据所述景物模型的数学描述和色彩信息转换至屏幕像素进行光栅化。
4.根据权利要求1所述的智能体多模态认知图谱的构建方法,其特征在于,所述基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取,包括:
基于所述智能体多模态认知图谱结合预训练数据对多模态数据进行识别,并建立多模态数据的对应和依赖关系;
基于所述多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取。
5.根据权利要求4所述的智能体多模态认知图谱的构建方法,其特征在于,所述基于多模态数据进行图像识别、文本处理、实体抽取、实体消歧、实体属性抽取、实体关系抽取以及事件抽取,包括:
所述图像识别包括图像分割、目标检测和识别,包括根据分割的物体与所述智能体多模态认知图谱中图像进行阈值对比和相似度计算,若相似概率超过预设阈值则判定为同一类别物体;
所述文本处理包括分词处理、词性标注以及命名实体识别;
抽取多模态数据中的原子信息元素进行所述实体抽取,包括基于规则和词典的方法、基于统计的方法以及混合方法;
所述实体关系抽取和实体属性抽取包括基于规则的关系提取、弱监督关系提取、监督关系提取、模糊监督关系提取、无监督的关系提取;
所述事件抽取是将事件信息抽取并结构化表现,包括开放域或限定域事件抽取、事理关系抽取。
6.根据权利要求4所述的智能体多模态认知图谱的构建方法,其特征在于,所述对抽取的多模态认知进行融合,包括多模态实体链接和认知合并,具体包括:
根据获得的相同实体对应到认知库中同一个正确的实体上;
根据知识库中实体进行判断是否存在相同实体或相关实体;
通过实体抽取的相关技术获取到实体对象并对应到所述认知库中对应正确实体获得多模态实体链接;
根据构建好的所述智能体多模态认知图谱融入第三方认知库中完成多模态认知合并,其中包括融入数据层和模式层;
所述模式层的融合包括概念的融合、概念上下位关系的融合以及概念属性定义的融合;
所述数据层的融合包括实体的融合和实体属性的融合。
7.根据权利要求6所述的智能体多模态认知图谱的构建方法,其特征在于,所述根据认知图谱和逻辑推理规则进行认知加工,具体包括:
根据所述认知图谱和逻辑推理规则进行认知加工包括本体构建、认知推理以及质量评估;
所述本体构建采用数据驱动的自动化方式构建本体,所述本体构建过程包括实体并列关系相似度计算、实体上下位关系抽取以及本体的生成;
所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富;
所述质量评估包括准确率和覆盖率评估。
8.根据权利要求7所述的智能体多模态认知图谱的构建方法,其特征在于,所述认知推理基于所述智能体多模态认知图谱根据事理逻辑推理规则通过对实体间关系、事件间关系进行获取实体间新关联和事件间新关联对所述智能体多模态认知图谱进行丰富,包括:
推理规则的推理方式包括演绎推理、归纳推理、类比推理、因推理以及确定性推理和不确定性推理;
所述不确定性推理包括控制方法和模型方法;
所述模型方法分为数值模型方法和非数值模型方法。
9.一种智能体多模态认知图谱的构建系统,其特征在于,该系统包括:存储器及处理器,所述存储器中包括智能体多模态认知图谱的构建方法的程序,所述智能体多模态认知图谱的构建方法的程序被所述处理器执行时实现以下步骤:
构建智能体多模态认知图谱的初始认知体系;
基于所述智能体多模态认知图谱对获取的多模态数据进行多模态识别和认知抽取;
对抽取的多模态认知进行融合,包括多模态实体链接和认知合并;
根据认知图谱和逻辑推理规则进行认知加工。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括智能体多模态认知图谱的构建方法程序,所述智能体多模态认知图谱的构建方法程序被处理器执行时,实现如权利要求1至8中任一项所述的一种智能体多模态认知图谱的构建方法的步骤。
CN202210859565.XA 2022-07-22 2022-07-22 一种智能体多模态认知图谱的构建方法、系统和介质 Active CN114925176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210859565.XA CN114925176B (zh) 2022-07-22 2022-07-22 一种智能体多模态认知图谱的构建方法、系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210859565.XA CN114925176B (zh) 2022-07-22 2022-07-22 一种智能体多模态认知图谱的构建方法、系统和介质

Publications (2)

Publication Number Publication Date
CN114925176A true CN114925176A (zh) 2022-08-19
CN114925176B CN114925176B (zh) 2022-10-11

Family

ID=82815788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210859565.XA Active CN114925176B (zh) 2022-07-22 2022-07-22 一种智能体多模态认知图谱的构建方法、系统和介质

Country Status (1)

Country Link
CN (1) CN114925176B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858816A (zh) * 2022-12-27 2023-03-28 北京融信数联科技有限公司 面向公共安全领域的智能体认知图谱的构建方法和系统
CN117009550A (zh) * 2023-08-09 2023-11-07 中国船舶集团有限公司第七〇九研究所 一种海上多源冲突条件下多模态时空本体构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125347A (zh) * 2019-12-27 2020-05-08 山东省计算中心(国家超级计算济南中心) 一种基于unity3d的知识图谱3D可视化方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
US20210192142A1 (en) * 2020-01-15 2021-06-24 Beijing Baidu Netcom Science Technology Co., Ltd. Multimodal content processing method, apparatus, device and storage medium
CN114049493A (zh) * 2022-01-11 2022-02-15 北京融信数联科技有限公司 基于智能体图谱的图像识别方法、系统和可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125347A (zh) * 2019-12-27 2020-05-08 山东省计算中心(国家超级计算济南中心) 一种基于unity3d的知识图谱3D可视化方法
US20210192142A1 (en) * 2020-01-15 2021-06-24 Beijing Baidu Netcom Science Technology Co., Ltd. Multimodal content processing method, apparatus, device and storage medium
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN114049493A (zh) * 2022-01-11 2022-02-15 北京融信数联科技有限公司 基于智能体图谱的图像识别方法、系统和可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858816A (zh) * 2022-12-27 2023-03-28 北京融信数联科技有限公司 面向公共安全领域的智能体认知图谱的构建方法和系统
CN117009550A (zh) * 2023-08-09 2023-11-07 中国船舶集团有限公司第七〇九研究所 一种海上多源冲突条件下多模态时空本体构建方法
CN117009550B (zh) * 2023-08-09 2024-04-19 中国船舶集团有限公司第七〇九研究所 一种海上多源冲突条件下多模态时空本体构建方法

Also Published As

Publication number Publication date
CN114925176B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN114925176B (zh) 一种智能体多模态认知图谱的构建方法、系统和介质
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN115018214B (zh) 一种基于认知图谱的企业风险分析预测方法、系统和介质
CN114639139A (zh) 一种基于强化学习的情绪化图像描述方法及系统
CN114064918A (zh) 一种多模态事件知识图谱构建方法
CN114049493B (zh) 基于智能体图谱的图像识别方法、系统和可读存储介质
Sampat et al. CLEVR_HYP: A challenge dataset and baselines for visual question answering with hypothetical actions over images
CN110472002A (zh) 一种文本相似度获取方法和装置
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN117523275A (zh) 基于人工智能的属性识别方法及属性识别模型训练方法
Zhang et al. Application and analysis of image recognition technology based on Artificial Intelligence--machine learning algorithm as an example
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114579747A (zh) 一种识别化妆品直播营销违规宣传方法
CN115018215B (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
CN117216197A (zh) 答案推理方法、装置、设备及存储介质
CN115905442A (zh) 基于认知图谱的无人驾驶航空器地貌勘测方法、系统和介质
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN114238587A (zh) 阅读理解方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant