CN112465144B

CN112465144B - 基于有限知识的多模态示范意图生成方法及装置

Info

Publication number: CN112465144B
Application number: CN202011460994.7A
Authority: CN
Inventors: 雷小永; 陈施宇; 赵永嘉; 谢建峰; 戴树岭
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-07-28
Anticipated expiration: 2040-12-11
Also published as: CN112465144A

Abstract

一种基于有限知识的多模态示范意图生成方法，包括以下步骤：建立离线本体系统，使用固定任务场景下的相关知识和信息建立E‑R‑E以及E‑A‑V三元组，构建作为本体系统的离线知识库；提取及识别物体特征和动作指令，基于目标识别工具和实时语音转写工具对输入的视频流进行物体特征及动作指令进行提取和识别，并输出关键词；处理信息文本，使用语义解析器对获得的任务操作的信息文本进行处理，抽取其中的关键词并进行修正，获得处理后的E‑A‑V和E‑R‑E三元组；及更新知识图谱，将所述处理后的E‑A‑V和E‑R‑E三元组中的关键词在所述本体系统进行查询和对照，并生成更新的知识图谱。

Description

基于有限知识的多模态示范意图生成方法及装置

技术领域

本发明涉及基于知识生成和表达意图的机器学习领域，更具体地涉及在多模态示范操作下形成动态操作知识的方法及装置。

背景技术

如何让机器人像人一样学习操作技能完成导航、托运、装配等操作任务是人工智能领域的重要问题。目前工业领域大多采用硬编程方法或示教编程方法机械地让机器人完成固定序列的操作步骤，以最终完成操作任务。这样的硬编程方法或示教编程方法虽然在一定程度上减轻了人的作业负担，但无法适用于动态环境下的复杂操作任务。

复杂操作任务的特点在于：1)由多个子任务序列组成；2)任务执行过程的本体和环境是动态的，需要多传感器融合获取本体和环境信息，作为任务执行的输入条件；3)执行机构与操作对象之间存在复杂的空间、时间和事件驱动的交互。

近年来，针对复杂操作任务，一些研究者开展了在实际的3D环境中利用视觉和语言信息进行导航的任务研究，提出了强化跨模态匹配方法(RCM)，利用当前时间的空间场景状态，推理导航器将输入指令映射成一系列动作。为了提高可推广性和系统的学习能力，该方法引入了以下两种奖励函数：由环境提供的外部奖励，用于衡量每个动作的指令和导航错误；以及来自匹配评论器的内部奖励，用于衡量语音指令和导航轨迹的对齐程度。虽然该研究在实际环境中的可推理性强，但由于在3D环境中，空间大小和场景复杂度高，另外模型没有利用已有知识，实时性和导航准确性都会受到较大影响。相似地，还有一些研究者开展了从人类演示视频中学习动作的任务研究，提出了可以由抓我检测网络和字幕生成网络组成的深度模型，使该模型可以从视频演示中获得动作命令。虽然该研究所提出的方法将全局和局部特征结合在一起，在一定程度上提高动作命令输出准确性，但由于仍然没有充分利用已有知识，检测准确性仍然不够理想。还有一些研究者开展了允许机器人通过观看实时视频来模仿人类意图行为的任务研究，该研究提出形成一个关于机器人和人类操纵行为知识域内的视觉数据集，还提出了不断发展的知识图方案，使该模型可以在语义上将操纵任务的演变解释为充满常识的动态知识图。然而，该方法仅仅涉及视觉模型，而在模型准确性方面还存在不足。

目前本领域已有的方法还存在以下问题：1)即便任务操作的动态性以及任务场景相对固定，已有方法仍然没有充分利用既有的场景知识；2)示范反映出来的操作技能存在建模不足的问题；3)操作知识可动态生成，但面向具体任务的时空事件关联性不足。

发明内容

本领域存在对能够解决以下技术问题的方法和装置的需求：1)在有限的任务场景情况下充分利用既有场景知识，生成多模态示范的意图；2)结合多种类示范输入模型得到关于示范的意图信息文本，提高检测准确度；3)将示范得到的意图信息，已有本体系统等信息结合，构建可动态生成的带有操作顺序的技能知识图谱。

为了实现上述目的，本发明提出一种基于有限任务场景知识的多模态示范意图知识生成方法，通过视觉语言模型处理在有限任务场景下带有语音解说的装配操作视频，辅以有关于任务场景的已有知识构建的本体系统，生成操作技能，基于知识图谱完整地构建流程，给出了知识更新的具体方法，最终可以根据新生成的操作技能实时更新本体系统，形成动态知识图谱。

根据本发明的一个实施方式提供了一种基于有限知识的多模态示范意图生成方法，该方法包括：建立离线本体系统，使用固定任务场景下的相关知识和信息建立E-R-E(Entity-Relation-Entity，实体-关系-实体)以及E-A-V(Entity–Attribute–Value,实体-属性-值)三元组，构建作为本体系统(Ontology System)的离线知识库；提取及识别物体特征和动作指令，使用目标识别工具和实时语音转写工具对输入的任务操作的视频流进行物体特征及动作指令提取和识别，生成并输出信息文本；处理信息文本，使用语义解析器对获得的任务操作的信息文本进行处理，提取所述信息文本中的关键词并进行修正，获得处理后的E-A-V和E-R-E三元组；及更新知识图谱，将所述处理后的E-A-V和E-R-E三元组中的关键词在所述本体系统进行查询和对照，并生成更新的知识图谱。

在一个可选的实施方式中，所述建立离线本体系统的步骤还可包括通过知识图谱软件和网络本体语言构造所述E-R-E以及E-A-V三元组，包括从属关系和属性关系，并且嵌入操作的顺序信息，建立固定任务场景下的有限知识图谱，从而构建离线知识库。

在另一个可选的实施方式中，所述提取及识别物体特征和动作指令步骤还可包括：目标识别工具构成视觉处理框架，实时语音转写工具构成语音处理框架，视觉处理框架和语音处理框架分别对所述视频流中的视觉信息和语言信息进行处理，来提取和识别物体特征。

在另一个可选的实施方式中，所述提取及识别物体特征和动作指令步骤还可包括对补充语音信息进行自然语言处理；及使用音频对比检测工具检测没有语音内容的语音提示音信息。

在另一个可选的实施方式中，所述处理信息文本步骤还可包括使用实时语音转写从示范任务操作的视频流中提取语音信息并生成信息文本。

在另一个可选的实施方式中，所述处理信息文本步骤还可包括使用语义解析器从所述任务操作的信息文本中提取实词和实词关系并进行分析，得到与所述任务操作对应的实词和动作指令。

在另一个可选的实施方式中，所述处理信息文本步骤还可包括使用目标识别工具检测示范任务操作的视频流中的物体类别、类概率和实时位置。

在另一个可选的实施方式中，所述处理信息文本步骤中对关键词的修正还包括对信息文本中内容相同而形式不同的关键词进行规范；及对示范任务操作的视频流中的信息进行人为理解，并对所提取的有误关键词进行修改。

根据本发明的另一个实施方式提供了一种基于有限知识的多模态示范意图生成方法包括以下步骤：

步骤一：离线本体系统建立，针对固定任务场景下相关知识、信息建立E-R-E及E-A-V三元组，形成本体系统，构建离线知识库；

步骤二：基于YOLOv3(You Only Look Once v3)目标识别算法、实时语音转写工具进行工具、工件的等物体特征，以及动作指令的提取和识别；

步骤三：信息文本处理，针对示范获得的完整任务操作信息文本，通过语义解析器抽取信息文本中实词、实词关系等关键词，经过修正得到处理后的E-A-V和E-R-E三元组；

步骤四：知识图谱更新，针对信息文本处理后的E-A-V和E-R-E三元组关键词信息，通过在本体系统中查询对照，更新知识图谱。

根据本发明的另一个实施方式，提供了一种基于有限知识的多模态示范意图生成装置，其特征在于，该装置包括：本体系统建立模块，通过知识图谱软件和网络本体语言使用固定任务场景下的相关知识和信息建立E-R-E以及E-A-V三元组，构建作为本体系统的离线知识库并进行存储；视觉-语言处理模块，包括视觉处理框架和语音处理框架，分别对输入的任务操作的视频流进行处理，提取和识别物体特征及动作指令，生成并输出任务操作的信息文本；信息文本处理模块，包括语义解析器，对获得的任务操作的信息文本进行处理，提取所述信息文本中的关键词并进行修正，获得处理后的E-A-V和E-R-E三元组；和知识图谱更新模块，将所述处理后的E-A-V和E-R-E三元组中的关键词在存储的所述本体系统中进行查询和对照，生成更新的知识图谱，并进行存储。

根据本发明的实施方式所提供的基于有限知识的多模态示范意图生成方法及装置与现有技术相比所具有至少以下有益效果：(1)对于具有明确操作对象和操作任务的应用场景，本方法充分利用受限的场景知识和操作技能知识，可实现精准的操作意图理解；(2)采用多模态视频、语言示范语义分析框架，实现对操作示范的多种类技能知识抽取；(3)提出了基于时、空、事件关联的操作知识生成和表示模型，在知识图谱中生成和表示复用的操作技能，具有很强的扩展性。

通过参考附图和以下说明，本发明的其它装置、设备、系统、方法、特征和优点将是明显的。包括在本说明书中的所有的另外的这种系统、方法、特征和优点都在本发明的范围内，且由所附权利要求保护。

附图说明

通过参考附图可更好地理解本发明。图中的构件不应视作按比例绘制，重点应放在示出本发明的原理上。

图1是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的流程框图；

图2是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的一个示例性是实施例中形成本体系统的示意框图；

图3是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法中的视觉-语言处理的示意框图；

图4是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法中的信息文本处理的流程框图；

图5是应用根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的示例性实施例中的知识库可视化局部示例；

图6是应用根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的示例性实施例中的知识库可视化局部示例；

图7是应用根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的示例性实施例中的知识库可视化局部示例。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

在根据本发明的实施方式中，将视觉-自然语言模型和意图理解模型相结合，将包含有视觉和语言信息的示范视频流中对操作任务的演示解释为一系列的动作序列知识图谱，从而可以支持机器人学习操作任务。以下将结合附图对根据本发明的实施方式的基于有限知识的多模态示范意图生成方法进行详细说明。

图1是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的流程框图。图2是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的一个示例性实施例中形成本体系统的示意框图。图3是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法中的视觉-语言处理的示意框图。图4是根据本发明的实施方式的基于有限知识的多模态示范意图生成方法中的信息文本处理的流程框图。

如图1所示，根据本发明的一个实施方式提供了一种基于有限知识的多模态示范意图知识生成方法，包括以下步骤：建立离线本体系统，使用固定任务场景下的相关知识和信息建立E-R-E(Entity-Relation-Entity，实体-关系-实体)以及E-A-V(Entity–Attribute–Value,实体-属性-值)三元组，构建作为本体系统的离线知识库；提取及识别物体特征和动作指令，使用目标识别工具和实时语音转写工具对输入的示范的任务操作的视频流进行物体特征及动作指令进行提取和识别，并输出信息文本；处理信息文本，使用语义解析器对获得的示范的任务操作的信息文本进行处理，提取所述信息文本中的关键词并进行修正，获得处理后的E-A-V和E-R-E三元组；及更新知识图谱，将所述处理后的E-A-V和E-R-E三元组中的关键词在所述本体系统进行查询和对照，并生成更新的知识图谱。

接下来将参考附图对根据本发明的实施方式所提供的上述方法的各步骤进行更具体的说明。

步骤一：离线本体系统建立，针对固定任务场景下相关知识、信息建立E-R-E(Entity-Relation-Entity，实体-关系-实体)及E-A-V(Entity–Attribute–Value,实体-属性-值)三元组，形成本体系统(Ontology System)，构建离线知识库。

有限知识即有关于任务场景的相关知识，包括但不限于：场景知识、氛围环境知识、执行机构知识、工艺装置知识、零件知识、组件知识、部件知识，集成体知识，连接器知识，操作元知识等。针对任务场景的相关知识构建离线知识库可以将操作任务、场景、技能等限制在有限范围，有效提高识别准确率。参见表1，示出了在根据本发明的实施方式的一个器件装配操作的示例中关于任务场景有限知识建模的相关信息。

表1示例任务场景有限知识的信息列表

要使智能体具有认知和理解能力，需要建立一个相应的知识库，可通过使用，例如但不限于知识图谱软件Protégé和网络本体语言owl(Web Ontology Language，网络本体语言)等，来构造相关的E-R-E和E-A-V三元组，表示出从属关系和属性关系，同时嵌入操作的顺序信息，建立固定场景下的有限知识图谱。针对固定场景(在本示例性实施例中例如指，在主板上安装两种中央处理器，以及安装内存条)下具体任务相关的知识和信息，梳理为E-R-E和E-A-V三元组，并构建成为本体系统(Ontology System)。图2是根据本发明的一个实施方式的基于有限知识的多模态示范意图生成方法的一个器件装配的示例性实施例中的离线本体系统的一个知识可视化示例。图2中“owl:thing”表示对象。该示例性实施例是关于器件装配操作的示例，这里示出了其中关于任务场景有限知识建模，其中实线表示从属关系，如“中央处理器插槽是一个装配槽”，“CPU上的金色小三角是一个装配件对准工具”；虚线表示属性关系，包括动作属性，如“内存条插入内存条插槽”，和方位属性，如“中央处理器插槽在主板中间”。

在根据本发明的实施方式提供的基于有限知识的多模态示范意图生成方法中，上述本体系统的构建步骤可以有效帮助系统从采集到的信息中更好地进行语义解析，得到有逻辑、有意义且实际相似度高的意图。特别是对于操作任务明确的应用场景，将操作对象、操作动作等信息限制在有限范围，可以有效提高后续步骤的识别精度。

步骤二：基于目标识别工具、实时语音转写工具对输入的示范操作的视频流进行工具、工件等的物体特征以及动作指令的提取和识别。

图3为根据本发明的实施方式的一个示例中的视觉-语言处理模块的示意框图。参见图3，视觉和语言信息分别由视觉处理框架和语音处理框架进行处理，该视觉处理框架可使用例如但不限于，YOLOv3(You Only Look Once v3)进行视觉信息的处理。其中，视觉处理框架可由目标识别工具构成，语音处理框架可由实时语音转写工具构成。可选地，在其它实施方式中，在步骤二中，可由视觉处理框架和语音处理框架分别进行工具、工件等的物体特征以及动作指令的提取和识别。

可选地，所述目标识别工具可使用例如但不限于，YOLOv3目标识别算法。所述语音处理框架可使用例如但不限于，科大讯飞的Real-time ASR(实时语音转写)进行语音信息的处理。可选地，在语音处理框架中，可使用音频对比检测工具用于检测没有语音内容的语音提示音信息。在该示例性实施例中，将示范操作的视频流输入包括视觉处理框架和语音处理框架的视觉-语言模型中，可得到视频中与场景相关的有用信息，例如但不限于工具、工件的名称、位置、动作指令等。

可选地，参见图3，在另外的实施方式中，在该步骤二中还可包括预处理步骤。该预处理步骤可以设置在接收到示范操作的视频流文件，并且对视频文件中视觉信息和语音信息以及其它信息进行采集之后，其中可以分别对采集的视觉信息和语音信息进行预处理，通过预处理裁剪与操作场景无关或相关性低的内容，并且同时进行去噪处理获得更高质量视觉和语音信息。通过预处理步骤可以进一步提高信息提取和转换的效率以及生成示范意图的准确度。

根据本发明的实施方式，机器人通过示范学习，可以获得示范操作中相关能力，来完成新任务。作为示范学习的其中一种方法，视觉示范方法既可以有效避免建立复杂的运动模型，同时也可以解决通过编程控制传统机器人执行任务对非编程用户不友好的问题。可选地，除视觉信息以外，在示范过程中还可加入操作任务相关动作指令，如“将中央处理器放入中央处理器插槽”，“按下金属把手并抬起90度”，以及还可利用语音提示音，如内存条成功卡入插槽时会发出“咔嚓”声，可以帮助智能体更好地学习相关能力，使模型具有多模态意图理解的能力。因此在对视觉信息进行处理的基础上，可以对补充语音信息进行自然语言处理(Natural Language Process，NLP)。

将视频中音频流实时转换成为文字流数据的功能可使用例如但不限于，由科大讯飞开发的实时语音转写工具。此外，关于固定场景中出现的工具、工件等不常用词汇，可以通过设定个性化热词提高语音识别准确率。另外，模型中还可使用除语音识别以外的音频对比检测工具，即文本无关的声纹识别工具，来处理场景中出现的没有语音内容的音频流(如内存条卡入插槽的“咔嚓”声等)。

YOLO(You Only Look Once)是最新的实时物体检测系统。在目标检测算法中，基于深度学习的目标检测方法主要有两种，其中以YOLO、SSD(Single Shot MultiBoxDetector，单次多框检测器)为代表的方法是无区域建议的一步法。一步法直接在完整图像中预测边界框和边界框内物体的类概率。一步法，尤其是YOLO算法，相比于两步法的最大优势在于运行速度快，可以实现对信息的高速处理。

在该示例性实施例中，可在本步骤二之前对模型进行预训练，该预训练为针对任务场景下有限知识的数据集扩展训练，从而提供给检测算法以识别多种装配场景特征的能力。数据集扩展训练可包括但不限于，例如对视频流中使用的工具、工件等机器人抓取的物体进行目标检测、精准定位以及位置跟踪。具体地，对工件进行位置跟踪，判断工件停留位置为装配位置，对装配位置周围明显的特征进行定位与记录，以达到在机器人操作过程中，对装配位置进行相对位置定位的目的，从而对装配位置进行精准定位。可选地，根据需要，该预训练处理也可以安排在步骤一之前进行。

步骤三：信息文本处理，对获得的示范任务操作信息文本，通过语义解析器从该信息文本中提取实词、实词关系等关键词，并对该关键词进行修正，得到处理后的E-A-V和E-R-E三元组。

参见图4，在该示例性实施例中，可使用实时语音转写提取出示范视频中的语音信息，再通过语义解析器进行关键词提取，可以得到语音信息中的词法、句法分析，从其中提取出与任务相关、具有特殊意义的实词(如“中央处理器”，“插槽”，“金属把手”等)，以及动作指令(如“放入”，“插”，“抬起”等)。语义解析器可使用例如但不限于，自然语言处理工具包HanLP(Han Language Processing，汉语言处理包)。使用语义解析器通过词法分析，分析后得到语音信息中的名词及动词，分别对应操作任务中的实词和动作指令。可选地，在该示例性实施例中还可使用目标识别工具，例如但不限于YOLOv3，来检测示范视频流中物体的类别、类概率以及实时位置，可以帮助提高实时语音转写对实词的识别准确率，并减少语音转写疏漏。

对例如HanLP等的语义解析器所提取到的关键词有针对性地进行修正，可包括以下两个方面：由于视频流中语音信息可以是人为录的，并没有严格地限定用词，所以语音信息的描述通常不会完全一致，因此需要在视觉检测模块中进行名称设定，将语音信息中提取到的内容相同、形式不同的关键词进行规范和统一；对视频流中的信息人为进行理解，对提取到的有误关键词进行修改。最终得到质量更好的处理后三元组信息。

步骤四：知识图谱更新，将处理后的信息文本中包含时间、空间以及操作信息的三元组关键词，在本体系统中进行查询和对照，并在知识图谱中进行进一步的更新。

在该示例性实施例中，处理后的信息文本形式上是E-A-V和E-R-E三元组，其中包含了时间信息(操作顺序信息)、空间信息(环境信息)和具体操作信息。通过数据存储将三元组存入数据库，以表示实体和实体、实体和属性之间的关系，便于数据可视化。知识图谱除使用工具手动构建以外，还可以通过将静态本体系统内已有知识库与信息采集后解析得到的意图进行对比，并自动更新知识库。将E-A-V和E-R-E三元组信息输入本体系统进行查询，在查询本体系统过程中，若步骤中得到的实词、指令等不存在于本体系统，或有新的操作顺序信息，则实时更新知识库得到更新的知识图谱，从而提高模型意图理解的能力。参见图5-7所示，示出了应用根据本发明的实施方式的基于有限知识的多模态示范意图生成方法的装配场景示例性实施例中的知识库可视化局部示例。

在根据本发明的实施方式中，通过信息获取、信息处理等步骤，获得有时间、空间、操作等方面信息的E-R-E以及E-A-V三元组，将其存入知识库，使知识图谱中有时空、操作顺序、操作技能相关知识生成，可以提高模型意图理解的能力，使模型有很强的扩展性。

根据本发明的另一个实施方式，提供了一种基于有限知识的多模态示范意图生成装置，其特征在于，该装置包括：本体系统建立模块，通过知识图谱软件和网络本体语言使用固定任务场景下的相关知识和信息建立E-R-E以及E-A-V三元组，构建作为本体系统的离线知识库并将其存储在存储器中；视觉-语言处理模块，包括视觉处理框架和语音处理框架，分别对输入的任务操作的视频流进行处理，提取和识别物体特征及动作指令，并输出任务操作的信息文本；信息文本处理模块，包括语义解析器，对获得的任务操作的信息文本进行处理，提取所述信息文本中的关键词并进行修正，获得处理后的E-A-V和E-R-E三元组；和知识图谱更新模块，将所述处理后的E-A-V和E-R-E三元组中的关键词在所述本体系统中进行查询和对照，并生成更新的知识图谱。

可选地，根据本发明的实施方式提供的该基于有限知识的多模态示范意图生成装置还可在各所述模块中相应地包括与以上关于基于有限知识的多模态示范意图生成方法的步骤中对应的扩展模块和功能部件。例如，在视觉-语言处理模块中，还可包括声纹识别工具，来处理场景中出现的没有语音内容的音频流。

需要说明的是，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所披露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应理解，前述仅说明了一些实施方式，可进行改变、修改、增加和/或变化而不偏离所公开的实施方式的范围和实质，该实施方式是示意性的而不是限制性的。此外，所说明的实施方式涉及当前考虑为最实用和最优选的实施方式，其应理解为实施方式不应限于所公开的实施方式，相反地，旨在覆盖包括在该实施方式的实质和范围内的不同的修改和等同设置。此外，上述说明的多种实施方式可与其它实施方式共同应用，如，一个实施方式的方面可与另一个实施方式的方面结合而实现再另一个实施方式。另外，任何给定组件的各独立特征或构件可构成另外的实施方式。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于有限知识的多模态示范意图生成方法，其特征在于，该方法包括以下步骤：

建立离线本体系统，使用固定任务场景下的相关知识和信息建立E-R-E以及E-A-V三元组，构建作为本体系统的离线知识库；

提取及识别物体特征和动作指令，使用目标识别工具和实时语音转写工具对输入的任务操作的视频流进行物体特征及动作指令提取和识别，形成并输出信息文本；

处理信息文本，使用语义解析器对获得的任务操作的信息文本进行处理，提取所述信息文本中的关键词并进行修正，获得处理后的E-A-V和E-R-E三元组；及

更新知识图谱，将所述处理后的E-A-V和E-R-E三元组中的关键词在所述本体系统进行查询和对照，并生成更新的知识图谱；所述建立离线本体系统的步骤还包括：

通过知识图谱软件和网络本体语言构造所述E-R-E以及E-A-V元组，包括从属关系和属性关系，并且嵌入操作的顺序信息，建立固定任务场景下的有限知识图谱，从而构建离线知识库；所述提取及识别物体特征和动作指令步骤还包括：

目标识别工具构成视觉处理框架，实时语音转写工具构成语音处理框架，由视觉处理框架和语音处理框架分别对所述视频流中的视觉信息和语言信息进行处理，来提取和识别物体特征及动作指令。

2. 如权利要求1所述的基于有限知识的多模态示范示意图生成方法，其特征在于，所述提取及识别物体特征和动作指令步骤还包括：

对补充语音信息进行自然语言处理；及

使用音频对比检测工具检测没有语音内容的语音提示音信息。

3.如权利要求1所述的基于有限知识的多模态示范示意图生成方法，其特征在于，所述处理信息文本步骤还包括：

使用实时语音转写从任务操作的视频流中提取语音信息并生成信息文本。

4.如权利要求1所述的基于有限知识的多模态示范示意图生成方法，其特征在于，所述处理信息文本步骤还包括：

使用语义解析器从所述任务操作的信息文本中提取实词和实词关系并进行分析，得到与所述任务操作对应的实词和动作指令。

5.如权利要求1所述的基于有限知识的多模态示范示意图生成方法，其特征在于，所述处理信息文本步骤还包括：

使用目标识别工具检测示范任务操作的视频流中的物体类别、类概率和实时位置。

6. 如权利要求1所述的基于有限知识的多模态示范示意图生成方法，其特征在于，所述处理信息文本步骤中对关键词的修正还包括：

对信息文本中内容相同而形式不同的关键词进行规范；及

对任务操作的视频流中的信息进行人为理解，并对所提取的有误关键词进行修改。

7.一种实施权利要求1所述基于有限知识的多模态示范意图生成方法的生成装置，其特征在于，该生成装置包括：

本体系统建立模块，通过知识图谱软件和网络本体语言使用固定任务场景下的相关知识和信息建立E-R-E以及E-A-V三元组，构建作为本体系统的离线知识库并进行存储；

视觉-语言处理模块，包括视觉处理框架和语音处理框架，分别对输入的任务操作的视频流进行处理，提取和识别物体特征及动作指令，生成并输出任务操作的信息文本；

信息文本处理模块，包括语义解析器，对获得的任务操作的信息文本进行处理，提取所述信息文本中的关键词并进行修正，获得处理后的E-A-V和E-R-E三元组；和

知识图谱更新模块，将所述处理后的E-A-V和E-R-E三元组中的关键词在所存储的所述本体系统中进行查询和对照，生成更新的知识图谱，并进行存储。