CN106997243A

CN106997243A - 基于智能机器人的演讲场景监控方法及装置

Info

Publication number: CN106997243A
Application number: CN201710192637.9A
Authority: CN
Inventors: 许豪劲
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2017-08-01
Anticipated expiration: 2037-03-28
Also published as: CN106997243B

Abstract

本发明公开了一种基于智能机器人的演讲场景监控方法及装置。其中，该方法包括：获取用户在虚拟演讲场景下进行演讲的多模态数据，多模态数据至少包括语音数据；对用户进行演讲的多模态数据进行解析；利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群，演讲规范数据群为集合了具有指导性的演讲示范性数据；根据预设的演讲元素，比对解析结果与确定的演讲规范数据群；根据比对结果输出用于指导用户演讲的多模态输出数据。本发明的基于智能机器人的演讲场景监控系统能够帮助用户做演讲训练，使机器人更贴近实际应用场景，满足用户需求，并且增强了智能机器人的多模态交互能力，改善了用户体验。

Description

基于智能机器人的演讲场景监控方法及装置

技术领域

本发明涉及智能机器人领域，尤其涉及一种基于智能机器人的演讲场景监控方法及装置。

背景技术

随着科学技术的不断发展，信息技术、计算机技术以及人工智能技术的引入，机器人的研究已经逐步走出工业领域，逐渐扩展到了医疗、保健、家庭、娱乐以及服务行业等领域。而人们对于机器人的要求也从简单重复的机械动作提升为具有拟人问答、自主性及与其他机器人进行交互的智能机器人，人机交互也就成为决定智能机器人发展的重要因素。因此，提升智能机器人的交互能力，改善机器人的类人性和智能性，是现在亟需解决的重要问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够帮助用户做演讲训练，使机器人更贴近实际应用场景的解决方案。

为了解决上述技术问题，本申请的实施例首先提供了一种基于智能机器人的演讲场景监控方法，该方法包括：获取用户在虚拟演讲场景下进行演讲的多模态数据，所述多模态数据至少包括语音数据；对用户进行演讲的多模态数据进行解析；利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群，所述演讲规范数据群为集合了具有指导性的演讲示范性数据；根据预设的演讲元素，比对解析结果与确定的演讲规范数据群；根据比对结果输出用于指导用户演讲的多模态输出数据。

优选地，所述多模态数据包括用户在虚拟演讲场景下进行演讲的语音信息，基于所述语音信息，通过比对判断所述用户的语音、语调和停顿时间是否符合设定规则。

优选地，所述多模态数据包括用户在虚拟演讲场景下进行演讲的图像信息，基于所述图像信息，通过比对判断用户的面部表情和姿态是否符合设定规则。

优选地，还包括：根据解析结果提取出用户的演讲内容，提供与所述用户的演讲内容相关联的视频信息，以指导用户的演讲，或者，由智能机器人提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

优选地，所述方法通过配置有演讲APP的智能机器人实现，所述机器人装载有机器人操作系统，所述虚拟演讲场景通过AR/VR设备产生，所述AR/VR设备与所述智能机器人的演讲APP协同运行，或者，在AR/VR设备中，提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

本发明实施例还提供了一种演讲场景监控装置，该装置包括：演讲数据获取模块，其获取用户在虚拟演讲场景下进行演讲的多模态数据，所述多模态数据至少包括语音数据；一个或多个处理器；编码在一个或多个有形介质中用于由所述一个或多个处理器执行的逻辑，并且所述逻辑在被执行时用于执行如下操作：对用户进行演讲的多模态数据进行解析；利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群，所述演讲规范数据群为集合了具有指导性的演讲示范性数据；根据预设的演讲元素，比对解析结果与确定的演讲规范数据群；以及根据比对结果输出用于指导用户演讲的多模态输出数据。

优选地，所述多模态数据包括用户在虚拟演讲场景下进行演讲的语音信息，所述所述逻辑在被执行时进一步用于执行如下操作：基于所述语音信息，通过比对判断所述用户的语音、语调和停顿时间是否符合设定规则。

优选地，所述多模态数据包括用户在虚拟演讲场景下进行演讲的图像信息，所述逻辑在被执行时进一步用于执行如下操作：基于所述图像信息，通过比对判断用户的面部表情和姿态是否符合设定规则。

优选地，还包括演讲视频输出模块，其根据解析结果提取出用户的演讲内容，提供与所述用户的演讲内容相关联的视频信息，以指导用户的演讲，或者，所述逻辑在被执行时进一步用于执行如下操作：根据解析结果提取出用户的演讲内容，提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

优选地，所述装置通过配置有演讲APP的智能机器人实现，所述机器人装载有机器人操作系统，所述虚拟演讲场景通过AR/VR设备产生，所述AR/VR设备与所述智能机器人的演讲APP协同运行，或者，在AR/VR设备中，提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

本发明实施例通过智能机器人来对处于虚拟演讲场景下的用户进行演讲指导，在用户进行演讲时，获取用户在虚拟演讲场景下进行演讲的多模态数据，对用户进行演讲的多模态数据进行解析，根据预设的演讲元素，比对解析结果与确定的演讲规范数据群，根据比对结果输出用于指导用户演讲的多模态输出数据。本发明实施例的基于智能机器人的演讲场景监控系统能够帮助用户做演讲训练，使机器人更贴近实际应用场景，满足用户需求，并且增强了智能机器人的多模态交互能力，改善了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为本发明实施例的演讲场景监控装置的概略结构示意图。

图2为本发明实施例的基于智能机器人的演讲场景监控方法的示例的简化流程图。

图3为本发明实施例的对用户进行演讲的语音信息执行处理的示例一的简化流程图。

图4为本发明实施例的对用户进行演讲的图像信息执行处理的示例二的简化流程图。

图5为本发明实施例的对用户进行演讲的心电/脑电信息执行处理的示例三的简化流程图。

图6为本发明实施例的根据比对结果输出指导用户演讲的多模态数据处理的示例的简化流程图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

下面参照图1对本发明的演讲场景监控装置的实施例进行说明。作为演讲场景监控装置的一个例子，可以为虚拟体验终端，也可以是安装了机器人操作系统的智能机器人，该机器人具备多模态数据交互功能和多模态数据解析功能。以下，以实现多模态交互及解析的机器人为例，来说明本发明的演讲场景监控装置。该演讲场景监控装置适用于多种平台，以及，人形机器人的应用及功能支持。另外，演讲场景监控装置的应用，所述应用可搭载于机器人操作系统中，或为机器人某种模式下所实现的功能。

该智能机器人1能够实现对用户的演讲训练，如图1所示，其主要包括如下模块：演讲数据获取模块10、处理器20和多模态数据展示模块30，下面具体说明各个模块的功能。

首先来说明演讲数据获取模块10，该模块10主要获取用户在虚拟演讲场景下进行演讲时的多模态数据，该多模态数据可以包括演讲者演讲时的肢体动作、面部表情、语音信息(包括具体演讲内容、语速、语调、停顿频率)和/或心电/脑电波等信息。进一步，如图1所示，该模块10主要包括深度相机11、语音输入设备12和心电/脑电监测设备13。其中，本例采用深度相机11来替代传统采集二维图像信息的图像传感器，主要是为处理器20提供更加精确的信息以获取用户的肢体动作信息。在本例中采用微软的Kinect深度摄像机，其可以采用OpenNI开发包获得RGB图像及深度图像。除了获取图像数据之外，该开发包还具有骨架跟踪功能，可以实时跟踪每帧图像中的人体关节，通过分析人体运动序列图像来提取人体关节点的三维坐标，从而得到人体的运动参数。基于此，可以获得演讲者在虚拟场景下进行演讲的肢体动作。另一方面，深度相机11还可以为处理器20提供演讲者的面部表情信息，以使该处理器20能够对每帧图像中的人脸进行检测，识别出当前演讲者的面部表情。麦克风作为语音输入设备12中的一种，可以为动圈式麦克风、MEMS麦克风和驻极体电容麦克风，其中，驻极体电容麦克风尺寸小、功耗低、价格低廉而且性能不错，因此采用这类麦克风作为该机器人的声音传感器。另外，为了更好训练用户的演讲，本实施例的装置还包括心电/脑电监测设备13，通过该监测设备13能够监测演讲者模拟演讲过程中的心电/脑电波数据，以供处理器20使用，从而可以配合图像识别结果更加准确地确定当前用户的紧张程度或用户的情绪属性。

接下来，对处理器20进行说明，该处理器20执行编码在一个或多个有形介质中的逻辑，使该逻辑在被执行时执行如下操作：对用户进行演讲的多模态数据进行解析；利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群，所述演讲规范数据群为集合了具有指导性的演讲示范性数据；根据预设的演讲元素，比对解析结果与特定的演讲规范数据群；以及根据比对结果输出用于指导用户演讲的多模态输出数据。如图1所示，该处理器20包括一个处理器或由多个处理器(例如标号211、212、213)组成的处理器单元21、I/O接口22和存储器23。

需要说明的是，“处理器”包括处理数据、信号或其他信息的任何适当的硬件和/或软件系统、机制或组件。处理器可以包括具有通用中央处理单元(CPU)、多处理单元、用于实现功能的专用电路的系统、或其他系统。处理不必限于地理位置，或具有时间限制。例如，处理器可以以“实时”、“离线”、“批处理模式”等执行其功能。可以在不同时间和不同地点，由不同(或相同)处理系统执行处理的部分。计算机可以是与存储器通信的任何处理器。存储器可以是任何适当的处理器可读存储介质，诸如随机存取存储器(RAM)、只读存储器(ROM)、磁或光盘、或适合于存储由处理器执行的指令的其他有形介质。

具体地，处理器单元21包括图像处理单元211、声音处理单元212、电波处理单元213、数据解析模块214、指导数据输出模块215和演讲视频输出模块216。其中的图像处理单元211、声音处理单元212、电波处理单元213对获取的多模态数据进行解析。具体来说，图像处理单元211具备图像预处理功能、特征提取功能、决策功能和具体应用功能。图像预处理主要是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化。特征提取主要提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息。决策主要是对特征信息，按照一定的决策策略分发给需要该特征信息的具体应用。具体应用功能实现人脸检测、人物肢体识别、运动检测等功能。声音处理单元212采用语音识别技术将自然语音信息进行语言理解分析获取用户话语的语义信息，而且，通过分析语音内容确定演讲者的语速、语调、停顿频率。电波处理单元213对采集到的心/脑电信号进行预处理来去除掺杂的伪迹。随后对去除伪迹的脑电信号进行特征提取，这些特征可以为时域特征、频域特征或时频特征。根据这些特征以及之前根据训练的样本所得到的不同情绪(例如平静、高兴、悲伤、恐惧)对应的脑电特征来确定用户的情绪。另外，除了上面三种常见特征外，还可以从脑电信号中提取出许多其他特征，如熵、分形维数以及自定义的特征等。

数据解析模块214利用基于深度学习算法特定的演讲深度模型，获取对应语音数据的文本的演讲规范数据群，并根据预设的演讲元素，比对解析结果与确定的演讲规范数据群。其中，预设的演讲元素可以包括情绪表达的准确性、走位次数、肢体的频繁/单调性、站立姿势的合理性(包括是否驼背，手部是否垂放自然)、手部动作的频繁度；声音语调的合理性、停顿的合理性等元素。演讲深度模型是基于深度学习算法得到的，具体来说，预先利用语音识别技术、机器视觉技术收集具有指导性的演讲者(例如，演讲水平较高的优秀演讲者)的演讲文字内容、语音内容、视频图像内容，通过深度学习算法，根据感人段落、动人段落等时刻的文字所对应的声调、情绪、肢体动作等做深度学习。更具体来说，预先搜集大量优秀演讲者的演讲视频资料，针对每个视频资料先进行如下处理：筛选出感人演讲段落，例如可以为演讲者情绪较为波动的演讲时段，针对该时段的视频进行语音识别处理获取该段落对应的文本内容、语音语调和停顿频率，对图像信息进行图像处理确定该时段内不同文本内容对应的肢体动作和情绪特征等。将针对每个视频资料的经上述这些处理后的数据作为演讲深度模型网络的训练数据集合，基于深度自动编码器和深度神经网络对该训练数据集合进行深层特征提取完成对演讲深度模型的训练。

数据解析模块214将获取的演讲过程中的语音数据的文本内容作为输入，通过演讲深度模型获取对应的演讲规范数据群。该数据群可以包括在此段落演讲期间的合理走位次数、肢体动作合理性数据、语音语调合理性数据以及情绪数据等内容。然后对比有关用户在演讲过程中的演讲多模态数据的解析内容(真实演讲反应内容)和演讲规范数据群，确定用户演讲过程中所展现出的语音、肢体动作等的合理性。

指导数据输出模块215根据比对结果输出用于指导用户演讲的多模态输出数据。具体来说，在比对结果未达到设定预期时，例如，比对的演讲元素中设定数量的元素没有达到匹配，则认为未达到设定预期，则将针对该段落演讲的演讲规范数据群生成多模态输出数据，向用户展示出规范的演讲方式。

演讲视频输出模块216，根据解析结果提取出用户的演讲内容，提供与用户的演讲内容相关联的视频信息，以指导用户的演讲。如图1所示，在存储器23中存储有以主题名称或视频概略关键词为索引的演讲视频数据库，演讲视频输出模块216根据演讲内容查找该数据库选择匹配的视频信息。考虑到机器人本地存储容量的局限性，指导性视频可以设置在云端服务器中，演讲视频输出模块216通过网络通信协议向云端服务器发送视频请求来获取匹配的视频信息，有关云端服务器的结构和功能，此处不进行过度限制。

多模态数据输出模块30，其将多模态输出数据以多模态方式向用户呈现。该模块30主要包括显示器31、语音输出设备32、肢体操作机构33。显示器31可以选择液晶显示器，其控制显示屏以显示接收到的视频信息和/或情绪表达信息。语音输出设备32可以为喇叭，其将接收到的语音格式的信息以声音的方式输出给用户。肢体操作机构33根据接收到的肢体动作指令向用户展现出推荐的肢体动作。

除了上面采用机器人实体硬件的方式来输出指导性多模态数据以外，本例的智能机器人1还可以根据解析结果提取出用户导演讲内容，提供与所述用户的演讲内容相关联的虚拟机器人演示数据，将其在显示器31上显示。具体来说，智能机器人1可以利用数据解析模块214产生的演讲规范数据群来生成虚拟机器人演示数据，当然，其中的声音等还是通过语音输出设备31来输出，而有关虚拟机器人在进行该段演讲过程中具有指导性的面部表情和肢体动作等基于虚拟机器人演示数据来实现。该虚拟机器人可以为映射了当前用户的整体状态(包括面貌、体征等)来实现的虚拟人物，使得用户通过虚拟机器人的表现能够更好来了解自身进行演讲时的所需要的表情、声音状态等信息。

另外，在本发明实施例中，优选地，虚拟演讲场景的创建由图1所示的AR/VR设备40来实现。通过该AR/VR设备40构造出有成百上千人作为听众听该用户进行演讲的演讲场景。另外，通过投影方式也可以创建出动态的演讲场景，虽然这种方式的体验性不如AR/VR设备40，但是也可以作为本发明的一个实施例来实施。另一方面，在AR/VR设备中，也可以提供与所述用户的演讲内容相关联的虚拟机器人演示数据，通过虚拟机器人来演示该段演讲内容所应展现出来的状态信息。

下面同时参考图1和图2来大致说明一下本发明的基于智能机器人的演讲场景监控方法的流程。如图2所示，首先，在步骤S210中，演讲数据获取模块10获取用户在虚拟演讲场景下进行演讲的多模态数据。接着，处理器20中的图像处理单元211、声音处理单元212、电波处理单元213等对用户进行演讲的多模态数据进行解析(步骤S220)。随后处理器20中的数据解析模块214利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群(步骤S230)，在步骤S240中，指导数据输出模块215根据预设的演讲元素，比对解析结果与确定的演讲规范数据群。最后，演讲视频输出模块216根据比对结果输出用于指导用户演讲的多模态输出数据(步骤S250)。

接下来，参考图3具体说明对用户进行演讲的语音数据执行解析处理的示例一的过程。为了方便机器人对用户在虚拟演讲场景下的演讲多模态数据的处理，用户进行演讲时，以每个段落为一个单元，来接受机器人的演讲训练。在此过程中，深度相机11、语音输入设备12和心电/脑电监测设备13采集用户针对某一段落的演讲多模态数据。由于本例是对语音数据的处理，因此如图3所示，首先在步骤S310中抽取出语音信息，声音处理单元212对该语音信息进行解析处理(步骤S320)，通过语音识别技术获取该段落的文本信息，利用语音检测技术检测用户的语音、语调、停顿时间/次数、语速等信息。接着，在步骤S330中，数据解析模块214将文本内容作为输入，通过演讲深度模型获取对应的演讲规范数据群，该数据群至少包括该段演讲内容对应的合理语音语调、停顿信息等。数据解析模块214在步骤S330中通过比对操作评估演讲者的语音语调、停顿时间和次数是否合理，例如段落内容的哪里应该要停顿一下，哪里应该声调要高亢等。同时还能确定发音不准确的地方。在不符合设定规则的情况下，指导数据输出模块215输出指导性多模态数据。该指导性多模态数据可以包括评价结果(不合理性的内容)、合理性建议(何时停顿、何时语调要高亢、何时要低沉等)以及视频信息和/或演讲规范数据群。

另一方面，还需要对用户进行模拟演讲时的肢体动作和面部表情进行评价。具体参考图4所示的流程。如图4所示，在步骤S410中抽取出用户演讲的图像信息，图像处理单元211进行图像解析操作(步骤S420)获取用户的肢体动作和面部表情信息，在步骤S430中，数据解析模块214通过比对操作判断演讲者的肢体动作是否合理，例如是否有合理走位、肢体动作是否过于频繁或过于单调、站立姿势是否合理、是否有驼背现象、手垂放是否自然，手部动作是否过于频繁等待。在不符合设定规则的情况下，指导数据输出模块215输出指导性多模态数据。

再一方面，如图5所示，还对采集到的心电/脑电进行解析，获取用户的情绪信息(步骤S520)，通过比对判断用户当前的情绪是否符合设定规则，若不符合则输出指导性多模态数据，例如给出合理性建议，告知用户应当产生的情绪。

图6为本发明实施例的根据比对结果输出指导用户演讲的多模态数据处理的示例的简化流程图。如图6所示，首先先查询视频数据库231中是否存在匹配的视频信息。具体地，从演讲段落的文本信息中提取关键词(步骤S610)，该关键词例如可以是多次出现的名词或短语。以该关键词为主键搜索视频数据库231中的视频信息(步骤S620)，在搜索到的情况下(步骤S630中的“是”)，将视频信息作为指导性多模态数据输出给显示器31和语音输出设备32进行输出，给用户进行示范(步骤S640)。否则，将演讲规范数据群作为指导性多模态数据分发至对应的硬件执行机构进行多模态输出，展现出正确的发音、推荐的声调和停顿、推荐的肢体动作等，将用户表达得不够好的地方纠正过来。或者，基于演讲规范数据群生成与所述用户的演讲内容相关联的虚拟机器人演示数据，以虚拟方式表现出来(步骤S650)。

在一个实施例中，该智能机器人配置有演讲APP，通过该演讲APP实现如上方法流程，在该APP运行时，其与AR/VR设备40协同操作。在该处，AR/VR设备40还可以提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

本发明实施例的基于智能机器人的演讲场景监控系统能够帮助用户做演讲训练，使机器人更贴近实际应用场景，满足用户需求，并且增强了智能机器人的多模态交互能力，改善了用户体验。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如，本文所述的方法可以实现为能以控制逻辑来执行的软件，其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时，该计算机程序包括一组指令，当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中，例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外，本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如，现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑，或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于智能机器人的演讲场景监控方法，该方法包括：

获取用户在虚拟演讲场景下进行演讲的多模态数据，所述多模态数据至少包括语音数据；

对用户进行演讲的多模态数据进行解析；

利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群，所述演讲规范数据群为集合了具有指导性的演讲示范性数据；

根据预设的演讲元素，比对解析结果与确定的演讲规范数据群；

根据比对结果输出用于指导用户演讲的多模态输出数据。

2.根据权利要求1所述的方法，其特征在于，

所述多模态数据包括用户在虚拟演讲场景下进行演讲的语音信息，基于所述语音信息，通过比对判断所述用户的语音、语调和停顿时间是否符合设定规则。

3.根据权利要求1或2所述的方法，其特征在于，

所述多模态数据包括用户在虚拟演讲场景下进行演讲的图像信息，基于所述图像信息，通过比对判断用户的面部表情和姿态是否符合设定规则。

4.根据权利要求1或2所述的方法，其特征在于，还包括：

根据解析结果提取出用户的演讲内容，提供与所述用户的演讲内容相关联的视频信息，以指导用户的演讲，

或者，

由智能机器人提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

5.根据权利要求1～4任一项所述的方法，其特征在于，

所述方法通过配置有演讲APP的智能机器人实现，所述机器人装载有机器人操作系统，所述虚拟演讲场景通过AR/VR设备产生，所述AR/VR设备与所述智能机器人的演讲APP协同运行，或者，在AR/VR设备中，提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

6.一种演讲场景监控装置，该装置包括：

演讲数据获取模块，其获取用户在虚拟演讲场景下进行演讲的多模态数据，所述多模态数据至少包括语音数据；

一个或多个处理器；

编码在一个或多个有形介质中用于由所述一个或多个处理器执行的逻辑，并且所述逻辑在被执行时用于执行如下操作：对用户进行演讲的多模态数据进行解析；利用基于深度学习算法特定的演讲深度模型，获取对应所述语音数据的文本的演讲规范数据群，所述演讲规范数据群为集合了具有指导性的演讲示范性数据；根据预设的演讲元素，比对解析结果与确定的演讲规范数据群；以及根据比对结果输出用于指导用户演讲的多模态输出数据。

7.根据权利要求6所述的装置，其特征在于，

所述多模态数据包括用户在虚拟演讲场景下进行演讲的语音信息，

所述逻辑在被执行时进一步用于执行如下操作：基于所述语音信息，通过比对判断所述用户的语音、语调和停顿时间是否符合设定规则。

8.根据权利要求6或7所述的装置，其特征在于，

所述多模态数据包括用户在虚拟演讲场景下进行演讲的图像信息，

所述逻辑在被执行时进一步用于执行如下操作：基于所述图像信息，通过比对判断用户的面部表情和姿态是否符合设定规则。

9.根据权利要求6或7所述的装置，其特征在于，还包括演讲视频输出模块，其根据解析结果提取出用户的演讲内容，提供与所述用户的演讲内容相关联的视频信息，以指导用户的演讲，或者，

所述逻辑在被执行时进一步用于执行如下操作：根据解析结果提取出用户的演讲内容，提供与所述用户的演讲内容相关联的虚拟机器人演示数据。

10.根据权利要求6～9任一项所述的装置，其特征在于，

所述装置通过配置有演讲APP的智能机器人实现，所述机器人装载有机器人操作系统，所述虚拟演讲场景通过AR/VR设备产生，所述AR/VR设备与所述智能机器人的演讲APP协同运行，或者，在AR/VR设备中，提供与所述用户的演讲内容相关联的虚拟机器人演示数据。