CN111522524B

CN111522524B - 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端

Info

Publication number: CN111522524B
Application number: CN202010198293.4A
Authority: CN
Inventors: 张岩; 张高瀚; 王韬; 吕松武
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2023-01-03
Anticipated expiration: 2040-03-19
Also published as: CN111522524A

Abstract

本发明公开了一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端，所述方法包括：利用摄像头采集图像帧生成图像集合；利用麦克风阵列采集语音数据；基于识别方法对所述图像集合和/或所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别；通过所述控制指令对演示文稿进行控制显示。因此，采用本申请实施例，可以提高演讲效率。

Description

一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端

技术领域

本发明涉及计算机技术领域，特别涉及一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端。

背景技术

目前，在会议、教学、产品发布会等场景中人们越来越多的用投影仪演示文稿，这使得演讲者更好地表达自己要讲演的内容，同时也大大降低了观众对演讲者所表达内容的理解难度。

在目前演示文稿的方案中，演讲者会使用翻页激光笔来控制文稿的播放、暂停、上翻页与下翻页等，在使用时需要将接收器插入电脑主机的USB接口，然后点击射频遥控器的相关功能键便可控制演示文稿。由于这种翻页激光笔由一个RF射频遥控器与一个无线接收器(USB接口)组成，当距离超过设定的距离时，无线接收器无法接收到信号，使得无法控制演示文稿完成预期功能，从而导致降低了文稿演讲效率。

发明内容

本申请实施例提供了一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种基于会议机器人的演示文稿控制方法，所述方法包括：

利用摄像头采集图像帧生成图像集合；

利用麦克风阵列采集语音数据；

基于识别方法对所述图像集合和/或所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别；

通过所述控制指令对演示文稿进行控制显示。

可选的，所述基于识别方法对所述图像集合或所述语音数据进行识别，生成控制指令，包括：

将所述图像集合中各图像帧输入预设注意力区域判别模型中，获取目标区域；

基于所述目标区域进行手势识别，生成控制指令。

将所述语音数据输入语音识别模块中进行识别，转换生成文字信息；

获取所述文字信息中的关键字；

将所述关键字和预设关键字进行匹配，生成匹配结果集合；

在所述匹配结果集合中获取目标匹配结果；

根据所述目标匹配结果生成控制指令。

可选的，所述将所述图像集合中各图像帧输入预设注意力区域判别模型中，获取目标区域，包括：

将所述图像集合中各图像帧输入预设注意力区域判别模型中，对所述图像集合中各图像帧对应的区域空间进行加权求和，生成加权后的区域空间；

在所述区域空间中获取注意力大于预设阈值的区域；

将所述注意力大于预设阈值的区域确定为目标区域。

可选的，所述基于所述目标区域进行手势识别，生成控制指令，包括：

将所述目标区域输入手势识别模型中，获取手势集合；

输出所述手势集合中各手势对应的识别概率值；

将所述识别概率值最大的手势确定为目标手势；

基于所述目标手势，生成控制指令。

可选的，所述预设注意力区域判别模型是基于视觉注意力的深度卷积神经网络模型。

可选的，所述手势包括向上移动、向下移动、向左移动、向右移动、向前移动、向后移动、顺时针方向圆周移动、逆时针方向圆周移动和摆动。

第二方面，本申请实施例提供了一种基于会议机器人的演示文稿控制装置，所述装置包括：

会议机器人，所述会议机器人包括深度摄像头、麦克风阵列、控制计算机、激光投影设备、无线通信模块。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种终端，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，会议机器人首先利用摄像头采集图像帧生成图像集合，再利用麦克风阵列采集语音数据，然后基于识别方法对所述图像集合和/或所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别，最后通过所述控制指令对演示文稿进行控制显示。由于本申请中演讲者无需使用其他控制演示文稿设备，只通过注意力、手势和语音组合控制演示文稿完成相应功能，从而具有如下有益效果：(1)演讲者无需使用其他任何设备，解除了传统翻页激光笔的距离、功能上的限制。(2)因为采用多传感器融合的技术，大大提高了识别的可靠性。(3)采用注意力、手势、语音结合控制，大大提高了演讲的生动性和感染力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种基于会议机器人的演示文稿控制方法的流程示意图；

图2是本申请实施例提供的一种注意力判定和手势控制流程框图；；

图3是本申请实施例提供的一种语音控制流程框图；

图4是本申请实施例提供的一种多传感器融合的流程框图；

图5是本申请实施例提供的另一种基于会议机器人的演示文稿控制方法的流程示意图；

图6是是本申请实施例提供的另一种基于会议机器人的演示文稿控制方法的流程示意图；

图7是本申请实施例提供的一种会议机器人结构框图；；

图8是本申请实施例提供的一种基于会议机器人的演示文稿控制装置的流程示意图；

图9是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

到目前为止，在目前演示文稿的方案中，演讲者会使用翻页激光笔来控制文稿的播放、暂停、上翻页与下翻页等，在使用时需要将接收器插入电脑主机的USB接口，然后点击射频遥控器的相关功能键便可控制演示文稿。由于这种翻页激光笔由一个RF射频遥控器与一个无线接收器(USB接口)组成，当距离超过设定的距离时，无线接收器无法接收到信号，使得无法控制演示文稿完成预期功能，从而导致降低了文稿演讲效率。为此，本申请提供了一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请中演讲者无需使用其他控制演示文稿设备，只通过注意力、手势和语音组合控制演示文稿完成相应功能，从而具有如下有益效果：(1)演讲者无需使用其他任何设备，解除了传统翻页激光笔的距离、功能上的限制。(2)因为采用多传感器融合的技术，大大提高了识别的可靠性。(3)采用注意力、手势、语音结合控制，大大提高了演讲的生动性和感染力，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图5，对本申请实施例提供的基于会议机器人的演示文稿控制方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的基于会议机器人的演示文稿控制装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的基于会议机器人的演示文稿控制装置可以为用户终端，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等。

请参见图1，为本申请实施例提供了一种基于会议机器人的演示文稿控制方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，利用摄像头采集图像帧生成图像集合；

其中，图像帧是会议机器人采用深度摄像头采集会议场景下的RGB和深度数据，以供注意力区域判定和手势识别使用，采集的数据会存储至控制计算机内。

在一种可能的实现方式中，采集演讲区域的RGB和深度数据，演讲过程中，视觉传感设备采集演讲区域的RGB及深度数据。在本发明的一个实例中，可以选用带有深度信息的视觉传感器(例如Kinect)。具体而言，演讲过程中kinect采集演讲区域的RGB及深度数据。

S102，利用麦克风阵列采集语音数据；

在一种可能的实现方式中，当控制者发出语音信息，语音采集设备采集演讲者的语音数据。在本发明的一个实施例中，采用一组麦克风阵列采集声音数据。

S103，基于识别方法对所述图像集合和/或所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别；

在一种可能的实现方式中，会议机器人首先利用深度摄像头采集图像帧生成图像集合，再将图像集合中各图像帧输入预设注意力区域判别模型中，对图像集合中各图像帧对应的区域空间进行加权求和，生成加权后的区域空间，然后在区域空间中获取注意力大于预设阈值的区域；将注意力大于预设阈值的区域确定为目标区域，然后将目标区域输入手势识别模型中，获取手势集合，再输出所述手势集合中各手势对应的识别概率值，将识别概率值最大的手势确定为目标手势，最后基于目标手势，生成控制指令，通过控制指令对演示文稿进行控制显示。

具体的，选用带有深度信息的视觉传感器(例如Kinect)采集演讲区域的RGB及深度数据，将采集的RGB及深度数据输入一种基于视觉注意力的深度卷积神经网络模型进行处理,它将注意力机制融入到双流卷积神经网络中，注意力机制的特性使得我们可以在没有监督的情况下对每帧图像进行动作的区域定位,对每个区域空间赋予权重,然后根据加权求和将局部空间特征聚合起来，使得计算机像人一样，能够将注意力聚焦于视频里的部分区域，关注有用的部分(演讲者活动的区域)。然后根据模型输出的结果选择整个视频区域中注意力大于阈值的区域，将其他部分视为背景，不去关注，使用手势识别模型对关注区域的手势进行识别，获取演讲者的手势。在本发明的一个实施例中，采用一个基于深度学习的手势识别模型，可以识别9种预定义手势：向上移动、向下移动、向左移动、向右移动、向前移动、向后移动、顺时针方向圆周移动、逆时针方向圆周移动和摆动。具体而言，将注意力判别模型处理过的数据输入给手势识别的模型，模型输出9种手势对应的识别概率。选取识别结果中概率最大的那一个，然后判定其是否大于设定阈值，若超过阈值，则将结果传输给计算机，否则进行下一轮检测。计算机获取手势处理结果，并发出对应的控制命令。具体而言，当手势从左往右滑动时，演示文稿上翻一页；当手势从右往左滑动时，演示文稿下翻一页；当手势从下向上滑动时，执行演示文稿放大的操作；当手势从上往下滑动时，执行演示文稿缩小的操作等。

例如图2所示，首先采集演讲区域的RGB和深度数据，再将数据输入注意力区域判别模型，再选择注意力大于阈值的区域，然后对该区域进行手势识别，再获取概率最该且大于阈值的识别结果，最后将结果传送给控制计算机。

在另一种可能的实现方式中，会议机器人利用麦克风阵列采集语音数据，再将语音数据输入语音识别模块中进行识别，转换生成文字信息，再获取文字信息中的关键字，然后将关键字和预设关键字进行匹配，生成匹配结果集合，最后在匹配结果集合中获取目标匹配结果，根据目标匹配结果生成控制指令，通过控制指令对演示文稿进行控制显示。

具体的，当控制者发出语音信息时，语音采集设备采集演讲者的语音数据。在本发明的一个实施例中，采用一组麦克风阵列采集声音数据。使用语音识别模块将采集的语音数据转换为文字信息，然后识别其中的关键字。在本发明的一个实施例中，使用科大讯飞的语音识别模块，当演讲者说出“跳转到第*页”的时候，语音识别模块能够识别出“跳转到第*页”这样的关键字，然后将识别的关键字与预设定的一些关键字进行逐一比对，查看是否匹配。获取概率最高且大于阈值的对比结果：将匹配结果中概率最高的一项取出，然后判断其是否大于阈值，若超过阈值，则将结果传输给计算机，否则进行下一轮检测。最后将该结果传送给控制计算机，计算机获取手势处理结果，并发出对应的控制命令。具体而言，当演讲者说出“跳转到上一页”时，演示文稿上翻一页；当演讲者说出“跳转到第5页”时，演示文稿跳转到第5页等。

例如图3所示，会议机器人首先采集控制者语音数据，再从采集的语音数据中提取语音数据中关键词，再进行关键词对比后，获取概率最高且大于阈值的对比结果，最后将该结果传送给控制计算机进行处理。

S104，通过所述控制指令对演示文稿进行控制显示。

在一种可行的实现方式中，基于步骤S103可得到计算机处理生成的控制指令，当控制计算机指令生成后，通过生成的指令控制演示文稿进行显示。

例如图4所示，首先进行注意力区域判定，然后进行手势识别和语音识别，将识别结果通过连接线发送至控制计算机，控制计算机得到识别结果后对结果进行处理后，根据结果生成演示文稿控制指令，最后通过连接线控制投影仪进行演示文稿的显示。

请参见图5，为本申请实施例提供的一种基于会议机器人的演示文稿控制的流程示意图。本实施例以基于会议机器人的演示文稿控制应用于会议机器人中来举例说明。该基于会议机器人的演示文稿控制可以包括以下步骤：

S201，利用摄像头采集图像帧生成图像集合；

S202，利用麦克风阵列采集语音数据；

S203，将所述图像集合中各图像帧输入预设注意力区域判别模型中，对所述图像集合中各图像帧对应的区域空间进行加权求和，生成加权后的区域空间；

S204，在所述区域空间中获取注意力大于预设阈值的区域；

S205，将所述注意力大于预设阈值的区域确定为目标区域；

S206，将所述目标区域输入手势识别模型中，获取手势集合；

S207，输出所述手势集合中各手势对应的识别概率值；

S208，将所述识别概率值最大的手势确定为目标手势；

S209，基于所述目标手势，生成控制指令；

S210，通过所述控制指令对演示文稿进行控制显示。

请参见图6，为本申请实施例提供的一种基于会议机器人的演示文稿控制的流程示意图。本实施例以基于会议机器人的演示文稿控制应用于会议机器人中来举例说明。该基于会议机器人的演示文稿控制可以包括以下步骤：

S301，利用摄像头采集图像帧生成图像集合；

S302，利用麦克风阵列采集语音数据；

S303，将所述语音数据输入语音识别模块中进行识别，转换生成文字信息；

S304，获取所述文字信息中的关键字；

S305，将所述关键字和预设关键字进行匹配，生成匹配结果集合；

S306，在所述匹配结果集合中获取目标匹配结果；

S307，根据所述目标匹配结果生成控制指令；

S308，通过所述控制指令对演示文稿进行控制显示。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图7，其示出了本发明一个示例性实施例提供的基于会议机器人的演示文稿控制装置的结构示意图。该基于会议机器人的演示文稿控制装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括会议机器人，所述会议机器人包括深度摄像头、麦克风阵列、控制计算机、激光投影设备、无线通信模块。

深度摄像头，用于采集会议场景下的RGB和深度数据，以供注意力区域判定和手势识别使用，采集的数据会存储至控制计算机内。

麦克风阵列，会议机器人四周安装有6组麦克风，用于采集周围场景的语音信息，然后将这些信息传送至控制计算机。

控制计算机，用于处理摄像头麦克风采集的数据、控制激光投影设备以及同外界的信息交互等。

激光投影设备，用于投影演示文稿；

无线通信模块，用于支持Wi-Fi、蓝牙等通信方式。

可选的，请参见图8，其示出了本发明一个示例性实施例提供的基于会议机器人的演示文稿控制装置的结构示意图。该基于会议机器人的演示文稿控制装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括图像采集模块10、语音采集模块20、指令生成模块30和控制显示模块40。

图像采集模块10，利用摄像头采集图像帧生成图像集合；

语音采集模块20，利用麦克风阵列采集语音数据；

指令生成模块30，基于识别方法对所述图像集合和/或所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别；

控制显示模块40，通过所述控制指令对演示文稿进行控制显示。

需要说明的是，上述实施例提供的基于会议机器人的演示文稿控制装置在执行基于会议机器人的演示文稿控制方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于会议机器人的演示文稿控制装置与基于会议机器人的演示文稿控制方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的基于会议机器人的演示文稿控制方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例所述的基于会议机器人的演示文稿控制方法。

请参见图9，为本申请实施例提供了一种终端的结构示意图。如图9所示，所述终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于会议机器人的演示文稿控制应用程序。

在图9所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的基于会议机器人的演示文稿控制应用程序，并具体执行以下操作：

利用摄像头采集图像帧生成图像集合；

利用麦克风阵列采集语音数据；

通过所述控制指令对演示文稿进行控制显示。

在一个实施例中，所述处理器1001在执行所述基于识别方法对所述图像集合或所述语音数据进行识别，生成控制指令时，具体执行以下操作：

基于所述目标区域进行手势识别，生成控制指令。

获取所述文字信息中的关键字；

将所述关键字和预设关键字进行匹配，生成匹配结果集合；

在所述匹配结果集合中获取目标匹配结果；

根据所述目标匹配结果生成控制指令。

在一个实施例中，所述处理器1001在执行所述将所述图像集合中各图像帧输入预设注意力区域判别模型中，获取目标区域时，具体执行以下操作：

在所述区域空间中获取注意力大于预设阈值的区域；

将所述注意力大于预设阈值的区域确定为目标区域。

在一个实施例中，所述处理器1001在执行所述所述基于所述目标区域进行手势识别，生成控制指令时，具体执行以下操作：

将所述目标区域输入手势识别模型中，获取手势集合；

输出所述手势集合中各手势对应的识别概率值；

将所述识别概率值最大的手势确定为目标手势；

基于所述目标手势，生成控制指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种基于会议机器人的演示文稿控制方法，其特征在于，所述方法包括：

利用摄像头采集图像帧生成图像集合，所述摄像头为深度摄像头；

利用麦克风阵列采集语音数据；

基于识别方法对所述图像集合和所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别；

通过所述控制指令对演示文稿进行控制显示；其中，

所述基于识别方法对所述图像集合进行识别，生成控制指令，包括：

基于所述目标区域进行手势识别，生成控制指令；其中，

所述将所述图像集合中各图像帧输入预设注意力区域判别模型中，获取目标区域，包括：

将所述图像集合中各图像帧输入预设注意力区域判别模型中，对所述图像集合中各图像帧对应的区域空间进行加权求和，生成加权后的区域空间；其中，

所述预设注意力区域判别模型为一种基于视觉注意力的深度卷积神经网络模型，所述基于视觉注意力的深度卷积神经网络模型是将注意力机制融入到双流卷积神经网络中生成的；

在所述区域空间中获取注意力大于预设阈值的区域；

将所述注意力大于预设阈值的区域确定为目标区域；其中，

所述基于所述目标区域进行手势识别，生成控制指令，包括：

将所述目标区域输入手势识别模型中，获取手势集合；

输出所述手势集合中各手势对应的识别概率值；

将所述识别概率值最大的手势确定为目标手势；

基于所述目标手势，生成控制指令。

2.根据权利要求1所述的方法，其特征在于，所述基于识别方法对所述图像集合或所述语音数据进行识别，生成控制指令，包括：

获取所述文字信息中的关键字；

将所述关键字和预设关键字进行匹配，生成匹配结果集合；

在所述匹配结果集合中获取目标匹配结果；

根据所述目标匹配结果生成控制指令。

3.根据权利要求1所述的方法，其特征在于，所述手势包括向上移动、向下移动、向左移动、向右移动、向前移动、向后移动、顺时针方向圆周移动、逆时针方向圆周移动和摆动。

4.一种基于会议机器人的演示文稿控制装置，其特征在于，所述装置包括：

图像采集模块，用于利用摄像头采集图像帧生成图像集合，所述摄像头为深度摄像头；

语音采集模块，用于利用麦克风阵列采集语音数据；

指令生成模块，用于基于识别方法对所述图像集合和所述语音数据进行识别，生成控制指令，所述识别方法为手势识别和语音识别；

控制显示模块，用于通过所述控制指令对演示文稿进行控制显示；其中，

所述指令生成模块具体用于：

基于所述目标区域进行手势识别，生成控制指令；其中，

在所述区域空间中获取注意力大于预设阈值的区域；

将所述注意力大于预设阈值的区域确定为目标区域；其中，

将所述目标区域输入手势识别模型中，获取手势集合；

输出所述手势集合中各手势对应的识别概率值；

将所述识别概率值最大的手势确定为目标手势；

基于所述目标手势，生成控制指令。

5.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～3任意一项的方法步骤。

6.一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～3任意一项的方法步骤。