CN116018789A

CN116018789A - 在线学习中用于对学生注意力进行基于上下文的评估的方法、系统和介质

Info

Publication number: CN116018789A
Application number: CN202080103551.4A
Authority: CN
Inventors: 维·周; 莫娜·侯赛因哈尼·洛克; 萨奇·米佐布奇; 伊休; 叶军涛; 胡靓; 李维
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2023-04-25
Anticipated expiration: 2040-09-14
Also published as: EP4201041A4; WO2022052084A1; EP4201041A1; CN116018789B; US20230222932A1

Abstract

本发明描述了在线学习中用于对学生注意力进行基于上下文的评估的方法、系统和介质。注意力监测系统将监测或评估学生注意力的时间段过滤或限制为学生注意力重要的时间段。这些注意力重要性较高的时间段可以通过处理所述教师提供的数据来确定，例如，代表所述教师语音的音频数据和/或代表向所述学生展示的幻灯片或其它视觉材料的图形演讲数据。所述教师提供的各种类型的演讲者数据和所述学生提供的参与者数据可用于评估注意力的重要性和每个学生在每个时间段内的注意力。可以向所述演讲者提供各种形式的反馈，所述反馈显示根据各种标准合计或细分的学生注意力表现。

Description

在线学习中用于对学生注意力进行基于上下文的评估的方法、系统和介质

技术领域

本发明涉及用于在线学习的方法、系统、计算设备和处理器可读介质，尤其涉及在线学习期间用于对学生注意力进行基于上下文的评估的方法、系统、计算设备和处理器可读介质。

背景技术

教育的一个关键问题是提高学生对教育活动的参与度和注意力。众所周知，学生的参与和影响与效率提高和学习成果相关。为提高学生的专注度，教师通常必须能够在演讲或其它教育讲座期间收集关于学生专注度的反馈信息。了解学生是否参与教育环境(面对面或在线)可以有助于设计能够帮助教师和学生的自适应学习系统和智能辅导系统。

在在线学习中，收集反馈信息尤为困难，因为教师无法同时观察所有学生。因此，能够衡量学生专注度的自动系统在在线学习中可能特别有用。

已提出一些用于评估学生注意力或参与度的系统和方法。例如，发明名称为“实时识别参与度水平驱动的自适应学习环境”的第2015/0099255A1号美国专利申请案提出了一种在线教育系统，该系统基于面部动作捕捉、眼动追踪、语音识别和手势或姿势来评估学生的参与度并报告汇总的评估结果。J.Zaletelj和A.

(2017年)在《EURASIP图像和视频处理期刊》上发表的《通过Kinect的面部和人体特征预测学生在教室中的注意力》(Predicting students'attention in the classroom from Kinect facial and bodyfeatures)(2017(1)：80)描述了类似的方法，该方法使用Microsoft^TMKinect^TM摄像系统检测学生的面部和人体特征，从而评估学生在教室中的注意力。H.Monkaresi、N.Bosch、R.A.Calvo和S.K.D'Mello(2016年)在《IEEE情感计算汇刊》上发表的《使用基于视频的面部表情和心率评估自动检测参与度》(Automated detection of engagement using video-based estimation of facial expressions and heart rate)(8(1)，15-28)描述了第三种类似的方法。在这些现有方法中，每种方法都会在整节课(例如，教师授课或演讲)中监测学生的注意力，以确定学生的注意力或参与度。

发明内容

本文描述的各实施例公开了在在线学习中用于对学生注意力进行基于上下文的评估的方法、系统、计算设备和处理器可读介质。与在整节课或演讲期间监测学生专注度的现有方法相比，本发明描述了将监测或评估学生注意力的时间段过滤或限制为学生注意力重要的时间段的实施例。这些注意力重要性较高的时间段可以通过处理所述教师提供的数据来确定，例如，代表所述教师语音的音频数据和/或代表向所述学生展示的幻灯片或其它视觉材料的图形演讲数据。通过将注意力监测限制在注意力非常重要的时间段，本文描述的实施例可以实现对学生参与教育内容的更准确和更相关的衡量，这可能是比整节课学生整体专注度更有用和更相关的度量，用于衡量朝着期望目标(例如，学生成功和学习成果)取得的进展。

因此，在一些实施例中，可以使用情境感知数据采样技术进行注意力评估，重点关注如何在处理学生注意力数据之前过滤数据。这不仅可以提高上文所述注意力评估的质量和有效性，而且还可以节省用于处理数据的机器功耗。

本文中使用的术语“教师”和“演讲者”可以互换使用，术语“学生”和“参与者”也可互换使用。应当理解的是，术语“参与者”不是指实际出席活动的人，而是指期望参加(即关注)演讲的人。术语“与会者”可以指参与演讲或其它教育或交流讲座的参与者或演讲者。

本文中使用的某元素“用于”特定目的的陈述可能意味着所述元素执行特定功能或用于执行一个或多个特定步骤或操作，如本文中所述。

本文中使用的第二元素“基于”第一元素的陈述可能意味着所述第二元素的特性至少部分受所述第一元素的特性影响或由其决定。所述第一元素可以视为操作或计算或一系列操作或计算的输入，其生成作为不独立于所述第一元素的输出的所述第二元素。

在一些方面，本发明描述了一种由注意力监测系统执行的用于评估参与者注意力的方法。所述方法包括从演讲者设备接收与演讲时间段对应的演讲者数据。所述方法包括从参与者设备接收与所述演讲时间段的至少一部分对应的参与者数据。所述方法包括处理所述演讲者数据，以将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高并且将所述演讲时间段中的一个或多个时间段识别为注意力重要性较低。所述方法包括处理所述参与者数据，以确定所述一个或多个注意力重要性较高时间段的参与者专注度。

在一些示例中，所述方法还包括向所述演讲者设备发送指示所述参与者专注度的反馈信息。

在一些示例中，所述演讲者数据包括音频数据，且处理所述演讲者数据包括：处理所述音频数据，以确定在所述一个或多个注意力重要性较高时间段中演讲者在说话。

在一些示例中，处理所述音频数据以确定所述演讲者在说话包括：处理所述音频数据，以区分所述音频数据中的言语声音和非言语声音。

在一些示例中，所述演讲者数据还包括文本演讲数据，且处理所述演讲者数据包括：处理所述音频数据，以识别所述演讲者的说话内容。处理所述文本演讲数据，以确定所述演讲者的说话内容与所述文本演讲数据相对应。

在一些示例中，所述演讲者数据包括图形演讲数据，且处理所述演讲者数据包括：处理所述图形演讲数据，以确定所述图形演讲数据的视觉特性已发生变化。

在一些示例中，所述图形演讲数据的所述视觉特性包括演讲者的指针移动。

在一些示例中，所述演讲者数据包括指示视屏演示内容的图形演讲数据以及指示所述演讲者与所述视屏演示交互的演讲者交互数据。将所述演讲时间段中的所述一个或多个时间段识别为注意力重要性较高包括：处理所述图形演讲数据和所述演讲者交互数据，以确定所述演讲者正在与所述视屏演示交互。

在一些示例中，所述参与者数据包括视频数据，所述视频数据包括所述参与者设备的摄像机捕获的所述参与者的视频的多个帧。处理所述参与者数据包括：处理所述视频数据，以确定所述多个帧的一个或多个中的参与者视线方向。

在一些示例中，所述演讲者数据包括一个或多个注释，所述注释指示所述演讲时间段中的所述一个或多个注意力重要性较高时间段。处理所述演讲者数据包括：处理所述注释，以将所述演讲时间段中的所述一个或多个时间段识别为注意力重要性较高。

在一些示例中，所述方法还包括识别所述演讲时间段的多个间隔。对于每个间隔，确定所述参与者专注度包括：在所述间隔与被识别为注意力重要性较高的所述演讲时间段中的所述一个或多个时间段重叠期间，确定所述间隔的参与者专注度。

在一些示例中，所述方法还包括向所述演讲者设备发送指示每个间隔的所述参与者专注度的反馈信息。

在一些示例中，所述多个间隔对应多个演讲者语音片段，所述演讲者数据包括音频数据，且识别所述多个间隔包括：处理所述音频数据，以识别所述多个演讲者语音片段。

在一些示例中，所述多个间隔对应多个视屏演示片段。所述演讲者数据包括图形演讲数据。识别所述多个间隔包括：处理所述图形演讲数据，以识别所述多个视屏演示片段。

在一些示例中，识别一个或多个注意力重要性较高时间段和一个或多个注意力重要性较低时间段包括：确定所述演讲时间段中的多个时间段的注意力重要性级别；当所述注意力重要性级别高于注意力重要性阈值时，将所述演讲时间段中的所述多个时间段的一个或多个识别为注意力重要性较高；当所述注意力重要性级别低于所述注意力重要性阈值时，将所述演讲时间段中的一个或多个所述时间段识别为注意力重要性较低。

在一些方面，本发明描述了一种由注意力监测系统执行的用于评估参与者注意力的方法。所述方法包括从演讲者设备接收与演讲时间段对应的演讲者数据，所述演讲者数据包括音频数据和图形演讲数据。所述方法包括从参与者设备接收与所述演讲时间段的至少一部分对应的参与者数据，所述参与者数据包括视频数据，所述视频数据包括所述参与者设备的摄像机捕获的所述参与者的视频的多个帧。所述方法包括根据所述图形演讲数据，识别与多个视屏演示片段对应的所述演讲时间段的多个间隔。所述方法包括处理所述演讲者数据，以通过以下方式将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高并且将所述演讲时间段中的一个或多个时间段识别为注意力重要性较低：处理所述音频数据，以通过区分所述音频数据中的言语声音和非言语声音，来确定在所述一个或多个注意力重要性较高时间段中演讲者在说话；处理所述图形演讲数据，以确定所述图形演讲数据的幻灯片内容已发生变化。所述方法包括处理所述参与者数据，以针对每个间隔，通过以下方式在所述间隔与所述一个或多个注意力重要性较高时间段重叠期间确定所述间隔的参与者专注度：处理所述视频数据，以确定所述多个帧的一个或多个中的参与者视线方向。所述方法包括向所述演讲者设备发送指示每个间隔的所述参与者专注度的反馈信息。

在一些示例中，将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高包括：对于每个注意力重要性较高时间段，处理所述演讲者数据，以识别所述时间段所需的最低参与者专注度。

在一些示例中，所述方法还包括：对于每个注意力重要性较高时间段，处理所述参与者数据，以确定所述时间段的所述参与者专注度是否至少为所述时间段所需的所述最低参与者专注度。

在一些示例中，所述方法还包括向所述演讲者设备发送反馈信息。所述反馈信息指示，对于每个注意力重要性较高时间段，所述时间段的所述参与者专注度是否至少为所述时间段所需的所述最低参与者专注度。

在一些示例中，所述方法还包括向所述参与者设备发送指示所述参与者专注度的反馈信息。

在一些方面，本发明描述了一种用于评估参与者注意力的注意力监测系统。所述注意力监测系统包括：处理器；存储指令的存储器，当所述处理器执行所述指令时，会使所述系统执行上述方法步骤。

在一些方面，本发明描述了一种处理器可读介质，指令有形地存储在其上，当处理器设备执行所述指令时，会使所述处理器设备执行上述方法步骤。

附图说明

现在将通过示例参考示出本申请的示例实施例的附图，其中：

图1为适合实现本发明各实施例的在线学习视频会议系统示意图；

图2A为本发明各实施例提供的图1所示视频会议系统的客户端设备框图；

图2B为本发明各实施例提供的图1所示视频会议系统的视频会议服务器框图；

图3为本发明各实施例提供的由注意力监测系统执行的用于评估参与者注意力的方法步骤流程图；

图4为图3所示方法提供的由注意力监测系统执行的第一种示例性方法的步骤的流程图，该方法利用演讲者数据中包含的音频数据识别演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段；

图5为图3所示方法提供的由注意力监测系统执行的第二种示例性方法的步骤的流程图，该方法利用演讲者数据中包含的演讲交互数据识别演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段；

图6为图3所示方法提供的由注意力监测系统执行的第三种示例性方法的步骤的流程图，该方法利用预先录制的演讲内容中包含的注释识别演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段；

图7为图3所示方法提供的用于根据参与者数据中包含的视频数据的视频帧确定参与者专注度的示例性方法的步骤的流程图；

图8为本发明各实施例提供的演讲者设备的第一用户界面屏幕，其示出多个参与者的当前专注度以及当前整体专注度；

图9为本发明各实施例提供的演讲者设备的第二用户界面屏幕，其示出多个参与者在整个演讲过程(按间隔细分)中的专注度以及基于每个参与者在演讲期间的整体专注度的所述演讲的优秀参与者列表；

图10为本发明各实施例提供的参与者设备的用户界面屏幕，其示出单个参与者在整个演讲过程(按间隔细分)中的专注度。

在不同的附图中可能使用了类似的附图标记来表示类似的部件。

具体实施方式

在本文公开的示例中，描述了在在线学习中用于对学生注意力进行基于上下文的评估的方法、系统、计算设备和计算机可读介质。情境可以包括确定演讲期间哪些时间段是参与者的关注非常重要的时间段，以及所述演讲期间哪些时间段是参与者的关注不是非常重要的时间段。示例性实施例可以仅基于或主要基于在所述注意力重要性较高时间段收集的有关所述参与者专注度的信息，来生成对参与者专注度的评估。

在一些实施例中，可以使用显示参与者头部的视频数据来评估参与者专注度。为提高数据的质量，所述注意力监测系统仅收集或处理与预期学生将观看屏幕的时间段对应的所述视频数据。这种过滤还可以节省用于处理数据的机器功耗，即所述注意力监测系统的处理器设备的处理器周期。预期学生将观看所述屏幕的所述时间段是指定的注意力重要性较高时间段。

注意力监测系统、演讲者设备和参与者设备的示例客户端-服务器配置

本发明旨在解决当前技术的至少一些缺陷。具体而言，本发明描述了用于在远程学习、视频会议或面对面环境中监测演讲参与者注意力的方法、系统和处理器可读介质。在所描述的示例中，“演讲者(presenter)”是向一个或多个观众(称为“参与者”)进行演讲的人。所述演讲者参与演讲所使用的设备称为“演讲者设备”，而所述参与者参与演讲所使用的设备称为“参与者设备”。在一些实施例中，所述参与者的专注度可以由被称为“注意力监测系统”的另一设备或系统来监测。所述注意力监测系统通过通信链路(例如，通过通信网络的网络接口)与所述演讲者设备和所述参与者设备通信。

现在，将参考示例网络和设备来描述网络、注意力监测系统、演讲者设备和参与者设备的示例配置。在这些示例中，所述注意力监测系统可以视为服务器250，所述演讲者设备可以是与演讲者110(本文中也称为“教师”)关联的第一客户端设备112，并且每个参与者设备可以视为与参与者120(本文中也称为“与会者”或“学生”)关联的客户端设备112。

在本说明书的上下文中，“服务器”是物理机、虚拟机或在适当的物理机或虚拟机上运行的计算机程序(例如，软件)，并且能够接收来自“客户端”的请求，并执行这些请求或使这些请求得到执行。所述物理机可以是一台物理计算机，也可以是一个物理计算机系统，但在本技术中两者都不是必需的。虚拟机是一台物理机或一个物理计算机系统的虚拟表示形式。在本文中，使用“服务器”这一表述并不意味着每项任务(例如，接收的指令或请求)或任何特定任务已经由所述同一服务器(即，所述同一软件和/或机器)接收、执行或使其得到执行；这意味着任何数量的软件模块、例程或功能、或硬件设备可能参与接收/发送、执行任何任务或请求、或任何任务或请求的结果或使其得到执行；并且所有这些软件和硬件可以是一台服务器或多台服务器，两者均包含在“一台服务器”的表述中。

在本说明书的上下文中，“客户端设备”是能够运行访问所述服务器的软件(例如，客户端应用或程序)的任何计算机。因此，客户端设备的一些(非限制性)示例包括个人计算机(台式机、笔记本电脑、上网本等)、智能手机和平板电脑以及路由器、交换机和网关等网络设备。应当注意的是，不排除在本文中充当客户端设备的设备充当其它客户端设备的服务器。使用“客户端设备”这一表述并不排除将多个客户端设备用于接收/发送、执行任何任务或请求、或任何任务或请求的结果、或本文所述的任何方法步骤或使其得到执行。

在本说明书的上下文中，除非另有明确规定，否则“第一”、“第二”、“第三”等词用作形容词，目的只是为了区分它们彼此修饰的名词而不是为了描述这些名词之间的任何特定关系。因此，例如，应当理解，术语“第一服务器”和“第三服务器”的使用并非旨在暗示服务器之间的任何特定顺序、类型、时间顺序、层次结构或排名(示例)，这些术语的使用(本身)也并非旨在暗示任何“第二服务器”必须在任何给定情况下存在。此外，如在其它上下文中所讨论的，对“第一”元素和“第二”元素的引用并不排除这两个元素是相同的实际元素。因此，例如，在一些情况下，“第一”服务器和“第二”服务器可以是相同的软件和/或硬件，在其它情况下，它们可以是不同的软件和/或硬件。

在本说明书的上下文中，“信息”这一表述包括任何性质或类型的信息。因此，信息包括但不限于视听作品(图像、电影、声音记录、演示文稿等)、数据(位置数据、数字数据等)、文本(意见、评论、问题、消息等)、文档、电子表格等。

在本说明书的上下文中，“文档”这一表述应广泛地解释为包括任何机器可读和机器可存储工作产品。文档可以包括电子邮件、网站、文件、文件的组合、具有嵌入其它文件的链接的一个或多个文件、新闻组公告、博客、网络广告等。在互联网环境中，公共文档是网页。网页通常包括文本信息，并且可以包括嵌入信息(如元数据、图像、超链接等)和/或嵌入式指令(例如JavaScript等)。页面可以对应文档或文档的一部分。因此，在某些情况下，“页面”和“文档”这两个词可以互换使用。在其它情况下，页面可以指文档的一部分，例如子文档。页面也可以对应多个文档。

在本说明书的上下文中，除非另有明确规定，否则“数据库”是任何结构化的数据集合(与其特定结构无关)、数据库管理软件或在其上存储、实现或以其它方式提供可供使用的数据的计算机硬件。数据库可以驻留在与存储或使用数据库中存储的信息的进程相同的硬件上，或者它可以驻留在单独的硬件上，例如专用服务器或多个服务器。

本技术的每种实现方式都具有上述目的和/或方面中的至少一个，但不一定具有所有这些目的和/或方面。应当理解的是，尝试实现上述目的所产生的本技术的某些方面可能无法满足该目的和/或可以满足未在此处具体描述的其它目的。

本文所述的示例和条件语言主要旨在帮助读者理解本技术的原理，而不是将其范围限定为这些具体描述的示例和条件。应当理解的是，本领域技术人员可以设计各种布置，尽管未在此处明确描述或示出，但仍体现本技术的原理并且被包含在其精神和范围内。

此外，为帮助理解，以下说明可以描述本技术的相对简化的实现方式。正如本领域技术人员将理解的那样，本技术的各种实现方式可能具有更高的复杂性。

在某些情况下，也可以提出被视为对本技术的修改的有益示例。这仅仅是为了帮助理解，而不是为了界定本技术的范围或设定其界限。这些修改并非详尽列表，并且本领域技术人员可以进行其它修改，同时仍然保持在本技术的范围内。此外，在没有提出修改示例的情况下，不应该解释为无法进行修改和/或所描述的内容是实现本技术的该元素的唯一方式。

此外，本文中描述本技术的原理、方面和实现方式及其具体示例的所有陈述均旨在涵盖其结构和功能等价物，无论它们是当前已知的还是将来开发的。因此，例如，本领域技术人员将理解，本文中的任何框图表示体现本技术原理的说明性电路的概念性视图。类似地，应当理解的是，任何流程图、流图、状态转换图、伪代码等表示可以实质上在计算机可读介质中表示并因此由计算机或处理器执行的各种流程，无论是否明确示出此类计算机或处理器。

附图中所示的各种元件的功能，包括标记为“处理器”的任何功能块，可以通过使用专用硬件以及能够执行与适当软件关联的软件的硬件来提供。由处理器提供时，这些功能可以由单个专用处理器、单个共享处理器或多个单独处理器提供，其中一些处理器可以共享。在本技术的一些实施例中，所述处理器可以是中央处理器(central processingunit，CPU)等通用处理器，或专用处理器，例如图形处理器(graphics processing unit，GPU)、张量处理器(tensor processing unit，TPU)、神经网络处理器(neural networkprocessing unit，NPU)。此外，术语“处理器”的显式使用不应解释为专指能够执行软件的硬件，并且可以隐式地包括但不限于算术逻辑单元、控制单元和用于存储指令、数据和中间结果的存储单元，以及采用用于执行硬件加速的专用集成电路或现场可编程门阵列形式的硬件加速器。其它常规和/或定制硬件也可包含在内。

软件模块或简单地暗示为软件的模块在本文中可以表示为流程图元素或指示过程步骤和/或文本描述的性能的其它元素的任意组合。此类模块可以由明示或隐式示出的硬件执行。

基于这些基本原理，本发明旨在解决当前技术的至少一些缺陷。具体而言，本发明描述了一种用于视频会议和在线学习的系统和方法。

本发明旨在解决当前技术的至少一些缺陷。具体而言，本发明描述了一种用于视频会议和在线学习的系统和方法。

图1描绘了本发明实施例提供的用于实时在线学习的视频会议系统100。所述视频会议系统100包括位于不同地理位置的多个客户端设备112，这些客户端设备用于通过通信网络106和视频会议服务器250相互通信。所述多个客户端设备112包括与所述视频会议的主持人(即，演讲者110)相关联的第一客户端设备112、与所述视频会议的第一参与者120相关联(由其使用)的第二客户端设备112以及与所述视频会议的第二参与者120相关联(由其使用)的第三客户端设备112。所述视频会议系统100还可以包括位于不同地理位置的外围设备(未示出)，例如扬声器、麦克风、摄像机和显示设备，这些设备可以通过所述通信网络106与所述视频会议服务器250通信。虽然图1示出了两个客户端设备112，每个客户端设备均与一名参与者120相关联，但应当理解的是，在替代实施例中，所述视频会议系统100可以包括任意数量的客户端设备112。此外，在其它替代实施例中，客户端设备112可以与多名参与者120相关联。

图2A描绘了本发明实施例提供的客户端设备112的框图。所述客户端设备112可以是任何合适类型的计算设备，包括台式计算机、笔记本电脑、平板电脑、智能手机、便携式电子设备、移动计算设备、个人数字助理、智能手表、电子阅读器、基于互联网的应用等。所述客户端设备112具有多个组件，包括控制所述客户端设备112整体操作的处理器202。所述处理器202耦合至所述客户端设备112的其它组件并与其交互，所述其它组件包括一个或多个存储单元204、一个或多个存储器206、显示设备208(以下称为显示器208)、网络接口210、麦克风212和扬声器214以及摄像机216(可与图像传感器216互换使用)。所述客户端设备112还包括为所述客户端设备112的组件供电的电源218，所述组件包括所述存储器206、所述显示器208、所述网络接口210、所述麦克风212、所述扬声器214和所述摄像机216。所述电源218可以包括电池、电源组、微型燃料电池等，然而，在其它实施例中，所述电源218可以包括连接外部电源的端口(未示出)和电源适配器(未示出)，例如向所述客户端设备112的组件提供电力的交流转直流(alternating current to direct current，AC-to-DC)适配器。可选地，所述客户端设备112包括一个或多个输入设备220、一个或多个输出设备222和I/O接口224。

所述客户端设备112的所述处理器202可以包括中央处理器(central processingunit，CPU)、加速器、微处理器、图形处理器(graphics processing unit，GPU)、张量处理器(tensor processing unit，TPU)、神经网络处理器(neural network processing unit，NPU)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、专用逻辑电路、专用人工智能处理器或其组合中的一个或多个。

所述处理器202用于与所述存储单元204通信，所述存储单元可以包括固态驱动器、硬盘驱动器、磁盘驱动器和/或光盘驱动器等大容量存储单元。所述处理器202还用于与所述存储器206通信，所述存储器可以包括易失性存储器(例如，随机存取存储器(randomaccess memory，RAM))和非易失性或非瞬时性存储器(例如，闪存、磁存储器和/或只读存储器(read-only memory，ROM))。所述非瞬时性存储器存储包括软件指令的应用或程序，所述软件指令由所述处理器202执行，例如执行本发明中描述的示例。所述非瞬时性存储器存储下文进一步详细描述的视频会议应用。非瞬时性计算机可读介质的示例包括RAM、ROM、可擦除可编程ROM(erasable programmable ROM，EPROM)、电可擦除可编程ROM(electricallyerasable programmable ROM，EEPROM)、闪存、CD-ROM或其它便携式存储器。

所述处理器202还用于与所述显示器208通信，所述显示器包括平板显示器(例如液晶显示器、等离子显示器、发光二极管(light emitting diode，LED)显示器、有机发光二极管(organic light emitting diode，OLED)显示器)、触摸屏显示器(例如电容式、电阻式、表面声波(surface acoustic wave，SAW)或光学触摸屏显示器等)中的任何一种。

所述处理器202还用于与所述网络接口210交互。所述网络接口210可以包括用于与所述通信网络106进行无线通信(例如，蜂窝或WiFi通信)的一个或多个无线电，或用于与所述通信网络106进行有线通信的一个或多个网络适配器。通常，所述网络接口210用于与所述网络架构相对应，所述网络架构用于实现所述客户端设备112与所述通信网络106之间的通信的链路。所述通信网络106可以是互联网、局域网、广域网等。

所述处理器202还用于与所述麦克风212、所述扬声器214和所述摄像机216交互。所述麦克风210包括任何合适的转换器，所述转换器将声音转换为音频信号并将所述音频信号提供给所述处理器202，以进行处理和/或传输到其它客户端设备112。所述扬声器214包括任何合适的转换器，所述转换器从所述处理器202接收音频信号并将从所述处理器202接收的音频信号转换成声波。所述摄像机216用于在所述摄像机216的视场中捕获视频(例如，数字图像序列)，并将捕获的视频提供给所述处理器202以进行处理。所述摄像机216可以是任何合适的数字摄像机，例如高清图像摄像机、红外摄像机、立体摄像机等。在一些实施例中，所述麦克风210、所述扬声器214和所述摄像机216可以集成到所述客户端设备212内部。在其它实施例中，所述麦克风210、所述扬声器214和所述摄像机216可以耦合到所述客户端设备112的外部。

可选地，所述处理器202可以与输入/输出(input/output，I/O)接口222通信，其可以实现与一个或多个输入设备220(例如，键盘、鼠标、操纵杆、轨迹球、指纹检测器等)和/或输出设备222(例如，打印机、外围显示设备等)的对接。

所述客户端设备112还包括总线226，所述总线提供所述客户端设备112组件之间的通信，所述组件包括所述处理器202、所述存储器206、所述显示器208、所述网络接口210、所述麦克风212、所述扬声器214和所述摄像机216。所述总线226可以是任何合适的总线架构，包括存储器总线、外围总线或视频总线等。

图2B描绘了本发明实施例提供的视频会议服务器250的框图。在本实施例中，所述视频会议服务器是执行视频会议系统软件以使所述客户端设备112能够参与视频会议的物理机(例如，物理服务器)或虚拟机(例如，虚拟服务器)。所述视频会议服务器250包括处理器252、存储器254和网络接口256。

所述视频会议服务器250的所述处理器252可以包括中央处理器(centralprocessing unit，CPU)、加速器、微处理器、图形处理器(graphics processing unit，GPU)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、专用逻辑电路、专用人工智能处理器或其组合中的一个或多个。

所述处理器254可以包括易失性存储器(例如，随机存取存储器(random accessmemory，RAM))和非易失性或非瞬时性存储器(例如，闪存、磁存储器和/或只读存储器(read-only memory，ROM))。所述非瞬时性存储器存储控制所述视频会议服务器250整体操作的平台258。所述平台258由所述处理器252执行时，实现视频会议服务。所述平台258将所述视频会议服务的每个用户的唯一标识符存储在所述存储器中，并且管理所述唯一标识符或所述视频会议服务的每个用户。用户的唯一标识符可以是用户的用户名或电子邮件地址。密码还可以与用户的唯一标识符相关联并存储在所述存储器254中。

所述网络接口256可以包括用于与所述通信网络106进行无线通信的一个或多个无线电，或用于与所述通信网络106进行有线通信的一个或多个网络适配器。通常，所述网络接口256用于与所述网络架构相对应，所述网络架构用于实现所述视频会议服务器250与所述通信网络106之间的通信的链路。

需要注意的是，所述服务器250显示为独立计算机。然而，本发明其它实施例的实现方式可以包括任何客户端-服务器模型，其中，客户端设备可以运行所述视频会议系统软件的客户端版本。所述服务器250的其它示例可以包括运行所述视频会议系统软件的所述服务器版本的分布式计算系统、由公共云或私有云的基础设施实例化的虚拟机(或多个虚拟机)、或提供视频会议系统软件即服务(software as a service，SaaS)的云服务提供商。此类实现方式或任何其它类似实现方式不应限制本发明的范围。

返回图1，与所述演讲者110相关联的所述客户端设备112在本文将称为演讲者客户端设备112，与所述参与者120相关联的所述客户端设备112在本文中将称为参与者客户端设备112。在某些非限制性实施例中，所述演讲者客户端设备112和每个所述参与者客户端设备112可以用于存储和实现与所述视频会议系统软件相关联的指令。换言之，所述视频会议系统软件可以安装在所述演讲者客户端设备112和所述参与者客户端设备112上，以便于在所述演讲者112和所述参与者120之间进行在线学习的视频会议。需要注意的是，视频会议系统软件的版本可能因设备而异。具体而言，视频会议系统软件的版本可以取决于与所述演讲者客户端设备112和所述参与者客户端设备112相关联的操作系统。例如，如果所述演讲者客户端设备112和所述参与者客户端设备112中的任何一个是AndroidTM、iOSTM、WindowsTM等系统，则可以从它们各自的应用商店下载并安装所述视频会议系统软件。

在其它非限制性实施例中，至少所述演讲者客户端设备112和所述参与者客户端设备112可以使用网络浏览器，例如ChromeTM、SafariTM、MozillaTM等，以方便进行视频会议。需要注意的是，所述演讲者客户端设备112和所述参与者客户端设备112如何用于方便进行视频会议不应以任何方式限制本发明的范围。

在某些非限制性实施例中，所述演讲者客户端设备112可以用于向所述参与者客户端设备112发送与未来在线学习会话相关联的邀请。此类视频会议要求可以包括与所述未来视频会议相关联的时间、日期、持续时间或任何其它信息。在一些实施例中，所述演讲者客户端设备112可以使用电子邮件、文本消息等任何合适的手段来发送所述会议邀请。在某些实施例中，所述会议邀请可以是受密码保护的超链接，即所述参与者客户端设备112可能需要密码才能加入所述视频会议。在其它实施例中，所述会议邀请可以是开放式超链接，即，任何具有开放式网络连接访问权限的所述参与者客户端设备112都可以加入所述视频会议。

在某些非限制性实施例中，所述演讲者客户端设备112可以位于与所述演讲者110相关联的第一位置(例如，办公室、家等)。每个所述参与者客户端设备112可以位于不同的位置，例如，所述第一参与者客户端设备112可以位于与所述第一参与者120相关联的第二位置(例如，办公室、家等)，所述第二参与者客户端设备112可以位于与所述第二参与者120相关联的第三位置(例如，办公室、家等)等等。

在某些非限制性实施例中，所述演讲者客户端设备112可以位于与所述演讲者110相关联的第一位置(例如，办公室、家等)。然而，所述参与者客户端设备112中的一个或多个可以位于与多个参与者120共有的位置。例如，至少一个参与者客户端设备112可以与至少两个参与者120相关联。在其它示例中，所述参与者客户端设备112中的一个或多个可以位于相同的位置，例如会议厅、会议室等，并且该位置可以有至少两个参与者120。

根据本发明的非限制性实施例，所述演讲者客户端设备112可以用于通过所述通信网络106在所述演讲者110和所述参与者120之间发起视频会议。一旦发起所述视频会议，所述演讲者客户端设备112可以用于与所述参与者客户端设备112通信。

在某些实施例中，所述演讲者客户端设备112可以与所述参与者客户端设备112共享各种演讲者信息132。在某些实施例中，所述演讲者客户端设备112和所述参与者客户端设备112之间的信息共享可以通过所述视频会议服务器250路由。此类演讲者信息132可以包括但不限于与所述演讲者客户端设备112相关联的所述摄像机216(下文称为演讲者摄像机216)捕获的所述演讲者110的实时视频、与所述演讲者客户端设备112相关联的所述麦克风212(下文称为演讲者麦克风212)捕获的所述演讲者110侧的音频/声音、与所述演讲者客户端设备112相关联的所述显示设备208(下文称为演讲者显示器208)上与所述视频会议系统软件相关的图形用户界面(graphic user interface，GUI)130中显示的内容(例如，MSPowerPointTM演示文稿幻灯片、MS WordTM文档的一页、视频、图像、图片等)。

在某些实施例中，所述参与者客户端设备112可以接收由所述演讲者客户端设备112提供的所述演讲者信息132。如果所述演讲者信息132包括所述演讲者110的实时视频和/或所述演讲者显示器208上显示的内容(例如，MS PowerPointTM演示文稿幻灯片、MSWordTM文档的一页、视频、图像、图片等)，则此类演讲者信息132可以显示在与所述参与者客户端设备112相关联的所述显示设备208(下文称为参与者显示器208)上。如果所述演讲者信息132包括所述演讲者110侧的音频/声音，则所述音频/声音可以由与所述参与者客户端设备112相关联的所述扬声器214(以下称为参与者扬声器214)生成。

需要注意的是，与所述视频会议系统软件相关联的所述GUI 130可以向所述演讲者110和所述参与者120提供各种选项。在一些非详尽示例中，与所述演讲者客户端设备112相关联的所述GUI 130(下文称为演讲者GUI 130)可以提供从所述演讲者客户端设备112选择要在所述演讲者显示器208上显示的特定内容的选项。在另一示例中，所述演讲者GUI130可以提供打开或关闭演讲者麦克风212、演讲者摄像机216等各种外围设备的选项。在另一示例中，所述演讲者GUI 130可以提供在正在进行的视频会议期间添加更多参与者120的选项。在另一示例中，所述演讲者GUI 130可以提供记录正在进行的视频会议的选项，以在本地将记录保存在所述演讲者客户端设备112或所述视频会议服务器250上，或者保存在某个公共云或私有云上。在另一示例中，所述演讲者GUI 130可以提供安排视频会议并向所述参与者112发送邀请的选项。在另一示例中，所述演讲者GUI 130可以提供结束或离开所述视频会议的选项。

在另一示例中，所述演讲者GUI 130可以提供在所述视频会议期间为所述参与者客户端设备112设置各种权限的选项。此类权限可以包括与所述参与者客户端设备112相关联的所述GUI 130(以下称为参与者GUI 130)是否可以共享某些内容、添加更多参与者120并记录视频会议。需要注意的是，所述参与者GUI 130可以具有与所述演讲者GUI 130类似的选项。

在另一示例中，所述演讲者GUI 130可以提供小窗口(例如，相对于所述演讲者显示器208的大小较小的窗口)，以包括已加入所述视频会议的所述参与者120列表，并显示至少一个参与者120的视频。需要注意的是，在某些实施例中，所述小窗口可以默认隐藏，并且可以基于所述参与者110执行的某些动作(例如，通过任何合适的手段选择所述小窗口)在所述演讲者显示器208上显示或弹出。

在所述视频会议期间(即，已使用所述通信网络106经由所述视频会议服务器250建立所述演讲者客户端设备112和所述参与者客户端设备112之间的通信时)，要共享的内容(例如，MS PowerPointTM演示文稿幻灯片、MS WordTM文档的一页、视频、图片等)可以显示在所述演讲者显示器208上。在所述演讲者110已启用所述演讲者摄像机216的情况下，所述演讲者摄像机216可以捕获所述演讲者110的视频(即，一系列图像)(即，实时视频)，所述演讲者麦克风212可以捕获所述演讲者110的语音和所述演讲者110周围的任何声音(在下文中，所述演讲者110的语音连同所述演讲者110周围的任何声音一起被称为演讲者音频/声音信息)。

在某些实施例中，所述演讲者客户端设备112可以用于向所述视频会议服务器250发送所述演讲者信息132。所述演讲者信息132可以包括所述演讲者显示器208上显示的内容、所捕获的所述演讲者110的一系列图像以及所述演讲者音频/声音信息中的一个或多个。所述视频会议服务器250可以用于向所述参与者客户端设备112发送所述演讲者信息132。所述演讲者信息132中包含的任何可视内容(例如，所述演讲者显示器208上显示的内容、所述演讲者110的视频(即，一系列图像))可以显示在所示参与者显示器120上，并且所述演讲者信息132中的任何可听内容可以由所述参与者扬声器214生成。

为分析所述参与者120的特征(例如，人体动作、面部表情等)，所述参与者摄像机216可以捕获所述参与者120的一系列图像(即，实时视频)，并且所述参与者麦克风212可以捕获所述参与者120的语音和所述参与者120周围的任何声音(在下文中，所述参与者120的语音连同所述参与者120周围的任何声音一起被称为参与者音频/声音信息)。在某些实施例中，所述参与者客户端设备112可以用于向所述视频会议服务器250发送所述参与者信息134。所述参与者信息134可以包括所捕获的所述参与者120的一系列图像(下文也称为参与者视频信息134)。所述参与者信息134还可以包括所述参与者显示器208上显示的内容以及所述参与者音频/声音信息。

可以预期的是，在某些实施例中，当所有所述参与者120位于不同位置时，所述参与者信息134可以与每个单独的参与者120相关联。在这些实施例中，每个参与者客户端设备112可以用于向所述视频会议服务器250发送所述相应的参与者信息134。在某些实施例中，多个参与者120可以位于同一位置(例如，会议厅或会议室等)，在这种情况下，所述关联参与者客户端设备112可以具有一个或多个参与者显示器208、一个或多个参与者麦克风212、一个或多个参与者扬声器214以及一个或多个摄像机216。在这些实施例中，所述关联参与者客户端设备112可以编译来自一个或多个参与者麦克风212和一个或多个摄像机216的所述参与者信息134，并将所述相应的参与者信息134发送至所述视频会议服务器250。

如前所述，所述参与者信息134可以包括参与者音频/声音信息和参与者视频信息。一些所述参与者音频/声音信息可能有用，而一些所述参与者音频/声音信息可能只是噪声。有用的音频/声音信息可以包括与一个或多个参与者120相关联的提问、评论、建议、发起讨论的请求、掌声等。有用的参与者音频/声音信息可以与正在进行的视频会议直接相关。然而，作为噪声的所述参与者音频/声音信息可以包括咳嗽、打喷嚏、婴儿哭声、狗吠声、交通噪声、在背景中播放音乐/电视、敲击桌子的声音、电话铃声、与其他人交谈的声音或者与一个或多个参与者120相关联或者一个或多个参与者120周围环境中产生的任何声音，此类声音与正在进行的视频会议没有直接关系，可以被视为噪声。

类似地，一些所述参与者视频信息可能有用，而一些所述参与者视频信息可能只是噪声。有用的参与者视频信息可以包括引起注意的手势(举手、指向)、表示同意或不同意的手势(例如，通过点头)等人体动作、指示参与者注意力的面部表情(例如，视线、姿势或无意识的人体动作)等。所有此类有用的参与者视频信息可以在所述视频会议服务器250接收的一系列图像中，所述一系列图像由所述视频会议服务器250处理，以确定所述参与者120的各种特征。所述视频会议服务器250可以使用这些特征来确定关于所述参与者120的指示。指示可以包括但不限于一个或多个参与者120是否想要提问、一个或多个参与者120是否专心并理解所述演讲者信息132、一个或多个参与者是否对所述演讲者信息132变得多愁善感或情绪化、一个或多个参与者120是否在大笑并喜欢所述演讲者信息132、一个或多个参与者120是否对所述演讲者信息132不关注或失去兴趣等。

然而，作为噪声的所述参与者视频信息可以包括一个或多个参与者120是否正在吃东西和/或喝水、是否有人在走动或者有人从一个或多个参与者120后面穿过、一个或多个参与者是否在快速移动以及一个或多个参与者摄像机216是否捕获到移动背景等。此类参与者视频信息可能无法提供与正在进行的视频会议直接或间接相关的任何有用信息。

为确定所述参与者信息134中与所述参与者120相关联的各种特征(例如，包括举手、挥手、鼓掌在内的人体动作、面部表情等)，在某些实施例中，所述视频会议服务器250可以使用下文所述的任何合适的计算机视觉技术处理所述参与者视频信息134(即，对所述参与者信息134中包含的一系列图像执行人脸检测和人体检测)。在某些实施例中，所述视频会议服务器250可以用于处理所述参与者信息134中包含的参与者音频/声音信息。

因此，在某些实施例中，与所述视频会议服务器250相关联的所述存储器254可以存储视频会议软件的指令，所述指令将由所述处理器252执行，以执行本发明所述的方法。在一些实施例中，所述指令可以包括语音识别模块、文本分析模块和视频处理模块。在一些实施例中，所述视频处理模块的指令可以包括经过训练的神经网络(即，包括在参数训练期间学习的参数的神经网络)，其接收一系列图像并对所述一系列图像执行人脸检测、人体检测、人脸跟踪和人体跟踪。

在某些非限制性实施例中，所述视频会议服务器250可以用于对所述参与者视频信息134执行人脸检测，以检测所述参与者视频信息134中的一个或多个人脸，其中，每个检测到的人脸对应于所述参与者视频信息134中的一个参与者120。基于在所述参与者视频信息134中检测到的每个人脸，所述视频会议服务器250可以为检测到的每个相应人脸生成边界框。此外，所述视频会议服务器250可以用于对所述参与者视频信息134中检测到的每个相应人脸执行人脸识别。对检测到的每个相应人脸执行人脸识别包括：监测为所述参与者视频信息134中的相应人脸生成的所述边界框的变化，以确定所述检测到的相应人脸的面部特征；分析所述检测到的相应人脸的所述面部特征，以推断(即预测)所述检测到的相应人脸的面部表情、情绪或注意力。面部特征的示例包括头部姿势、面部特征点(例如，额头、嘴唇、眼睛)和视线。针对检测到的人脸(例如，所述视频会议的参与者120)推断(即预测)的面部表情示例包括大笑、微笑、点头，针对检测到的人脸推断(即预测)的注意力示例包括观看所述参与者显示器，针对检测到的人脸推断(即预测)的情绪的示例是表情严肃。

在某些非限制性实施例中，所述视频会议服务器250还可以用于执行面部特征点识别，以识别检测到的人脸的面部特征点，例如正手、眼睛和嘴唇。面部特征点识别包括：在检测到的人脸中检测面部特征点(例如，前额、嘴唇、眼睛等)；为所述检测到的面部特征点生成子边界框；监测为所述面部特征点生成的子界面框的变化，以确定所述面部特征点的属性；分析所述面部特征点的属性，以推断(即预测)面部特征点。面部特征点识别生成指示所识别的面部特征点类型的信息。

在某些非限制性实施例中，在执行人脸识别之前，所述视频会议服务器250裁剪所述参与者视频信息134，以生成新的参与者视频信息134，所述新的参与者视频信息仅包括所述参与者视频信息的一部分，其对应于为检测到的人脸生成的所述边界框。换言之，对构成所述参与者视频信息134的所述一系列图像中的每个图像进行裁剪，以包括对应于为检测到的人脸生成的所述边界框的图像的一部分。在本实施例中，所述视频会议服务器250用于对所述新的参与者视频信息134执行人脸识别。对所述新的参与者视频信息134执行人脸识别包括：监测新的参与者信息的变化，以确定所述检测到的人脸的面部特征；分析所述检测到的人脸的面部特征，以推断(即预测)所述检测到的人脸的面部表情、情绪或注意力。

在一些非详尽示例性实施例中，所述视频会议服务器250可以用于通过分析在所述参与者视频信息134中检测到的每个人脸(即，每个参与者120)的已识别面部特征，来计算观看屏幕的所述参与者120的数量。在另一示例性实施例中，所述视频会议服务器250可以分析为每个检测到的人脸(即，每个参与者120)推断的面部表情，以确定所述参与者120的整体专注度。具体而言，所述视频会议服务器250可以确定具有特定面部表情(例如，大笑、微笑、表情严肃、感觉无聊等)的所述参与者120的数量。

在某些非限制性实施例中，所述视频会议服务器250可以用于对所述参与者视频信息134执行人体检测，以检测所述参与者视频信息134中的一个或多个人体，其中，每个检测到的人体对应于所述参与者视频信息134中的一个参与者120。基于在所述参与者视频信息134中检测到的每个人体，所述视频会议服务器250可以为检测到的每个人体生成边界框。所述视频会议服务器250可以用于对所述参与者视频信息134执行人体动作识别(也称为姿势识别)，以推断(即预测)每个检测到的人体的人体动作(也称为姿势)。对检测到的每个相应人体执行人体动作识别包括：监测为所述参与者视频信息134中检测到的相应人体(或人体部位)生成的所述边界框的变化，以确定所述检测到的相应人体的人体动作特征；分析所述检测到的相应人体的所述人体动作特征，以推断(即预测)所述检测到的人体的人体动作(也称为姿势)。人体动作特征包括人体动作的速度(或手、手臂和腿等人体部位(“人体部位”)动作的速度)、人体动作的持续时间(或人体部位动作的持续时间)、人体动作的强度(或人体部位动作的强度)以及人体动作的相对范围(或人体部位动作的相对范围)。所述视频会议服务器250推断(即预测)的人体动作(例如姿势)可以包括点头、倾斜头部、举手、挥手、鼓掌等。

在某些非限制性实施例中，在执行人体动作识别之前，所述视频会议服务器250裁剪所述参与者视频信息134，以生成新的参与者视频信息134，所述新的参与者视频信息仅包括所述参与者视频信息134的一部分，其对应于为检测到的人体生成的所述边界框。换言之，对构成所述参与者视频信息134的所述一系列图像中的每个图像进行裁剪，以包括对应于为检测到的人体生成的所述边界框的图像的一部分。在本实施例中，所述视频会议服务器250用于对所述新的参与者视频信息134执行人体动作识别。对所述新的参与者视频信息134执行人体动作识别包括：监测新的参与者信息134的变化，以确定所述检测到的人体的人体动作特征；分析所述检测到的人体的人体动作特征，以推断(即预测)所述检测到的人体的人体动作(姿势)。

在一些非详尽示例中，所述视频会议服务器250可以基于所述已识别的人体动作(例如姿势)，计算举手提问、挥手以引起所述演讲者110注意、鼓掌等的所述参与者120的数量。在某些实施例中，为正确推断(例如预测)人体动作(例如姿势)，所述视频会议服务器250可以分析所述动作速度、持续时间和强度的所述人体动作特征。例如，所述参与者120中的一个移动手以进行一些其它动作(例如，拿起笔)并快速将手放回原始位置或举手位置之外的任何其它位置，则所述视频会议服务器250可能不会不将该动作识别为所述参与者120举手。在另一示例中，所述视频会议服务器250可以分析人体(或人体部位)动作的速度，例如所述参与者120挥手的速度。

在某些非限制性实施例中，每个相应的参与者客户端设备112可以执行人脸检测、面部特征点检测和人脸识别，以识别所述参与者信息134中检测到的每个人脸的面部特征。在这些实施例中，每个参与者客户端设备112将为检测到的每个人脸识别的面部表情发送至所述视频会议服务器250，所述视频会议服务器将分析检测到的每个相应人脸的面部特征，并推断(即预测)检测到的每个相应人脸的面部表情、情绪或注意力。通过在每个参与者客户端设备112处执行人脸检测、面部特征点检测和人脸识别，在每个参与者客户端设备112和所述视频会议服务器250之间传输的数据量显著减少，这是因为所述参与者视频信息134未传输到所述视频会议服务器250。

在某些非限制性实施例中，每个相应的参与者客户端设备112可以执行人体检测和人体动作识别(例如姿势识别)，以识别所述参与者信息134中检测到的每个人体的人体动作特征。在这些实施例中，每个参与者客户端设备112将为检测到的每个人体推断(即预测)的人体动作发送至所述视频会议服务器250，所述视频会议服务器将使用每个检测到的相应人体的人体动作特征来执行人体动作识别(例如姿势识别)，以识别每个检测到的相应人体的人体动作(例如姿势)。通过在每个参与者客户端设备112处执行人体检测和人体动作识别，在每个参与者客户端设备112和所述视频会议服务器250之间传输的数据量显著减少，这是因为所述参与者视频信息134未传输到所述视频会议服务器250。

在某些非限制性实施例中，所述视频会议服务器250可以用于过滤在所述参与者视频信息134中充当噪声的所述参与者视频信息134。举例来说，如果一个或多个参与者120正在吃东西和/或喝水、有人在走动或者有人从一个或多个参与者120后面穿过、一个或多个参与者在快速移动以及一个或多个参与者摄像机216捕获到移动背景，则所述参与者视频信息的这一部分可能无法提供与正在进行的视频会议直接或间接相关的任何有用信息。所述视频会议服务器250可以用于移除所述参与者视频信息134的这一部分。

在某些非限制性实施例中，所述视频会议服务器250可以用于处理所述参与者信息134中存在的参与者音频/声音信息。在一些非详尽示例中，所述视频会议服务器250可以分析所述参与者音频/声音信息，以确定所述参与者120是在鼓掌还是一个或多个所述参与者120在提问。在某些非限制性实施例中，所述视频会议服务器250可以用于过滤在所述参与者视频信息134中充当噪声的所述参与者音频/声音信息。例如，所述视频会议服务器250可以过滤所述参与者音频/声音信息的一部分，例如咳嗽、打喷嚏、婴儿哭声、狗吠声、交通噪声、在背景中播放音乐/电视、敲击桌子的声音、电话铃声、与其他人交谈的声音或者与一个或多个参与者120相关联或者一个或多个参与者120周围环境中产生的任何声音，此类声音可能与正在进行的视频会议没有直接关系。

需要注意的是，在某些实施例中，所述视频会议服务器250可以使用任何合适的音频处理技术，来处理所述参与者信息134中包含的所述音频/声音。所述参与者信息134的处理方式不应限制本发明的发明。此外，在上述示例中，所述参与者信息134将由所述视频会议服务器250处理。然而，在某些实施例中，可以在所述参与者客户端设备112处对所述参与者信息134进行本地处理，并且可以将所获得的信息转发至所述视频会议服务器250，以进行进一步处理。

一旦对所述参与者信息134进行处理，所述视频会议服务器250可以用于合计所述已处理的参与者信息134。作为非详尽示例，在正在进行的视频会议期间，为响应演示所述演讲者信息132的所述演讲者110，所述参与者120可以鼓掌。在另一示例中，为响应演示所述演讲者信息132的所述演讲者110，一个或多个所述参与者120可以举手或挥手提问。在合计所述已处理参与者信息134的过程中，所述视频会议服务器250可以记录所述参与者120的面部表情或人体动作的类型。此类记录可以包括但不限于鼓掌的参与者120的数量、举手的参与者120的数量以及举手的特定参与者120等。

如前所述，在正在进行的视频会议期间，所述演讲者110可能很难跟踪所述参与者120的响应。随着参会者120数量的增加，这一问题变得更加严重。为此，在某些实施例中，所述存储器254可以存储与所记录的参与者120的面部表情或人体动作的类型对应的多个环境图形。在某些实施例中，所述处理器252可以用于生成所述多个环境图形并将通知存储在所述存储器254中。

此处使用的术语“环境图形”可以指在显示器(例如，所述演讲者显示器208和所述参与者显示器208)上显示时可能不会完全遮挡显示器上正在显示的原始内容的任何部分的任何可视内容(例如，图像、一系列图像、视频、动画或其组合)。在某些实施例中，所有环境图形可以是半透明的。本文中使用的术语“半透明”是指部分或有些透明，或者可以是半透明。换言之，如果所述环境图形覆盖在一些数字内容(例如，所述演讲者显示器208上的所述演讲者GUI 130中显示的内容)上，则所述环境图形和显示的内容可以同时对所述演讲者110可见。

应当理解的是，一些实施例可以使用与上文参考图1至图2B描述的配置不同的注意力监测系统、演讲者设备和参与者设备的配置。在一些示例中，所述演讲者110可以与一个或多个所述参与者120亲自到场，并且所述演讲者设备和一个或多个参与者设备可以构成单个设备，例如，配备一个或多个摄像机以捕获与所述演讲者110一起到场的一个或多个所述参与者的视频的单个设备以及用于捕获所述演讲者语音的音频的麦克风。在一些实施例中，所述注意力监测系统可以与所述演讲者设备或其中一个所述参与者设备组合在单个设备中。在一些实施例中，可以将两个或多个参与者设备组合成配备单个摄像机的单个设备，用于捕获示出两个或多个参与者的视频，并且所述摄像机捕获的所述视频可以用于监测所述视频帧中所示的两个或多个参与者。在一些实施例中，所述演讲者和参与者均亲自到场，并且配备一个或多个摄像机和麦克风的单个设备用于执行所述注意力监测系统、演讲者设备和参与者设备的功能。应当理解的是，本文所述的方法也可以适用于其它配置。

用于评估参与者注意力的示例性方法

现在将描述使用注意力监测系统评估演讲参与者的专注度的示例性方法。将参考上文参考图1至图2B描述的示例性客户端-服务器配置来描述这些示例性方法，但是应当理解的是，这些方法也可以由注意力监测系统的其它配置来执行。

图3示出了由注意力监测系统(例如，服务器250)执行的用于评估参与者注意力的方法300的步骤的流程图。可选步骤以虚线显示。

在步骤302中，所述注意力监测系统从演讲者设备(例如，与演讲者110相关联的第一客户端设备112)接收与演讲时间段对应的演讲者数据。所述演讲时间段指示所述演讲者110将在通信或教育会议中与所述参与者120交互的所述时间段的至少一部分。所述演讲者数据是所述演讲者设备提供的与所述演讲者在所述演讲时间段内所做演讲(例如，课程讲座、研讨会、研习会或演讲)相关的数据，并且可以包括各种类型的数据，包括音频数据、文本演讲数据、图形演讲数据和演讲者交互数据。音频数据可以是音频录制数据，例如所述演讲者设备的麦克风捕获的音频数据的波形或流，并且可以包括所述演讲者110在所述演讲时间段讲话的声音。文本演讲数据可以包括与所述演讲者的演讲相关的书面材料，例如演示文稿幻灯片的书面内容、与所述演讲相关的演讲者笔记，以及与所述演讲涉及的更大教育课程或主题相关的文本课程材料。图形演讲数据可以包括旨在向所述参与者显示的任何可视内容，例如演示文稿幻灯片、所述演讲者设备的摄像机在所述演讲时间段捕获的所述演讲者的视频图像、录制的视频、所述演讲者电脑桌面的可视化表示、透明投影仪图像等。所述图形演讲数据可以具有随时间变化的特征，例如，随着演讲从一张幻灯片前进到下一张幻灯片、视频播放连续帧、在演讲者的计算机桌面上移动或突出显示图标和光标等部件、或者演讲者在所述演讲者设备的摄像机的视场中移动人体或移动其它对象。在一些示例中，所述图形演讲数据可以指示视屏演示的内容，例如幻灯片版面、图像序列或所述演讲者在黑板、白板或幻灯片上书写或绘画的录制视频。演讲者交互数据指示所述演讲者与所述视屏演示的交互，并且可以从一个或多个其它类型的演讲者数据导出。例如，演讲者交互数据可以包括以下提示：所述演讲者正在移动指针或激光笔(在捕获的视频中)、正在移动光标或鼠标指针(在电脑桌面上，例如所述演讲者设备)、正在用手指或触笔触摸所述演讲者设备的触敏用户输入设备、正在移动书写表面上的笔或粉笔(在捕获的视频中)、或者正在通过所述演讲者设备的文本输入设备输入文本。在一些示例中，所述演讲者数据可以包括预先录制的演讲内容(包括音频和/或视频内容)，其持续时间跨越所述演讲时间段并且具有一个或多个指示所述演讲时间段的时间段的注释，在该时间段参与者的关注非常重要。在一些示例中，这些注释可以指示所述演讲时间段的一个或多个时间段的注意力重要性级别(例如高/中/低注意力重要性级别)，或者指示注意力重要性级别的连续标量值。如下文参照步骤306进一步详细描述的那样，所述注意力重要性级别指示参与者120关注所述演讲者110展示的内容的重要程度。

在一些示例中，所述演讲者110向参与者提供展示教育材料(例如教科书)的讲座。所述演讲者的设备包括摄像机和麦克风，用于捕获所述演讲者面部和/或教学对象(例如，教科书和白板)的视频以及所述演讲者语音的音频输入。所述演讲者数据包括该视频数据(作为图形演讲数据)和音频数据，以及指示与教育材料的交互的演讲交互数据(例如，由所述演讲者设备的各种输入设备(如鼠标、触笔、手指触摸和键盘)进行的指针移动、绘图和文本输入)。

在步骤304中，所述注意力监测系统从参与者设备(例如，与参与者120相关联的其它客户端设备112)接收与所述演讲时间段的至少一部分对应的参与者数据。所述参与者数据可以包括视频数据，所述视频数据包括所述参与者设备的摄像机捕获的所述参与者120的视频的多个帧。如下文参考步骤308所描述的那样，所述视频数据可以用于确定参与者对所述演讲者的演讲的关注程度。参与者数据还可以包括其它形式的数据，例如参与者交互数据(例如，指示用户输入所述参与者设备的数据，如文本或指针输入)或由用于捕获所述参与者语音的所述参与者设备的麦克风捕获的音频数据。在一些实施例中，这些其它形式的参与者数据也可以用于确定用户对所述演讲者的演讲的参与程度或关注程度。

在一些实施例中，所述注意力监测系统、所述演讲者设备或通过所述网络与所述参与者设备通信的另一设备用于向所述参与者设备发送至少一些所述演讲者数据。所述参与者设备用于在显示器上显示所述演讲者数据的所述图形演讲数据，并在扬声器上播放所述演讲者数据的所述音频数据。所述参与者设备包括用于捕获作为视频帧序列的所述学生头部图像的摄像机。这些视频帧作为参与者数据通过网络发送至所述注意力监测系统。

在一些实施例中，可以在所述参与者设备上对所述参与者数据进行本地处理，以确定参与者专注度(根据下文的步骤308)，然后再将所获得的专注度数据发送至所述注意力监测系统，而不是将所述视频数据发送至所述注意力监测系统并对所述注意力监测系统执行步骤308，如下文所述。在这些实施例中，所述参与者数据可以包括下文步骤308所确定的专注度数据。在一些实施例中，专注度数据可以始终由所述参与者设备生成，但是只可由所述注意力监测系统在注意力重要性较高时间段请求(如下文步骤306中所确定)，以响应所述参与者设备将所述专注度数据作为所述参与者数据的一部分发送的请求。在其它实施例中，可以仅在注意力重要性较高时间段生成专注度数据。在这些实施例中，所述注意力监测系统将用于向所述参与者设备发送在下文步骤306中生成的所述注意力重要性级别数据，从而使得所述参与者设备能够仅在注意力重要性较高时间段生成和发送专注度数据。

在步骤306中，所述注意力监测系统将处理所述演讲者数据，以将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高并且将所述演讲时间段中的一个或多个时间段识别为注意力重要性较低。如上所述，注意力重要性级别指示参与者120关注所述演讲者110在给定时间点展示的内容的重要程度。讲座或其它演讲可以包含任何数量的时刻，其中，参与者对所述演讲材料的参与不是必要的、预期的或必需的：例如，所述演讲者110不在场、正在休息、正在复习笔记、正在聆听参与者提出的问题等时刻。此外，还可能存在所述演讲者110谈论与所述演讲材料无关的主题(如个人或行政事务)的时刻。在任何这样的时刻，如果不考虑或忽略参与者专注度，并且只在注意力重要的时刻评估专注度，则旨在衡量参与者对所述演讲材料的参与的注意力监测系统可能更有效。

在一些实施例中，给定时间段的注意力重要性可以表示为连续标量值。在这些实施例中，注意力重要性较高时间段可以基于高于注意力重要性阈值的所述时间段的标量注意力重要性级别来分类，且注意力重要性较低时间段可以基于处于或高于所述注意力重要性阈值的所述时间段的所述标量注意力重要性级别来分类。在一些实施例中，注意力重要性可以表示为二进制值(例如，重要/不重要，或高/低)或一系列离散值(例如，高/中/低/非常低的注意力重要性级别)。

因此，在一些实施例中，在确定所述演讲时间段中的多个时间段的注意力重要性级别后，当所述注意力重要性级别高于注意力重要性阈值时，所述注意力监测系统可以将所述演讲时间段中的所述多个时间段的一个或多个识别为注意力重要性较高；当所述注意力重要性级别低于所述注意力重要性阈值时，所述注意力监测系统可以将所述演讲时间段中的一个或多个所述时间段识别为注意力重要性较低。

在一些实施例中，所述注意力重要性级别指示该时间段所需的最低参与者专注度。因此，对于每个注意力重要性较高时间段，所述注意力监测系统可以处理所述演讲者数据，以识别该时间段所需的最低参与者专注度。在下文的步骤308中，可以使用该最低参与者专注度来确定参与者是否对所述演讲给予足够的关注。

图4至图6示出了用于确定所述演讲时间段中某个时间段的注意力重要性级别的示例性方法。参考图4至图6描述的三种方法400、500、600是如何在不同实施例中实现方法300的步骤304的示例。应当理解的是，在其它实施例中，可以使用包括这些示例性方法的特征或步骤的子组合的其它方法来执行步骤304。

图4示出了由注意力监测系统执行的第一种示例性方法400的步骤的流程图，该方法利用所述演讲者数据中包含的音频数据识别所述演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段。所述方法400将处理所述音频数据以确定所述演讲者在说话的时间段，并将此类确定作为识别一个或多个注意力重要性较高时间段的基础。在各种示例中可以使用所述音频数据的其它特征来帮助确定注意力重要性级别，例如区分所述音频数据的言语声音和非言语声音，区分所述音频数据中的演讲者言语声音和非演讲者言语声音，识别所述音频数据的音量级别，以及/或者识别所述演讲者的说话内容，并处理所述文本演讲数据以确定所述演讲者的说话内容与所述文本演讲数据相对应。

在步骤402中，所述注意力监测系统从所述演讲者设备112接收演讲者数据，包括音频数据和文本演讲数据。在一些示例中，所述演讲者数据可以包括由一系列帧组成的视频和/或音频数据，并且一次可以处理一帧所述演讲者数据。所述帧对应所述演讲时间段内的单一时间点或单一短时间段。

在步骤404中，所述注意力监测系统将确定，对于所述演讲时间段内的时间点或时间段，所述音频数据的音量级别是否高于音量阈值。如果所述音量级别低于所述音量阈值，则所述方法400转到步骤412，并为所述时间点或时间段分配注意力重要性级别—“非常低”(例如，连续注意力重要性级别为0)。此类确定可以过滤低电平噪声并避免触发步骤406和408，从而潜在地节省计算和/或网络资源。如果所述音量级别高于所述音量阈值，则所述方法400转到步骤406。

在步骤406中，所述注意力监测系统将确定，对于所述演讲时间段内的所述时间点或时间段，所述音频数据是否指示所述演讲者在说话。此类确定可以根据已知技术由所述注意力监测系统的语音识别模块执行。在一些实施例中，所述语音识别模块可以简单地区分所述音频数据中的人类言语声音和非言语声音。在一些实施例中，所述语音识别模块可以区分所述演讲者语音中的言语声音和另一语音中的言语声音。后一种区别在涉及一个或多个参与者和所述演讲者亲自到场的情况下可能有用，其中，所述演讲者设备的所述麦克风可以捕获亲自当场的其他参与者的言语声音。

如果所述语音识别模块确定所述时间点的所述音频数据中不存在人类言语(或不存在演讲者的言语)，则所述方法400转到步骤414，并为所述时间点或时间段分配注意力重要性级别—“低”(例如，连续注意力重要性级别为20)。此类确定可以过滤非言语噪声并避免触发步骤408，从而潜在地节省资源。如果所述语音识别模块确定在音频数据中所述演讲者在说话(或有人在说话)，则所述方法400转到步骤408。

在步骤408中，所述注意力监测系统将确定，对于所述演讲时间段内的所述时间点或时间段，所述音频数据是否指示所述演讲者的说话内容与所述文本演讲数据相对应。此类确定可以由所述注意力监测系统的所述语音识别模块和文本分析模块执行。所述语音识别模块可以使用已知的语音识别技术来识别所述音频数据中的所述演讲者说话内容，以转录所述演讲者的语音。所述文本分析模块可以将所述演讲者的语音转录文本与各种类型的文本演讲数据进行比较，以确定所述演讲者语音的所述文本内容是否与所述文本演讲数据相对应。例如，所述文本分析模块可以执行关键字匹配、语义分析或其它已知的文本比较技术，以确定所述演讲者是在谈论与所述演讲内容密切相关的主题还是在谈论另一主题(例如行政或个人事务)。

如果所述语音识别模块确定所述演讲者的讲话内容与所述文本演讲数据不对应，则所述方法400转到步骤416，并为所述时间点或时间段分配注意力重要性级别—“中”(例如，连续注意力重要性级别为50)。此类确定可以过滤不相关的语音。如果所述语音识别模块确定所述演讲者的讲话内容与所述文本演讲数据相对应，则所述方法400转到步骤410，并为所述时间点或时间段分配注意力重要性级别—“高”(例如，连续注意力重要性级别为100)。

步骤402至408可以根据需要重复多次，以确定所述演讲时间段内多个时间点或时间段的每一个的注意力重要性级别。

在一些实施例中，方法400可以省略步骤404到408中的一个或多个和/或添加额外的步骤，以在确定注意力重要性级别时考虑其它音频数据特征(如上所述)或其它类型的演讲者数据(如上文参考方法300的步骤302所描述)。在一些实施例中，步骤410至416分配的所述注意力重要性级别被限制为二进制高/低值(例如，步骤410中的高值、步骤412、414和416中的低值)。

一旦确定所述演讲时间段中某个时间点(例如，与所述演讲者数据或参与者数据的单个视频帧对应的时间点)的注意力重要性级别，则该时间点可以与计算得出的注意力重要性级别相关联。可以基于与每个时间段内的时间点相关联的所述注意力重要性级别，例如通过取每个时间段内的所述时间点的所述注意力重要性级别的平均值或以其它方式合计所述注意力重要性级别，来识别注意力重要性较高时间段和注意力重要性较低时间段。

图5示出了由注意力监测系统执行的第二种示例性方法500的步骤的流程图，该方法利用所述演讲者数据中包含的演讲交互数据识别所述演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段。在该方法500中，所述演讲者与所述演讲材料的交互(例如通过输入设备的光标移动、笔或手触摸触摸屏以及文本输入)可以用作需要参与者关注的所述时间段的指示。

如上文参考步骤302所描述的那样，在一些示例中，所述演讲交互数据可以从其它类型的演讲者数据导出。例如，可以处理所述演讲者数据中包含的图形演讲数据，以确定所述图形演讲数据的视觉特性已发生变化，这可以指示所述演讲者与所述演讲的交互。确定已发生改变的所述图形演讲数据的视觉特性可以包括演讲者的指针移动，例如，所述演讲者设备桌面上的鼠标光标移动、所述演讲者在白板上写字的视频或所述演讲者指向课本中的句子的视频。在另一示例中，确定已发生改变的所述图形演讲数据的视觉特性可以包括视屏演示的内容，例如从幻灯片版面中的一张幻灯片前进到下一张幻灯片，指示所述演讲者与所述视屏演示的交互。

在步骤502中，所述注意力监测系统接收演讲者数据。同方法400一样，所述演讲者数据可以包括由一系列帧组成的视频和/或音频数据，并且可以一次一个地处理每个帧，每个帧对应所述演讲时间段内的时间点或非常短的时间段。在方法500中，所述演讲者数据包括视屏演示(例如，所述演讲者在表面上书写的视频或幻灯片演示)和演讲交互数据。

在步骤504中，所述注意力监测系统确定所述演讲者是否在所述时间点或时间段与所述视屏演示材料交互。此类确定基于所述演讲交互数据进行。如上所述，所述演讲者交互数据可以包括以下提示：所述演讲者正在移动指针或激光笔(在捕获的视频中)、正在移动光标或鼠标指针(在电脑桌面上，例如所述演讲者设备)、正在用手指或触笔触摸所述演讲者设备的触敏用户输入设备、正在移动书写表面上的笔或粉笔(在捕获的视频中)、或者正在通过所述演讲者设备的文本输入设备输入文本。

如果在步骤504中确定所述演讲者正在与所述视屏演示交互，或者基于其它标准(例如，所述演讲交互数据的文本输入与所述演讲者数据的文本演讲数据的比较)确定所述演讲者正在与所述演讲交互，则方法500转到步骤506，并为该时间段的时间点分配“高”注意力重要性。如果确定所述演讲者并未与所述演讲交互，则所述方法500转到步骤508，并为该时间段的时间点分配“低”注意力重要性。

图6示出了由注意力监测系统执行的第三种示例性方法600的步骤的流程图，该方法利用预先录制的演讲内容中包含的注释识别所述演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段。在该方法600中，所述演讲者数据包括一个或多个注释，所述注释指示所述演讲时间段中的所述一个或多个注意力重要性较高时间段。所述注意力监测系统将处理所述注释，以将所述演讲时间段中的所述一个或多个时间段识别为注意力重要性较高。

在步骤602中，所述注意力监测系统接收演讲者数据。同方法400和500一样，所述演讲者数据可以包括由一系列帧组成的视频和/或音频数据，并且可以一次一个地处理每个帧，每个帧对应所述演讲时间段内的时间点或非常短的时间段。在方法600中，所述演讲者数据包括一个或多个注释，所述注释指示所述演讲时间段中的一个或多个时间段的注意力重要性级别。所述演讲者数据还可以包括预先录制的演讲内容，使得可以参考所述预先录制的演讲内容中的时间戳来确定所述演讲时间段内的所述注释时间段。然而，在一些实施例中，可以使用其它注释技术为现场演讲做注释，例如，幻灯片版面可以包含与特定幻灯片或动画相关联的注释，使得所述注意力监测系统将在现场演讲期间显示所述幻灯片或动画的时间段识别为注意力重要性较高时间段。

演讲者数据的注释可以包括视屏演示(例如，视频或幻灯片演示)中包含的元数据标记，该标记将两个时间戳之间的时间段识别为具有所识别的注意力重要性级别。

在步骤604中，如果基于所述注释确定当前时间点或时间段处于注意力重要性较高时间段，则所述方法转到步骤606，并为所述时间点或时间段分配注意力重要性级别—“高”。如果基于所述注释确定当前时间点或时间段不处于注意力重要性较高时间段，则所述方法转到步骤608，并为所述时间点或时间段分配注意力重要性级别—“低”。

尽管已将方法400、500、600描述为如何识别所述演讲时间段中的注意力重要性较高时间段和注意力重要性较低时间段的三个示例，但在一些实施例中，可以使用其它方法或这些方法的变体。在各种实施例中，可以基于不同类型的演讲者数据的各种不同组合来确定注意力重要性级别。

返回图3，在步骤308中，所述注意力监测系统将处理所述参与者数据，以确定所述一个或多个注意力重要性较高时间段的参与者专注度。

在一些实施例中，确定参与者的专注度包括确定所述参与者正在观看所述参与者设备的显示器，该显示器上基于所述演讲者数据显示视屏演示内容。确定所述参与者正在观看所述显示器可以包括处理所述参与者数据中的视频数据，以确定所述视频数据多个帧的一个或多个中的参与者视线方向。该步骤308将被描述为由所述注意力监测系统基于所述已接收参与者数据来执行，但是如上文参照步骤302所述，在一些实施例中，可以在所述参与者设备中对所述视频数据进行处理，以确定专注度。

图7示出了用于基于所述参与者数据中包含的视频数据的视频帧来确定参与者专注度的示例性方法700。除执行方法300的步骤308之外，方法700还包括与方法300的前一步骤306对应的步骤706和708。

在步骤702中，将当前帧计数值k初始化为k＝0。例如，所述当前帧计数值可以作为变量存储在实现所述注意力监测系统的视频处理模块的软件中。

在步骤704中，将采样周期n设置为值n＝0。所述采样周期可以是在所述注意力监测系统软件中预定义的运行参数，或者可以由用户配置以设置所述视频处理模块的采样率。在一些实施例中，所述采样周期可以动态变化，以响应各种动态因素，例如视频质量或帧中所示的参与者数量。

在步骤706中，如分别在方法400、500和600的步骤402、502和602所描述的那样，所述注意力监测系统接收所述演讲者数据的帧。在该方法700中接收的所述演讲者数据应该包括可以可视方式向参与者展示的某种形式的数据，例如图形演讲数据，以使该专注度确定方法(即，监测所有参与者是否在观看所述显示器)有效。

在步骤708中，如上文参考步骤306以及方法400、500和600所描述的那样，确定与所述演讲者数据的帧对应的所述时间点或时间段的所述注意力重要性级别。

在步骤710中，所述注意力监测系统确定与所述演讲者数据的帧对应的所述当前时间段是否为注意力重要性较高时间段。如上所述，在使用不同的注意力重要性值范围或集合的各种实施例中，可以通过不同的方式定义注意力重要性较高时间段。在一些实施例中，针对注意力重要性(如步骤306中所识别的)高于阈值或类别的所有时间段，例如高于60的标量注意力重要性值，或者注意力重要性类别为“中”或更高级别，确定参与者注意力。在该步骤308的上下文中，“高”注意力重要性时间段表示在步骤306中确定的注意力重要性高于预定值或阈值的时间段。

如果所述时间段具有较高的注意力重要性，则所述方法700转到步骤712。否则，所述方法700返回到步骤706，以接收所述下一帧演讲者数据。

在步骤712中，将所述当前帧计数值k初始化为k＝k+1。因此，在处理注意力重要性较高的第一时间段中的参与者数据的所述第一视频帧之前，所述当前帧计数值k为1。

在步骤714中，所述注意力监测系统将确定所述当前帧计数值k是否为所述采样周期n的倍数，即，k以n为模是否等于0。这意味着，在注意力重要性较高时间段，所述参与者视频将每隔n帧采样一次。因此，对于零星采样和快速采样，可以分别将n值设置为高和低。

在步骤716中，所述注意力监测系统接收所述参与者数据的视频帧。参与者数据的所述视频帧对应于在步骤306中接收的演讲者数据的所述当前帧的相同时间段。如上所述，各种实施例中的所述参与者设备可以用于始终发送参与者数据，或者在各种实施例中仅在注意力重要性较高时间段内发送参与者数据。放置所述参与者设备的所述摄像机，使得在所述参与者正确使用所述设备的情况下，所述视频帧显示所述参与者的头部。

在步骤718中，所述注意力监测系统将处理参与者数据的所述视频帧，以确定所述参与者的当前原始专注度a。确定a之后，所述注意力监测系统将设置值A_k/n＝a，指示当前第(k/n)个样本的原始专注度。因此，如果所述当前帧的k＝120且n＝10，则所述当前样本为第12个样本，且A₁₂＝a。

使用人脸检测、人脸方向评估和/或视线评估来评估所述原始专注度，上文参考图2B对其确定情况进行了描述。在一些示例中，基于根据视频帧处理确定的参与者头部的所检测俯仰角和偏转角，将所述原始专注度分为低(例如，标量注意力值为10)、中(例如，标量注意力值为50)或高(例如，标量注意力值为100)。所述参与者头部的俯仰角可以确定为头部围绕大约穿过所述参与者耳朵的轴旋转(从左到右)的角度，即上下倾斜的角度，并且所述参与者头部的偏转角可以确定为头部围绕大约穿过所述参与者头顶的轴旋转(从上到下)的角度，即头部向颈部左侧或右侧旋转的角度。所述摄像机相对于所述参与者设备的所述显示器的位置和方向可以用于确定与直接面向所述显示器的所述参与者对应的参与者头部的俯仰角和偏转角的零值。在一些实施例中，下表1可以指示与给定偏转值和给定俯仰值对应的原始专注度。

表1

偏转角	原始专注度
		0°≤Yaw<\|20°\|	高
20°≤Yaw<\|40°\|	中
		\|40°\|≤Yaw	低
俯仰角	原始专注度
		0°≤Pitch<\|15°\|	高
15°≤Pitch<\|30°\|	中
		\|30°\|≤Pitch	低

在不同实施例中，可以通过不同方式组合与表1中的俯仰值和偏转值对应的所述原始专注度。一些实施例可以将所述两个值中的较低者作为所述整体原始专注度评分。一些实施例可以将所述两个值中的较高者作为所述整体原始专注度评分。一些实施例可以将使用平均函数计算得出的所述两个值的平均值作为所述整体原始专注度评分。在一些实施例中，可以将表1中的高、中和低值替换为相应的数值，并且平均函数可以是平均值或加权平均值等。应当理解的是，表1中提供的所述原始专注度值以及俯仰角和偏转角范围仅作为示例提供，并且各种实施例可以使用不同的值和范围，且可能会使用其它数据，例如头部倾斜(围绕穿过鼻子前部和后脑勺的轴)、眼动追踪信息或所述参与者数据中包含或可从所述参与者数据导出的其它数据，以确定原始专注度。

在步骤720，所述注意力监测系统将处理先前L个原始专注度A_(k/n)-L+1至A_(k/n)以计算平滑专注度b，并且将值B_(k/n)设置为B_(k/n)＝b。处理所述先前L个原始专注度以生成所述平滑专注度值b可以基于数学函数，所述数学函数可以根据基于规则或基于机器学习的算法来选择，例如，基于所收集数据设计的基于规则的专家系统或使用机器学习和训练数据来训练的算法。在一些实施例中，通过从所述先前L个原始专注度中移除最低10％和最高10％的原始专注度，然后计算剩余样本的平均值，来处理所述原始专注度。应当理解的是，在不同实施例中，可以将其它平滑函数应用于一个或多个原始专注度A，以计算b和B_(k/n)的值。

一旦方法700在步骤720中计算b和B_(k/n)的值，则所述方法将返回到步骤706，以接收并处理所述下一帧演讲者数据。可以重复此操作，直至与所述演讲时间段对应的所述演讲者数据的所有帧均得到处理。

应当理解的是，方法700作为如何执行方法300的步骤308的示例提供，并且不同的实施例可以通过不同的方式计算步骤308中的参与者专注度。

返回图3，在步骤310中，可选地，所述注意力监测系统将识别所述演讲时间段的多个间隔。在不同实施例和不同示例中，间隔可以是所述演讲者说的一句话、幻灯片演示中的幻灯片、课程模块或所述演讲时间段内的任何其它时间单位。在一些实施例中，可以针对每个间隔分别监测参与者注意力，使得所述注意力监测系统可以为每个间隔单独生成注意力数据，以向所述演讲者提供反馈或用于其它目的。

在一些实施例中，所述演讲时间段的多个间隔对应多个演讲者语音片段。在这些实施例中，所述演讲者数据包括音频数据，且识别所述多个间隔包括：处理所述音频数据，以识别所述多个演讲者语音片段。在一些实施例中，语音片段可以是句子。在其它实施例中，语音片段可以是对应所述文本演讲材料中各个段落的口语段落，例如单张幻灯片的内容、所述演讲者笔记的段落内容或课程模块的书面材料内容。在一些实施例中，可以使用已知的自动语音识别(automatic speech recognition，ASR)技术来确定每个句子的间隔，所述自动语音识别技术由所述注意力监测系统的所述语音处理模块实现。

在一些实施例中，所述演讲时间段的所述多个间隔对应多个视屏演示片段。在这些实施例中，所述演讲者数据包括图形演讲数据(例如，视频或幻灯片演示)，且识别所述多个间隔包括：处理所述图形演讲数据，以识别所述多个视屏演示片段。在一些实施例中，所述图形演讲数据可以包括幻灯片演示，并且所述视屏演示片段可以是单独的幻灯片。在一些实施例中，所述图形演讲数据可以包括显示所述演讲者在白板等表面上书写的视频，并且所述视屏演示片段可以是显示与所述文本演讲材料中各个段落(例如，所述演讲者笔记的段落内容或课程模块的书面材料内容)对应的所述演讲者书写内容的视频片段。在一些实施例中，可以使用已知的计算机视觉(computer vision，CV)技术来确定每个句子的间隔，例如通过检查帧与帧之间的帧差，所述计算机视觉技术由所述注意力监测系统的所述视频处理模块实现。

应当理解的是，不同的实施例可以基于各种标准将所述演讲时间段分割为间隔。在一些实施例中，预先录制的视听演讲可以包括在所述演讲者数据中，并且预先录制的视听演讲可以包含注释，所述注释用于识别界定所述演讲中的间隔的时间戳。在各种不同实施例中，可以使用各种不同类型的演讲者数据来识别所述演讲时间段的间隔。

在步骤312中，可选地，所述注意力监测系统将处理所述参与者数据，以在所述间隔与所述一个或多个注意力重要性较高时间段重叠期间，确定每个间隔的参与者专注度。因此，例如，对应某个间隔内的帧或时间点的a、A、b和/或B的值可以用于计算该间隔的专注度。

一些实施例使用以下等式计算间隔的专注度：

其中，B_i是样本i处的平滑专注度，s是所述间隔的起始帧索引，t是所述间隔的结束帧索引。[s,t]可以指示句子、幻灯片、整个演示文稿或上文所述的任何其它间隔。

在步骤314中，可选地，所述注意力监测系统将向所述演讲者设备发送指示所述参与者专注度的反馈信息。在一些实施例中，所述反馈信息指示对于所述演讲时间段中的每个注意力重要性较高时间段所述参与者的参与者专注度，诸如一个或多个平滑专注度B_i。在一些实施例中，所述反馈信息指示，对于所述演讲时间段中的每个注意力重要性较高时间段，所述时间段的所述参与者专注度是否至少为所述时间段所需的最低参与者专注度(如上文参考步骤306所描述的那样)。在一些实施例中，所述反馈信息指示每个间隔的参与者专注度，每个间隔的所述参与者专注度按上文步骤312中的描述计算。

图8至图9示出了演讲者设备的示例性用户界面屏幕，该屏幕用于对所述注意力监测系统发送至所述演讲者设备的所述反馈信息进行可视化处理。应当理解的是，图8至图9仅作为用户界面屏幕的示例提供，并且在不同实施例中，可以通过不同设备以不同形式将该反馈信息提供给所述演讲者110、所述参与者120和/或第三方(例如管理员)。

图8是示出多个参与者的当前专注度以及当前整体专注度的第一用户界面屏幕800。

所述屏幕800示出了当前班级专注度指示器802，其指示一组多个参与者(例如，由多名学生组成的班级)的整体专注度。所述当前班级专注度指示器802显示为圆圈，所述圆圈包含所述当前班级专注度的文本表示804(此处显示为“25％”，指示所述演讲25％的参与者处于下文定义的“专心”状态)，以及所述当前班级专注度的图形表示806(此处显示为围绕圆周25％的彩色弧线，指示所述演讲25％的参与者处于专心状态)。补充文本808示出了当前班级注意力的附加标记(此处示出的是文本“2昏昏欲睡”，指示所述班级中的2名学生处于下文定义的“昏昏欲睡”状态。)

每个参与者由头像810表示，例如标识所述参与者的照片或图标。所述图像810周围环绕着所述参与者当前专注度(例如，由方法700为该参与者生成的最后一个B值)的图形表示812。

例如，可以在所述屏幕800上示出参与者详细信息弹出面板818，以响应演讲者使用指针设备选择参与者的头像810。在该示例中，已选择第二参与者814，并且所述第二参与者的详细信息显示在所述参与者详细信息弹出面板818中，包括所述第二参与者的姓名822、头像820和当前注意力状态824(如下文所定义)。参与者注意力图826示出了所述第二参与者在所述演讲时间段(X轴830所示的时间)随时间变化的专注度(例如，平滑专注度B)。所述参与者注意力图826的Y轴828将所述参与者专注度分成多个注意力状态，如下文所定义。

所述示例性屏幕800中示出的注意力状态可以通过对参与者的所述专注度范围进行分类来识别，例如方法700生成的所述B值。在该示例性屏幕800中，专注度按0到100的等级示出，顶部范围(例如，76-100)归类为“专心”，中高范围(例如，51-75)归类为“一般”，中低范围(例如，26-50)归类为“注意力分散”，底部范围(例如，0-25)归类为“昏昏欲睡”。应当理解的是，各种实施例可以通过不同的方式对专注度进行分类或描述。

图9为第二用户界面屏幕900，其示出多个参与者在整个演讲过程(按间隔细分)中的专注度以及基于每个参与者在所述演讲期间的整体专注度的所述演讲的优秀参与者列表。

所述屏幕900示出了整体课堂表现区域902，包括整体课堂表现的文本和图形表示904(此处示出的是文本“48％专心”和围绕圆周48％的彩色弧线，两者均指示在所述整个演讲时间段48％的所述参与者的整体专注度为“专心”)。补充文本906示出了当前班级注意力或所述演讲过程中的表现的附加标记(此处示出的是文本“14知道/6不知道”，指示14名学生知道所述演讲期间所提出问题的答案，而6名学生不知道答案)。

所述屏幕900示出了按时间划分的注意力表现区域907，该区域包括所述演讲过程中整体班级注意力的图表908。所述图表908的X轴912是跨域所述演讲时间段的时间(此处示出的是大约50分钟)。所述图表908的Y轴910是整体班级专注度，范围为0到100。

在一些实施例中，可以通过计算每个参与者的专注度(例如，B)的平均值或其它合计或平均函数，来计算图表908中所示的随时间变化的整体班级注意力。类似地，可以通过计算所述整个演讲或间隔内所述参与者的所述专注度(例如，B值)的平均值或其它合计或平均函数，来计算所述演讲或所述演讲间隔的整体参与者专注度。

所述屏幕900示出了优秀学生区域914，该区域包括相对于其他参与者具有较高整体专注度的参与者列表。每个优秀学生(即，在所述演讲中具有较高整体专注度的参与者)显示了头像916、姓名918以及在一段时间(例如，一学期或期间为止的所有时间)内所述参与者成为优秀学生的次数的指示符920。

所述屏幕900示出了按模块划分的注意力表现区域922，该区域包括示出所述演讲的多个模块中的每一个的注意力度量的条形图。在该示例中，每个模块对应于上文参考方法300的步骤310定义的所述演讲的间隔。在该屏幕900，X轴926示出了五个模块，每个模块具有该模块的整体班级注意力的文本标识(例如，“好”、“一般”或“差”)。可以基于所述模块的度量的某种组合来计算模块的整体班级注意力。

每个模块所示的所述度量显示为条形图中的条形，且高度指示该度量的较高水平(如Y轴924所示)，其示出了按该度量分类的学生数量。例如，图中示出了模块1，该模块具有基于第一度量928、第二度量930以及第三度量932的“良好”表现，所述第一度量表示在模块1期间有多少学生的整体注意力表现是“专心”，所述第二度量表示在模块1期间有多少学生的整体注意力表现是“注意力分散”，所述第三度量表示在模块1期间有多少学生的整体注意力表现是“昏昏欲睡”。

可以在所述屏幕900上示出注释弹出面板934，以向所述演讲者110显示关于如何潜在地提高各模块的性能的提示或注释。在该示例中，所述注释弹出面板934显示文本“注意：—尝试改进模块4—模块3和5可以有更多的交互来吸引学生的注意力”，该文本可以由所述注意力监测系统基于每个模块的整体表现水平自动生成。

在一些实施例中，所述屏幕900汇总了多个演讲的表现，并且所述按模块划分的注意力表现区域922中示出的模块可以各自由一个或多个演讲组成。

在一些实施例中，还可以将反馈信息发送至所述参与者设备。这使得参与者能够在演讲期间监测自己的专注度，或在演讲结束时查看自己的专注度。

图10为参与者设备的用户界面屏幕1000，其示出单个参与者在整个演讲过程(按间隔细分)中的专注度。

所述屏幕1000示出了整体学生表现区域1002，该区域包括整体参与者表现的文本和图形表示1004(此处示出的是文本“75％专心”和围绕圆周75％的彩色弧线，两者均指示在所述整个演讲时间段所述参与者有75％的时间整体专注度为“专心”)。补充文本1006示出了所述演讲期间参与者专注度或表现的附加标记(此处示出的是文本“30m专心/10m注意力分散”，指示所述参与者在所述演讲时间段的30分钟处于“专心”状态，而在所述演讲时间段的10分钟处于“注意力分散”状态)。

所述屏幕1000示出了按时间划分的注意力表现区域1007，该区域包括所述演讲过程中整体学生注意力的图表1008，其中，轴依据屏幕900中所述按时间划分的注意力表现区域907。

图表1008中所示的随时间变化的整体学生注意力可以是所述参与者的参与者专注度(例如，B)。

所述屏幕1000示出了屏幕900所示的优秀学生区域914。

所述屏幕1000示出了按模块划分的注意力表现区域1022，该区域包括示出所述演讲的多个模块中的每一个的注意力度量的条形图。在该示例中，每个模块对应于上文参考方法300的步骤310定义的所述演讲的间隔。在该屏幕1000，X轴926示出了五个模块，每个模块具有该模块的整体学生注意力的文本标识(例如，“好”、“一般”或“差”)。可以基于某个模块期间的所述整体参与者专注度计算该模块的整体学生注意力。

可以在所述屏幕1000上示出注释弹出面板1034，以向所述参与者120显示关于如何潜在地提高各模块的注意力表现的提示或注释。在该示例中，所述注释弹出面板1034显示文本“注意：—您在学习模块4时注意力分散—确保充分了解模块3和5”，该文本可以由所述注意力监测系统基于每个模块的所述参与者整体表现水平自动生成。

在一些实施例中，所述屏幕1000汇总了多个演讲的表现，并且所述按模块划分的注意力表现区域1022中示出的模块可以各自由一个或多个演讲组成。

尽管已参考在线学习中的学生注意力监测来描述示例实施例，但是应当理解的是，本文描述的技术可以应用于其它领域，包括视频会议和面对面学习。在一些实施例中，可以根据会话期间的当前情况分配“演讲者”和“参与者”的角色：例如，在视频会议中，“演讲者”角色可以分配给会话或不同演讲者的演讲序列中的当前演讲者，“参与者”角色可以分配给所述当前演讲者之外的所有与会者，并且所描述的方法可以用于监测所述与会者的注意力并向所述演讲者提供反馈。所描述的技术还可以应用于其它领域，例如广告(用于监测潜在客户的关注度)或内容观看(例如，用于监测观众对视频娱乐内容的参与，作为内容质量评级或内容推荐系统的一部分)。

概述

尽管本发明描述了具有按某种顺序排列的步骤的方法和过程，但是可以适当省略或改变所述方法和过程的一个或多个步骤。在适当的情况下，一个或多个步骤可以按不同于其描述的顺序进行。

尽管本发明在方法方面至少部分地进行了描述，但本领域普通技术人员将理解，本发明也针对用于执行所述方法的至少一些方面和特征的各种组件，无论是通过硬件组件、软件还是其任意组合。相应地，本发明的技术方案可通过软件产品的形式体现。合适的软件产品可以存储在预先记录的存储设备或其它类似的非易失性或非瞬时性计算机可读介质中，包括DVD、CD-ROM、USB闪存盘、可移动硬盘或其它存储介质等。所述软件产品包括有形地存储在其上的指令，所述指令使处理器设备(例如，个人计算机、服务器或网络设备)能够执行本文公开的方法的示例。

在不脱离权利要求的主题的前提下，本发明可以通过其它特定形式实施。所描述的示例性实施例在各方面都仅仅是示意性的，而不是限制性的。可以组合来自上述一个或多个上述实施例的所选特征来创建未明确描述的替代实施例以及适合在本发明范围内理解的此类组合的特征。

本文还公开了所公开范围内的所有值和子范围。而且，尽管本文公开和示出的系统、设备和过程可以包括特定数量的元件/组件，但是所述系统、设备和组件可以修改为包括更多或更少的此类元件/组件。例如，尽管所公开的任何元件/组件可以引用为单数，但是本文公开的实施例可以修改为包括多个此类元件/组件。本文描述的主题旨在涵盖并包含技术中的所有适当变化。

Claims

1.一种由注意力监测系统执行的用于评估参与者注意力的方法，其特征在于，包括：

从演讲者设备接收与演讲时间段对应的演讲者数据；

从参与者设备接收与所述演讲时间段的至少一部分对应的参与者数据；

处理所述演讲者数据，以将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高并且将所述演讲时间段中的一个或多个时间段识别为注意力重要性较低；

处理所述参与者数据，以确定所述一个或多个注意力重要性较高时间段的参与者专注度。

2.根据权利要求1所述的方法，其特征在于，还包括向所述演讲者设备发送指示所述参与者专注度的反馈信息。

3.根据权利要求1或2所述的方法，其特征在于：

所述演讲者数据包括音频数据；

处理所述演讲者数据包括：处理所述音频数据，以确定在所述一个或多个注意力重要性较高时间段中演讲者在说话。

4.根据权利要求3所述的方法，其特征在于，处理所述音频数据以确定所述演讲者在说话包括：处理所述音频数据，以区分所述音频数据中的言语声音和非言语声音。

5.根据权利要求4所述的方法，其特征在于：

所述演讲者数据还包括文本演讲数据；

处理所述演讲者数据包括：

处理所述音频数据，以识别所述演讲者的说话内容；

处理所述文本演讲数据，以确定所述演讲者的说话内容与所述文本演讲数据相对应。

6.根据权利要求1至5中任一项所述的方法，其特征在于：

所述演讲者数据包括图形演讲数据；

处理所述演讲者数据包括：处理所述图形演讲数据，以确定所述图形演讲数据的视觉特性已发生变化。

7.根据权利要求6所述的方法，其特征在于，所述图形演讲数据的所述视觉特性包括演讲者的指针移动。

8.根据权利要求1至7中任一项所述的方法，其特征在于：

所述演讲者数据包括：

指示视屏演示内容的图形演讲数据；

指示所述演讲者与所述视屏演示交互的演讲者交互数据；

将所述演讲时间段中的所述一个或多个时间段识别为注意力重要性较高包括：处理所述图形演讲数据和所述演讲者交互数据，以确定所述演讲者正在与所述视屏演示交互。

9.根据权利要求1至8中任一项所述的方法，其特征在于：

所述参与者数据包括视频数据，所述视频数据包括所述参与者设备的摄像机捕获的所述参与者的视频的多个帧；

处理所述参与者数据包括：处理所述视频数据，以确定所述多个帧的一个或多个中的参与者视线方向。

10.根据权利要求1至9中任一项所述的方法，其特征在于：

所述演讲者数据包括一个或多个注释，所述注释指示所述演讲时间段中的所述一个或多个注意力重要性较高时间段；

处理所述演讲者数据包括：处理所述注释，以将所述演讲时间段中的所述一个或多个时间段识别为注意力重要性较高。

11.根据权利要求1至10中任一项所述的方法，其特征在于，还包括识别所述演讲时间段的多个间隔，

其中，对于每个间隔，确定所述参与者专注度包括：

在所述间隔与被识别为注意力重要性较高的所述演讲时间段中的所述一个或多个时间段重叠期间，确定所述间隔的参与者专注度。

12.根据权利要求11所述的方法，其特征在于，还包括向所述演讲者设备发送指示每个间隔的所述参与者专注度的反馈信息。

13.根据权利要求11所述的方法，其特征在于：

所述多个间隔对应多个演讲者语音片段；

所述演讲者数据包括音频数据；

识别所述多个间隔包括：处理所述音频数据，以识别所述多个演讲者语音片段。

14.根据权利要求11所述的方法，其特征在于：

所述多个间隔对应多个视屏演示片段；

所述演讲者数据包括图形演讲数据；

识别所述多个间隔包括：处理所述图形演讲数据，以识别所述多个视频演示片段。

15.根据权利要求1至14中任一项所述的方法，其特征在于，识别一个或多个注意力重要性较高时间段和一个或多个注意力重要性较低时间段包括：

确定所述演讲时间段中的多个时间段的注意力重要性级别；

当所述注意力重要性级别高于注意力重要性阈值时，将所述演讲时间段中的所述多个时间段的一个或多个识别为注意力重要性较高；

当所述注意力重要性级别低于所述注意力重要性阈值时，将所述演讲时间段中的一个或多个所述时间段识别为注意力重要性较低。

16.一种由注意力监测系统执行的用于评估参与者注意力的方法，其特征在于，包括：

从演讲者设备接收与演讲时间段对应的演讲者数据，所述演讲者数据包括音频数据和图形演讲数据；

从参与者设备接收与所述演讲时间段的至少一部分对应的参与者数据，所述参与者数据包括视频数据，所述视频数据包括所述参与者设备的摄像机捕获的所述参与者的视频的多个帧；

根据所述图形演讲数据，识别与多个视屏演示片段对应的所述演讲时间段的多个间隔；

处理所述演讲者数据，以通过以下方式将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高并且将所述演讲时间段中的一个或多个时间段识别为注意力重要性较低：

处理所述音频数据，以通过区分所述音频数据中的言语声音和非言语声音，来确定在所述一个或多个注意力重要性较高时间段中演讲者在说话；

处理所述图形演讲数据，以确定所述图形演讲数据的幻灯片内容已发生变化；

处理所述参与者数据，以针对每个间隔，通过以下方式在所述间隔与所述一个或多个注意力重要性较高时间段重叠期间确定所述间隔的参与者专注度：处理所述视频数据，以确定所述多个帧的一个或多个中的参与者视线方向；

向所述演讲者设备发送指示每个间隔的所述参与者专注度的反馈信息。

17.根据权利要求16所述的方法，其特征在于，将所述演讲时间段中的一个或多个时间段识别为注意力重要性较高包括：对于每个注意力重要性较高时间段，处理所述演讲者数据，以识别所述时间段所需的最低参与者专注度。

18.根据权利要求17所述的方法，其特征在于，还包括：对于每个注意力重要性较高时间段，处理所述参与者数据，以确定所述时间段的所述参与者专注度是否至少为所述时间段所需的所述最低参与者专注度。

19.根据权利要求18所述的方法，其特征在于，还包括向所述演讲者设备发送反馈信息，所述反馈信息指示，对于每个注意力重要性较高时间段，所述时间段的所述参与者专注度是否至少为所述时间段所需的所述最低参与者专注度。

20.根据权利要求16至19中任一项所述的方法，其特征在于，还包括向所述参与者设备发送指示所述参与者专注度的反馈信息。

21.一种用于估计参与者注意力的注意力监测系统，其特征在于，包括：

处理器设备；

存储指令的存储器，当所述处理器设备执行所述指令时，会使所述系统执行以下操作：

从演讲者设备接收与演讲时段对应的演讲者数据；

从参与者设备接收与所述演讲时段的至少一部分对应的参与者数据；

处理所述演讲者数据，以将所述演讲时段中的一个或多个时段识别为注意力重要性较高并且将所述演讲时段中的一个或多个时段识别为注意力重要性较低；

处理所述参与者数据，以确定所述一个或多个注意力重要性较高时段的参与者专注度。

22.根据权利要求21所述的注意力监测系统，其特征在于，当所述处理器设备执行所述指令时，还会使所述系统向所述演讲者设备发送指示所述参与者专注度的反馈信息。

23.根据权利要求21或22所述的注意力监测系统，其特征在于：

所述演讲者数据包括音频数据；

处理所述演讲者数据包括：处理所述音频数据，以确定在所述一个或多个注意力重要性较高时段演讲者在说话。

24.根据权利要求23所述的注意力监测系统，其特征在于，处理所述音频数据以确定所述演讲者在说话包括：处理所述音频数据，以区分所述音频数据中的言语声音和非言语声音。

25.根据权利要求24所述的注意力监测系统，其特征在于：

所述演讲者数据还包括文本演讲数据；

处理所述演讲者数据包括：

处理所述音频数据，以识别所述演讲者的说话内容；

26.根据权利要求21至25中任一项所述的注意力监测系统，其特征在于：

所述演讲者数据包括图形演讲数据；

27.根据权利要求26所述的注意力监测系统，其特征在于，所述图形演讲数据的所述视觉特性包括演讲者的指针移动。

28.根据权利要求21至27中任一项所述的注意力监测系统，其特征在于：

所述演讲者数据包括：

指示视屏演示内容的图形演讲数据；

指示所述演讲者与所述视屏演示交互的演讲者交互数据；

将所述演讲时段中的所述一个或多个时段识别为注意力重要性较高包括：处理所述图形演讲数据和所述演讲者交互数据，以确定所述演讲者正在与所述视屏演示交互。

29.根据权利要求21至28中任一项所述的注意力监测系统，其特征在于：

30.根据权利要求21至29中任一项所述的注意力监测系统，其特征在于：

所述演讲者数据包括一个或多个注释，所述注释指示所述演讲时段中的所述一个或多个注意力重要性较高时段；

处理所述演讲者数据包括：处理所述注释，以将所述演讲时段中的所述一个或多个时段识别为注意力重要性较高。

31.根据权利要求21至30中任一项所述的注意力监测系统，其特征在于，当所述处理器设备执行所述指令时，还会使所述系统识别所述演讲时段的多个间隔，

其中，对于每个间隔，确定所述参与者专注度包括：

在所述间隔与被识别为注意力重要性较高的所述演讲时段中的所述一个或多个时段重叠期间，确定所述间隔的参与者专注度。

32.根据权利要求31所述的注意力监测系统，其特征在于，当所述处理器设备执行所述指令时，还会使所述系统向所述演讲者设备发送指示每个间隔的所述参与者专注度的反馈信息。

33.根据权利要求31所述的注意力监测系统，其特征在于：

所述多个间隔对应多个演讲者语音片段；

所述演讲者数据包括音频数据；

34.根据权利要求31所述的注意力监测系统，其特征在于：

所述多个间隔对应多个视屏演示片段；

所述演讲者数据包括图形演讲数据；

识别所述多个间隔包括：处理所述图形演讲数据，以识别所述多个视屏演示片段。

35.根据权利要求21至34中任一项所述的注意力监测系统，其特征在于，识别一个或多个注意力重要性较高时段和一个或多个注意力重要性较低时段包括：

确定所述演讲时段中的多个时段的注意力重要性级别；

当所述注意力重要性级别高于注意力重要性阈值时，将所述演讲时段中的所述多个时段的一个或多个识别为注意力重要性较高；

当所述注意力重要性级别低于所述注意力重要性阈值时，将所述演讲时段中的一个或多个所述时段识别为注意力重要性较低。

36.一种用于估计参与者注意力的注意力监测系统，其特征在于，包括：

处理器设备；

从演讲者设备接收与演讲时段对应的演讲者数据，所述演讲者数据包括音频数据和图形演讲数据；

从参与者设备接收与所述演讲时段的至少一部分对应的参与者数据，所述参与者数据包括视频数据，所述视频数据包括所述参与者设备的摄像机捕获的所述参与者的视频的多个帧；

根据所述图形演讲数据，识别与多个视屏演示片段对应的所述演讲时段的多个间隔；

处理所述演讲者数据，以通过以下方式将所述演讲时段中的一个或多个时段识别为注意力重要性较高并且将所述演讲时段中的一个或多个时段识别为注意力重要性较低：

处理所述音频数据，以通过区分所述音频数据中的言语声音和非言语声音，来确定在所述一个或多个注意力重要性较高时段演讲者在说话；

处理所述参与者数据，以针对每个间隔，通过以下方式在所述间隔与所述一个或多个注意力重要性较高时段重叠期间确定所述间隔的参与者专注度：处理所述视频数据，以确定所述多个帧的一个或多个中的参与者视线方向；

37.根据权利要求36所述的注意力监测系统，其特征在于，将所述演讲时段中的一个或多个时段识别为注意力重要性较高包括：对于每个注意力重要性较高时段，处理所述演讲者数据，以识别所述时段所需的最低参与者专注度。

38.根据权利要求37所述的注意力监测系统，其特征在于，当所述处理器设备执行所述指令时，还会使所述系统执行以下操作：对于每个注意力重要性较高时段，处理所述参与者数据，以确定所述时段的所述参与者专注度是否至少为所述时段所需的所述最低参与者专注度。

39.根据权利要求38所述的注意力监测系统，其特征在于，当所述处理器设备执行所述指令时，还会使所述系统执行以下操作：向所述演讲者设备发送反馈信息，所述反馈信息指示，对于每个注意力重要性较高时段，所述时段的所述参与者专注度是否至少为所述时段所需的所述最低参与者专注度。

40.根据权利要求36至39中任一项所述的注意力监测系统，其特征在于，当所述处理器设备执行所述指令时，还会使所述系统向所述参与者设备发送指示所述参与者专注度的反馈信息。

41.一种处理器可读介质，其特征在于，指令有形地存储在其上，当处理器设备执行所述指令时，会使所述处理器设备执行权利要求1至20中任一项所述的方法。