CN116665111A

CN116665111A - 基于视频会议系统的注意力分析方法、系统及存储介质

Info

Publication number: CN116665111A
Application number: CN202310938845.4A
Authority: CN
Inventors: 张文晶; 张亮; 李辉亮
Original assignee: Shenzhen Qianhai Shenlei Semiconductor Co ltd
Current assignee: Shenzhen Qianhai Shenlei Semiconductor Co ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-08-29

Abstract

本申请涉及音视频分析技术，公开了一种基于视频会议系统的注意力分析方法，包括：基于视频会议系统的麦克风阵列和摄像头采集会议现场的音视频信息，并根据音视频信息确定会议现场的目标位置，其中，所述目标位置包括目标人物所处位置和/或会议资料的展示位置；基于音视频信息中的会议现场图片，识别未注视所述目标位置的参会人员，并标记为异常人员；获取所述异常人员的行为数据；根据所述行为数据生成所述异常人员的注意力分析结果。本申请还公开了一种视频会议系统和计算机可读存储介质。本申请旨在以低设备成本的方式，得到参会人员准确的注意力分析结果。

Description

基于视频会议系统的注意力分析方法、系统及存储介质

技术领域

本申请涉及音视频分析技术领域，尤其涉及一种基于视频会议系统的注意力分析方法、视频会议系统以及计算机可读存储介质。

背景技术

目前对于会议人员的注意力分析方法，主要是通过捕捉人物脸部表情（尤其是眼部表情）进行注意力是否集中的分析（如公布号为CN 113705349 A的专利文献所公开的基于视线估计神经网络的注意力量化分析方法及系统），但这需要配备有足够多的、拍摄精度高的摄像头，才能准确捕捉到每个参会人员的脸部表情，从而得到准确的注意力分析结果。

因此现有的注意力分析方法，除去在人人都通过智能终端加入线上会议的场景中（这种场景每个参会人员必然具有相应的摄像头用于采集其脸部表情）的应用之外，在其他场景的应用（尤其对于线下多人的大会议场景），一般需要耗费高昂的设备成本（即需要配备足够多的、拍摄精度高的摄像头）才能够实施，否则就难以得到准确的注意力分析结果。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种基于视频会议系统的注意力分析方法、视频会议系统以及计算机可读存储介质，旨在以低设备成本的方式，得到参会人员准确的注意力分析结果。

为实现上述目的，本申请提供一种基于视频会议系统的注意力分析方法，包括以下步骤：

基于视频会议系统的麦克风阵列和摄像头采集会议现场的音视频信息，并根据音视频信息确定会议现场的目标位置，其中，所述目标位置包括目标人物所处位置和/或会议资料的展示位置；

基于音视频信息中的会议现场图片，识别未注视所述目标位置的参会人员，并标记为异常人员；

获取所述异常人员的行为数据，其中，所述行为数据包括第一时长、第二时长和第三时长中的至少一个，所述第一时长为未注视所述目标位置的持续时长，所述第二时长为进行会议无关行为的持续时长，所述第三时长包括打瞌睡和/或中途离开会议的持续时长；

根据所述行为数据生成所述异常人员的注意力分析结果。

可选的，所述根据音视频信息确定会议现场的目标位置的步骤包括：

根据音视频信息分析出会议现场中的目标人物，并将目标人物所处位置确定为目标位置；

其中，若基于音视频信息分析确定当前会议现场只有一个讲话者，则确定所述讲话者为目标人物；

若基于音视频信息分析出当前会议现场有多个讲话者，则根据每个讲话者对应的生物特征进行身份校验，其中，所述生物特征包括声纹特征和/或人脸特征；若检测到任一讲话者通过身份校验时，则将通过身份校验的讲话者作为目标人物；若检测到没有讲话者通过身份校验时，则将声强最大的讲话者作为目标人物。

确定会议现场展示的会议资料，所述会议资料包括画板、显示设备展示的资料；其中，除视频会议系统的显示界面所展示的会议资料之外的其他会议资料，通过对所述会议现场图片进行分析确定得到；

对音视频信息中的音频数据进行语义识别，并校验语义识别结果与会议资料的内容信息是否相匹配；

若是，将会议资料的展示位置确定为目标位置。

可选的，所述基于音视频信息中的会议现场图片，识别未注视所述目标位置的参会人员，并标记为异常人员的步骤包括：

从音视频信息中的会议现场图片中提取参会人员的头部姿态和身体姿态；

对头部姿态和身体姿态进行特征的线性变换，以将头部姿态和身体姿态映射到共享的特征空间中；

在所述特征空间中对头部姿态对应的旋转角度、身体姿态对应的关节角度进行特征拼接，得到特征融合结果；

检测所述特征融合结果表示的注视方向是否与所述目标位置对应；

若否，则判定所述特征融合结果关联的参会人员未注视所述目标位置，并将所述参会人员标记为异常人员。

可选的，所述获取所述异常人员的行为数据的步骤之前，还包括：

根据所述会议现场图片分析具有同一特定行为的第一人数，并计算所述第一人数占会议总人数的比例；

检测所述比例是否小于预设比例；

若是，将相应的特定行为定义为会议无关行为。

可选的，所述根据所述行为数据生成所述异常人员的注意力分析结果的步骤包括：

根据所述行为数据、所述行为数据对应的权重和会议时长，计算注意力分散比率，得到所述异常人员的注意力分析结果。

可选的，所述基于视频会议系统的注意力分析方法还包括：

基于所述目标位置的更新频率，调整所述行为数据对应的权重；

其中，所述目标位置的更新频率越快，则所述第一时长对应的权重越小。

可选的，所述根据所述行为数据、所述行为数据对应的权重和会议时长，计算注意力分散比率，得到所述异常人员的注意力分析结果的步骤之后，还包括：

检测到所述注意力分散比率超过预设阈值时，在所述视频会议系统的显示界面上，输出针对所述注意力分散比率对应的异常人员的提醒。

为实现上述目的，本申请还提供一种视频会议系统，所述视频会议系统包括麦克风阵列、摄像头和显示屏；所述视频会议系统还包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视频会议系统的注意力分析程序，所述基于视频会议系统的注意力分析程序被所述处理器执行时实现如上述基于视频会议系统的注意力分析方法的步骤。

为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于视频会议系统的注意力分析程序，所述基于视频会议系统的注意力分析程序被处理器执行时实现如上述基于视频会议系统的注意力分析方法的步骤。

本申请提供的基于视频会议系统的注意力分析方法、视频会议系统以及计算机可读存储介质，通过视频会议系统配置的麦克风阵列和摄像头采集会议现场的音视频信息，并结合音频分析和计算机视觉技术，可以准确地识别线下多人会议中注意力不集中的异常人员，并进行相应的注意力分析。而且本实施例方案实施成本低，只需要使用视频会议系统自带的麦克风阵列和少量摄像头（最少可以只有一个），无需为此配置大量拍摄精度高的摄像头来捕捉每个参会人员的面部细微表情（如眼睛视线），亦可得到线下多人会议中的参会人员的注意力分析结果。

附图说明

图1为本申请一实施例中基于视频会议系统的注意力分析方法步骤示意图；

图2为本申请一实施例中部署在会议现场的视频会议系统的显示屏示例图；

图3为本申请另一实施例中基于视频会议系统的注意力分析方法步骤示意图；

图4为本申请一实施例的视频会议系统的内部结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制，基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，若本申请中涉及“第一”、“第二”等的描述，仅用于描述目的（如用于区分相同或类似元件），而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参照图1，在一实施例中，所述基于视频会议系统的注意力分析方法包括：

步骤S10、基于视频会议系统的麦克风阵列和摄像头采集会议现场的音视频信息，并根据音视频信息确定会议现场的目标位置，其中，所述目标位置包括目标人物所处位置和/或会议资料的展示位置；

步骤S20、基于音视频信息中的会议现场图片，识别未注视所述目标位置的参会人员，并标记为异常人员；

步骤S30、获取所述异常人员的行为数据，其中，所述行为数据包括第一时长、第二时长和第三时长中的至少一个，所述第一时长为未注视所述目标位置的持续时长，所述第二时长为进行会议无关行为的持续时长，所述第三时长包括打瞌睡和/或中途离开会议的持续时长；

步骤S40、根据所述行为数据生成所述异常人员的注意力分析结果。

本实施例中，实施例的执行终端可以是布置在会议现场的视频会议系统，也可以是控制视频会议系统的装置（如虚拟装置）或设备（如云端设备）；以下以实施例终端为视频会议系统为例进行说明。

可选的，视频会议系统设置有麦克风阵列、摄像头和显示屏；其中，麦克风阵列、摄像头和显示屏可以集成到同一设备中；也可以是彼此独立的设备，并且彼此间还基于有线或无线的方式建立通信连接。

如步骤S10所述，视频会议系统通过麦克风阵列捕捉会议现场的多个角度的声音，以提供清晰的音频输入，并且可根据收音角度的不同进行声源定位。其中，麦克风阵列可以自动聚焦在正在交流的人物身上，减少背景噪音的干扰。

而视频会议系统的摄像头则负责捕捉会议现场的实时视频：摄像头可以自动对焦并调整角度以确保图像的清晰度，并可以扫描会议室的全景，捕捉所有参会人员的画面（如拍摄会议现场广角或全景图像）。

可选的，基于采集到的音视频信息（包括音频信息和视频信息）会通过系统进行处理与分析。其中，音频信息经过降噪、增强和语音识别等算法处理，以获取清晰、准确的语音内容；视频信息经过实时图像处理、人脸检测和跟踪等算法，以获取参会人员的图像、位置和动作等数据。

可选的，通过分析处理后的音视频信息，系统可以确定会议现场的至少一个目标位置。目标位置可以包括以下两个方面：

（1）、目标人物的位置：系统可以通过音视频信息中的音频信息确定会议现场当前的讲话者，并将讲话者作为目标人物，此外系统可以通过声源定位确定目标人物的位置，包括其在会议现场中的坐标或相对位置。当然，除了声源定位以外，若目标人物处于摄像头的拍摄范围内，则还可以通过检测会议现场图片中具有讲话动作的参会人员的所处位置，以辅助验证利用声源定位到的目标人物的位置（若二者位置一致，说明声源定位到的位置无误）；

（2）、会议资料的展示位置：系统能够通过音视频信息中的视频信息检测到会议现场展示的画板（包括黑板、投屏等），并确定其在会议现场中的位置；或者，若会议资料是通过视频会议系统的显示界面展示的，则直接将视频会议系统的显示屏所在位置作为会议资料的展示位置。

应当理解的是，若会议现场仅有目标人物而无会议资料，则将目标人物的位置作为目标位置；若会议现场仅有会议资料而无目标人物，则将会议资料的展示位置作为目标位置；若会议现场既有目标人物又有会议资料，则可以将目标人物的位置和会议资料的展示位置均作为目标位置。

如步骤S20所述，系统可以通过从视频流中截取关键帧或者定期间隔地提取静态图片，得到会议现场图片。

可选的，系统使用计算机视觉技术对提取的会议现场图片进行分析和处理，识别出每个参会人员（除目标人物外的参会人员）的姿态特征（包括头部姿态和身体姿态），然后根据姿态特征确定参会人员的注视方向，通过结合头部姿态和身体姿态，可以更准确地判断参会人员的注视方向。

应当理解的是，使用现有的计算机视觉技术（如头部关键点检测和姿态估计算法），可以获取到人物头部的姿态信息（这包括头部的旋转角度（俯仰角、偏航角、横滚角）以及头部的位置），以及获取人物的身体姿态信息（这可以根据全身图像或者关键点（如身体各关节）定位来分析身体的姿态，如站立、坐姿或者其他特定姿势，以及身体姿态相应的朝向）。

可选的，将每个参会人员的注视方向与所有目标位置进行比对，以检测参会人员的注视方向是否与任意目标位置对应（即检测注视方向是否朝向目标位置）。其中，若检测到存在注视方向与所有目标位置均不对应的参会人员，则判定该参会人员未注视目标位置，并将该参会人员标记为异常人员，然后系统会进一步持续关注异常人员；若检测到参会人员的注视方向与至少一个目标位置对应，则系统判定该参会人员注意力集中，可以无需对其做进一步关注，以节省系统的算力。

应当理解的是，可以利用计算机视觉中的方向判别方法来识别参会人员的注视方向。

如步骤S30所述，获取异常人员的行为数据，其中，所述行为数据包括第一时长、第二时长和第三时长中的至少一个。

其中，第一时长指的是异常人员未注视目标位置的持续时间（包括未注视目标人物和会议资料的持续时间）。当系统检测到参会人员没有注视预先确定的目标位置时，开始计时。系统会记录下该参会人员未注视目标位置的开始时间和结束时间，计算出持续的时长。

其中，第二时长指的是进行会议无关行为的持续时间。系统通过人脸识别和行为分析算法，检测参会人员是否在会议期间进行与会议无关的活动。例如，他们可能在操作手机、电脑、打电话等。一旦系统检测到这些行为，开始计时并记录下持续的时长（应当理解的是，即便同一异常人员无法同时进行一些会议无关行为，但系统还是可以在不同时段分别记录到同一异常人员对应的不同会议无关行为的持续时长）。

其中，第三时长包括打瞌睡和/或中途离开会议的持续时间。系统会通过使用计算机视觉和姿势检测算法，检测参会人员是否处于打瞌睡的状态，或者是否在会议进行中离开了座位。一旦系统检测到这些行为，开始计时并记录下持续的时长（由于打瞌睡和中途离开会议的行为无法同时发生，因此需要同一异常人员在不同时段分别存在打瞌睡和中途离开会议的行为，系统才能既能记录到打瞌睡的时长，又能记录到中途离开会议的时长）。

通过获取以上行为数据，系统可以为每个异常人员提供详细的行为统计信息，包括未注视目标位置的持续时长、进行会议无关行为的持续时长和打瞌睡或/和中途离开会议的持续时长中的至少一个。

如步骤S40所述，在采集到异常人员的行为数据后，可以根据行为数据及会议时长，计算异常人员的注意力分散比率。

可选的，在统计行为数据中各类违规时长（第一时长、第二时长和第三时长中的至少一个）的总和后，利用求和结果除以会议时长，得到注意力分散比率。

或者，根据所述行为数据、所述行为数据对应的权重和会议时长，计算注意力分散比率。

其中，预先为第一时长、第二时长和第三时长分别配置有相应的权重，基于第一时长、第二时长、第三时长及相应的权重进行加权求和，并除以会议时长，以此计算注意力分散比率。

可选的，第一时长可以包括未注视目标人物的时长A和未注视会议资料的时长B；第二时长可以包括操作手机的时长C、操作电脑的时长D和打电话的时长E；第三时长可以包括打瞌睡的时长F和中途离开会议的时长G。

注意力分散比率H计算示例如下：

H={(A+B)*X+(C+D+E)*Y+(F+G)*Z }/S；

其中，X为第一时长对应的权重，Y为第二时长对应的权重，Z为第三时长对应的权重，S为会议时长。

需要说明的是，第一时长、第二时长、第三时长各自对应的权重，可以根据具体需求和场景预先设置，如分别设置为0.2、0.3、0.5。

可选的，计算得到的注意力分散比率可作为注意力分析结果衡量参会人员的会议参与度。其中，注意力分散比率越高，则表征会议参与度越低。

可选的，系统可以定时更新异常人员的注意力分散比率，实时输出综合判断结果和行为明细，并上报分析结果到存储服务器和相关提醒装置。

其中，若视频会议系统的显示屏处于空闲或具有空闲的显示区域，则还可以将异常人员的注意力分析结果进行可视化展示，这样会议主持人或系统管理员可以更直观地了解到参会人员的注意力情况，识别出异常人员，并进行相应的管理和干预，保证会议的效果和人员参与度。

在一实施例中，通过视频会议系统配置的麦克风阵列和摄像头采集会议现场的音视频信息，并结合音频分析和计算机视觉技术，可以准确地识别线下多人会议中注意力不集中的异常人员，并进行相应的注意力分析。而且本实施例方案实施成本低，只需要使用视频会议系统自带的麦克风阵列和少量摄像头（最少可以只有一个），无需为此配置大量拍摄精度高的摄像头来捕捉每个参会人员的面部细微表情（如眼睛视线），亦可得到线下多人会议中的参会人员的注意力分析结果。

综上，本实施例方案兼具低成本实施、准确性高（即通过结合音频分析和计算机视觉技术，可以对线下多人会议现场中的注意力不集中的异常人员进行准确识别，提供精确的注意力分析结果）的优点，为会议管理提供了智能化的解决方案。

在一实施例中，在上述实施例基础上，所述根据音视频信息确定会议现场的目标位置的步骤包括：

本实施例中，根据音视频信息中的音频信息分析出当前会议现场中的讲话者的人数。

可选的，当分析确定当前会议现场只有一个讲话者时，则直接将该讲话者确定为目标人物。

可选的，当分析确定当前会议现场存在多个讲话者时，则对每个讲话者分别进行身份校验，并将通过身份校验的讲话者确定为目标人物。其中，身份校验基于讲话者的生物特征进行分析，该生物特征包括声纹特征和/或人脸特征。

需要说明的是，系统可以预先收录有会议主持人或会议预约的发言人的生物特征。

其中，可以通过分析讲话者的声音频率、音调、声波形状等特征来进行声纹识别。然后通过声纹匹配算法，将实时采集到的讲话者的声纹特征与系统预存的声纹模型进行比对，判断是否匹配。

其中，可以从会议现场图片中切割出讲话者的人脸图像，并提取出讲话者的人脸特征，例如面部结构、轮廓、关键点等。然后利用人脸识别算法，将实时采集到的讲话者的人脸特征与系统预存的人脸数据库进行比对，判断是否匹配。

可选的，若检测到会议现场存在多个讲话者，并且没有讲话者通过身份校验时，则获取这些讲话者对应的音频数据的声强（即声音强度），并确定其中声强最大的讲话者作为目标人物。

这样，通过结合音视频信息分析和身份校验，可以精确定位会议现场的目标人物。无论是单一讲话者还是多个讲话者，系统均可以准确识别并确定目标人物。而且利用声纹特征和人脸特征进行身份校验，并充分利用讲话者的多样化生物特征进行确认，这样可以提高定位目标人物的准确性和可靠性。

在一实施例中，在上述实施例的基础上，所述根据音视频信息确定会议现场的目标位置的步骤包括：

若是，将会议资料的展示位置确定为目标位置。

本实施例中，会议资料包括画板、显示设备展示的资料，并且该显示设备可以是视频会议系统的显示屏（如图2所示），也可以是除视频会议系统外的其他显示设备。

可选的，视频会议系统的显示界面（即显示屏的显示界面）所展示的会议资料可以直接获取。而除此之外的其他会议资料，则可以通过对会议现场图片进行分析来确定得到。

可选的，使用计算机视觉技术，通过图像识别和目标检测算法，可以识别出会议现场中的画板和其他显示设备上的会议资料。

可选的，通过文本识别技术，可以将会议资料中的文字内容转化为可解读的文本格式，在此基础上可进行语义分析，理解并提取会议资料的意义和内容信息。

可选的，使用语音识别技术，将音视频信息中的音频数据进行转化为文本的处理，识别出讲话者所说的内容，并对语音识别结果进行语义分析，理解其含义和内容。

可选的，在得到音频数据提取到的第一内容信息和会议资料对应的第二内容信息后，将第一内容信息和第二内容信息进行校验，判断二者是否匹配。其中，第一内容信息和第二内容信息校验要求不必要求二者完全匹配，只需满足第一内容信息中一定数量的关键词能在第二内容信息中出现即可，如第一内容信息中有30%~50%的内容出现在第二内容信息中，即可判定二者匹配。

其中，若会议资料的内容与语义识别结果相匹配，则确定会议资料的展示位置为目标位置，从而准确识别出与会议进程相关的会议资料，并将会议资料的展示位置确定为目标位置，便于后续基于目标位置对参会人员进行准确的注意力分析。

在一实施例中，参照图3，在上述实施例的基础上，所述基于音视频信息中的会议现场图片，识别未注视所述目标位置的参会人员，并标记为异常人员的步骤包括：

步骤S21、从音视频信息中的会议现场图片中提取参会人员的头部姿态和身体姿态；

步骤S22、对头部姿态和身体姿态进行特征的线性变换，以将头部姿态和身体姿态映射到共享的特征空间中；

步骤S23、在所述特征空间中对头部姿态对应的旋转角度、身体姿态对应的关节角度进行特征拼接，得到特征融合结果；

步骤S24、检测所述特征融合结果表示的注视方向是否与所述目标位置对应；

步骤S25、若否，则判定所述特征融合结果关联的参会人员未注视所述目标位置，并将所述参会人员标记为异常人员。

本实施例中，从音视频信息中抓取的会议现场图片中，分别提取出每个参会人员的头部姿态和身体姿态的图片。

可选的，针对每个参会人员的头部姿态和身体姿态，在保持原始特征空间的线性结构的基础上（如保持特征之间的线性关系和距离比例），通过矩阵乘法对特征进行线性变换，将它们映射到一个共享的特征空间中，使得特征在新的空间中具有更好的线性表达能力，从而使得头部姿态和身体姿态的特征表示更加具有可比性和一致性。

在特征空间中，将头部姿态对应的旋转角度（如俯仰角、偏航角、横滚角）和身体姿态对应的关节角度进行特征拼接，以将头部姿态和身体姿态的信息相互结合，形成一个更大的特征向量，作为特征融合结果。

其中，在进行特征拼接时，可以将头部姿态和身体姿态的相关特征按照通道的方式进行拼接，将两者的特征逐个通道连接到一起，形成一个更丰富的特征表示，即将不同的信息源进行整合，提供更全面、更准确的特征表示。

这样，在进行线性变换后，可以使得头部姿态和身体姿态对应特征在新的表示空间中具有更好的线性关系和可比性。然后，通过特征拼接，可以将线性变换后的头部姿态和身体姿态进行融合，进一步丰富特征的表达能力，即使得融合后的特征所表示的注视方向更准确。

可选的，检测特征融合结果表示的注视方向是否与目标位置对应（即检测注视方向是否朝向目标位置）。其中，若检测到存在注视方向与所有目标位置均不对应的参会人员，则判定该参会人员未注视目标位置，并将该参会人员标记为异常人员，然后系统会进一步持续关注异常人员。

在一些可选实施例中，在对特征融合结果做进一步的分析和判定时，可以通过训练一个机器学习模型，将特征融合结果与已知的注视行为进行比对，进而判断参会人员是否有注视目标位置。这种对特征融合后的综合特征向量进行分类或回归的方法，可以提高异常人员识别的准确性和可靠性。

在一实施例中，通过识别参会人员的头部姿态和身体姿态，并基于此进行特征融合，利用特征融合的结果实现准确识别参会人员的注视方向，从而在此基础上完成对异常参会人员的准确识别；相比于现有的通过捕捉参会人员眼部视线的方式来识别注视方向的方案（这种方案对对负责采集相关图片的摄像头的拍摄精度要求高，因此当需要同时识别大量参会人员的注视方向时，就需要使用到多个摄像头，因此方案实施成本高），本实施例方案对负责采集相关图片的摄像头的拍摄精度要求更低，因此使用少量摄像头（最少可以只有一个）即可完成对大量参会人员的注视方向的识别（即方案实施成本低），并且还能保持高准确率的识别结果。

在一实施例中，在上述实施例的基础上，所述获取所述异常人员的行为数据的步骤之前，还包括：

检测所述比例是否小于预设比例；

若是，将相应的特定行为定义为会议无关行为。

本实施例中，使用计算机视觉技术对会议现场图片进行人体检测和姿态分析，提取出每个参会人员的行为特征。

其中，行为特征表示的特定行为包括但不限于：操作手机、操作电脑、阅览文件、写作记录等。

可选的，对于每种特定行为，统计具有该行为的人数，将其定义为第一人数，然后分别计算每种特定行为对应的第一人数占会议总人数的比例（即使用第一人数除以会议总人数），并检测第一人数占会议总人数的比例是否大于预设比例。

其中，可以通过会议预约系统、签到记录或者会议现场图片来获取会议总人数；所述预设比例用于衡量人数多少，可以根据实际情况需要设置，如设置为50%。

可选的，若特定行为对应的第一人数占会议总人数的比例，小于预设比例，则将相应的特定行为定义为会议无关行为。

通过这种方式，可以评估特定行为在会议中的普遍性和重要性。如果该行为被多数参会人员采用（即人数比例大于或等于预设比例），可能意味着该行为与会议目标密切相关。而相反，如果第一人数的比例较低（即小于预设比例），则可以认为该行为属于会议无关行为。

这样，相比于直接在系统中界定会议无关行为，可以避免将一些会议有关行为误判为会议无关行为（例如可能在一些会议场景中，操作电脑是会议必须的，而在一些会议场景中，操作电脑又是会议无关的，那么在此情况下，若预先将操作电脑一律界定为会议无关行为或会议有关行为，都有可能在一些场景中出现误判，而利用上述方式则可以尽可能避免出现这种误判的情况），提高获取相关行为数据的准确率，而后续利用行为数据也能分析得到更加准确的注意力分析结果。

在一实施例中，在上述实施例的基础上，所述基于视频会议系统的注意力分析方法还包括：

本实施例中，若目标位置是目标人物的位置，那么在会议进程中，就可能会发生目标人物切换的情况（如不同人员轮流发言），这样相应的目标位置也会随之更新，而系统可以持续监测目标位置的更新，得到相应的更新频率。为了更准确地评估参会人员的注意力分散情况，可以根据目标位置的更新频率调整行为数据对应的权重。

具体而言，当目标位置的更新频率较快时，即目标位置的变化较频繁，可以认为参会人员对于目标位置的持续关注不再是一个重要的指标（即可降低参会人员对目标位置持续关注的要求）。因此，可以适当降低第一时长对应的权重（同时可相应增加第二时长或第三时长对应的权重），使其在最终的注意力分析结果中占比较小的比例，从而更加准确地反映参会人员的注意力分散情况。例如，若目标位置的更新频率每快一分钟，则第一时长对应的权重减小0.01（但权重最小不小于0.1，即目标位置的更新频率在一分钟以内，对应的第一时长的权重稳定为0.1）。

这样，通过调整行为数据对应的权重，并综合考虑其他行为数据的持续时长，所计算出的注意力分散比率将更加准确地反映参会人员的注意力状况，使得异常人员的识别和分析结果更加可靠和准确。而且这样也能相应提高视频会议系统进行注意力分析的智能性，即使得视频会议系统可以自动根据会议现场的目标位置的变化情况，进行相应的注意力分析调整，自动优化行为数据对应的权重，进而使得基于视频会议系统的注意力分析方法对不同实施场景的适应性更强。

综上，基于视频会议系统的注意力分析方法中，对于目标位置的更新频率较快的情况，可相应地调整行为数据对应的权重，以提高注意力分析结果的准确性和可靠性。

在一实施例中，在上述实施例的基础上，所述根据所述行为数据、所述行为数据对应的权重和会议时长，计算注意力分散比率，得到所述异常人员的注意力分析结果的步骤之后，还包括：

本实施例中，若检测到异常人员的注意力分散比率超过预设阈值时，则在视频会议系统的显示界面上实时输出针对异常人员的提醒。这可以通过在视频画面旁边显示异常人员的标识、标志或其他形式来实现。其中，提醒可以包括异常人员的姓名、头像或其他识别信息，以及对应的注意力分散比率。

其中，预设阈值的取值范围可以是20%~30%。

这样，通过在显示界面上输出异常人员的提醒，参会人员可以直观地了解到注意力分散的情况，并可以适时采取措施来引导异常人员回到会议的关键内容上。同时，会议组织者也可以及时提醒异常人员，以引起相关人员的注意和干预注意力分散情况，从而提高参会人员的会议参与度。

本申请实施例中还提供一种视频会议系统，所述视频会议系统包括麦克风阵列、摄像头和显示屏；该视频会议系统内部结构可以如图4所示。该视频会议系统包括通过系统总线连接的处理器、存储器、通信接口和数据库。其中，该处理器用于提供计算和控制能力。该视频会议系统的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该视频会议系统的数据库用于存储基于视频会议系统的注意力分析程序。该视频会议系统的通信接口用于与外部的终端进行数据通信。该视频会议系统的输入装置用于接收外部设备输入的信号。该计算机程序被处理器执行时以实现一种如以上实施例所述的基于视频会议系统的注意力分析方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的视频会议系统的限定。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质包括基于视频会议系统的注意力分析程序，所述基于视频会议系统的注意力分析程序被处理器执行时实现如以上实施例所述的基于视频会议系统的注意力分析方法的步骤。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的基于视频会议系统的注意力分析方法、视频会议系统和计算机可读存储介质，通过视频会议系统配置的麦克风阵列和摄像头采集会议现场的音视频信息，并结合音频分析和计算机视觉技术，可以准确地识别线下多人会议中注意力不集中的异常人员，并进行相应的注意力分析。而且本实施例方案实施成本低，只需要使用视频会议系统自带的麦克风阵列和少量摄像头（最少可以只有一个），无需为此配置大量拍摄精度高的摄像头来捕捉每个参会人员的面部细微表情（如眼睛视线），亦可得到线下多人会议中的参会人员的注意力分析结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于视频会议系统的注意力分析方法，其特征在于，包括：

根据所述行为数据生成所述异常人员的注意力分析结果。

2.根据权利要求1所述的基于视频会议系统的注意力分析方法，其特征在于，所述根据音视频信息确定会议现场的目标位置的步骤包括：

3.根据权利要求1所述的基于视频会议系统的注意力分析方法，其特征在于，所述根据音视频信息确定会议现场的目标位置的步骤包括：

若是，将会议资料的展示位置确定为目标位置。

4.根据权利要求1-3中任一项所述的基于视频会议系统的注意力分析方法，其特征在于，所述基于音视频信息中的会议现场图片，识别未注视所述目标位置的参会人员，并标记为异常人员的步骤包括：

5.根据权利要求1所述的基于视频会议系统的注意力分析方法，其特征在于，所述获取所述异常人员的行为数据的步骤之前，还包括：

检测所述比例是否小于预设比例；

若是，将相应的特定行为定义为会议无关行为。

6.根据权利要求1或5所述的基于视频会议系统的注意力分析方法，其特征在于，所述根据所述行为数据生成所述异常人员的注意力分析结果的步骤包括：

7.根据权利要求6所述的基于视频会议系统的注意力分析方法，其特征在于，所述基于视频会议系统的注意力分析方法还包括：

8.根据权利要求6所述的基于视频会议系统的注意力分析方法，其特征在于，所述根据所述行为数据、所述行为数据对应的权重和会议时长，计算注意力分散比率，得到所述异常人员的注意力分析结果的步骤之后，还包括：

9.一种视频会议系统，其特征在于，所述视频会议系统包括麦克风阵列、摄像头和显示屏；所述视频会议系统还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视频会议系统的注意力分析程序，所述基于视频会议系统的注意力分析程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于视频会议系统的注意力分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于视频会议系统的注意力分析程序，所述基于视频会议系统的注意力分析程序被处理器执行时实现如权利要求1至8中任一项所述的基于视频会议系统的注意力分析方法的步骤。