CN117591058A

CN117591058A - 多人演讲的显示方法、设备及存储介质

Info

Publication number: CN117591058A
Application number: CN202410074287.6A
Authority: CN
Inventors: 吕少卿; 俞鸣园; 王克彦; 曹亚曦; 孙俊伟; 费敏健
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117591058B

Abstract

本申请公开了一种多人演讲的显示方法、设备及存储介质，该多人演讲的显示方法包括：采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重；基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分；按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理。可以根据演讲场景的实际情况动态调整相关显示影响因素的权重，提高注意力评分的准确性，进而保证重要的多媒体数据可以被充分关注。

Description

多人演讲的显示方法、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种多人演讲的显示方法、设备及存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的不断突破和各种终端设备的日益普及。用户越来越多的使用终端设备的各种功能，使得工作和生活更加便利。例如，用户可以通过终端设备在线与其他用户开启网络多媒体会议，或者用户可以通过终端设备进行演讲直播等。

上述应用场景一般采用固定的屏幕布局，这导致在多人同时发言或互动时，重要的参与者可能不会被充分关注；或者需要用户（如主持人）手动进行布局控制，这不仅效率低下，还可能在关键时刻分散主持人的注意力。

发明内容

为了解决上述问题，本申请至少提供一种多人演讲的显示方法、设备及存储介质。

本申请第一方面提供了一种多人演讲的显示方法，方法包括：采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重；基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分；按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理。

在一实施例中，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重，包括：确定与变化参数关联的显示影响因素，得到待调整影响因素；基于变化参数，计算待调整影响因素对应的权重调整值；若权重调整值大于预设调整阈值，则基于权重调整值和初始因素权重，计算得到待调整影响因素对应的动态因素权重。

在一实施例中，基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分，包括：对每个显示影响因素进行量化处理，得到每个显示影响因素对应的影响值；按照每个显示影响因素分别对应的动态因素权重，对每个显示影响因素对应的影响值进行加权求和处理，得到加权求和结果；将每个显示对象的加权求和结果，作为每个显示对象的注意力评分。

在一实施例中，演讲场景中部署有数据采集装置，数据采集装置用于对演讲场景中显示对象进行多媒体数据采集，显示对象对应的多媒体数据包括图像数据，每个显示对象在演讲场景对应的显示页面中关联有显示窗口，显示窗口用于播放显示对象的图像数据；方法还包括：接收数据采集装置的数据采集结果，得到每个显示对象对应的待显示数据；基于每个显示对象与显示窗口之间的关联关系，在显示页面中的显示窗口中对每个显示对象数据进行显示；按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理，包括：按照每个显示对象的注意力评分，调整显示页面中显示窗口的布局参数。

在一实施例中，接收数据采集装置的数据采集结果，得到每个显示对象的待显示数据，包括：基于演讲场景对应的多媒体数据，确定演讲场景对应的演讲模式；查询与演讲模式匹配的装置工作策略；按照装置工作策略向数据采集装置发送对应的工作指令，以使数据采集装置基于工作指令进行数据采集，得到数据采集结果；基于数据采集结果，得到每个显示对象的待显示数据。

在一实施例中，接收数据采集装置的数据采集结果，得到每个显示对象的待显示数据，包括：响应与演讲场景中存在异常，获取异常的异常类型；查询与异常类型匹配的装置工作策略；按照装置工作策略向数据采集装置发送对应的工作指令，以使数据采集装置基于工作指令进行数据采集，得到数据采集结果；基于数据采集结果，得到每个显示对象的待显示数据。

在一实施例中，变化参数包括演讲场景环境变化、显示对象行为变化、演讲进度变化中的至少一种。

在一实施例中，显示影响因素包括显示对象行为、演讲场景环境、演讲进度、演讲设备参数中的至少一种。

本申请第二方面提供了一种多人演讲的显示装置，装置包括：因素采集模块，用于采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；动态调整模块，用于检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重；评分计算模块，用于基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分；显示处理模块，用于按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行显示处理。

本申请第三方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述多人演讲的显示方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述多人演讲的显示方法。

上述方案，通过采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重；基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分；按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理，以根据演讲场景的实际情况动态调整相关显示影响因素的权重，灵活计算每个显示影响因素的重要程度，可以使得注意力评分的计算适应实时情况，提高注意力评分的准确性，进而保证重要的多媒体数据可以被充分关注。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请的一个实施例提供的方案实施环境的示意图；

图2是本申请的一示例性实施例示出的演讲场景示意图；

图3是本申请的另一示例性实施例示出的演讲场景示意图；

图4是本申请的一示例性实施例示出的多人演讲的显示方法的流程图；

图5是本申请的一示例性实施例示出的显示页面示意图；

图6是本申请的一示例性实施例示出的显示页面调整示意图；

图7是本申请的一示例性实施例示出的多人演讲的显示装置的框图；

图8是本申请的一示例性实施例示出的电子设备的结构示意图；

图9是本申请的一示例性实施例示出的计算机可读存储介质的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联信息，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

下面对本申请实施例所提供的多人演讲的显示方法进行说明。

请参考图1，其示出了本申请的一个实施例提供的方案实施环境的示意图。该方案实施环境可以包括数据采集装置110、数据处理装置120和数据显示装置130。

数据采集装置110包括但不限于摄像机、麦克风等，用于对显示对象进行多媒体数据采集，如图像数据、音频数据等。其中，数据采集装置110的数量可以为一个或多个，本申请对此不进行限定。

数据处理装置120用于对数据采集装置110采集的数据进行处理，以生成最终的显示页面。

数据显示装置130用于对显示页面进行显示。

其中，数据处理装置120和数据显示装置130可以相互独立部署，如数据处理装置120为服务器，数据显示装置130为用户终端。数据处理装置120和数据显示装置130也可以相互集成部署，如数据处理装置120为用户终端中的算力模块，数据显示装置130为用户终端中的显示模块。数据处理装置120还可以和数据采集装置110集成部署，如数据采集装置110为摄像机，数据处理装置120为摄像机内的算力模块。本申请不对数据采集装置110、数据处理装置120和数据显示装置130之间的部署方式进行限定。

本申请中的演讲场景可以是单个场景，如对教学直播场景、娱乐节目直播场景等；本申请中的演讲场景也可以是由多个场景共同组成，如多人线上会议场景。

以教学直播场景为例，对本申请的实施环境进行举例说明。示例性地，请参阅图2，图2为本申请的一示例性实施例示出的演讲场景示意图，如图2所示，教室中在进行教学活动，显示对象含有老师、学生和书写板，教室中部署有数据采集装置，用于对教室中的教学活动进行多媒体数据采集。数据处理装置可以为服务器，用于根据数据采集装置采集的多媒体数据生成最终的显示页面，并将显示页面对应的数据流发送给数据显示装置。数据显示装置为终端，其安装有直播观看应用程序的客户端，用于接收显示页面对应的数据流，并进行显示页面的显示。在上述显示页面显示过程中，服务器会动态计算每个显示对象的注意力评分，并根据注意力评分动态调整每个显示对象的显示方式，如在t1时刻老师的注意力评分最高，则在显示页面中增大老师的显示区域，在t2时刻学生A的注意力评分最高，则在显示页面中对学生A进行特写。

以多人线上会议场景为例，对本申请的实施环境进行举例说明。示例性地，请参阅图3，图3为本申请的另一示例性实施例示出的演讲场景示意图，如图3所示，数据采集装置包括会议终端1、会议终端2和会议终端3，会议终端1、会议终端2和会议终端3上设置有带有视频会议功能的应用程序的客户端，用户通过带有视频会议功能的客户端可以加入线上会议，例如，会议终端1、会议终端2和会议终端3可以通过线上会议的会议标识、会议链接等方式，进入相同的线上会议，此时显示对象为会议终端1、会议终端2和会议终端3分别对应的用户，或者共享屏幕等。然后，会议终端1、会议终端2和会议终端3可以通过该线上会议进行图像、语音等数据的传输。数据处理装置为服务器，用于将该线上会议中每个会议终端采集的图像、语音等数据进行整合，生成最终的显示页面，并将显示页面对应的数据流发送给该线上会议中的每个会议终端进行显示，此时线上会议中的会议终端同时作为数据显示装置。在上述显示页面显示过程中，服务器会动态计算每个显示对象的注意力评分，并根据注意力评分动态调整每个显示对象的显示方式，如在t1时刻会议终端1对应用户的注意力评分最高，则在显示页面中增大会议终端1对应用户的显示区域，在t2时刻会议终端2的共享屏幕的注意力评分最高，则在显示页面中增大该共享屏幕的显示区域。

需要说明的是，上述实施场景仅是示意性说明，本申请还可以应用于更多场景，对此不进行限定。

可以理解的是，在本申请的具体实施方式中，涉及到用户图像、用户音频等相关的数据，当本申请的实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要守相关国家和地区的相关法律法规和标准。

请参阅图4，图4是本申请的一示例性实施例示出的多人演讲的显示方法的流程图。该多人演讲的显示方法可以应用于图1所示的实施环境，并由该实施环境中的数据处理装置具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图4所示，多人演讲的显示方法至少包括步骤S410至步骤S440，详细介绍如下：

步骤S410：采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重。

其中，显示影响因素是指影响显示对象在演讲场景对应的显示页面中的显示布局的因素。

示例性地，显示影响因素包括显示对象行为、演讲场景环境、演讲进度、演讲设备参数中的至少一种。

不同的显示对象可以对应有不同的显示影响因素，可以根据显示对象所属的对象类型，确定显示对象对应的显示影响因素。

例如，演讲场景为娱乐节目直播场景，娱乐节目直播场景中的显示对象含有主持人、听众和视频播放屏幕，针对主持人，其对应的显示影响因素可以包括声音强度、肢体语言、空间位置等；针对听众，其对应的显示影响因素可以包括被注视数量、情绪信息、发言频率等；针对视频播放屏幕，其对应的显示影响因素可以包括播放内容与主题关联度、播放视频的清晰度等。

不同的演讲场景也可以对应有不同的显示影响因素，可以根据演讲场景所属的场景类型，确定显示对象对应的显示影响因素。

例如，以显示对象为演讲者为例，若演讲场景处于室外，则需要考虑该演讲者的声音清晰度、针对该演讲者采集的图像是否存在遮挡或阴影、设备的网络稳定性等；若演讲场景处于室内，则需要考虑该演讲者的环境光线是否可能影响其可见度、针对该演讲者采集的图像的清晰度是否较高等。

演讲场景中不同的演讲进度也可以对应有不同的显示影响因素，可以根据演讲进度，确定显示对象对应的显示影响因素。

例如，以显示对象为演讲者为例，在开场阶段，需要考虑该演讲者的声音强度、声音清晰度以及肢体语言等；在中间讨论阶段，需要考虑该演讲者的空间位置、与他人的交互程度、发言频率等；在最后总结阶段，需要考虑该演讲者的表达内容与主题关联度、情绪信息等。

还可以结合显示对象所属的对象类型、演讲场景所属的场景类型以及演讲进度，确定显示对象对应的显示影响因素，本申请对此不进行限定。

接下来对部分显示影响因素进行举例说明：

1.声音强度：参与者或者设备（即显示对象）的声音强度具备吸引注意力的能力。

2.空间位置：参与者或者设备相对于摄像机、麦克风的位置可能影响视频或音频捕捉的质量，从而影响其吸引注意力的能力。

3.肢体语言：参与者的肢体动作可能是其参与度和说服力的指标。

4.发言频率：频繁发言可能意味着发言者在讨论中具有主导地位或积极参与。

5.被注视数量：如果大多数参与者都注视着某个参与者或设备，这可能是注意力集中的一个信号。

6.环境因素：如参与者或设备所处环境的背景噪音或光线变化可能影响参与者或设备的图像采集质量和语音采集质量。

7.时间段：不同的阶段（如开场、讨论或总结）可能需要不同的注意力分配。

8.交互程度：与其他参与者的互动可能表明某个议题的重要性。

9.情绪分析：情绪可能影响参与者的说服力和注意力水平。

10.文化背景：不同的文化背景可能导致不同的交流风格和注意力模式。

11.内容关联：与演讲主题紧密相关的内容可能更容易获得注意力。

12.角色和职责：具有特定角色和职责的参与者可能自然地吸引更多注意力。

13.历史数据：过去的行为模式和互动可能帮助预测未来的注意力分配。

14.个人偏好：参与者的个人偏好可以帮助更好地辅助进行注意力分配。

15.内容质量：高质量、相关性强的发言内容更可能吸引和保持注意力。

16.声音的清晰度：清晰、易于理解的发言更容易吸引注意力。

17.视觉障碍因素：视觉障碍如遮挡或阴影可能影响吸引注意力的能力。

18.设备质量：参与者若使用质量较差的设备可能限制了该参与者吸引注意力的能力。

19.网络稳定性：参与者若使用不稳定的网络连接可能导致注意力分散，如网络不稳定导致视频卡顿或模糊。

对每个显示对象进行显示影响因素的采集，采集得到的每个显示影响因素分别对应有初始因素权重。

其中，初始因素权重用于表征对应显示影响因素在所有显示影响因素中的相对重要性。

显示影响因素的采集可以是基于数据采集装置采集的相关数据实现的，如对数据采集装置采集的图像数据、音频数据、点云数据等进行分析，得到每个显示对象对应的显示影响因素；显示影响因素的采集还可以是基于其它装置实现的，如根据网关获取网络稳定性，本申请不对显示影响因素的采集方式进行限定。

初始因素权重可以是基于先验知识、专家意见或对历史数据进行分析得到的分析结果确定的；初始因素权重还可以是根据显示对象所属的对象类型、演讲场景所属的场景类型等信息，对各个显示影响因素进行参数敏感性分析，该参数敏感性分析用于识别出各个显示影响因素对最终的注意力评分的影响程度，根据敏感性分析的结果，可以确定各个显示影响因素的初始因素权重。

可以理解的是，初始因素权重的确定方式可以根据实际应用场景进行灵活调整，本申请对此不进行限定。

步骤S420：检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重。

其中，演讲场景的变化参数是指演讲场景中，当前时刻的场景信息与前序时刻的场景信息之间的差异，前序时刻早于当前时刻。

示例性地，变化参数包括演讲场景环境变化、显示对象行为变化、演讲进度变化中的至少一种。例如，可以通过语音活动检测（Voice activity detection，VAD）来检测演讲场景中何时有人开始说话；利用声源定位技术和声纹识别技术对说话的发言者进行定位与身份识别；利用人脸识别和/或身体姿势识别等技术来跟踪演讲场景中的参与者的移动轨迹。

例如，演讲场景的变化参数可以是显示对象的行为变化，如交互行为的增加；演讲场景的变化参数还可以是环境氛围的变化，如环境氛围由喧闹转变为安静。

变化参数的采集可以是基于数据采集装置采集的相关数据实现的，如对数据采集装置采集的图像数据、音频数据、点云数据等进行分析，得到演讲场景的变化参数；变化参数的采集还可以是基于其它装置实现的，如根据显示对象对应终端反馈的信息，确定当前演讲进度，本申请不对变化参数的采集方式进行限定。

根据变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重。

例如，根据显示对象行为变化（如显示对象的声音强度的变化、肢体语言的变化、情绪的变化、发言频率的变化等），动态调整该显示对象的显示影响因素的初始因素权重，得到显示影响因素当前的动态因素权重。

举例说明，若变化参数表明当前发言者的声音强度增加，则该发言者可能在争论或强调某个点，此时可以相应增加该发言者的显示影响因素中“声音强度”对应初始因素权重，得到当前的动态因素权重。

又例如，根据演讲进度变化，动态调整各个显示对象的显示影响因素的初始因素权重，得到显示影响因素当前的动态因素权重。

举例说明，若变化参数表明演讲进度由“会议开场”阶段转变为“正式报告”阶段，则可以降低“肢体语言”的权重，并提高“发言频率”的权重，得到当前的动态因素权重。

通过上述方式，可以根据演讲场景的实际情况动态调整相关显示影响因素的权重。

可选地，可以设置调整准确性反馈机制，通过演讲场景分析完毕后的反馈、参与者的满意度调查等来实现，进而根据反馈信息，优化权重调整策略，以改进后续的权重调整过程，以提高权重调整的准确性。

可选地，还可以获取历史数据，可以从历史数据中学习、模仿准确的权重调整方式，或者避免不准确的权重调整方式，以利用历史数据指导当前的权重调整，以提高权重调整的准确性。

步骤S430：基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分。

得到每个显示影响因素分别对应的动态因素权重，可以针对每个显示对象对应的显示影响因素进行注意力评分计算，得到每个显示对象的注意力评分。

其中，注意力评分表征可显示对象的注意力吸引能力，注意力评分越高，则该可显示对象的注意力吸引能力就越强，注意力评分越低，则该可显示对象的注意力吸引能力就越弱。

该注意力评分综合考虑了显示对象的每个显示影响因素，以及根据当前的演讲场景灵活计算了每个显示影响因素的重要程度，进而该注意力评分的计算可以适应实时情况，计算得到的注意力评分更加准确。

步骤S440：按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理。

其中，显示对象对应的多媒体数据包括但不限于图像数据、音频数据、点云数据等，本申请对此不进行限定。

例如，针对注意力评分越高的显示对象，在显示页面中对该显示对象对应的图像进行突出显示，如图像区域增加、突出标记（如框标记、颜色标记、重点符号标记）、图像显示区域布局修改（如图像显示区域调整为显示页面的中心）等；或者，在显示页面中对该显示对象对应的音频进行音量增加。

需要说明的是，上述权重调整的方式可以是实时执行的，也可以是周期性执行的，如每间隔1分钟执行一次，本申请对此不进行限定。

根据每个显示对象的注意力评分，对每个显示对象进行对应的显示处理，可以保证重要的显示对象在显示页面中被充分关注，且提高显示页面的显示效果和布局效率。

接下来对本申请的部分实施例进行示例性说明。

在一些实施方式中，步骤S420中利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重，包括：

步骤S421：确定与变化参数关联的显示影响因素，得到待调整影响因素。

不同的变化参数与不同的显示影响因素之间相互关联。

例如，若变化参数为参会对象的声音强度变化，则关联的显示影响因素含有“声音强度”；若变化参数为演讲进度变化，则关联的显示影响参数含有“肢体语言”和“发言频率”。

将与变化参数关联的显示影响因素作为待调整影响因素。

步骤S422：基于变化参数，计算待调整影响因素对应的权重调整值。

根据变化参数的具体数值，确定该待调整影响因素对应的权重调整值。

以变化参数为参会对象的声音强度变化为例进行举例说明，若单位时间内参会对象的声音强度变化值越大，则计算得到的“声音强度”的权重调整值越大；若单位时间内参会对象的声音强度变化值越小，则计算得到的“声音强度”的权重调整值越小。

以变化参数为演讲进度变化为例进行举例说明，若检测到演讲进度由“会议开场”阶段转变为“正式报告”阶段，则演讲进度越靠近“正式报告”阶段对应的中间时间戳，则计算得到的“肢体语言”和“发言频率”的权重调整值越大；若演讲进度越远离“正式报告”阶段对应的中间时间戳，则计算得到的“肢体语言”和“发言频率”的权重调整值越小。

步骤S423：判断权重调整值是否大于预设调整阈值，若权重调整值不大于预设调整阈值，则执行步骤S424；若权重调整值大于预设调整阈值，则执行步骤S425。

例如，预设调整阈值为0.1，若待调整影响因素对应的权重调整值大于0.1，则执行后续的权重调整操作，否者不进行权重调整。

防止频繁的小幅调整，避免因权重的小幅变动而导致的注意力评分在短时间内出现剧烈波动。

步骤S424：不对待调整影响因素进行权重调整。

步骤S425：基于权重调整值和初始因素权重，计算得到待调整影响因素对应的动态因素权重。

需要说明的是，变化参数对每个待调整影响因素存在正影响和负影响，如变化参数为参会对象的声音强度变化，其与待调整影响因素“声音强度”之间为正影响，即若参会对象的声音强度增加，则“声音强度”对应的权重增加；如变化参数为演讲进度由“会议开场”阶段转变为“正式报告”阶段，其与待调整影响因素“肢体语言”之间为负影响，即若演讲进度越靠近“正式报告”阶段对应的中间时间戳，则“声音强度”对应的权重减小。

根据变化参数与待调整影响因素之间的影响方式，确定权重计算方式。具体地，若为正影响，则对权重调整值和初始因素权重进行求和，得到动态因素权重；若为负影响，则对权重调整值和初始因素权重进行求差，得到动态因素权重。

可选地，为了保证各个显示影响因素的权重分配合理，在对部分显示影响因素进行调整后，对其它显示影响因素也进行相应调整，以保证各个显示影响因素的权重总和为1。

例如，可以确定待调整影响因素的总调整权重值，根据总调整权重值对其它显示影响因素进行权重调整。如待调整影响因素为“声音强度”，其对应的总调整权重值为0.2，其它显示影响因素含有因素1和因素2，则可以根据总调整权重值和其它显示影响因素的数量进行求平均计算，得到其它显示影响因素的权重调整值为-0.1，根据计算得到的权重调整值-0.1，对因素1和因素2进行权重调整。

又例如，可以确定其它显示影响因素与待调整影响因素之间的关联关系和关联强度，关联关系包括正相关和负相关，关联强度用于表明该关联关系的强度，根据其它显示影响因素与待调整影响因素之间的关联关系和关联强度，确定其它显示影响因素的权重调整值。例如，显示对象的显示影响因素包括“声音强度”、“情绪”、“空间位置”和“角色”，若变化参数为参会对象的声音强度增加，则对“声音强度”对应的权重调整值为0.2，而“声音强度”与“情绪”正相关，且关联强度为50%，则计算得到“情绪”对应的权重调整值为0.1。而“空间位置”与“声音强度”负相关，且关联强度为40%，以及“角色”与“声音强度”负相关，且关联强度为80%，则根据“空间位置”和“角色”分别与“声音强度”之间的关联强度的比值，对总调整权重值0.3进行分配，得到“空间位置”的权重调整值为-0.1，“角色”的权重调整值为-0.2。

通过上述方式，可以在保证权重正确分配的前提下，可以通过考虑各个显示影响因素之间的关联信息，提高权重分配的准确性。

得到每个显示影响因素分别对应的动态因素权重后，根据每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算显示对象的注意力评分。

在一些实施方式中，步骤S430中基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分，包括：

步骤S431：对每个显示影响因素进行量化处理，得到每个显示影响因素对应的影响值。

例如，对显示影响因素进行参数归一化处理，以将显示影响因素的原始值转换为预设范围（通常为0至1的范围）内，得到显示影响因素对应的影响值。

又例如，若显示影响因素与注意力的关系为非线性，则可以选择显示影响因素对应的转换函数，如对数函数，通过转换函数将显示影响因素的原始值进行转换，得到显示影响因素对应的影响值。

步骤S432：按照每个显示影响因素分别对应的动态因素权重，对每个显示影响因素对应的影响值进行加权求和处理，得到加权求和结果。

将各个显示影响因素对应的影响值和其对应的动态因素权重进行乘计算，并对计算得到的多个结果进行相加，以得到加权求和结果。

步骤S433：将每个显示对象的加权求和结果，作为每个显示对象的注意力评分。

例如，注意力评分的计算方式可以参见下述公式：

其中，为第j个显示对象的注意力评分，/>为第i个显示影响因素的动态因素权重，/>为第i个显示影响因素进行量化处理后的影响值。

举例说明，假设演讲场景中存在J个显示对象，第j个显示对象对应的显示影响因素的影响值含有，/>对应的动态因素权重为/>、/>对应的动态因素权重为/>、/>对应的动态因素权重为/>，则第j个显示对象的注意力评分为：

然后，按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理。

在一些实施方式中，演讲场景中部署有数据采集装置，数据采集装置用于对演讲场景中显示对象进行多媒体数据采集，显示对象对应的多媒体数据包括图像数据，每个显示对象在演讲场景对应的显示页面中关联有显示窗口，显示窗口用于播放显示对象的图像数据；方法还包括：

接收数据采集装置的数据采集结果，得到每个显示对象对应的待显示数据；基于每个显示对象与显示窗口之间的关联关系，在显示页面中的显示窗口中对每个显示对象数据进行显示。

例如，请参阅图5，图5为本申请的一示例性实施例示出的显示页面示意图，如图5所示，演讲场景为多人线上会议场景，显示对象包括会议终端1、会议终端2和会议终端3分别对应的用户，具体为用户1、用户2和用户3，每个用户1对应有一个显示窗口，该显示窗口用于显示各个用户对应的会议终端采集的用户图像数据。具体地，用户1和显示窗口1关联，用户2和显示窗口2关联，用户3和显示窗口3关联。

步骤S440中按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理，包括：按照每个显示对象的注意力评分，调整显示页面中显示窗口的布局参数。

其中，布局参数包括显示窗口的尺寸参数以及在显示页面所处的位置参数。

示例性地，以显示窗口的尺寸参数为例进行举例说明。获取每个显示对象的注意力评分，计算每个显示对象的注意力评分之间的比值，根据该比值对应调整显示页面中显示窗口的尺寸参数。

例如，存在J个显示对象，针对显示对象j，其与其它显示对象的注意力评分之间的比值的计算公式可以为：

举例说明，显示对象包括用户1、用户2和用户3，用户1对应显示窗口1，用户2对应显示窗口2，用户3对应显示窗口3，请参阅图6，图6为本申请的一示例性实施例示出的显示页面调整示意图，如图6所示，若在t1时刻检测到用户1、用户2和用户3之间注意力评分的比值为1：1：1，则在显示页面对用户1、用户2和用户3对应的显示窗口设置相同的尺寸参数；若在t2时刻检测到用户1、用户2和用户3之间注意力评分的比值为2：1：1，则在显示页面将用户1的显示窗口设置为总窗口面积的50%，将用户2和用户3对应的显示窗口设置为总窗口面积的25%。

特殊地，若演讲场景中部署有多个数据采集装置，如演讲场景为教学直播场景，教室中部署有多个摄像机和麦克风，则可以在进行多媒体数据采集时，根据演讲场景的实际情况灵活调整每个数据采集装置的装置工作策略。

例如，根据各个显示对象的注意力评分，进行摄像机的切换，或者进行摄像机的拍摄参数调整（如角度调整、缩放或焦点调整等）。例如，如果一个发言者完成发言，另一个发言者开始说话，该新的发言者注意力评分增加，可以将距离该新的发言者最近的摄像机作为主视角摄像机，并调整摄像机的焦点为该新的发言者。

又例如，可以综合每个显示对象的注意力评分，确定哪个摄像机的视角最为重要，将该摄像机为主视角摄像机。

在一些实施方式中，接收数据采集装置的数据采集结果，得到每个显示对象的待显示数据，包括：基于演讲场景对应的多媒体数据，确定演讲场景对应的演讲模式；查询与演讲模式匹配的装置工作策略；按照装置工作策略向数据采集装置发送对应的工作指令，以使数据采集装置基于工作指令进行数据采集，得到数据采集结果；基于数据采集结果，得到每个显示对象的待显示数据。

基于演讲场景对应的多媒体数据，确定演讲场景对应的演讲模式。如对演讲场景的图像数据、音频数据进行分析，以对演讲场景进行场景识别；或者结合演讲场景对应的多媒体数据确定各个显示对象的注意力评分，结合各个显示对象的注意力评分、演讲场景的图像数据、音频数据进行分析以对演讲场景进行场景识别。基于场景识别结果，确定演讲场景对应的演讲模式。

以演讲场景为教学直播场景，数据采集装置含有一个全景摄像机和两个跟踪摄像机为例进行举例说明：

1.若识别到学生A开始发言，则确定演讲模式为单人发言模式，启动可以更好抓拍学生A正面图像的跟踪摄像机，跟踪摄像机用于捕获学生A的特写图像数据，并同时启动全景摄像机，全景摄像机用于捕获教室的总体视角图像数据。另外，分析得到学生A的注意力评分最高，则可以在显示页面中，划分更多的显示区域对学生A的特写图像数据进行显示，并对教室的总体视角图像数据进行显示，以保证在可以捕获发言者的清晰图像的同时，确保教室内的其它重要反应或互动不被遗漏。

2.若识别到存在小组讨论或多个发言者，则确定演讲模式为多人发言模式，同时启动两个跟踪摄像机和全景摄像机，跟踪摄像机用于捕获每个小组或发言者的特写图像数据，全景摄像机用于捕获教室的总体视角图像数据。另外，分析得到每个小组或发言者的注意力评分，并在显示页面中，按照注意力评分对每个小组或发言者的特写图像数据和总体视角图像数据进行显示。

3.若识别到存在PPT、文档等文字内容展示，则确定演讲模式为内容优先模式，可以在显示页面中，划分更多的显示区域对文字内容进行显示，并启动一个跟踪摄像机捕获老师的特写图像数据，同时启动全景摄像机捕获教室的总体视角图像数据，在显示页面中，用少部分显示区域对老师的特写图像数据和总体视角图像数据进行显示。

4.若识别到当前发言者的发言内容属于重要内容，则确定演讲模式为发言者突出模式，可以启动跟踪摄像机捕获该发言者的特写图像数据，全景摄像机提供该发言者的辅助视角或关闭，并在显示页面中，对该发言者的特写图像数据进行居中并突出显示。

5.若识别到存在敏感信息讨论或需要保护部分参与者的身份信息，则确定演讲模式为隐私保护模式，可以启动全景摄像机捕获总体视角图像数据，以避免对部分区域进行特征造成隐私信息泄露，跟踪摄像机仅对已授权的参与者进行跟踪和图像特写。

通过上述方式，可以根据实际情况灵活地进行数据采集，以提高待显示数据采集的准确性。

需要说明的是，上述举例仅是示意性说明，可以根据实际应用场景对不同演讲模式对应的装置工作策略进行灵活调整，本申请对此不进行限定。

在另一些实施方式中，接收数据采集装置的数据采集结果，得到每个显示对象的待显示数据，包括：响应与演讲场景中存在异常，获取异常的异常类型；查询与异常类型匹配的装置工作策略；按照装置工作策略向数据采集装置发送对应的工作指令，以使数据采集装置基于工作指令进行数据采集，得到数据采集结果；基于数据采集结果，得到每个显示对象的待显示数据。

在实际应用场景中，演讲场景中可能存在异常事件，根据异常的异常类型，确定对应的装置工作策略。

继续以演讲场景为教学直播场景，数据采集装置含有一个全景摄像机和两个跟踪摄像机为例进行举例说明：

1.若检测到跟踪摄像机故障，则自动切换到全景摄像机捕获总体视角图像数据，并在显示页面中对总体视角图像数据进行全局显示；或者基于各个显示对象的注意力评分，在总体视角图像数据中对需要特写显示的显示对象进行图像数据裁剪后，对裁剪得到的图像数据在显示页面中进行突出显示。

2.若检测到跟踪摄像机当前跟踪的参与者出现视觉遮挡，如参与者脸部被移动的物体（如移动白板）阻挡，则调整该跟踪摄像机的拍摄角度，或者启动全景摄像头对当前跟踪的参与者进行特写图像采集。

3.若检测到存在声音来源混淆，则对当前需要音频采集的参与者进行定位，并调整该跟踪摄像机的角度，以更好得进行音频采集。

4.若检测到当前图像数据上传的带宽资源不足，则可以调整各个图像数据的质量，以保证网络稳定性。如针对不重要的图像数据进行更大程度的压缩，从而可以保证重要的图像数据可以正常传输。

通过上述方式，可以对不同的异常事件采取相应的解决措施，以保证演讲或会议的正常执行。

需要说明的是，上述举例仅是示意性说明，可以根据实际应用场景对异常处理方式进行灵活调整，本申请对此不进行限定。

本申请提供的多人演讲的显示方法，通过采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重；基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分；按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行输出处理，以根据演讲场景的实际情况动态调整相关显示影响因素的权重，灵活计算每个显示影响因素的重要程度，可以使得注意力评分的计算适应实时情况，提高注意力评分的准确性，进而保证重要的多媒体数据可以被充分关注。

图7是本申请的一示例性实施例示出的多人演讲的显示装置的框图。如图7所示，该示例性的多人演讲的显示装置700包括：因素采集模块710、动态调整模块720、评分计算模块730和显示处理模块740。具体地：

因素采集模块710，用于采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；

动态调整模块720，用于检测演讲场景的变化参数，利用变化参数动态调整显示影响因素的初始因素权重，得到显示影响因素分别对应的动态因素权重；

评分计算模块730，用于基于每个显示影响因素和每个显示影响因素分别对应的动态因素权重，计算每个显示对象的注意力评分；

显示处理模块740，用于按照每个显示对象的注意力评分，在演讲场景对应的显示页面中对每个显示对象对应的多媒体数据进行显示处理。

需要说明的是，上述实施例所提供的多人演讲的显示装置与上述实施例所提供的多人演讲的显示方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的多人演讲的显示装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处不对此进行限制。

请参阅图8，图8是本申请电子设备一实施例的结构示意图。电子设备800包括存储器801和处理器802，处理器802用于执行存储器801中存储的程序指令，以实现上述任一多人演讲的显示方法实施例中的步骤。在一个具体的实施场景中，电子设备800可以包括但不限于：微型计算机、服务器，此外，电子设备800还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器802用于控制其自身以及存储器801以实现上述任一多人演讲的显示方法实施例中的步骤。处理器802还可以称为中央处理单元（Central ProcessingUnit，CPU）。处理器802可能是一种集成电路芯片，具有信号的处理能力。处理器802还可以是通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器802可以由集成电路芯片共同实现。

请参阅图9，图9是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质900存储有能够被处理器运行的程序指令910，程序指令910用于实现上述任一多人演讲的显示方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种多人演讲的显示方法，其特征在于，包括：

采集演讲场景中每个显示对象对应的显示影响因素，每个显示影响因素分别对应有初始因素权重；

检测所述演讲场景的变化参数，利用所述变化参数动态调整所述显示影响因素的初始因素权重，得到所述显示影响因素分别对应的动态因素权重；

基于所述每个显示影响因素和所述每个显示影响因素分别对应的动态因素权重，计算所述每个显示对象的注意力评分；

按照所述每个显示对象的注意力评分，在所述演讲场景对应的显示页面中对所述每个显示对象对应的多媒体数据进行显示处理。

2.根据权利要求1所述的方法，其特征在于，所述利用所述变化参数动态调整所述显示影响因素的初始因素权重，得到所述显示影响因素分别对应的动态因素权重，包括：

确定与所述变化参数关联的显示影响因素，得到待调整影响因素；

基于所述变化参数，计算所述待调整影响因素对应的权重调整值；

若所述权重调整值大于预设调整阈值，则基于所述权重调整值和所述初始因素权重，计算得到所述待调整影响因素对应的动态因素权重。

3.根据权利要求1所述的方法，其特征在于，所述基于所述每个显示影响因素和所述每个显示影响因素分别对应的动态因素权重，计算所述每个显示对象的注意力评分，包括：

对所述每个显示影响因素进行量化处理，得到所述每个显示影响因素对应的影响值；

按照所述每个显示影响因素分别对应的动态因素权重，对所述每个显示影响因素对应的影响值进行加权求和处理，得到加权求和结果；

将所述每个显示对象的加权求和结果，作为所述每个显示对象的注意力评分。

4.根据权利要求1所述的方法，其特征在于，所述演讲场景中部署有数据采集装置，所述数据采集装置用于对所述演讲场景中显示对象进行多媒体数据采集，所述显示对象对应的多媒体数据包括图像数据，每个显示对象在所述演讲场景对应的显示页面中关联有显示窗口，所述显示窗口用于播放所述显示对象的图像数据；所述方法还包括：

接收所述数据采集装置的数据采集结果，得到所述每个显示对象对应的待显示数据；

基于所述每个显示对象与显示窗口之间的关联关系，在所述显示页面中的显示窗口中对每个显示对象数据进行显示；

所述按照所述每个显示对象的注意力评分，在所述演讲场景对应的显示页面中对所述每个显示对象对应的多媒体数据进行输出处理，包括：

按照所述每个显示对象的注意力评分，调整所述显示页面中显示窗口的布局参数。

5.根据权利要求4所述的方法，其特征在于，所述接收所述数据采集装置的数据采集结果，得到所述每个显示对象对应的待显示数据，包括：

基于所述演讲场景对应的多媒体数据，确定所述演讲场景对应的演讲模式；

查询与所述演讲模式匹配的装置工作策略；

按照所述装置工作策略向数据采集装置发送对应的工作指令，以使所述数据采集装置基于所述工作指令进行数据采集，得到数据采集结果；

基于所述数据采集结果，得到所述每个显示对象的待显示数据。

6.根据权利要求4所述的方法，其特征在于，所述接收所述数据采集装置的数据采集结果，得到所述每个显示对象对应的待显示数据，包括：

响应与所述演讲场景中存在异常，获取所述异常的异常类型；

查询与所述异常类型匹配的装置工作策略；

7.根据权利要求1所述的方法，其特征在于，所述变化参数包括演讲场景环境变化、显示对象行为变化、演讲进度变化中的至少一种。

8.根据权利要求1所述的方法，其特征在于，所述显示影响因素包括显示对象行为、演讲场景环境、演讲进度、演讲设备参数中的至少一种。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-8任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。