CN113676693A

CN113676693A - 画面呈现方法、视频会议系统及可读存储介质

Info

Publication number: CN113676693A
Application number: CN202110955073.6A
Authority: CN
Inventors: 黄振明
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-19
Anticipated expiration: 2041-08-19
Also published as: CN113676693B

Abstract

本申请公开了一种视频会议的画面呈现方法。该方法包括：获取各个参会端设备采集的视频信号和音频信号；根据视频信号和音频信号进行人脸发言识别以确定各个参会端设备对应参会人员的发言评分和发言时长；根据发言评分、发言时长和预设显示策略生成会议画面；其中，会议画面用于在各个参会端设备上呈现。本申请的画面呈现方法适用于多会场或参会人数较多的场景，通过获取各个参会端设备采集的视频信号和音频信号确定各个参会端设备对应参会人员的发言评分和发言时长，再根据发言评分、发言时长和预设显示策略生成的会议画面能够看清当前发言人，会议画面显示更加灵活。本申请还公开了一种视频会议系统及可读存储介质。

Description

画面呈现方法、视频会议系统及可读存储介质

技术领域

本申请涉及视频通信技术领域，特别涉及一种画面呈现方法、视频会议系统及可读存储介质。

背景技术

随着视频会议在政府机关、学校、企事业单位等场景应用的越来越广泛，参会人员对于视频会议的体验要求也越来越高。

目前的视频会议技术，一般在视频画面上会直接展示摄像头所拍摄到的内容，大多数是全景，对于多会场或参会人数较多的场景，无法看清当前发言人，画面呆板，用户体验不佳。

发明内容

有鉴于此，本发明旨在至少在一定程度上解决相关技术中的问题之一。为此，本申请的目的在于提供一种画面呈现方法、视频会议系统及可读存储介质。

本申请实施方式提供一种视频会议的画面呈现方法。所述画面呈现方法包括：获取各个参会端设备采集的视频信号和音频信号；根据所述视频信号和所述音频信号进行人脸发言识别以确定各个所述参会端设备对应参会人员的发言评分和发言时长；根据所述发言评分、所述发言时长和预设显示策略生成会议画面；其中，所述会议画面用于在各个所述参会端设备上呈现。

在某些实施方式中，所述根据所述视频信号和所述音频信号进行人脸发言识别以确定各个所述参会端设备对应参会人员的发言评分和发言时长，包括：获取所述参会端设备的设备信息，所述设备信息包括公用设备信息和一对一设备信息；在所述设备信息为公用设备信息的情况下，确定所述参会端设备对应参会人员的参会人数并根据所述视频信号和所述音频信号进行人脸发言识别，以确定所述参会端设备对应各个参会人员的所述发言评分和发言时长；在所述设备信息为一对一设备信息的情况下，根据所述视频信号和所述音频信号进行人脸发言识别，以确定所述参会端设备对应参会人员的所述发言评分和发言时长。

在某些实施方式中，所述根据所述发言评分、所述发言时长和预设显示策略生成会议画面，包括：在所有所述参会端设备对应的参会总人数不大于预设值的情况下，将显示画面划分为与所述参会总人数对应的多个子区域；在多个所述子区域分别显示各个所述参会端设备对应参会人员的视频信号以生成所述会议画面。

在某些实施方式中，所述根据所述发言评分、所述发言时长和预设显示策略生成会议画面，包括：在所有所述参会端设备对应的参会总人数大于预设值的情况下，将显示画面划分为主区域和多个副区域；根据所述发言评分和所述发言时长确定主要发言人和非主要发言人；在所述主区域显示所述主要发言人对应的视频信号，并在多个所述副区域分别显示所述非主要发言人对应的视频信号以生成所述会议画面。

在某些实施方式中，所述在所述主区域显示所述主要发言人对应的视频信号，并在多个所述副区域分别显示所述非主要发言人对应的视频信号以生成所述会议画面，包括：在存在多个所述主要发言人情况下，将所述主区域划分为与所述主要发言人对应的多个发言子区域；在多个所述发言子区域分别显示多个所述主要发言人对应的视频信号。

在某些实施方式中，所述画面呈现方法包括：在存在所述主要发言人的发言不满足第一预设条件的情况下，将发言不满足所述第一预设条件的所述主要发言人变更为所述非主要发言人，并将对应的视频信号切换至副区域进行显示。

在某些实施方式中，所述画面呈现方法包括：在检测到所述非主要发言人存在发言行为的情况下，突出显示与所述非主要发言人对应的所述副区域的画面；在所述非主要发言人的发言满足第二预设条件的情况下，将发言满足第二预设条件的所述非主要发言人变更为所述主要发言人并将对应的视频信号切换至所述主区域进行显示。

在某些实施方式中，画面呈现方法包括：获取各个所述参会人员对应的会议位置信息；在所述会议画面显示所述参会人员对应的会议位置信息。

在某些实施方式中，所述参会端设备包括特写摄像头，所述获取各个参会端设备采集的视频信号和音频信号，包括：控制所述特写摄像头获取所述主要发言人对应的视频信号。

本申请还提供一种视频会议系统，包括处理器和存储器，所述存储器用于存储计算机程序。所述处理器在执行所述计算机程序时实现上述实施方式中任意一项所述的画面呈现方法。

本申请还提供一种计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时，实现上述实施方式中任意一项所述的画面呈现方法。

本申请的画面呈现方法、视频会议系统及可读存储介质适用于多会场或参会人数较多的场景，通过获取各个参会端设备采集的视频信号和音频信号确定各个参会端设备对应参会人员的发言评分和发言时长，再根据发言评分、发言时长和预设显示策略生成的会议画面能够看清当前发言人，会议画面显示更加灵活。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请某些实施方式的画面呈现方法的流程示意图；

图2是本申请某些实施方式的画面呈现装置的结构示意图；

图3是本申请某些实施方式的画面呈现方法的场景示意图；

图4是本申请某些实施方式的画面呈现方法的场景示意图；

图5是本申请某些实施方式的画面呈现方法的场景示意图；

图6是本申请某些实施方式的画面呈现方法的场景示意图；

图7是本申请某些实施方式的画面呈现方法的场景示意图；

图8是本申请某些实施方式的画面呈现方法的场景示意图；

图9是本申请某些实施方式的画面呈现方法的场景示意图；

图10是本申请某些实施方式的画面呈现方法的流程示意图；

图11是本申请某些实施方式的画面呈现装置中人脸发言识别模块的结构示意图；

图12是本申请某些实施方式的画面呈现方法的流程示意图；

图13是本申请某些实施方式的画面呈现装置中画面生成模块的结构示意图；

图14是本申请某些实施方式的画面呈现方法的场景示意图；

图15是本申请某些实施方式的画面呈现方法的场景示意图；

图16是本申请某些实施方式的画面呈现方法的场景示意图；

图17是本申请某些实施方式的画面呈现方法的流程示意图；

图18是本申请某些实施方式的画面呈现装置中画面生成模块的结构示意图；

图19是本申请某些实施方式的画面呈现方法的流程示意图；

图20是本申请某些实施方式的画面生成模块中画面生成单元的结构示意图；

图21是本申请某些实施方式的画面呈现方法的流程示意图；

图22是本申请某些实施方式的画面呈现装置中画面生成模块的结构示意图；

图23是本申请某些实施方式的画面呈现方法的场景示意图；

图24是本申请某些实施方式的画面呈现方法的流程示意图；

图25是本申请某些实施方式的画面呈现装置中画面生成模块的结构示意图；

图26是本申请某些实施方式的画面呈现方法的流程示意图；

图27是本申请某些实施方式的画面生成模块中画面生成单元的结构示意图；

图28是本申请某些实施方式的画面呈现方法的流程示意图；

图29是本申请某些实施方式的画面呈现方法的流程示意图；

图30是本申请某些实施方式的画面呈现装置中获取模块的结构示意图；

图31是本申请某些实施方式的视频会议系统的结构示意图；

图32是本申请某些实施方式的计算机可读存储介质的结构示意图。

具体实施方式

下面详细描述本申请的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体地限定。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接或可以相互通信；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本申请。此外，本申请可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

目前的远程视频会议的场景中，除了使用手机、电脑等个人终端的参会人以外，对于在会议室多人共用一套视频会议接入设备入会的，视频画面只能展示全景，难以看清当前发言人，视频画面也难以体现发言人之间的互动关系。

有鉴于此，请参阅图1，本申请提供一种视频会议的画面呈现方法。画面呈现方法包括：

01：获取各个参会端设备采集的视频信号和音频信号；

02：根据视频信号和音频信号进行人脸发言识别以确定各个参会端设备对应参会人员的发言评分和发言时长；

03：根据发言评分、发言时长和预设显示策略生成会议画面；其中，会议画面用于在各个参会端设备上呈现。

请参阅图2，本申请还提供一种视频会议的画面呈现装置10。所述画面呈现装置包括：获取模块11、人脸发言识别模块12、画面生成模块13。画面呈现装置10可以分别内接于参会端设备，也可以分别外接于参会端设备。每个参会端设备均可以包括画面呈现装置10或外接一个画面呈现装置10。

步骤01可以由获取模块11实现，步骤02可以由人脸发言识别模块12实现，步骤03可以由画面生成模块13实现。也即是，获取模块11用于获取各个参会端设备采集的视频信号和音频信号；人脸发言识别模块12用于根据视频信号和音频信号进行人脸发言识别以确定各个参会端设备对应参会人员的发言评分和发言时长；画面生成模块13用于根据发言评分、发言时长和预设显示策略生成会议画面；其中，会议画面用于在各个参会端设备上呈现。

具体地，参会端设备可以包括手机、电脑、会议机等具有视频功能的设备。各个参会端设备表示本申请的参会端设备为2个或2个以上，即，本申请的画面呈现方法适用于多个参会端设备多人同时进行会议的场景。

例如，请参阅图3至图5，在一个视频会议的的场景中，总共包括5个参会端设备。

请参阅图3，在甲城市的会议室A具有第一个参会端设备：会议一体机(大尺寸)。该会议室A中还可以配置有单独摄像头、参会人员特写摄像头和单独麦克风。会议室A的初始参会人员10人，分别为A1、A2、A3、A4、A5、A6、A7、A8、A9和A10。

请参阅图4，在乙城市的会议室B具有第二个参会端设备：会议一体机(中小尺寸)，会议室B的初始参会人员5人，分别为B1、B2、B3、B4、B5。

请参阅图5，单独参会人C，使用第三个参会端设备：手机。单独参会人D，使用第四个参会端设备：笔记本电脑。会议中间进入的单独参会人E，使用第五个参会端设备：平板电脑。

可以理解地，由于各个参会端设备中会有不同的发言人进行发言，因此，在多人参加的多个参会端则可能会由于人眼看不清是谁在动嘴，且耳朵分辨不清是谁的声音，从而使得会议参与人员分不清谁在发言，降低会议沟通效率。有鉴于此，本申请的画面呈现方法通过获取会议过程中各个参会端设备的视频信号和音频信号，能够根据机器快速并准确地分辨是源于哪个参会端设备的视频信号和音频信号，从而不依赖参会人肉眼就可以智能并准确地识别出某个时刻的发言人。

然后，本申请的画面呈现方法可以根据采集到的视频信号和音频信号进行人脸发言识别，并确定各个参会端设备对应参会人员的发言评分和发言时长，然后根据发言评分、发言时长和预设显示策略生成会议画面，在各个参会端设备上呈现会议画面。

视频信号指的是由各个参会端设备的摄像头拍摄的视频画面转换而成的多个视频电信号。每个视频电信号均可以包括视频画面的帧数、视频画面所处的时刻、视频数据等信息。也即是，人脸发言识别模块12可以根据视频信号判断各个参会端设备对应的参会人数及获取各个参会端设备所拍摄的参会场景画面。

音频信号指的是由采集的声音转换而成的音频电信号，音频电信号可以根据声音的音色不同分为不同种类的音频电信号，还可以根据声音的高低不同分为不同频率的音频电信号。可以理解地，人脸发言识别模块12根据不同种类的音频电信号可以判断各个参会端设备对应的发言人个数，也可以根据不同频率的音频电信号准确地判断发言人距离参会端设备的位置远近。

发言评分可以指的是各个参会人发言的可能性的综合评分，形成的“发言可能性评分”。例如，可以对每个参会人员进行声音或嘴型分析当前是否正在发言，对发言的可能性综合进行打分，形成“发言可能性评分”。若某个参会人员的嘴型处于张开与闭合交替状态且获取到了某个参会端设备发出的声音，则分析某个参会端的某个参会人员的发言可能性高，并且可以根据嘴型处于张开与闭合交替状态的时间长短和获取到的声音持续长短对发言可能性进行评分。

发言时长可以指的是在当前视频会议中某个参会人员连续发言所累计的“当前连续发言时长”。

预设显示策略可以指的是如图6至图9所示，按照主要发言人的人数对某个参会端设备中的显示画面进行平均区域化显示。例如，图6中第一参会端会议室A中仅有一个主要发言人，则各个参会端设备对应的视频会议显示画面只显示该主要发言人。图7中第一参会端会议室A中有两个主要发言人，则各个参会端设备对应的视频会议显示画面平均分为两个区域，可以同时显示两个主要发言人。图8中第一参会端会议室A中由三个主要发言人，则各个参会端设备对应的视频会议显示画面平均分为三个区域，可以同时显示三个主要发言人。图9中第一参会端会议室A中有四个主要发言人，则各个参会端设备对应的视频会议显示画面平均分为四个区域，可以同时显示四个主要发言人。

具体地，本申请的画面呈现方法由人脸发言识别模块12检测出当前视频会议的参会人对发言的可能性综合进行打分，形成发言评分和发言时长，然后由画面生成模块13中的导播布局算法模块根据发言评分操纵特写摄像机对该发言人进行摄像特写，并结合其他视频流数据进行智能剪辑合成最终画面进行视频会议展示形成视频会议画面，达到了提升会议体验、增加会议沟通效果的目的。其中，本申请可以应用视频流数据加工方法将摄像特写得到的视频数据结合其他视频流数据进行智能剪辑合成最终画面，视频流数据加工方法可以应用视频数据处理软件对得到的视频流数据加工，视频数据处理软件主要包括5种：Adobe Premiere、Ulead Media Studio Pro、Ulead Video Studio、Windows Movie Maker、Pinnacle Studio。

更具体地，例如，上述5个参会端设备同时进行视频会议，如图4所示，会议室A中总共由10个参会人员分别编号为1至10，在当前视频会议进行的某个时刻，若此时会议室A中仅有一个参会人员发言。例如，会议室A中的参会人员A2为发言人，其余参会人均没发言，则人脸发言识别模块12此时可以检测出该参会人员A2发言可能性评分是最高的，且该参会人员A2的当前连续时长可以为1分钟、5分钟、10分钟、15分钟、18分钟、18.3分钟、20分钟、30分钟、31分钟、35分钟等连续时长，具体发言时长在此不作限制。

然后，画面生成模块13中的导播布局算法模块根据发言评分操纵特写摄像机对该发言人进行摄像特写，并将摄像特写画面呈现在会议一体机(大尺寸)的特定显示区域。也即是，此时5个参会端的视频会议画面均是如会议室A中的第一参会端设备(会议一体机(大尺寸))所示的5个区域画面，其中显示会议室A中的特定显示区域为原先显示整个会议室A的画面，在参会人员A2发言时，可以在特定显示区域Q中将显示整个会议室A的整体画面转换为显示具有参会人员A2的发言特写的画面(如图6所示)，使得生成的会议画面能够十分方便地看清当前发言人，会议画面显示更加灵活，间接提升了视频会议的沟通效率。

在本申请的其他实施例中，当检测到会议的某个时刻，会议室A内具有两个或两个以上发言人时，且两个或两个以上发言人此时的发言时长可能是相差不大的，有可能是对话式的发言，因此，此时人脸发言识别模块12此时可以检测出会议室A中两个或两个以上的发言人发言可能性评分是相差不大，则将会议室A中两个或两个以上的发言人均进行摄像特写，即画面生成模块13中的导播布局算法模块操纵特写摄像机对两个或两个以上发言人进行摄像特写，并将摄像特写画面呈现在会议一体机(大尺寸)的特定显示区域，可以形成如图6至图9所示2人进行对话式发言至4人进行对话式发言的视频会议画面，依次类推，4人以上进行对话式发言的视频会议画面时，可以将4个以上的主要发言人的显示画面平均分别显示在会议室A的显示画面内。

最后，图6、图7、图8、图9中的视频会议画面可以在各个参会端设备(上述5个参会端设备)上呈现，使得生成的会议画面能够十分方便地看清当前发言人，会议画面显示更加灵活。

需要说明的是，在多人参会的会议室B中同样也可以安装有单独摄像头和特写摄像头，类似于上述会议室A中根据参会人员的发言评分和发言时长和预设显示策略生成会议画面，会议室B中的B1或B5中的主要发言人也可以显示在特定显示区域Q中，其他非发言人则显示在除特定显示区域Q以外的其他区域，此时的其他非发言人包括会议室B中的其他非发言人、会议室A中的非发言人、单独参会人员C、单独参会人员D及单独参会人员E。

综上，本申请的画面呈现方法及其装置、视频会议系统及可读存储介质适用于多会场或参会人数较多的场景，通过获取各个参会端设备采集的视频信号和音频信号确定各个参会端设备对应参会人员的发言评分和发言时长，再根据发言评分、发言时长和预设显示策略生成的会议画面能够看清当前发言人，会议画面显示更加灵活。

另外，本申请的画面成像方法综合了人脸发言识别算法、导播算法、视频流数据加工方法对视频会议画面进行处理，达到让视频会议有了相当于导播的效果，使视频会议画面具有协调的播出画面，改善了视频会议转播画面的体验，增加了会议沟通的效率。

请参阅图10，在某些实施例中，步骤02包括：

021：获取参会端设备的设备信息，设备信息包括公用设备信息和一对一设备信息；

022：在设备信息为公用设备信息的情况下，确定参会端设备对应参会人员的参会人数并根据视频信号和音频信号进行人脸发言识别以确定参会端设备对应各个参会人员的发言评分和发言时长；在设备信息为一对一设备信息的情况下，根据视频信号和音频信号进行人脸发言识别以确定参会端设备对应参会人员的发言评分和发言时长。

请结合图11，人脸发言识别模块12包括设备信息获取单元121和人脸发言识别单元122。

步骤021可以由设备信息获取单元121实现，步骤022可以由人脸发言识别单元122实现。也即是说，设备信息获取单元121用于获取参会端设备的设备信息，设备信息包括公用设备信息和一对一设备信息；人脸发言识别单元122用于在设备信息为公用设备信息的情况下，确定参会端设备对应参会人员的参会人数并根据视频信号和音频信号进行人脸发言识别，以确定参会端设备对应各个参会人员的发言评分和发言时长；在设备信息为一对一设备信息的情况下，根据视频信号和音频信号进行人脸发言识别，以确定参会端设备对应参会人员的发言评分和发言时长。

可以理解地，参会端设备包括在会议室使用的公用设备和单独个人使用的一对一设备，在会议室使用的公用设备例如前文所述的会议一体机(包括大尺寸和小尺寸)，单独个人使用的一对一设备可以为手机、笔记本电脑、ipad等个人使用的视频设备。

具体地，设备信息获取单元121在获取到参会端设备的设备信息为公用设备信息的情况下，人脸发言识别单元122则需要相应地确定参会端设备对应参会人员的参会人数，并根据视频信号和音频信号进行人脸发言识别，以确定参会端设备对应各个参会人员的发言评分和发言时长。

例如，当设备信息获取单元121获取到参会端设备的设备信息为会议室A中的会议一体机(大尺寸)时，人脸发言识别单元122可以确定会议一体机(大尺寸)此时对应的参会人员的参会人数为10个，并根据采集到的视频信号和音频信号进行人脸发言识别，以确定会议一体机(大尺寸)对应各个参会人员的发言评分和发言时长，例如，某一段时间内(例如1分钟内)采集到参会人员A2和A5的视频信号和音频信号，经过人脸发言识别后，例如可以确定在该时间段(1分钟)内参会人员A2的发言评分为30分(满分100分)，发言时长为20秒；参会人员A5的发言评分为70分(满分100分)，发言时长为30秒，会议中间可能停顿10秒。因此，在该时间段内(1分钟内)编号为5的参会人员发言可能性比参会人员A2的发言可能性更高，且参会人员A5的发言时长比参会人员A2的发言时长也更长。

另外，当设备信息获取单元121获取到参会端设备的设备信息为一对一设备信息的情况下，例如，一对一设备可以为单独参会人C使用的手机，则人脸发言识别单元122可以根据采集到的视频信号和音频信号进行人脸发言识别，从而具体确定手机端对应单独参会人员C的发言评分和发言时长。

请参阅图12，在某些实施例中，步骤03包括：

031：在所有参会端设备对应的参会总人数不大于预设值的情况下，将显示画面划分为与参会总人数对应的多个子区域；

032：在多个子区域分别显示各个参会端设备对应参会人员的视频信号以生成会议画面。

请结合图13，画面生成模块13包括区域划分单元131和画面生成单元132。

具体地，预设值可以为4、5、6、7、8、9或10等数值，在此不做限制。该预设值可以是画面呈现装置10默认设置的数值，也可以根据用户的需求设定，在此不做限制。

下面以预设值为4例进行说明，即所有参会端设备对应的参会总人数不大于4。

请参阅图14，当所有参会端设备对应的参会总人数为4人，则画面成像装置可以将显示画面根据4个参会人员分别划分为对应的4个子区域，在4个子区域分别显示各个参会端设备对应参会人员的视频信号以生成会议画面。其中，4个参会人员可以来源于两个参会端设备，也可以来源于三个参会端设备(如图14所示)，也可以来源于四个参会端设备。

请参阅图15，当所有参会端设备对应的参会总人数为3人，则画面成像装置可以将显示画面根据3个参会人员分别划分为对应的3个子区域。其中，3个参会人员可以来源于两个参会端设备(如图15所示)，也可以来源于三个参会端设备。

请参阅图16，当参会总人数为2人，则画面成像装置可以将显示画面根据2个参会人员分别划分为对应的2个子区域，其中2个参会人员分别来源于两个参会端设备。

请参阅图17，步骤03包括：

033：在所有参会端设备对应的参会总人数大于预设值的情况下，将显示画面划分为主区域和多个副区域；

034：根据发言评分和发言时长确定主要发言人和非主要发言人；

035：在主区域显示主要发言人对应的视频信号，并在多个副区域分别显示非主要发言人对应的视频信号以生成会议画面。

请结合图18，画面生成模块13还可以包括主要发言人确定单元134。

步骤033可以由区域划分单元131实现，步骤034可以由主要发言人确定单元134实现，步骤035可以由画面生成单元132实现。也即是说，区域划分单元131用于在所有参会端设备对应的参会总人数大于预设值的情况下，将显示画面划分为主区域和多个副区域；主要发言人确定单元134用于根据发言评分和发言时长确定主要发言人和非主要发言人；画面生成单元132用于在主区域显示主要发言人对应的视频信号，并在多个副区域分别显示非主要发言人对应的视频信号以生成会议画面。

具体地，此处的预设值与前文所述的预设值的数值相同，即，预设值可以为4、5、6、7、8、9或10等数值，在此不做限制。

下面以预设值为10为例进行说明，即所有参会端设备对应的参会总人数大于10的情况进行说明。

具体地，请参阅图6，5个参会端设备对应的参会总人数为18大于预设值10的情况下，将显示画面划分为主区域和多个副区域，其中，前文所述的特定显示区域Q就是主要发言人对应的主区域，除特定显示区域Q外的其他子区域即为副区域。

主要发言人确定单元134可以根据发言评分和发言时长确定主要发言人和非主要发言人。例如，若在会议进行的1分钟内，会议室A中的参会人员A2的发言人在所有参会人员中的发言评分和发言时长最高，则可以将参会人员A2确定为主要发言人。此时，如图6所示，画面生成单元133则可以在主区域显示主要发言人A2对应的视频信号，并在多个副区域分别显示非主要发言人对应的视频信号以生成会议画面。

若在在会议进行的1分钟内，会议室A中的参会人员A2的发言人的发言评分为50分(总分100分)和发言时长(20秒)，会议室A中的参会人员A5的发言人的发言评分为60分(总分100分)和发言时长(30秒)其余的其他参会人员的发言评分为0分，发言时长为0秒，则可以将参会人员A2和A5确定为主要发言人。此时，如图7所示，画面生成单元133则可以在主区域显示主要发言人A2和A5对应的视频信号，并在多个副区域分别显示非主要发言人对应的视频信号以生成会议画面。

请参阅图19，在某些实施例中，步骤035包括：

0351：在存在多个主要发言人情况下，将主区域划分为与主要发言人对应的多个发言子区域；

0352：在多个发言子区域分别显示多个主要发言人对应的视频信号。

请参阅图20，画面生成单元132包括主区域划分单元1351和发言子区域画面显示单元1352。

步骤0351可以由主区域划分单元1351实现，步骤0352可以由发言子区域画面显示单元1352实现。也即是说，主区域划分单元1351用于在存在多个主要发言人情况下，将主区域划分为与主要发言人对应的多个发言子区域；发言子区域画面显示单元1352用于在多个发言子区域分别显示多个主要发言人对应的视频信号。

具体地，请一并参阅图7至图9，图7为存在2个主要发言人A2和A5的情况，对应地，可以将主区域平均划分为与主要发言人A2和A5对应的2个发言子区域，在2个发言子区域分别显示2个主要发言人A2和A5对应的视频信号。图8为存在3个主要发言人A2、A5和A8的情况，对应地，可以将主区域平均划分为与主要发言人A2、A5和A8对应的3个发言子区域，在3个发言子区域分别显示3个主要发言人A2、A5和A8对应的视频信号。图9为存在4个主要发言人A2、A5、A8和A9的情况，对应地，可以将主区域平均划分为与主要发言人A2、A5、A8和A9对应的4个发言子区域，在4个发言子区域分别显示4个主要发言人A2、A5、A8和A9对应的视频信号。

请参阅图21，步骤03还包括：

036：在存在主要发言人的发言不满足第一预设条件的情况下，将发言不满足第一预设条件的主要发言人变更为非主要发言人，并将对应的视频信号切换至副区域进行显示。

请结合图22，画面生成模块13还可以包括画面切换单元136。

步骤036可以由画面切换单元136实现，也即是，画面切换单元136用于在存在主要发言人的发言不满足第一预设条件的情况下，将发言不满足第一预设条件的主要发言人变更为非主要发言人，并将对应的视频信号切换至副区域进行显示。

具体地，第一预设条件可以为主要发言人在预设时间内的发言评分和发言时长均为0，即，此时主要发言人嘴巴不动，并没有发出声音。

例如，请参阅图23，在存在主要发言人A2的发言不满足第一预设条件的情况下，将发言不满足第一预设条件的主要发言人A2变更为非主要发言人，并将对应的视频信号切换至副区域进行显示。此时为只有一个主要发言人的时候，则主区域可以处于空白显示状态，即表示此时所有的参会端设备均没有参会人员在发言。

在其他实施例中，若存在多个主要发言人，在其中一个主要发言人的发言不满足第一预设条件而变更为非主要发言人时，则在该主要发言人对应的视频信号移出至副区域显示时，主要发言人所在的主区域会根据实际剩下的主要发言人的数量而平均划分，从而可以十分清楚地体现出发言人之间的互动关系。

例如，若某个时刻，各个参会端设备的视频会议画面如图9所示，主区域有4位主要发言人，分别为A2、A5、A8和A9，在主要发言人A9不满足第一预设条件时，则将主要发言人A9移出主区域，此时各个参会端设备的视频会议画面则如图8所示。

请参阅图24，步骤03还包括：

037：在检测到非主要发言人存在发言行为的情况下，突出显示与非主要发言人对应的副区域的画面；

038：在非主要发言人的发言满足第二预设条件的情况下，将发言满足第二预设条件的非主要发言人变更为主要发言人并将对应的视频信号切换至主区域进行显示。

请参阅图25，画面生成模块13还包括突出显示单元137。

步骤037可以由突出显示单元137实现，步骤038可以由画面切换单元136实现。也即是说，突出显示单元137用于在检测到非主要发言人存在发言行为的情况下，突出显示与非主要发言人对应的副区域的画面；画面切换单元136用于在非主要发言人的发言满足第二预设条件的情况下，将发言满足第二预设条件的非主要发言人变更为主要发言人并将对应的视频信号切换至主区域进行显示。

具体地，第二预设条件指的是该非主要发言人的发言评分或发言时长中其中一项满足主要发言人的条件。例如，第二预设条件可以是发言评分达到50分(满分100分)，或发言时长达到2分钟。需要说明的是，第二预设条件中的数值可以是画面呈现装置默认的设置的条件数值，也可以是用户按照每场会议需求自行设定的条件数值。

如此，对于处于副区域的非主要发言人，如果副区域的非主要发言人是偶然发言一两句，或由于人脸发言识别算法得识别误差认为其正在讲话，则可以先在该非主要发言人所对应的副区域进行晃动提示或其他提示动作，从而突出显示与非主要发言人对应的副区域的画面，如果后续确实具备成为当前主要发言人的发言评分或发言时长，则将移入主区域。这样有利于在多参会端和参会人数较多的情况下，令所有参会人员均可以看清是谁在发言，视频会议画面生动灵活。

请参阅图26，步骤035还包括：

0353：获取各个参会人员对应的会议位置信息；

0354：在会议画面显示参会人员对应的会议位置信息。

请结合图27，画面生成单元132还可以包括位置获取单元1353和位置显示单元1354。

步骤0353可以由位置获取单元1353实现，步骤0354可以由位置显示单元1354实现。也即是，位置获取单元1353用于获取各个参会人员对应的会议位置信息；位置显示单元1354用于在会议画面显示参会人员对应的会议位置信息。

可以理解地，本申请的画面呈现方法为了方便各个参会人员看清各自所处的参会端位置，画面呈现装置10可以通过画面生成单元132中的位置获取单元1353获取到各个参会人员对应的会议位置信息，并通过位置显示单元1354在会议画面显示参会人员对应的会议位置信息。

具体地，请参阅图6，例如，参会人员A1至A10对应的会议位置信息为参会端1，参会人员B1至B5对应的会议位置信息为参会端2，参会人员C的会议位置信息为参会端3，参会人员D的会议位置信息为参会端4，参会人员E的会议位置信息为参会端5。其中参会人员的会议位置信息还可以用其他字母、特殊符号或地名等表示，在此不做限制。

在本申请的其他实施例中，若某个单人的参会端设备仅仅开了语音没有打开摄像头，即该参会端设备不能获取到视频信号，则此时视频会议画面中该参会端设备中可以仅显示会议位置信息，或显示其他标记有序列号的默认人脸图、标志性符号或文字(例如显示暂无打开摄像头)。本申请以显示序列号的默认人脸图进行说明。

请参阅图28，在本申请的某些实施例中，本申请的画面呈现方法还可以通过获取模块11获取参会端设备采集的视频信号和音频信号进而识别出在会议期间新加入的参会端设备，并将新加入的参会端设备对应的视频画面在会议画面中新增进来，具体的生成新的视频会议画面的整体流程示意图可以如图28所示。

具体地，如图28所示，画面呈现装置10的获取模块11可以在会议期间获取各个参会端设备采集的视频信号、音频信号及参会端设备的设备信息。然后，在获取模块识别到新增的参会端设备的设备信息、视频信号和音频信号时，获取模块11可以将已经录入的设备信息与新识别出的参会端设备的设备信息结合，并将视频信号、音频信号、人脸序列号及设备信息发送至人脸发言识别模块。

人脸发言识别模块则识别所有参会人脸或人脸序列号，并将识别到的所有参会人脸或人脸序列号发送给画面呈现装置10中的导播算法模块。

导播算法模块可以根据人脸、人脸序列号和会议的设备信息生成新的会议屏幕布局。

最后，导播算法模块将生成的会议屏幕布局转换为经过计算后生成的视频数据流发送至参会端设备的屏幕上，进而使得各个参会端设备的屏幕呈现出新的视频会议画面。

也即是，本申请的画面呈现方法在新加入的参会端设备新加入时，画面呈现装置10能够及时新增有该新加入参会端的视频会议画面。

在本申请的某些实施例中，请参阅图28和图29，参会端设备包括特写摄像头，步骤01包括：

011：控制特写摄像头获取主要发言人对应的视频信号。

请结合图30，获取模块11包括特写获取单元111。

步骤011可以由特写获取单元111实现，也即是，特写获取单元111用于控制特写摄像头获取主要发言人对应的视频信号。

具体地，各个参会端设备中可以包括特写摄像头，从而通过控制该特写摄像头获取主要发言人对应的视频信号。例如，前文所述的在甲城市的会议室A具有第一个参会端设备：会议一体机(大尺寸)。该会议室A的第一参会端设备会议一体机(大尺寸)还可以包括特写摄像头，通过控制特写摄像头获取会议室A中的主要发言人对应的视频信号。再例如，单独参会人员C中的手机也可以安装有特写摄像头，通过控制特写摄像头获取单独参会人员C为主要发言人时对应的视频信号。如此，能够使得每个参会端都能够对主要发言人进行摄像头特写，从而可以在视频会议画面中显示主要发言人的特写画面。

请参阅图31，本申请还提供一种视频会议系统100，包括处理器110和存储器120。存储器120用于存储计算机程序121，处理器110在执行计算机程序121时实现上述任意一项实施例所述的画面呈现方法。视频会议系统100包括各个参会端设备。

本申请的视频会议系统100适用于多会场或参会人数较多的场景，通过获取各个参会端设备采集的视频信号和音频信号确定各个参会端设备对应参会人员的发言评分和发言时长，再根据发言评分、发言时长和预设显示策略生成的会议画面能够看清当前发言人，会议画面显示更加灵活。

请参阅图32，本申请还提供一种计算机程序的非易失性计算机可读存储介质200。当计算机程序210被一个或多个处理器220执行时，实现上述任意一项实施例所述的画面呈现方法。

本申请的计算机可读存储介质200适用于多会场或参会人数较多的场景，通过获取各个参会端设备采集的视频信号和音频信号确定各个参会端设备对应参会人员的发言评分和发言时长，再根据发言评分、发言时长和预设显示策略生成的会议画面能够看清当前发言人，会议画面显示更加灵活。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频会议的画面呈现方法，其特征在于，包括：

获取各个参会端设备采集的视频信号和音频信号；

根据所述视频信号和所述音频信号进行人脸发言识别以确定各个所述参会端设备对应参会人员的发言评分和发言时长；

根据所述发言评分、所述发言时长和预设显示策略生成会议画面；

其中，所述会议画面用于在各个所述参会端设备上呈现。

2.根据权利要求1所述的画面呈现方法，其特征在于，所述根据所述视频信号和所述音频信号进行人脸发言识别以确定各个所述参会端设备对应参会人员的发言评分和发言时长，包括：

获取所述参会端设备的设备信息，所述设备信息包括公用设备信息和一对一设备信息；

在所述设备信息为公用设备信息的情况下，确定所述参会端设备对应参会人员的参会人数并根据所述视频信号和所述音频信号进行人脸发言识别，以确定所述参会端设备对应各个参会人员的所述发言评分和发言时长；

在所述设备信息为一对一设备信息的情况下，根据所述视频信号和所述音频信号进行人脸发言识别，以确定所述参会端设备对应参会人员的所述发言评分和发言时长。

3.根据权利要求1所述的画面呈现方法，其特征在于，所述根据所述发言评分、所述发言时长和预设显示策略生成会议画面，包括：

在所有所述参会端设备对应的参会总人数不大于预设值的情况下，将显示画面划分为与所述参会总人数对应的多个子区域；

在多个所述子区域分别显示各个所述参会端设备对应参会人员的视频信号以生成所述会议画面。

4.根据权利要求1所述的画面呈现方法，其特征在于，所述根据所述发言评分、所述发言时长和预设显示策略生成会议画面，包括：

在所有所述参会端设备对应的参会总人数大于预设值的情况下，将显示画面划分为主区域和多个副区域；

根据所述发言评分和所述发言时长确定主要发言人和非主要发言人；

在所述主区域显示所述主要发言人对应的视频信号，并在多个所述副区域分别显示所述非主要发言人对应的视频信号以生成所述会议画面。

5.根据权利要求4所述的画面呈现方法，其特征在于，所述在所述主区域显示所述主要发言人对应的视频信号，并在多个所述副区域分别显示所述非主要发言人对应的视频信号以生成所述会议画面，包括：

在存在多个所述主要发言人情况下，将所述主区域划分为与所述主要发言人对应的多个发言子区域；

在多个所述发言子区域分别显示多个所述主要发言人对应的视频信号。

6.根据权利要求5所述的画面呈现方法，其特征在于，所述画面呈现方法包括：

在存在所述主要发言人的发言不满足第一预设条件的情况下，将发言不满足所述第一预设条件的所述主要发言人变更为所述非主要发言人，并将对应的视频信号切换至副区域进行显示。

7.根据权利要求4所述的画面呈现方法，其特征在于，所述画面呈现方法包括：

在检测到所述非主要发言人存在发言行为的情况下，突出显示与所述非主要发言人对应的所述副区域的画面；

在所述非主要发言人的发言满足第二预设条件的情况下，将发言满足第二预设条件的所述非主要发言人变更为所述主要发言人并将对应的视频信号切换至所述主区域进行显示。

8.根据权利要求4所述的画面呈现方法，其特征在于，画面呈现方法包括：

获取各个所述参会人员对应的会议位置信息；

在所述会议画面显示所述参会人员对应的会议位置信息。

9.根据权利要求4所述的画面呈现方法，其特征在于，所述参会端设备包括特写摄像头，所述获取各个参会端设备采集的视频信号和音频信号，包括：

控制所述特写摄像头获取所述主要发言人对应的视频信号。

10.一种视频会议系统，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器在执行所述计算机程序时实现权利要求1至9中任一项所述的方法。

11.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1至9中任一项所述的方法。