CN116614598A

CN116614598A - 视频会议画面调整方法、装置、电子设备和介质

Info

Publication number: CN116614598A
Application number: CN202310431575.8A
Authority: CN
Inventors: 方斌; 段克; 马起礼; 黄伟
Original assignee: Beijing Shitong Science And Technology Co ltd
Current assignee: Beijing Shitong Science And Technology Co ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-08-18

Abstract

本申请涉及一种视频会议画面调整方法、装置、电子设备和介质，属于视频会议的技术领域，其中方法包括：获取视频会议中的声音和声纹信息；若根据所述声纹信息确定所述声音持续时间超过预设时间，则确定所述声音对应的参会人员为主发言人；判断所述主发言人是否为在会议室内参与视频会议；若是，则基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置；基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于所述主发言人，得到主画面；若否，将所述主发言人的视频画面作为主画面。本申请能够使视频会议画面锁定于发言人，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

Description

视频会议画面调整方法、装置、电子设备和介质

技术领域

本申请涉及视频会议的技术领域，尤其是涉及一种视频会议画面调整方法、装置、电子设备和介质。

背景技术

视频会议是利用视频技术和设备通过传输信道在两个或多个地点的用户终端之间举行会议，实时传送声音和图像，能够使地理上分散的参会者通过视频、声音信息进行实时信息交流与共享。

然而在多人会议时，视频会议画面拍摄会议室，发言人发言时呈现画面过小，参会人员无法快速在视频会议画面中找到发言人，从而不能准确地了解发言人讲话神情状态而准确理解所表达的内容。

发明内容

为了使视频会议画面锁定于发言人，本申请提供一种视频会议画面调整方法、装置、电子设备和介质。

第一方面，本申请提供一种视频会议画面调整方法，采用如下的技术方案：

获取视频会议中的声音和声纹信息；

若根据所述声纹信息确定所述声音持续时间超过预设时间，则确定所述声音对应的参会人员为主发言人；

判断所述主发言人是否为在会议室内参与视频会议；

若是，则基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置；

基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于所述主发言人，得到主画面；

若否，将所述主发言人的视频画面作为主画面。

通过采用上述技术方案，电子设备获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

进一步地，所述基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，包括：

获取摄像机面对所述主发言人的声音位置处拍摄到的远景画面；

基于AI唇语识别技术获取位于所述远景画面中的各个人脸信息；

基于所述人脸信息，将唇部具有动作的人作为候选主发言人；

识别候选主发言人的说话内容；

将所述说话内容与所述发言内容，若对比一致，则确定对应的候选主发言人为主发言人。

通过采用上述技术方案，为了能够准确确定发言人的位置，电子设备首先获取主发言人所在位置的远景画面，进而获取到位于画面中的人脸信息，从而识别出唇部具有动作且说话内容与主发言人的发言内容一致的人，进而确定其为主发言人，能够解决因会议室人太多，不能根据声音位置准确将画面对准主发言人的情况。

进一步地，所述将拍摄画面聚焦于所述主发言人，包括：

在所述远景画面中确定主发言人的第一位置；

使拍摄画面向所述第一位置所在的方向移动，直至所述主发言人位于所述拍摄画面的中央；

拉近镜头得到近景画面，重复执行在所述近景画面中确定主发言人的第一位置，调节画面的步骤，直至主发言人位于所述近景画面的中央，且主发言人的轮廓与画面的比例位于预设区间内，得到聚焦于所述主发言人的画面。

通过采用上述技术方案，电子设备在远景画面中确定主发言人的第一位置信息，进而使摄像画面向第一位置所在方向移动，使主发言人位于拍摄画面中央，拉近镜头得到近景画面后，经过不断调整，使近景画面主要拍摄主发言人，使画面适中。

进一步地，所述方法还包括：

当获取到新的声音及声纹信息时，判断所述主发言人是否中断发言；

若是，根据新的声纹信息判断所述新的声音持续时间是否超过第一预设时间，若超过第一预设时间，则确定所述新的声音对应的参会人员为新的主发言人；否未超过第一预设时间，则维持主发言人不变；

若否，则根据新的声纹信息判断所述新的声音持续时间是否超过第二预设时间；若超过第二预设时间，则将所述画面调节至全景画面；若未超过第二预设时间，则维持主发言人不变。

通过采用上述技术方案，当存在其他声音时，电子设备判断主发言人是否中断发言，并在中断发言后确定是否更换主发言人，若未中断发言，则调整主画面，实现智能自动调节主画面。

进一步地，在获取主发言人的声音位置，调整会议室内摄像机角度之前，所述方法还包括：

根据所述声纹信息判断所述主发言人是否为历史发言人；

若是，则调节摄像机至拍摄所述主发言人时的历史摄像参数；判断所述拍摄画面中的人脸信息是否与所述主发言人的保存的人脸信息一致；若一致，则确定拍摄画面为主画面；若不一致，则将拍摄画面对准主发言人的声音位置；

否则，将拍摄画面对准主发言人的声音位置。

通过采用上述技术方案，电子设备确定主发言人为历史发言人后，根据保存的历史摄像参数，调节摄像画面，并在调节后确认人脸信息是否一致，能够在座位固定的情况下，快速调节拍摄画面。

进一步地，所述将拍摄画面聚焦于所述主发言人之后，所述方法还包括：

获取所述主发言人的人脸信息、位置信息和摄像机拍摄参数；

将所述人脸信息、所述声纹信息、所述位置信息和摄像机拍摄参数对应保存。

通过采用上述技术方案，电子设备保存主发言人的人脸信息、位置信息和摄像机拍摄参数，并与声纹信息对应保存，当获取到声纹信息时，则根据对应的摄像机拍摄参数调整摄像机，进而快速调节拍摄画面。

进一步地，在获取视频会议中的声音和声纹信息之前，所述方法还包括：

响应于参会人员座位固定的指令，生成关于会议室的孪生模型，所述孪生模型中包括摄像机的位置信息以及每个座位信息；

获取参会人员的声纹信息和座位信息；

根据每个人的座位信息确定在所述孪生模型中的位置；

在所述孪生模型中确定摄像机拍摄各个座位时的角度。

通过采用上述技术方案，电子设备可以在参会人员的座位固定的情况下，建立关于会议室的孪生模型，并在孪生模型中确定参会人员的位置，进而在孪生模型中确定摄像机拍摄各个位置时的角度，当根据声纹信息确定主发言人后，根据主发言人的位置确定摄像机的拍摄角度，能快速锁定主发言人。

第二方面，本申请提供一种视频会议画面调整装置，采用如下的技术方案：

声音获取模块，用于获取视频会议中的声音和声纹信息；

主发言人确定模块，用于若根据所述声纹信息确定所述声音持续时间超过第一预设时间，则确定所述声音对应的参会人员为主发言人；

判断模块，用于判断所述主发言人是否为在会议室内参与视频会议；

调节模块，用于在所述判断模块判断为是时，基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置；

主画面第一确定模块，用于基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于所述主发言人，得到主画面；

主画面第二确定模块，用于在所述调节模块判断为否时，将所述主发言人的视频画面作为主画面。

通过采用上述技术方案，声音获取模块获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，主发言人确定模确定声音对应的参会人员为主发言人，进而判断模块判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调节模块调整摄像机角度，使拍摄画面对准发言人，主画面第一确定模块根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，主画面第二确定模块将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，包括：

至少一个处理器；

存储器；

至少一个应用程序，其中所述至少一个应用程序被存储在所述存储器中并被配置为由所述至少一个处理器执行，所述至少一个应用程序配置用于：执行如第一方面中任一项所述的一种视频会议画面调整方法。

通过采用上述技术方案，处理器执行存储器中的应用程序，获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面中任一项所述的一种视频会议画面调整方法的计算机程序。

通过采用上述技术方案，处理器执行计算机可读存储介质中的应用程序，获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

综上所述，本申请包括以下至少一种有益技术效果：

1.电子设备根据声纹信息跟踪声音的持续时间，确定主发言人，若主发言人在会议室，则调整摄像机角度，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率；

2.电子设备在远景画面中确定主发言人的第一位置信息，进而使摄像画面向第一位置所在方向移动，使主发言人位于拍摄画面中央，拉近镜头得到近景画面后，经过不断调整，使近景画面主要拍摄主发言人，使画面适中；

3.当存在其他声音时，电子设备判断主发言人是否中断发言，并在中断发言后确定是否更换主发言人，若未中断发言，则调整主画面，实现智能自动调节主画面。

附图说明

图1是本申请实施例中视频会议画面调整方法的流程示意图。

图2是本申请实施例中视频会议画面调整装置的结构框图。

图3是本申请实施例中电子设备的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

本申请实施例公开一种视频会议画面调整方法。参照图1，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、台式计算机等，但并不局限于此。

参照图1，上述方法如下流程（步骤S101～步骤S106）：

步骤S101：获取视频会议中的声音和声纹信息。

具体地，参会人员通过ID和会议密码进入视频会议，当会议室内有人参与会议时，启用智能摄像机拍摄会议画面，智能摄像机能够自动根据声音位置转动摄像机角度，使摄像机拍摄声音位置。当参会人员在线上单独参与视频会议时，应用通讯设备上的摄像机拍摄人脸。

当开始视频会议后，电子设备获取视频会议中的声音，可以通过会议室内的收音器获取会议室声音，或者参会人员通过终端在线上发出的声音，进而获取声音的声纹信息。

步骤S102：若根据声纹信息确定声音持续时间超过第一预设时间，则确定声音对应的参会人员为主发言人。

其中，第一预设时间可以根据实际情况设置。例如，电子设备获取到同一声纹信息持续的时间超过了3秒，则确定发出对应声音的参会人员为主发言人。

步骤S103：判断主发言人是否为在会议室内参与视频会议，若是，执行步骤S104～步骤S105；否则，执行步骤S106。

具体地，电子设备可以根据声音的来源判断主发言人是否在会议室内。例如，若声音来源于会议室，则可以确定主发言人在会议室内参与视频会议；若声音来源于线上单独参与会议的ID，则可以确定主发言人并未在会议室内参与视频会议。

步骤S104：基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置。

具体地，电子设备与会议室内的摄像机通讯，并采用可跟踪语音位置的摄像机，摄像机可以根据声音的方位进行转动，并使拍摄画面正对声音位置。电子设备确定主发言人在会议室后，使摄像机根据声音位置进行转动。

步骤S105：基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到主画面。

具体地，电子设备获取摄像机拍摄的画面，并识别位于拍摄画面中的人脸，当识别到人的唇部有动作时，则确定其为主发言人。其中，电子设备可以应用AI唇语识别技术，运用机器视觉技术从摄像机拍摄的视频中识别出主发言人。

步骤S105在基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人时，包括（步骤S11～步骤S16）：

步骤S11：基于主发言人的声音，获取主发言人的发言内容。

具体地，电子设备运用语音识别技术，根据主发言人的声音，解读发言内容。

步骤S12：获取摄像机面对主发言人的声音位置处拍摄到的远景画面。

具体地，电子设备使摄像机转动正对主发言人的声音位置，首先拍摄远景画面。

步骤S13：基于AI唇语识别技术获取位于远景画面中的各个人脸信息。

具体地，电子设备获取摄像机拍摄的远景画面，远景画面中可能不止有一个人脸，进而运用AI唇语识别技术识别其中的各个人脸信息。人脸信息包括人脸特征以及人脸的动作特征。

步骤S14：基于人脸信息，将唇部具有动作的人作为候选主发言人。

步骤S15：识别候选主发言人的说话内容；

具体地，电子设备将动作特征中包括唇部动作特征的人作为候选主发言人，进而根据识别唇部动作，解读候选主发言人所说的内容。

步骤S16：将说话内容与发言内容，若对比一致，则确定对应的候选主发言人为主发言人。

具体地，当存在多个候选主发言人时，电子设备将各个候选主发言人的说话内容分别与主发言人的发言内容比较，将对比一致的候选主发言人确定为主发言人。

步骤S105在执行步骤将拍摄画面聚焦于主发言人时，包括（步骤S21～步骤S23）：

步骤S21：在远景画面中确定主发言人的第一位置。

具体地，电子设备在远景画面中确定主发言人后，在远景画面中标记主发言人，进而确定主发言人所在的第一位置，第一位置可以是主发言人所在区块的坐标。

步骤S22：使拍摄画面向第一位置所在的方向移动，直至主发言人位于拍摄画面的中央。

例如，第一位置在远景画面的左侧，则电子设备使摄像机向左移动，直至主发言人在拍摄画面的中央，停止移动。

步骤S23：拉近镜头得到近景画面，重复执行在近景画面中确定主发言人的第一位置，调节近景画面的步骤，直至主发言人位于近景画面的中央，且主发言人的轮廓面积与近景画面的比例位于预设区间内，得到聚焦于主发言人的画面。

具体地，电子设备使摄像机拉近镜头，得到近景画面，且电子设备经过不断调试，例如转动摄像机或调解镜头远近，使主发言人位于近景画面中央。预设区间可以根据实际情况设置，例如0.6～0.8，可以使人位于近景画面中且不会过于远，能够使参会人员清楚地看到主发言人的面部表情。

步骤S106：将主发言人的视频画面作为主画面。

具体地，当主发言人在线上单独参与会议时，则将其视频画面作为主画面。

进一步地，在会议过程中，会存在主发言人交换或被打断的情况，为了能够防止主画面不随意切换，上述方法还包括（步骤S31～步骤S37）：

步骤S31：当获取到新的声音及声纹信息时，判断主发言人是否中断发言。若是，则执行步骤S32～步骤S34；若否，则执行步骤S35～步骤S37。

具体地，若电子设备从视频会议的声音中获取到并非主发言人的声音，则确定为新的声音，同时获取到新的声音的声纹信息。当新的声音出现时，主发言人的声音停止，则主发言人中断发言；若在新的声音出现时，主发言人的声音还未停止，则主发言人未中断发言。

若主发言人中断发言，电子设备执行步骤S32：根据新的声纹信息判断新的声音持续时间是否超过第二预设时间；若超过第一预设时间，则执行步骤S33：确定新的声音对应的参会人员为新的主发言人；若为超过第二预设时间，则执行步骤S34：维持主发言人不变。

具体地，电子设备根据声纹信息识别声音，进而根据新的声纹信息确定新的声音，当持续时间超过第二预设时间，则确定更换主发言人。其中第二预设时间可以为3秒。当持续时间未超过第二预设时间，则可能是参会人员发出的与会议内容无关的声音，如咳嗽等，或者是对主发言人的问题做出的短暂回复。

若主发言人未中断发言，电子设备执行步骤S35：根据新的声纹信息判断新的声音持续时间是否超过第三预设时间；若超过第三预设时间，则执行步骤S36：将画面调节至全景画面；若未超过第三预设时间，则执行步骤S37：不变动主画面。

具体地，第三预设时间可以与第二预设时间相等，也可以不相等。当持续时间超过第三预设时间时，则新的发言人的发言是不被允许的，则调节至远景画面后，能够让参会者观察到全场情况，并可以为新的发言人给出提示，注意静音；而未超过第三预设时间时，则新的发言人的发言并不能影响到主发言人的发言进度，则不变动画面。

在另一种可能的实现方式中，为了节省摄像机寻找主发言人的时间，当主发言人对应的参会人员，再次发言后，可以使摄像机根据历史位置捕捉主发言人。具体步骤包括（步骤S41～步骤S46）：

步骤S41：根据声纹信息判断主发言人是否为历史发言人；若是，则执行步骤S42～步骤S44；否则，执行步骤S104和步骤S105，直至画面聚焦主发言人后，执行步骤S45和步骤S46。

步骤S42：将调节摄像机至拍摄主发言人时的历史摄像参数。

步骤S43：判断拍摄画面中的人脸信息是否与主发言人的保存的人脸信息一致；若一致，则执行步骤S44：确定拍摄画面为主画面；若不一致，则执行步骤S104：将拍摄画面对准主发言人的声音位置。

具体地，当电子设备确定主发言人后，记录主发言人的人脸信息和位置信息，其中历史摄像参数可以为上次拍摄主发言人时，摄像机转动的角度以及镜头远近。当再次确定主发言人时，电子设备根据历史拍摄参数，将摄像画面对准至主发言人的位置。

当根据历史记录调整摄像画面后，摄像画面中的人脸信息与发言人的人脸信息不一致，则可能是主发言人的位置发生了变动，因此使摄像机重新根据主发言人的声音位置确定拍摄角度。

步骤S45：获取主发言人的人脸信息、位置信息和摄像机拍摄参数。

步骤S46：将人脸信息、声纹信息、位置信息和摄像机拍摄参数对应保存。

具体地，当电子设备首次拍摄主发言人时，将主发言人的人脸信息、声纹信息、位置信息和摄像机拍摄参数对应保存，便于下次调用，在座位固定的情况下，节省确定主画面的时间。

在另一种可能的实现方式中，会议室中参会人员的位置是固定的，为了便于快速确定主画面，可以将视频会议调成简易模式，在电子设备执行步骤S101之前，方法还包括（步骤S51～步骤S54）：

步骤S51：响应于参会人员座位固定的指令，生成关于会议室的孪生模型，孪生模型中包括摄像机的位置信息以及每个座位信息。

具体地，在建立视频会议之前，由参会人员在视频会议设置界面中选择座位固定的选项，电子设备则获取到参会人员座位固定的指令，进行响应，生成关于会议室的孪生模型。参会人员可以在操作界面中设置会议室的布局以及摄像机的位置。

步骤S52：获取参会人员的声纹信息和座位信息。

具体地，每个参会人员在进入视频会议时，录入人脸信息和声纹信息，若在会议室中参会人员则由任一参会人员向电子设备输入每个人的座位信息。

步骤S53：根据每个人的座位信息确定在孪生模型中的位置。

步骤S54：在孪生模型中确定摄像机拍摄各个座位时的角度。

具体地，电子设备在孪生模型中确定每个座位上参会人员的信息，进而模拟摄像机拍摄主发言人时的拍摄角度，便于在确定主发言人时，快速调节摄像机。

为了更好地执行上述方法，本申请实施例还提供一种视频会议画面调整装置，参照图2，视频会议画面调整装置200包括：

声音获取模块201，用于获取视频会议中的声音和声纹信息；

主发言人确定模块202，用于若根据声纹信息确定声音持续时间超过第一预设时间，则确定声音对应的参会人员为主发言人；

判断模块203，用于判断主发言人是否为在会议室内参与视频会议；

调节模块204，用于在判断模块203判断为是时，基于摄像机获取的主发言人的声音位置，将拍摄画面对准主发言人的声音位置；

主画面第一确定模块205，用于基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到主画面；

主画面第二确定模块206，用于在调节模块203判断为否时，将主发言人的视频画面作为主画面。

进一步地，主画面第一确定模块205在基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人时，具体用于：

获取摄像机面对主发言人的声音位置处拍摄到的远景画面；

基于AI唇语识别技术获取位于远景画面中的各个人脸信息；

基于人脸信息，将唇部具有动作的人作为候选主发言人；

识别候选主发言人的说话内容；

将说话内容与发言内容，若对比一致，则确定对应的候选主发言人为主发言人。

进一步地，主画面第一确定模块205在将拍摄画面聚焦于主发言人时，具体用于：

在远景画面中确定主发言人的第一位置；

使拍摄画面向第一位置所在的方向移动，直至主发言人位于拍摄画面的中央；

拉近镜头得到近景画面，重复执行在近景画面中确定主发言人的第一位置，调节画面的步骤，直至主发言人位于近景画面的中央，且主发言人的轮廓与画面的比例位于预设区间内，得到聚焦于主发言人的画面。

进一步地，视频会议画面调整装置200还包括：

第二判断模块，用于当获取到新的声音及声纹信息时，判断主发言人是否中断发言；

第一处理模块，用于在第二判断模块判断为是时，根据新的声纹信息判断新的声音持续时间是否超过第二预设时间，若超过第二预设时间，则确定新的声音对应的参会人员为新的主发言人；否未超过第一预设时间，则维持主发言人不变；

第二处理模块，用于在第二判断模块判断为否时，根据新的声纹信息判断新的声音持续时间是否超过第三预设时间；若超过第三预设时间，则将画面调节至全景画面；若未超过第三预设时间，则维持主发言人不变。

在另一种可能的实现方式中，视频会议画面调整装置200还包括：

第三判断模块，用于根据声纹信息判断主发言人是否为历史发言人；

第三处理模块，用于在第三判断模块判断为是时，调节摄像机至拍摄主发言人时的历史摄像参数；判断拍摄画面中的人脸信息是否与主发言人的保存的人脸信息一致；若一致，则确定拍摄画面为主画面；若不一致，则将拍摄画面对准主发言人的声音位置；

第四处理模块，用于在第三判断模块判断为否时，将拍摄画面对准主发言人的声音位置。

主发言人信息获取模块，用于获取主发言人的人脸信息、位置信息和摄像机拍摄参数；

保存模块，用于将人脸信息、声纹信息、位置信息和摄像机拍摄参数对应保存。

孪生模型生成模块，用于响应于参会人员座位固定的指令，生成关于会议室的孪生模型，孪生模型中包括摄像机的位置信息以及每个座位信息；

参会人员信息获取模块，用于获取参会人员的声纹信息和座位信息；

位置确定模块，用于根据每个人的座位信息确定在孪生模型中的位置；

角度确定模块，用于在孪生模型中确定摄像机拍摄各个座位时的角度。

前述实施例中的方法中的各种变化方式和具体实例同样适用于本实施例的视频会议画面调整装置，通过前述对视频会议画面调整方法的详细描述，本领域技术人员可以清楚的知道本实施例中的视频会议画面调整装置的实施方法，所以为了说明书的简洁，在此不再详述。

为了更好地实施以上方法，本申请实施例提供一种电子设备，参照图3，电子设备300包括：处理器301、存储器303和显示屏305。其中，存储器303、显示屏305均与处理器301相连，如通过总线302相连。可选地，电子设备300还可以包括收发器304。需要说明的是，实际应用中收发器304不限于一个，该电子设备300的结构并不构成对本申请实施例的限定。

处理器301可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器301也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线302可包括一通路，在上述组件之间传送信息。总线302可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线302可以分为地址总线、数据总线、控制总线等。

存储器303可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器303用于存储执行本申请方案的应用程序代码，并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码，以实现前述方法实施例所示的内容。

图3示出的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供一种计算机可读存储介质，存储有计算机程序，该程序被处理器执行时实现上述实施例提供的视频会议画面调整方法，处理器执行计算机可读存储介质中的应用程序，获取视频会议中的声音和声纹信息，根据声纹信息跟踪声音的持续时间，当持续超过第一预设时间，则确定声音对应的参会人员为主发言人，进而判断主发言人在线上还是在会议室参与视频会议，若在会议室，则调整摄像机角度，使拍摄画面对准发言人，并根据唇语识别技术和主发言人的声音进行匹配，在拍摄画面中确定主发言人，将拍摄画面聚焦于主发言人，得到专注于主发言人的主画面；若主发言人在会议室，则将主发言人的视频画面作为主画面。因此实现了对主发言人的画面跟踪，使参会人员能够了解到主发言人的表情和动作等，提高会议效果和效率。

本实施例中，计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。具体的，计算机可读存储介质可以是便携式计算机盘、硬盘、U盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、讲台随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、光盘、磁碟、机械编码设备以及上述任意组合。

本实施例中的计算机程序包含用于执行前述所有的方法的程序代码，程序代码可包括对应执行上述实施例提供的方法步骤对应的指令。计算机程序可从计算机可读存储介质下载到各个计算/处理设备，或者通过网络（例如因特网、局域网、广域网和/或无线网）下载到外部计算机或外部存储设备。计算机程序可完全地在用户计算机上执行、作为一个独立的软件包执行。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

另外，需要理解的是，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

Claims

1.一种视频会议画面调整方法，其特征在于，包括：

获取视频会议中的声音和声纹信息；

若根据所述声纹信息确定所述声音持续时间超过第一预设时间，则确定所述声音对应的参会人员为主发言人；

判断所述主发言人是否为在会议室内参与视频会议；

若否，将所述主发言人的视频画面作为主画面。

2.根据权利要求1所述的方法，其特征在于，所述基于AI唇语识别技术和主发言人的声音，在拍摄画面中确定主发言人，包括：

基于所述主发言人的声音，获取主发言人的发言内容；

识别候选主发言人的说话内容；

将所述说话内容与所述发言内容比较，若对比一致，则确定对应的候选主发言人为主发言人。

3.根据权利要求2所述的方法，其特征在于，所述将拍摄画面聚焦于所述主发言人，包括：

在所述远景画面中确定主发言人的第一位置；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若是，根据新的声纹信息判断所述新的声音持续时间是否超过第一预设时间，若超过第二预设时间，则确定所述新的声音对应的参会人员为新的主发言人；否未超过第二预设时间，则维持主发言人不变；

若否，则根据新的声纹信息判断所述新的声音持续时间是否超过第二预设时间；若超过第三预设时间，则将所述画面调节至全景画面；若未超过第三预设时间，则维持主发言人不变。

5.根据权利要求1所述的方法，其特征在于，在获取主发言人的声音位置，调整会议室内摄像机角度之前，所述方法还包括：

根据所述声纹信息判断所述主发言人是否为历史发言人；

否则，将拍摄画面对准主发言人的声音位置。

6.根据权利要求5所述的方法，其特征在于，所述将拍摄画面聚焦于所述主发言人之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在获取视频会议中的声音和声纹信息之前，所述方法还包括：

获取参会人员的声纹信息和座位信息；

根据每个人的座位信息确定在所述孪生模型中的位置；

在所述孪生模型中确定摄像机拍摄各个座位时的角度。

8.一种视频会议画面调整装置，其特征在于，包括：

声音获取模块，用于获取视频会议中的声音和声纹信息；

9.一种电子设备，其特征在于，

至少一个处理器；

存储器；

至少一个计算机程序，其中所述至少一个计算机程序被存储在所述存储器中并被配置为由所述至少一个处理器执行，所述至少一个计算机程序配置用于：执行如权利要求1至7任一项所述的一种视频会议画面调整方法。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一项所述的一种视频会议画面调整方法的计算机程序。