CN114040145B

CN114040145B - 一种视频会议人像显示方法、系统、终端及存储介质

Info

Publication number: CN114040145B
Application number: CN202111381179.6A
Authority: CN
Inventors: 梁柠; 丁帆; 任永忠
Original assignee: Shenzhen Innotrik Technology Co ltd
Current assignee: Shenzhen Innotrik Technology Co ltd
Priority date: 2021-11-20
Filing date: 2021-11-20
Publication date: 2022-10-21
Anticipated expiration: 2041-11-20
Also published as: CN114040145A

Abstract

本发明涉及一种视频会议人像显示方法、系统、终端及存储介质，其属于视频会议领域，其中方法包括：摄像终端在获取到实时影像后，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像，待显示影像中的人脸图像与对应真人之间的比例为1:1；摄像终端发送所述待显示影像至对应的主机，以使主机将待显示影像通过服务器发送至同一会议群组中的其他主机，以使其他主机通过对应的显示屏显示待显示影像。本发明具有提高视频会议过程中用户的参与感和体验感的效果。

Description

一种视频会议人像显示方法、系统、终端及存储介质

技术领域

本发明涉及视频会议的领域，尤其是涉及一种视频会议人像显示方法、系统、终端及存储介质。

背景技术

视频会议，是指位于两个或多个地点的人们，通过通信设备和网络，进行面对面交谈的会议。日常生活中的个人，对谈话内容安全性、会议质量、会议规模没有要求，可以采用一些视频软件来进行视频聊天。而政府机关、企业事业单位的商务视频会议，要求有稳定安全的网络、可靠的会议质量、正式的会议环境等条件，则需要使用专业的视频会议设备，组建专门的视频会议系统。

现有的视频会议，通常是由摄像头采集实时影像，最终通过显示设备将摄像头采集到的实时影像直接显示在显示屏上，从而达到类似面对面交谈的效果。

在实现本申请的过程中，发明人发现上述技术至少存在以下问题：目前通常将实时影像进行直接显示，由于参会者在参会过程中可能会有站立、坐下等各种肢体动作，导致实时影像中的人脸会随之变化，在实时影像本身就不大的情况下，更导致了视频会议的真实感和带来的体验感不佳。

发明内容

为了提高视频会议过程中用户的参与感和体验感，本申请提供一种视频会议人像显示方法、系统、终端及存储介质。

第一方面，本申请提供一种视频会议人像显示方法，采用如下的技术方案：

一种视频会议人像显示方法，所述方法应用于一种视频会议系统中，所述视频会议系统包括服务器、主机、显示屏和摄像终端，每个所述主机均对应有显示屏和至少一个摄像终端，至少两个所述主机构成一会议群组，属于同一会议群组的所述主机通过服务器相互通信，所述方法包括：

所述摄像终端在获取到实时影像后，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像，所述待显示影像中的人脸图像与对应真人之间的比例为1:1；

所述摄像终端发送所述待显示影像至对应的主机，以使所述主机将所述待显示影像通过服务器发送至同一会议群组中的其他主机，以使其他所述主机通过对应的显示屏显示所述待显示影像。

通过采用上述技术方案，摄像终端将获取得到的参会人员的实时影像进行数码变焦处理，从而得到带有真人比例人脸图像的待显示影像，之后，待显示影像被传输给对应的主机，并经由服务器的中转被发送至同一会议群组内的其他主机，接收到待显示影像的其他主机对待显示影像进行真人比例显示，相较于小尺寸的人像显示，提高了用户的参与感和体验感。

可选的，所述摄像终端预设有不同的工作模式，不同的工作模式对应于不同的人物姿态，所述主机中记录有对应的摄像终端的工作模式和人物姿态的对应关系；

所述摄像终端在获取到实时影像后，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像，具体包括：

所述摄像终端在获取到实时影像后，识别所述实时影像中的人脸图像；

所述摄像终端基于所述人脸图像在实时影像中的所处位置，确认所述人脸图像所对应的当前用户的当前姿态；

所述摄像终端将所述当前姿态发送给对应的主机，并使对应的所述主机识别所述摄像终端当前的工作模式；

所述主机确认所述当前姿态与所述摄像终端当前的工作模式所对应的人物姿态是否一致；

当识别结果为一致时，所述主机将识别一致的结果发送给摄像终端，使得所述摄像终端基于当前的工作模式所对应的变焦倍率，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像；

当识别结果为不一致时，所述主机控制所述摄像终端进行工作模式的切换，使得切换后的所述工作模式所对应的人物姿态与所述当前姿态一致；

所述摄像终端基于切换后的工作模式所对应的变焦倍率，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像。

通过采用上述技术方案，摄像终端在主机的控制下，根据用户的当前姿势切换工作模式，从而针对不同的姿势采用不同的变焦倍率。由于用户处于不同的人物姿势时，人脸距离摄像终端的距离不同，因此针对不同人物姿势采取不同的变焦倍率有助于提高数码变焦的准确性。

可选的，所述方法还包括：

目标主机在同时接收到所述服务器发送的多个待显示影像后，基于获取到的多个所述待显示影像，拼接生成整体待显示影像，所述整体待显示影像中同时存在多个待显示影像；

所述目标主机通过对应的显示屏对所述整体待显示影像进行显示。

通过采用上述技术方案，接收到多个待显示影像的目标主机能够将多个待显示影像拼接成整体待显示影像，便于显示屏进行显示。

可选的，所述摄像终端中预存有经过身份验证的已验证人像；

所述摄像终端在获取到实时影像后，对所述实时影像中的人脸图像所在部分进行数码变焦处理，具体包括：

所述摄像终端在识别到所述实时影像中仅存在一个人脸图像时，对所述实时影像中的人脸图像所在部分进行数码变焦处理；

所述摄像终端在识别到所述实时影像中同时存在多个人脸图像时，对每个所述人脸图像进行身份验证；

所述摄像终端在识别出多个所述人脸图像中仅存在一个已验证人像时，对所述实时影像中的已验证人像所在部分进行数码变焦处理；

所述摄像终端在识别出多个所述人脸图像中不存在已验证人像时，对所述实时影像中出现时间最早的人脸图像所在部分进行数码变焦处理；

所述摄像终端在识别出多个所述人脸图像中存在多个已验证人像时，对所述实时影像中出现时间最早的所述已验证人像所在部分进行数码变焦处理。

通过采用上述技术方案，摄像终端通过对人脸图像的识别和身份验证，能够有效地排出非参会人员的干扰。

可选的，所述摄像终端还包括用于收集声音的语音采集组件，所述方法还包括：

所述摄像终端在获取到实时影像后，识别当前是否接收有语音输入；

当识别结果为是时，所述摄像终端为基于所述实时影像生成的待显示影像添加语音输入标识；

第一主机在接收到由服务器发出的携带有语音输入标识的待显示影像后，基于预设的第一区分方法，通过对应的所述显示屏对待显示影像进行区分显示。

通过采用上述技术方案，通过对携带有语音输入标识的待显示影像的区别显示，有助于参会人员快速找到发言人，便于集中参会人员的注意力。

可选的，在所述摄像终端为基于所述实时影像生成的待显示影像添加语音输入标识之后，还包括：

所述摄像终端对添加有语音输入标识的待显示影像进行图像识别处理，以识别其中的人脸图像中是否存在嘴部动作；

当识别结果为是时，所述摄像终端为所述待显示影像添加面部动作标识；

第一主机在接收到由服务器发出的携带有面部动作标识的待显示影像后，基于预设的第二区分方法，对所述待显示影像进行区分显示。

通过采用上述技术方案，由于录入的声音可能是背景中不定时出现的杂音，而非参会的用户自身的发言，通过识别待显示影像中人脸图像所对应人员的嘴部动作，有助于减小此类情形所带来的影响。

第二方面，本申请提供一种视频会议系统，采用如下的技术方案：

一种视频会议系统，包括服务器、主机、显示屏和摄像终端，每个所述主机均对应有显示屏和至少一个摄像终端，至少两个所述主机构成一会议群组，属于同一会议群组的所述主机通过服务器相互通信；其中，所述摄像终端包括：

视频获取模块，用于获取实时影像；

视频处理模块，用于在获取到实时影像后，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像；

数据发送模块，用于发送所述待显示影像至对应的主机。

第三方面，本申请提供一种智能终端，采用如下的技术方案：

一种智能终端，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如第一方面所述方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，包括存储有能够被处理器加载并执行如第一方面所述方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：

摄像终端将获取得到的参会人员的实时影像进行数码变焦处理，从而得到带有真人比例人脸图像的待显示影像，之后，待显示影像被传输给对应的主机，并经由服务器的中转被发送至同一会议群组内的其他主机，接收到待显示影像的其他主机对待显示影像进行真人比例显示，相较于小尺寸的人像显示，提高了用户的参与感和体验感；

摄像终端在主机的控制下，根据用户的当前姿势切换工作模式，从而针对不同的姿势采用不同的变焦倍率。由于用户处于不同的人物姿势时，人脸距离摄像终端的距离不同，因此针对不同人物姿势采取不同的变焦倍率有助于提高数码变焦的准确性。

附图说明

图1是本申请实施例中用于体现一种视频会议系统的系统框图；

图2是本申请实施例中用于体现一种视频会议人像显示方法的流程示意图；

图3是本申请实施例中用于体现S201具体步骤的流程示意图；

图4是本申请实施例中用于体现整体待显示影像的可选形式的示意图；

图5是本申请实施例中用于体现排除会议过程中走动的非参会人员所带来的干扰的过程的流程示意图；

图6是本申请实施例中用于体现一种摄像终端和主机的结构框图。

附图标记说明：611、视频获取模块；612、视频处理模块；613、数据发送模块；621、接收模块；622、发送模块；623、影像输出模块。

具体实施方式

以下结合附图1-6对本申请作进一步详细说明。

本申请实施例公开一种视频会议人像显示方法，该方法可以应用于一种视频会议系统中，参照图1，视频会议系统包括服务器、主机、显示屏和摄像终端，每个主机均对应有显示屏和至少一个摄像终端。其中，服务器可以是本地服务器，也可以是云端服务器，每个摄像终端均设置有用于采集实时影像的摄像头和用于进行信息处理的处理器。使用时，用户可以将摄像终端设置于指定位置，并在摄像终端前预设距离处参与会议，其中，预设距离可以由工作人员根据摄像终端的当前焦距等规格参数具体设置。至少两个主机构成一会议群组，属于同一会议群组的主机通过服务器相互通信。其中，不同的主机可以通过输入同一会议号的方式构成一会议群组。

下面将结合具体实施方式，对图2所示的处理流程进行详细的说明，内容可以如下：

S201：摄像终端在获取到实时影像后，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像，待显示影像中的人脸图像与对应真人之间的比例为1:1。

在实施中，在视频会议进行的过程中，参与会议的用户可以进入摄像终端前预设距离处的位置参与会议。摄像终端通过自身的摄像头获取一定区域内的实时影像，在此过程中，用户可以控制摄像终端中的摄像头进行光学变焦，从而确保摄像终端获取到的实时影像具有最高的清晰度。摄像终端对获取到的实时影像进行人脸识别处理，从而识别出实时影像中的人脸图像。之后，摄像终端对实时影像中人脸图像所在的部分区域进行数码变焦处理，从而放大人脸图像所在的区域，得到待显示图像。其中，人脸图像所在区域可以是指实时影像的上半区域或者下半区域。在放大完成后，待显示图像中的人脸图像的大小和对应真人的人脸的大小一致，举例来说，当用户的人脸面积为A时，待显示图像中的人脸图像经过显示后的面积也为A。

S202：摄像终端发送待显示影像至对应的主机，以使对应的主机将待显示影像通过服务器发送至同一会议群组中的其他主机，以使其他主机通过对应的显示屏显示待显示影像。

在实施中，摄像终端将生成的待显示影像发送至自身所对应的主机。该主机在接收到待显示影像后，可以将该待显示影像上传至服务器，并通过服务器将该待显示影像发送至同一会议群组中的其他主机。其他主机在接收的待显示影像后，会通过自身所对应的显示屏，以真人比例显示上述待显示影像，从而达到提高用户参与感和体验感的效果。

可选的，在另一实施例中，为了提高数码变焦处理的处理精度，摄像终端中还可以预设有不同的工作模式，不同的工作模式对应不同的人物姿态。举例来说，在本实施例中，工作模式可以为站立模式和入座模式，两种模式分别对应人物的站立姿态和坐下姿态。主机中记录有对应的摄像终端的工作模式和人物姿态的对应关系。

此时，结合图3，上述摄像终端在获取到实时影像后，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像，具体可以包括以下内容：

S301：摄像终端在获取到实时影像后，识别实时影像中的人脸图像。

在实施中，摄像终端在通过自带的摄像头获取到实时影像后，可以通过自带的处理器对实时影像进行图像识别处理，从而识别出其中的人脸图像以及人脸图像在实时影像中的所处位置。

S302：摄像终端基于人脸图像在实时影像中的所处位置，确认人脸图像所对应的当前用户的当前姿态。

在实施中，摄像终端基于识别出的人脸图像在实时影像中的所处位置，确认该人脸图像所对应的当前用户的当前姿态。举例来说，实时影像可以分为上部区域和下部区域，上部区域和下部区域之间的分界线可以是实时影像的横向中间线、也可以是实时影像的横向中间线偏上的某个分隔线。当摄像终端识别出人脸图像位于上部区域时，则判断当前用户的当前姿态为站立姿态；当摄像终端识别出人脸图像位于下部区域时，则判断当前用户的当前姿态为坐下姿态。

S303：摄像终端将当前姿态发送给对应的主机，并使对应的主机识别摄像终端当前的工作模式。

在实施中，摄像终端将自身识别出的当前用户的当前姿态发送给对应的主机。对应的主机在接收到当前姿态后，可以进一步识别该摄像终端当前的工作模式，从而确认当前的工作模式所对应的人物姿态。

S304：主机确认所述当前姿态与摄像终端当前的工作模式所对应的人物姿态是否一致。

在实施中，主机将摄像终端发出的当前用户的当前姿态，和该摄像终端的当前工作模式所对应的人物姿态进行对比，当对比结果为一致时，进入S305，当对比结果为不一致时，进入S306。

S305：当识别结果为一致时，主机将识别一致的结果发送给摄像终端，使得摄像终端基于当前的工作模式所对应的变焦倍率，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像。

其中，摄像终端的每个工作模式均对应有变焦倍率，变焦倍率是指摄像终端进行数码变焦处理时，对实时影像中人脸图像所在部分的放大倍率。

在实施中，当对比结果为一致时，主机将识别一致的结果发送给摄像终端，从而使得摄像终端利用当前的工作模式的变焦倍率，对实时影像中的人脸图像所在部分进行数码变焦处理，从而得到待显示影像。

S306：当识别结果为不一致时，主机控制所述摄像终端进行工作模式的切换，使得切换后的工作模式所对应的人物姿态与当前姿态一致。

在实施中，当对比结果为不一致时，主机会控制对应的摄像终端将自身的工作模式切换到当前姿态所对应的工作模式。举例来说，在当前工作模式为入座模式，而摄像终端识别出的当前用户的当前姿态为站立姿态时，主机会将该摄像终端的工作模式切换至站立模式。

S307：摄像终端基于切换后的工作模式所对应的变焦倍率，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像。

在实施中，摄像终端利用切换后的工作模式的变焦倍率，对实时影像中的人脸图像所在部分进行数码变焦处理，从而得到待显示影像。

可选的，在另一实施例中，上述方法还可以包括以下处理：

目标主机在同时接收到服务器发送的多个待显示影像后，基于获取到的多个待显示影像，拼接生成整体待显示影像，整体待显示影像中同时存在多个待显示影像。

其中，目标主机可以是连接于服务器的主机中的任意一个。

在实施中，目标主机在同时接收到服务器发送的多个待显示影像后，为了便于显示屏进行显示，可以将多个待显示影像拼接为一个整体待显示影像。举例来说，整体待显示影像可以如图4所示。图4中，最外层的方框用于指代显示屏的显示区域，每个小方框即代表一个待显示影像。其中，每个待显示影像的边框大小是相同的，同时，为了分类方便，目标主机可以将来源于同一主机的多个待显示影像按照实际拍摄场景相邻放置，并且，当来源于同一主机的某两个待显示影像的边缘处具有相同的背景参照物时，则代表这两个待显示影像的拍摄环境是相同的。此时，结合图4-2，目标主机可以基于来源主机汇报给服务器的摄像头排列次序，对上述两个待显示影像进行拼接，并使得拼接完成后的整体待显示影像中，该背景参照物为一个完整的整体，从而使得拼接完成的整体待显示影像更为真实。当目标主机同时接收到的待显示影像大于预设的最大数量阈值时，目标主机可以将所有待显示影像进行分批拼接，从而生成多个整体待显示影像，分批拼接时，可以遵循整体待显示影像的数量最少，且多个整体待显示影像各自所包含的待显示影像尽量均匀的原则。其中，最大数量阈值可以由工作人员根据显示屏的大小进行设置，用于反映显示屏的显示区域内能够同时容纳的待显示影像的最大数量。

目标主机通过对应的显示屏对整体待显示影像进行显示。

在实施中，同一个目标主机可以对应有多个显示屏。当整体待显示影像只有一个时，目标主机从对应于自身的显示屏中选取一个对整体待显示影像进行显示，当整体待显示影像有多个时，则通过多个显示屏进行分别显示，每个显示屏显示一个整体待显示影像。

可选的，结合图5，在另一实施例中，为了排除会议过程中走动的非参会人员所带来的干扰，摄像终端中还可以预存有经过身份验证的已验证人像，在此情况下，上述摄像终端在获取到实时影像后，对实时影像中的人脸图像所在部分进行数码变焦处理，具体可以包括以下内容：

S510：摄像终端在获取到实时影像后，识别实时影像中的人脸图像。

在实施中，摄像终端在获取到实时影像后，会识别其中存在的所有人脸图像，同时确认人脸图像的数量，并基于识别结果进行不同的后续处理。

S520：摄像终端在识别到实时影像中仅存在一个人脸图像时，对实时影像中的人脸图像所在部分进行数码变焦处理。

在实施中，摄像终端在识别到实时影像中仅存在一个人脸图像时，则会直接对实施影像中该人脸图像所在部分进行数码变焦处理。

S530：摄像终端在识别到实时影像中同时存在多个人脸图像时，对每个人脸图像进行身份验证。

在实施中，摄像终端在识别到实时影像中同时存在多个人脸图像时，则会对每个人脸图像和预设的已验证人像进行逐一对比，从而完成身份验证。

S531：摄像终端在识别出多个人脸图像中仅存在一个已验证人像时，对实时影像中的已验证人像所在部分进行数码变焦处理。

在实施中，当摄像终端识别出实时影像中的多个人脸图像中，只有一个人脸图像是已验证人像时，摄像终端会对实时影像中的已验证人像所在部分进行数码变焦处理。

S532：摄像终端在识别出多个人脸图像中不存在已验证人像时，对实时影像中出现时间最早的人脸图像所在部分进行数码变焦处理。

在实施中，由于参与会议的人员一般都会最先出现在实时影像中，而非参会人员即使进入了摄像终端的拍摄范围内，一般也不会长时间地逗留，因此，摄像终端在识别出多个人脸图像中不存在已验证人像时，则会将出现最早的人脸图像判断为参会人员的人脸图像，从而对实时影像中出现时间最早的人脸图像所在部分进行数码变焦处理。

S533：摄像终端在识别出多个人脸图像中存在多个已验证人像时，对实时影像中出现时间最早的已验证人像所在部分进行数码变焦处理。

在实施中，也可能存在多个参与会议的人员共同使用一个摄像终端的情况，为了确保摄像终端进行人脸识别时不会因为多个人脸图像而混乱，摄像终端在识别出多个人脸图像中同时存在多个已验证人像时，同样会将出现最早的人脸图像判断为主参会人员的人脸图像，即：将出现时间最早的已验证人像判断为主参会人员的人脸图像。其中，主参会人员可以是需要共享一个摄像终端的多个参会人员中的人任意一个。在此情况下，摄像终端可以对实时影像中出现时间最早的已验证人像所在部分进行数码变焦处理，此时，需要共享同一个摄像终端的其他参会人员只需保证自己的当前姿态与主参会人员的当前姿态一致，即可使得自己的人脸图像能够同时被数码变焦处理，并被包含在后续生成的待显示影像中。

可选的，在另一实施例中，为了便于参会者即使将注意力集中到发言人上来，上述方法还可以包括以下内容：

摄像终端在获取到实时影像后，识别当前是否接收有语音输入。

其中，每个摄像终端中均会配置有用于收集声音的语音采集组件，语音采集组件可以是麦克风阵列。

在实施中，摄像终端在获取到实时影像后，可以识别当前是否接收有语音输入，及对应的用户是否正在进行发言。

当识别结果为是时，摄像终端为基于该实时影像生成的待显示影像添加语音输入标识。

在实施中，摄像终端在识别出当前接收有语音输入时，则会在后续的数码变焦处理之后，将基于上述当前时刻的实时影像所生成的待显示影像添加语音输入标识。

第一主机在接收到由服务器发出的携带有语音输入标识的待显示影像后，基于预设的第一区分方法，通过对应的显示屏对该待显示影像进行区分显示。

其中，第一主机可以是连接于服务器的主机中的任意一个。

在实施中，第一主机在接收到服务器发出的携带有语音输入标识的待显示影像后，可以基于预设的第一区分方法，利用对应的显示屏对该待显示影像进行区分显示。举例来说，可以在该待显示影像的影像边缘处添加黄色边框，也可以在显示该待显示影像时，在显示屏的对应区域添加彩色标识点等等，从而便于及时吸引参会者的注意力。

进一步的，在另一实施例中，由于录入的声音可能是背景中不定时出现的杂音，而非参会的用户自身的发言，为了减小此类情形所带来的影响，在上述摄像终端为基于实时影像生成的待显示影像添加语音输入标识之后，还可以包括以下内容：

摄像终端对添加有语音输入标识的待显示影像进行图像识别处理，以识别其中的人脸图像中是否存在嘴部动作。

在实施中，摄像终端对添加有语音输入标识的待显示影像进行图像识别处理，从而确认其中的人脸图像中是否存在嘴部动作，即人脸图像所对应的参会人员是否正在进行发言。

当识别结果为是时，摄像终端为上述待显示影像添加面部动作标识。

在实施中，当识别结果为是时，摄像终端为上述待显示影像添加面部动作标识，从而进行进一步的区分。

第一主机在接收到由服务器发出的携带有面部动作标识的待显示影像后，基于预设的第二区分方法，对该待显示影像进行区分显示。

在实施中，第一主机在接收到服务器发出的携带有面部动作标识的待显示影像后，可以基于预设的第二区分方法，利用对应的显示屏对该待显示影像进行区分显示。其中，通过第二区分方法进行区分显示的待显示影像相较于通过第一区分方法进行区分显示的待显示影像而言，更为显眼。举例来说，可以在第一区分方法中生成的黄色边框外，再加上一层绿色边框；或者，也可以在显示该待显示影像时，在显示屏的对应区域添加彩色闪烁点。

基于上述方法，本申请实施例还公开一种视频会议系统，结合图1和图6，视频会议系统包括服务器、主机、显示屏和摄像终端，每个主机均对应有显示屏和至少一个摄像终端。其中，每个摄像终端均设置有用于采集实时影像的摄像头和用于进行信息处理的处理器。其中，摄像终端包括：

视频获取模块611，用于获取实时影像。

视频处理模块612，用于在获取到实时影像后，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像。

数据发送模块613，用于发送待显示影像至对应的主机。

主机包括：

接收模块621，用于接收摄像终端发出的待显示影像。

发送模块622，用于将接收到的待显示影像发送至服务器。

影像输出模块623，用于将从服务器出接收到的待显示影像输出至显示屏以供其显示。

可选的，摄像终端预设有不同的工作模式，不同的工作模式对应于不同的人物姿态，主机中记录有对应的摄像终端的工作模式和人物姿态的对应关系。

此时，视频处理模块612具体用于：在获取到实时影像后，识别实时影像中的人脸图像；基于人脸图像在实时影像中的所处位置，确认人脸图像所对应的当前用户的当前姿态。

数据发送模块613还用于将当前姿态发送给对应的主机，并使对应的主机识别摄像终端当前的工作模式。

主机还包括：

工作模式识别模块，用于在接收到摄像终端发送的当前姿态后，识别摄像终端当前的工作模式。

姿态对比模块，用于确认当前姿态与摄像终端当前的工作模式所对应的人物姿态是否一致。

对比结果通知模块，用于向摄像终端反馈姿态对比模块的对比结果。

摄像终端的视频处理模块612具体用于在接收到的识别结果为一致时，基于当前的工作模式所对应的变焦倍率，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像。

主机还包括工作模式切换模块，用于在识别结果为不一致时，控制摄像终端进行工作模式的切换，使得切换后的工作模式所对应的人物姿态与当前姿态一致。

摄像终端的视频处理模块612具体用于基于切换后的工作模式所对应的变焦倍率，对实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像。

可选的，主机还包括影像拼接模块，用于在同时接收到服务器发送的多个待显示影像后，基于获取到的多个待显示影像，拼接生成整体待显示影像，整体待显示影像中同时存在多个待显示影像。

影像输出模块623还用于通过对应的显示屏对整体待显示影像进行显示。

可选的，摄像终端中预存有经过身份验证的已验证人像，视频获取模块611具体用于：在获取到实时影像后，识别实时影像中的人脸图像；在识别到实时影像中仅存在一个人脸图像时，对实时影像中的人脸图像所在部分进行数码变焦处理；在识别到实时影像中同时存在多个人脸图像时，对每个人脸图像进行身份验证；在识别出多个人脸图像中仅存在一个已验证人像时，对实时影像中的已验证人像所在部分进行数码变焦处理；在识别出多个人脸图像中不存在已验证人像时，对实时影像中出现时间最早的人脸图像所在部分进行数码变焦处理；在识别出多个人脸图像中存在多个已验证人像时，对实时影像中出现时间最早的已验证人像所在部分进行数码变焦处理。

可选的，摄像终端还包括用于收集声音的语音采集组件，语音采集组件可以是麦克风阵列，此时，摄像终端还包括：

语音输入识别模块，用于在获取到实时影像后，识别当前是否接收有语音输入。

标识添加模块，用于当识别结果为是时，为基于实时影像生成的待显示影像添加语音输入标识。

主机中的影像输出模块623还用于在接收到由服务器发出的携带有语音输入标识的待显示影像后，基于预设的第一区分方法，通过对应的显示屏对待显示影像进行区分显示。

可选的，摄像终端中的视频处理模块612还用于对添加有语音输入标识的待显示影像进行图像识别处理，以识别其中的人脸图像中是否存在嘴部动作。

标识添加模块还用于在识别结果为是时，为待显示影像添加面部动作标识。

主机中的影像输出模块623还用于在接收到由服务器发出的携带有面部动作标识的待显示影像后，基于预设的第二区分方法，对待显示影像进行区分显示。

本申请实施例还公开一种智能终端，智能终端包括存储器和处理器，存储器上存储有能够被处理器加载并执行如上述的视频会议人像显示方法的计算机程序。

本申请实施例还公开一种计算机可读存储介质，其存储有能够被处理器加载并执行如上述的视频会议人像显示方法的计算机程序，该计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本申请的技术方案，而非对申请的保护范围进行限制。显然，所描述的实施例仅仅是本申请部分实施例，而不是全部实施例。基于这些实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所要保护的范围。

Claims

1.一种视频会议人像显示方法，其特征在于，所述方法应用于一种视频会议系统中，所述视频会议系统包括服务器、主机、显示屏和摄像终端，每个所述主机均对应有显示屏和至少一个摄像终端，至少两个所述主机构成一会议群组，属于同一会议群组的所述主机通过服务器相互通信，所述方法包括：

所述摄像终端发送所述待显示影像至对应的主机，以使所述主机将所述待显示影像通过服务器发送至同一会议群组中的其他主机，以使其他所述主机通过对应的显示屏显示所述待显示影像；

所述摄像终端还包括用于收集声音的语音采集组件；

第一主机在接收到由服务器发出的携带有语音输入标识的待显示影像后，基于预设的第一区分方法，通过对应的所述显示屏对待显示影像进行区分显示；

2.根据权利要求1所述的视频会议人像显示方法，其特征在于，所述摄像终端预设有不同的工作模式，不同的工作模式对应于不同的人物姿态，所述主机中记录有对应的摄像终端的工作模式和人物姿态的对应关系；

所述摄像终端在获取到实时影像后，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像，具体包括：确认当前姿态调整工作模式；

3.根据权利要求1所述的视频会议人像显示方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的视频会议人像显示方法，其特征在于，所述摄像终端中预存有经过身份验证的已验证人像；

5.一种视频会议系统，其特征在于，包括服务器、主机、显示屏和摄像终端，每个所述主机均对应有显示屏和至少一个摄像终端，至少两个所述主机构成一会议群组，属于同一会议群组的所述主机通过服务器相互通信；其中，所述摄像终端包括：

视频获取模块(611)，用于获取实时影像；

视频处理模块(612)，用于在获取到实时影像后，对所述实时影像中的人脸图像所在部分进行数码变焦处理，以得到待显示影像；

数据发送模块(613)，用于发送所述待显示影像至对应的主机

摄像终端还包括用于收集声音的语音采集组件，语音采集组件可以是麦克风阵列，此时，摄像终端还包括：

语音输入识别模块，用于在获取到实时影像后，识别当前是否接收有语音输入；

标识添加模块，用于当识别结果为是时，为基于实时影像生成的待显示影像添加语音输入标识；

主机中的影像输出模块(623)还用于在接收到由服务器发出的携带有语音输入标识的待显示影像后，基于预设的第一区分方法，通过对应的显示屏对待显示影像进行区分显示；

摄像终端中的视频处理模块(612)还用于对添加有语音输入标识的待显示影像进行图像识别处理，以识别其中的人脸图像中是否存在嘴部动作；

标识添加模块还用于在识别结果为是时，为待显示影像添加面部动作标识；

主机中的影像输出模块(623)还用于在接收到由服务器发出的携带有面部动作标识的待显示影像后，基于预设的第二区分方法，对待显示影像进行区分显示。

6.一种智能终端，其特征在于，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。

7.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至4中任一种方法的计算机程序。