CN113873195B

CN113873195B - 视频会议控制方法、装置和存储介质

Info

Publication number: CN113873195B
Application number: CN202110949865.2A
Authority: CN
Inventors: 李伟
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-04-18
Anticipated expiration: 2041-08-18
Also published as: CN113873195A

Abstract

本申请实施例提供一种视频会议控制方法、装置和存储介质，涉及通信技术领域，应用于视频会议系统；视频会议系统包括服务器和终端设备；该方法包括：在视频会议过程中，终端设备获取终端设备所在会场的多媒体数据；多媒体数据包括音频数据或视频数据中的至少一种；终端设备根据多媒体数据，确定终端设备所在会场为非发言人会场；非发言人会场为预设时间段内与会人员没有发言的会场；终端设备停止向服务器发送多媒体数据，这样减少了视频会议中传输的多媒体数据，从而有助于减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

Description

视频会议控制方法、装置和存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种视频会议控制方法、装置和存储介质。

背景技术

视频会议是现代通信中常用的一项沟通手段。视频会议中，与会人员可以通过语音和视频进行交流。

在视频会议中包括多个视频会议端点的情况下，视频会议可能出现卡顿现象，导致视频会议效果差。其中，视频会议端点指视频会议中在不同空间中的各个参与会议的地点。视频会议端点又可以称为会场。

发明内容

本申请实施例提供一种视频会议控制方法、装置和存储介质，涉及通信技术领域，可以停止向视频会议中其他会场发送非发言人会场的多媒体数据，从而有助于减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

第一方面，本申请实施例提供一种视频会议控制方法，应用于视频会议系统；视频会议系统包括服务器和终端设备；该方法包括：在视频会议过程中，终端设备获取终端设备所在会场的多媒体数据；多媒体数据包括音频数据或视频数据中的至少一种；终端设备根据多媒体数据，确定终端设备所在会场为非发言人会场；非发言人会场为预设时间段内与会人员没有发言的会场；终端设备停止向服务器发送多媒体数据。

本申请实施例中，终端设备确定根据多媒体数据确定终端设备所在会场非发言人会场的情况下，关闭终端设备向服务器发送多媒体数据的传输通道，或者，向服务器发送的多媒体数据中不包括目标音频数据和/或目标视频数据，减少了向服务器发送的多媒体数据，减少在视频会议中传输的多媒体数据，从而减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

一种可能的实现方式中，该方法还包括：终端设备获取与会人员的人脸信息；与会人员的人脸信息包括与会人员的人脸关键点；在多媒体数据包括视频数据的情况下，终端设备根据多媒体数据，确定终端设备所在会场为非发言人会场，包括：终端设备确定多媒体数据不包括与会人员的人脸信息的情况下，确定终端设备所在会场为非发言人会场。这样，终端设备可以根据获取的视频数据确定终端设备所在会场为非发言人会场。

另一种可能的实现方式中，上述终端设备确定多媒体数据不包括与会人员的人脸信息，包括：终端设备确定多媒体数据中不包括人像的情况下，终端设备确定多媒体数据不包括与会人员的人脸信息。

或者，终端设备确定多媒体数据包括人像的情况下，终端设备根据预存的与会人员的人脸信息对多媒体数据中包括的人像进行人脸识别，在多媒体数据包括的人像中不包括与会人员的人脸信息的情况下，终端设备确定多媒体数据不包括与会人员的人脸信息。

另一种可能的实现方式中，该方法还包括：终端设备获取与会人员的人脸信息；与会人员的人脸信息包括与会人员的人脸关键点；在多媒体数据包括视频数据的情况下，终端设备根据多媒体数据，确定终端设备所在会场为非发言人会场，包括：终端设备确定多媒体数据包括与会人员的人脸信息的情况下，终端设备对多媒体数据进行人脸面部动作识别；在多媒体数据中不包括与会人员的讲话动作的情况下，终端设备确定终端设备所在会场为非发言人会场。这样，终端设备确定多媒体数据包括与会人员的人脸信息的情况下，对多媒体数据进行人脸面部动作识别，在多媒体数据中不包括与会人员的讲话动作的情况下确定终端设备所在会场为非发言人会场的结果更准确。

另一种可能的实现方式中，上述终端设备对多媒体数据进行人脸面部动作识别，包括：终端设备获取多媒体数据中目标人脸关键点的多个位移；目标人脸关键点为与会人员的人脸关键点中的人脸关键点；多个位移为多媒体数据中首帧的目标人脸关键点与其余各帧的目标人脸关键点的位移；在多个位移均小于第一预设阈值的情况下，终端设备确定多媒体数据中不包括与会人员的讲话动作。

另一种可能的实现方式中，上述终端设备对多媒体数据进行人脸面部动作识别，包括：终端设备根据预先训练好的神经网络模型，得到多媒体数据的视频数据中各帧的类别；类别包括讲话图像帧和非讲话图像帧；神经网络模型的输入为帧，输出为帧的类别；在目标占比小于第二预设阈值的情况下，终端设备确定多媒体数据不包括与会人员的讲话动作；目标占比为多媒体数据中类别为讲话图像帧的帧数量与多媒体数据中帧总数量的比值。这样，终端设备对多媒体数据进行人脸面部动作识别的结果更准确。

另一种可能的实现方式中，上述终端设备获取与会人员的人脸信息，包括：在终端设备接入视频会议的过程中，终端设备接收人脸图像的录入指令；终端设备响应于录入指令，控制图像采集装置采集与会人员的人脸信息；或者，在终端设备接入视频会议的过程中，终端设备向服务器发送请求消息；请求消息用于服务器向终端设备发送与会人员的人脸信息；终端设备接收服务器发送的与会人员的人脸信息。

另一种可能的实现方式中，上述终端设备根据多媒体数据，确定终端设备所在会场为非发言人会场，包括：在多媒体数据包括音频数据的情况下，终端设备对音频数据进行语音识别；终端设备确定音频数据不包括人类语言的情况下，确定终端设备所在会场为非发言人会场。这样，终端设备可以根据获取的音频数据确定终端设备所在会场为非发言人会场。

另一种可能的实现方式中上述终端设备停止向服务器发送多媒体数据，包括：终端设备关闭向服务器发送多媒体数据的传输通道。

另一种可能的实现方式中，上述终端设备停止向服务器发送多媒体数据，包括：终端设备从待发送数据中删除多媒体数据；待发送数据为终端设备中等待向服务器发送的数据。

第二方面，本申请实施例提供一种终端设备，包括：通信模块和处理模块。通信模块，用于在视频会议过程中获取终端设备所在会场的多媒体数据；多媒体数据包括音频数据或视频数据中的至少一种；处理模块，用于根据多媒体数据，确定终端设备所在会场为非发言人会场；非发言人会场为预设时间段内与会人员没有发言的会场；处理模块还用于停止向服务器发送多媒体数据。

可选的，通信模块还用于：获取与会人员的人脸信息；与会人员的人脸信息包括与会人员的人脸关键点；处理模块具体用于：确定多媒体数据不包括与会人员的人脸信息的情况下，确定终端设备所在会场为非发言人会场。

可选的，处理模块具体用于：确定多媒体数据中不包括人像的情况下，终端设备确定多媒体数据不包括与会人员的人脸信息；或者，处理模块具体用于：确定多媒体数据包括人像的情况下，处理模块根据预存的与会人员的人脸信息对多媒体数据中包括的人像进行人脸识别，在多媒体数据包括的人像中不包括与会人员的人脸信息的情况下，处理模块确定多媒体数据不包括与会人员的人脸信息。

可选的，通信模块还用于：获取与会人员的人脸信息；与会人员的人脸信息包括与会人员的人脸关键点；处理模块具体用于：确定多媒体数据包括与会人员的人脸信息的情况下，对多媒体数据进行人脸面部动作识别；在多媒体数据中不包括与会人员的讲话动作的情况下，确定终端设备所在会场为非发言人会场。

可选的，处理模块具体用于：获取多媒体数据中目标人脸关键点的多个位移；目标人脸关键点为与会人员的人脸关键点中的人脸关键点；多个位移为多媒体数据中首帧的目标人脸关键点与其余各帧的目标人脸关键点的位移；在多个位移均小于第一预设阈值的情况下，确定多媒体数据中不包括与会人员的讲话动作。

可选的，处理模块具体用于：根据预先训练好的神经网络模型，得到多媒体数据的视频数据中各帧的类别；类别包括讲话图像帧和非讲话图像帧；神经网络模型的输入为帧，输出为帧的类别；在目标占比小于第二预设阈值的情况下，确定多媒体数据不包括与会人员的讲话动作；目标占比为多媒体数据中类别为讲话图像帧的帧数量与多媒体数据中帧总数量的比值。

可选的，处理模块还用于：在终端设备接入视频会议的过程中，接收人脸图像的录入指令；响应于录入指令，控制图像采集装置采集与会人员的人脸信息；或者，通信模块还用于：在终端设备接入视频会议的过程中，向服务器发送请求消息；请求消息用于服务器向终端设备发送与会人员的人脸信息；接收服务器发送的与会人员的人脸信息。

可选的，处理模块具体用于：在多媒体数据包括音频数据的情况下，对音频数据进行语音识别；确定音频数据不包括人类语言的情况下，确定终端设备所在会场为非发言人会场。

可选的，处理模块具体用于：关闭向服务器发送多媒体数据的传输通道。

可选的，处理模块具体用于：从待发送数据中删除多媒体数据；待发送数据为终端设备中等待向服务器发送的数据。

第三方面，本申请实施例提供一种终端设备，其特征在于，终端设备包括处理器和存储器，处理器用于调用存储器中的计算机程序，以执行执行第一方面或第一方面的任意一种可能的实现方式中描述的视频会议控制方法中终端设备所执行的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其特征在于，计算机可读存储介质存储有计算机指令，当计算机指令在终端设备上运行时，使得终端设备执行第一方面或第一方面的任意一种可能的实现方式中描述的视频会议控制方法中终端设备所执行的方法。

第五方面，本申请实施例提供一种包括计算机程序的计算机程序产品，当计算机程序在计算机上运行时，使得计算机执行第一方面或第一方面的任意一种可能的实现方式中描述的视频会议控制方法中终端设备所执行的方法。

第六方面，本申请提供一种芯片或者芯片系统，该芯片或者芯片系统包括至少一个处理器和通信接口，通信接口和至少一个处理器通过线路互联，至少一个处理器用于运行计算机程序或指令，以执行第一方面或第一方面的任意一种可能的实现方式中描述的视频会议控制方法中终端设备所执行的方法。其中，芯片中的通信接口可以为输入/输出接口、管脚或电路等。

在一种可能的实现中，本申请中上述描述的芯片或者芯片系统还包括至少一个存储器，该至少一个存储器中存储有指令。该存储器可以为芯片内部的存储单元，例如，寄存器、缓存等，也可以是该芯片的存储单元(例如，只读存储器、随机存取存储器等)。

应当理解的是，本申请的第二方面至第六方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例所适用的视频会议场景的示意图；

图2为本申请实施例中终端设备在会场的示意图；

图3为本申请实施例适用的终端设备的一种结构示意图；

图4为本申请实施例适用的终端设备的一种软件结构框图；

图5为本申请实施例适用的服务器的一种结构示意图；

图6为本申请实施例提供的一种视频会议控制方法的流程示意图；

图7为本申请实施例提供的另一种视频会议控制方法的流程示意图；

图8A为本申请实施例提供的终端设备获取的与会人员的人脸图像；

图8B为本申请实施例提供的终端设备获取的视频数据包括的人脸图像的示意图；

图9A为本申请实施例提供的另一种视频会议控制方法中一个图像帧的示意图；

图9B为本申请实施例提供的另一种视频会议控制方法中另一个图像帧的示意图；

图10为本申请实施例提供的另一种视频会议控制方法的流程示意图；

图11为本申请实施例提供的一种终端设备的结构示意图；

图12为本申请实施例提供的一种芯片的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一芯片和第二芯片仅仅是为了区分不同的芯片，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a--c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

视频会议是现代通信中常用的一项沟通手段。通过视频会议，与会人员可以方便的通过语音和视频进行交流。

然而，在视频会议中包括多个会场的情况下，该多个会场的多媒体数据均被发送至各个会场，可能造成网络拥堵，使得视频会议出现卡顿现象，从而导致视频会议效果差。其中，多媒体数据包括音频数据或视频数据中的至少一种。

示例性的，如图1所示的视频会议场景，该视频会议场景包括会场A～会场C三个会场。该三个会场的多媒体数据被发送至服务器，服务器将接收到的多媒体数据发送至各个会场。在网络带宽有限的情况下，该视频会议可能出现卡顿现象，导致视频会议效果差。

有鉴于此，本申请实施例提供视频会议控制方法，终端设备可以根据语音和/或视频监测会场。终端设备在监测到会场为非发言人会场的情况下，停止向服务器发送该会场的多媒体数据，减少在视频会议中传输的多媒体数据，从而减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

对应于图1所示的视频会议场景，终端设备可以根据语音和/或视频监测会场。会场A的发言人员发言完毕，终端设备监测到会场A为非发言人会场的情况下，停止向服务器发送会场A对应的多媒体数据。这样，会场A中的与会人员说话的语音以及会场A的视频等多媒体数据就不会被发送至服务器，会场A的这些多媒体数据就不会被服务器发送至会场B和会场C，减少了该视频会议中传输的多媒体数据，从而减少对该视频会议中网络带宽的占用，有助于降低该视频会议出现卡顿现象的概率。

上述终端设备在会场的示意图如图2所示。图2所示的终端设备20可以包括显示器201、图像采集装置202、声音采集装置203和处理器204。其中，图像采集装置202可以与与会人员的位置相对设置。

其中，显示器201可以用于显示终端设备20接收到的视频数据。例如：结合图1，显示器201可以用于显示终端设备20接收到的服务器发送的视频数据。

可以理解的是，服务器可以接收视频会议中各个会场的终端设备20发送的视频数据，并对接收到的视频数据进行整合，得到整合后的视频数据。服务器可以向视频会议中的各个终端设备20发送整合后的视频数据。

图像采集装置202用于采集其所在会场的视频数据。这样，处理器204可以从对应于图像采集装置202的寄存器中读取图像采集装置202采集的视频数据。图像采集装置202可以为摄像头。

声音采集装置203用于采集其所在会场的声音，得到音频数据。这样，处理器204可以从对应于声音采集装置203的寄存器中读取声音采集装置203采集的音频数据。声音采集装置203可以为麦克风。

处理器204用于控制显示器201显示视频数据，控制图像采集装置202拍摄视频数据，以及控制声音采集装置203采集其所在会场的声音。

可以理解的是，终端设备20可以用于向服务器发送其获取的多媒体数据，并接收服务器发送的整合后的多媒体数据。其中，多媒体数据包括音频数据和/或视频数据等。

需要说明的是，图2所示的终端设备仅为示例，其不对本申请实施例可适用的终端设备构成限定。实际实现时，终端设备可以包括比图2中所示的更多或更少的设备或器件。

可以理解的是，上述终端设备也可以为具有录音功能和/或录像功能等的手机(mobile phone)、智能电视、穿戴式设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

为了能够更好地理解本申请实施例，下面对本申请实施例的终端设备的结构进行介绍。示例性的，图3为本申请实施例提供的一种终端设备的结构示意图。

终端设备30可以包括处理器310，存储器320，通信接口330，音频模块340，扬声器340A，受话器340B，麦克风340C，按键350，摄像头360以及显示屏370等。

其中，处理器310可以包括一个或多个处理单元。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器310中还可以设置存储器，用于存储指令和数据。

存储器320可以用于存储计算机可执行程序代码，可执行程序代码包括指令。存储器320可以包括存储程序区和存储数据区。存储数据区可以存储多媒体数据。

通信接口330，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如广域网(wide area network，WAN)，局域网(local area networks，LAN)等。

终端设备可以通过音频模块340，扬声器340A，受话器340B，麦克风340C，以及处理器310等实现音频功能。例如音乐播放，录音等。

音频模块340用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。扬声器340A，也称“喇叭”，用于将音频电信号转换为声音信号。终端设备可以通过扬声器340A收听音乐，或收听免提通话。受话器340B，也称“听筒”，用于将音频电信号转换成声音信号。当终端设备接听电话或语音信息时，可以通过将受话器340B靠近人耳接听语音。

麦克风340C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。本申请实施例中，终端设备可以拥有设置一个麦克风340C。例如当终端设备设置3个麦克风340C，并开启终端设备中的录音功能时，终端设备可以分别获取3个麦克风340C中的音频信号；并分别对3个麦克风340C中的音频信号进行模拟增益和/或数字调节等处理；进一步的，终端设备可以将处理后的3个信号进行合并，得到最终的录音处理结果。

按键350包括开机键，音量键等。按键350可以是机械按键。也可以是触摸式按键。终端设备可以接收按键输入，产生与终端设备的用户设置以及功能控制有关的键信号输入。

摄像头360用于捕获静态图像或视频。在一些实施例中，终端设备可以包括1个或N个摄像头360，N为大于1的正整数。

显示屏370用于显示图像，视频等。显示屏370包括显示面板。在一些实施例中，终端设备可以包括1个或N个显示屏370，N为大于1的正整数。

需要说明的是，图3所示的终端设备仅为示例，其不对本申请实施例可适用的终端设备构成限定。实际实现时，终端设备可以包括比图3中所示的更多或更少的设备或器件。

本申请实施例中，终端设备的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构等。本申请实施例以分层架构的Android系统为例，示例性说明终端设备的软件结构。

图4为本申请实施例适用的终端设备的一种软件结构框图。分层架构将终端设备30的软件系统分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，可以将Android系统分为五层，分别为应用程序层(applications)、应用程序框架层(application framework)、安卓运行时(Android runtime)和系统库、硬件抽象层(hardware abstract layer，HAL)以及内核层(kernel)。

应用程序层可以包括一系列应用程序包，应用程序层通过调用应用程序框架层所提供的应用程序接口(application programming interface，API)运行应用程序。如图4所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，游戏等应用程序。

应用程序框架层为应用程序层的应用程序提供API和编程框架。应用程序框架层包括一些预先定义的函数。如图4所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器，数据库等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供终端设备30的通信功能。例如通话状态的管理(包括接通，挂断等)。资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备30振动，指示灯闪烁等。数据库可以用于按照数据结构组织、存储和管理数据。

安卓运行时包括核心库和虚拟机。安卓运行时负责安卓系统的调度和管理。核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。三维图形处理库用于实现三维图形绘图，图形渲染，合成和图层处理等。2D图形引擎是2D绘图的绘图引擎。

硬件抽象层，可以包含多个库模块，库模块如可以包括传感器库模块等。Android系统可以为设备硬件加载相应的库模块，进而实现应用程序框架层访问设备硬件的目的。设备硬件可以包括如终端设备30中的麦克风、扬声器、摄像头以及显示屏等。

内核层是硬件和软件之间的层。内核层用于驱动硬件，使得硬件工作。内核层至少包含显示驱动等，本申请实施例对此不做限制。

可以理解的是，上述服务器可以为单个服务器、服务器集群或虚拟服务器等。本申请的实施例对服务器所采用的具体技术和具体设备形态不做限定。

为了能够更好地理解本申请实施例，下面对本申请实施例的服务器的结构进行介绍。示例性的，图5为本申请实施例提供的一种服务器的结构示意图。

图5所示的服务器150可以包括至少一个处理器1501，通信线路1502，存储器1503以及至少一个通信接口1504。

处理器1501可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1502可包括至少一条通路，比如数据总线，和/或控制总线，用于在上述组件(如至少一个处理器1501，通信线路1502，存储器1503以及至少一个通信接口1504)之间传送信息。

通信接口1504，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如广域网(wide area network，WAN)，局域网(local area networks，LAN)等。

存储器1503，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1503可以是独立存在，通过通信线路1502与处理器1501相连接。存储器1503也可以和处理器1501集成在一起。本申请实施例提供的存储器1503通常包括非易失性存储器。其中，存储器1503用于存储执行本申请方案的计算机指令，并由处理器1501来控制执行。处理器1501用于执行存储器1503中存储的计算机指令，从而实现本申请下述实施例提供的方法。示例性的，存储器1503中存储多媒体数据。

存储器1503包括内存和硬盘。

可选的，本申请实施例中的计算机指令也可以称之为应用程序代码或系统，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，服务器150可以包括多个处理器，这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，服务器150还可以包括输出设备1505和/或输入设备1506。输出设备1505和处理器1501通信，可以以多种方式来显示信息。例如，输出设备1505可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emittingdiode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备1506和处理器1501通信，可以以多种方式接收用户的输入。例如，输入设备1506可以是鼠标、键盘、触摸屏设备或传感设备等。

需要说明的是，本申请实施例示意的结构并不构成对服务器150的具体限定；可以理解的是，服务器150可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置；其中，图示的部件可以以硬件，软件或软件和硬件的组合实现。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图6为本申请实施例提供的一种视频会议控制方法的流程示意图，如图6所示，该视频会议控制方法可以包括如下步骤：

S600：在视频会议过程中，终端设备获取所在会场的音频数据。

本申请实施例中，音频数据为终端设备所在会场的声音对应的音频数据。其中，声音为模拟信号，音频数据为数字信号。

一种可能的实现方式中，在视频会议过程中，终端设备实时采集其所在会场的声音，将采集得到的声音转换为音频数据。

另一种可能的实现方式中，在视频会议过程中，终端设备控制其所在会场的声音采集装置实时采集其所在会场的声音，声音采集装置将模拟信号的声音转换为音频电信号。终端设备接收声音采集装置发送的音频电信号，并将音频电信号转换为音频数据。

S601：终端设备根据获取的音频数据，确定其所在会场非发言人会场。

本申请实施例中，非发言人会场指在预设时间段内会场中的与会人员没有发言的会场。其中，预设时间段可以根据经验由代码预先设定在终端设备的存储器中。

可能的实现方式中，终端设备每隔预设时间段对该预设时间段内获取的音频数据进行语音识别。终端设备确定该音频数据不包括人类语言的情况下，确定其所在会场非发言人会场。

示例性的，终端设备获取其所在会场3分钟之内的音频数据，并对获取的音频数据进行语音识别。终端设备确定该音频数据不包括人类语言的情况下，确定其所在会场非发言人会场。

S602：终端设备关闭向服务器发送多媒体数据的传输通道。

本申请实施例中，多媒体数据包括音频数据或视频数据中的至少一种。其中，音频数据为该会场中的终端设备采集的该会场的音频数据。视频数据为该会场中终端设备拍摄的该会场的视频数据。

可以理解的是，如果终端设备关闭向服务器发送多媒体数据的传输通道，那么，终端设备就会停止向服务器发送该会场的音频数据和/或视频数据等多媒体数据，但是，终端设备仍然可以接收来自服务器的多媒体数据。

可替换的，终端设备从向服务器发送的多媒体数据中剔除目标音频数据和/或目标视频数据。这样，终端设备向服务器发送的多媒体数据中不包括目标音频数据和/或目标视频数据。目标音频数据为不包括人类语言的音频数据。目标视频数据为采集目标音频数据的相同时间段内采集的视频数据。

需要说明的是，与会人员通过手机接入视频会议，且使用与手机连接的蓝牙耳机收听视频会议中的语音，蓝牙耳机采集该会场的音频数据的场景下，终端设备包括手机以及与手机连接的蓝牙耳机，手机以及与手机连接的蓝牙耳机可以通过如下方式关闭向服务器发送多媒体数据的传输通道：

手机可以向蓝牙耳机发送指示消息，该指示消息用于指示蓝牙耳机降低其蓝牙模块的功率。蓝牙耳机降低蓝牙耳机中蓝牙模块的功率。

这样，蓝牙耳机向手机发送蓝牙耳机采集的该会场的音频数据时，由于蓝牙耳机中蓝牙模块的功率小，路径损耗导致蓝牙耳机发送的承载音频数据的信号在到达手机前衰落，因此，手机无法接收蓝牙耳机发送的音频数据。手机也不会向服务器发送蓝牙耳机采集到的该会场的音频数据。

而且，手机中蓝牙模块的功率并没有改变，手机向蓝牙耳机发送音频数据，蓝牙耳机仍然可以正常接收该音频数据。因此，蓝牙耳机可以正常播放手机中接收到的来自服务器的音频数据。

本申请实施例中，终端设备在确定获取的音频数据不包括人类语言的情况下，确定其所在会场非发言人会场，关闭终端设备向服务器发送多媒体数据的传输通道，或者，向服务器发送的多媒体数据中不包括目标音频数据和/或目标视频数据，减少了向服务器发送的多媒体数据，减少在视频会议中传输的多媒体数据，从而减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

图7为本申请实施例提供的另一种视频会议控制方法的流程示意图，如图7所示，该视频会议控制方法可以包括如下步骤：

可选的，S700：终端设备获取与会人员的人脸信息。

本申请实施例中，人脸信息可以是人脸图像，或者，人脸信息可以是人脸关键点。

一种可能的实现方式中，在接入视频会议的过程中，终端设备接收人脸图像的录入指令，终端设备响应于该指令，通过图像采集装置获取该终端设备所在会场的与会人员的人脸信息。

另一种可能的实现方式中，终端设备从服务器获取该视频会议对应的与会人员的人脸信息。该视频会议对应的与会人员的人脸信息可以是在创建该视频会议时，服务器从创建该视频会议的终端设备中获取的。

S701：在视频会议过程中，终端设备获取所在会场的视频数据。

本申请实施例中，视频数据是由用于描述终端设备所在会场的连续的多个图像组成的。

一种可能的实现方式中，在视频会议过程中，终端设备实时采集其所在会场的图像，得到视频数据。

另一种可能的实现方式中，在视频会议过程中，终端设备控制其所在会场的图像采集装置实时采集其所在会场的图像得到视频数据。终端设备接收图像采集装置发送的视频数据。

S702：终端设备根据获取的视频数据，确定其所在会场非发言人会场。

本申请实施例中，非发言人会场的解释同S601中的描述，不再赘述。

可能的实现方式中，终端设备每隔预设时间段对该预设时间段内获取的视频数据进行识别。

终端设备在确定获取的视频数据中不包括与会人员的情况下，确定其所在会场非发言人会场。

本申请实施例中，终端设备确定获取的视频数据中不包括与会人员的方法包括：

终端设备确定获取的视频数据中不包括人像的情况下，确定获取的视频数据中不包括与会人员。

终端设备确定获取的视频数据中包括人像的情况下，终端设备根据预存的与会人员的人脸信息，对视频数据包括的人像进行人脸识别。在视频数据包括的人像不包括与会人员的人脸信息的情况下，终端设备确定获取的视频数据中不包括与会人员。

示例性的，如果终端设备获取与会人员的人脸信息为如图8A所示的人脸图像，视频数据中的人脸图像为如图8B所示的人脸图像，那么，终端设备确定获取的视频数据中不包括与会人员。

终端设备在确定获取的视频数据中包括与会人员的情况下，对该视频数据进行人脸面部动作识别，在该视频数据中不包括与会人员的讲话动作的情况下，终端设备确定其所在会场非发言人会场。

本申请实施例中，终端设备确定该视频数据不包括讲话动作的方法包括如下实现方式：

方式一：终端设备根据视频数据中与会人员的人脸关键点的位移，确定视频数据中不包括与会人员的讲话动作。

可能的实现方式中，终端设备检测视频数据中的目标人脸关键点，并获取首帧图像的目标人脸关键点与其余帧图像的目标人脸关键点的位移，得到多个位移。在该多个位移均小于第一预设阈值的情况下，终端设备确定其所在会场非发言人会场。其中，目标人脸关键点为讲话动作可能会发生位移的人脸关键点。示例性的，目标人脸关键点可以为与会人员唇部关键点。第一预设阈值可以是预先设定的。

方式二：终端设备将视频数据输入预先训练好的深度神经网络(deep neuralnetworks，DNN)模型，终端设备根据DNN模型获取该视频数据中的讲话图像帧和非讲话图像帧。在目标占比小于第二预设阈值的情况下，终端设备确定该视频数据不包括讲话动作。

DNN模型是根据多个样本图像训练神经网络模型得到的。该DNN模型的输入为图像，该DNN模型的输出用于表征图像为讲话图像帧，或者，该DNN模型的输出用于表征图像为非讲话图像帧。样本图像为包括目标人脸关键点的图像。样本图像的标注用于指示该样本图像为讲话图像帧或非讲话图像帧。目标占比为该视频数据中的讲话图像帧的数量占图像帧总数量的占比。目标占比可以是根据经验由代码设定的。

示例性的，视频数据包括如图9A以及图9B所示的两个图像帧，图9A所示的图像帧为讲话图像帧，图9B所示的图像帧为非讲话图像帧。图9A所示的图像帧中包括目标人脸关键点1至目标人脸关键点3，图9B所示的图像帧中也包括目标人脸关键点4至目标人脸关键点6。如果该视频数据中的其余图像帧均为非讲话图像帧，那么，终端设备确定该视频数据不包括讲话动作。

方式二中，终端设备在讲话图像帧的数量与视频数据中图像帧的总数量的比值小于第二预设阈值的情况下，确定该视频数据不包括讲话动作。这样，终端设备确定该视频数据不包括讲话动作的结果更趋于该视频数据对应会场的实际情况。

图9所示的示例中，图9A所示的图像帧中目标人脸关键点1是图9B所示的图像帧中目标人脸关键点4发生位移后的目标人脸关键点，图9A所示的图像帧中目标人脸关键点2为图9B所示的图像帧中目标人脸关键点5发生位移后的目标人脸关键点，图9A所示的图像帧中目标人脸关键点3为图9B所示的图像帧中目标人脸关键点6发生位移后的目标人脸关键点。虽然，目标人脸关键点1与目标人脸关键点4的位移、目标人脸关键点2与目标人脸关键点5的位移或目标人脸关键点3与目标人脸关键点6的位移这三个位移中可能包括大于第一预设阈值的位移，但是该视频数据不包括讲话动作。因此，方式二确定的结果更趋向于该视频数据对应会场的实际情况。

S702：终端设备关闭向服务器发送多媒体数据的传输通道。

可能的实现方式及示例参考S602的描述，不再赘述。

本申请实施例中，终端设备根据获取的视频数据，确定其所在会场非发言人会场的情况下，关闭终端设备向服务器发送多媒体数据的传输通道，或者，向服务器发送的多媒体数据中不包括目标音频数据和/或目标视频数据，减少了向服务器发送的多媒体数据，减少在视频会议中传输的多媒体数据，从而减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

可以理解的是，上述实施例中终端设备确定其所在会场非发言人会场的方法结合可以得到一个新的实施例。

如图10所示，图10为本申请实施例提供的另一种视频会议控制方法的流程示意图，图9所示的视频会议控制方法可以包括如下步骤：

S1000：在视频会议过程中，终端设备获取所在会场的多媒体数据。

本申请实施例中，多媒体数据包括终端设备所在会场的音频数据以及终端设备所在会场的视频数据。

可能的实现方式，参考上述S600以及S700中的描述，不再赘述。

S1001：终端设备根据获取的多媒体数据，确定其所在会场非发言人会场。

可能的实现方式中，终端设备在确定获取的多媒体数据中的音频数据不包括人类语言，且多媒体数据中的视频数据中不包括与会人员的情况下，终端设备确定其所在会场非发言人会场。

本申请实施例中，终端设备确定获取的多媒体数据中的音频数据不包括人类语言的方式参考上述S601中的描述。终端设备确定多媒体数据中的视频数据中不包括与会人员的方式参考上述S701中的描述，不再赘述。

S1002：终端设备关闭向服务器发送多媒体数据的传输通道。

可能的实现方式，参考上述S602的描述，不再赘述。

本申请实施例中，终端设备确定音频数据不包括人类语言，且视频数据不包括与会人员的情况下，确定其所在会场非发言人会场。这样，确定的非发言人会场的结果更趋于准确。终端设备在确定其所在会场非发言人会场的情况下，关闭终端设备向服务器发送多媒体数据的传输通道，或者，向服务器发送的多媒体数据中不包括目标音频数据和/或目标视频数据，减少了向服务器发送的多媒体数据，减少在视频会议中传输的多媒体数据，从而减少对视频会议中网络带宽的占用，有助于降低视频会议出现卡顿现象的概率。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的方法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对实现视频会议控制方法的终端设备或服务器进行功能模块的划分，例如可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图11所示为本申请实施例提供的一种终端设备的结构示意图，图11所示的终端设备110包括通信模块1101和处理模块1102。通信模块1101，用于在视频会议过程中获取终端设备所在会场的多媒体数据；多媒体数据包括音频数据或视频数据中的至少一种；处理模块1102，用于根据多媒体数据，确定终端设备所在会场为非发言人会场；非发言人会场为预设时间段内与会人员没有发言的会场；处理模块1102还用于停止向服务器发送多媒体数据。例如，结合图6，通信模块1101可以用于执行S600中的接收步骤。结合图6处理模块1102可以用于执行S601～S602。结合图7，通信模块1101可以用于执行S700中的接收步骤，处理模块1102可以用于执行S701～S703。结合图10，通信模块1101可以用于执行S1000中的接收步骤，处理模块1102可以用于执行S1001～S1002。

可选的，通信模块1101还用于：获取与会人员的人脸信息；与会人员的人脸信息包括与会人员的人脸关键点；处理模块1102具体用于：确定多媒体数据不包括与会人员的人脸信息的情况下，确定终端设备所在会场为非发言人会场。

可选的，处理模块1102具体用于：确定多媒体数据中不包括人像的情况下，终端设备确定多媒体数据不包括与会人员的人脸信息；或者，处理模块1102具体用于：确定多媒体数据包括人像的情况下，处理模块1102根据预存的与会人员的人脸信息对多媒体数据中包括的人像进行人脸识别，在多媒体数据包括的人像中不包括与会人员的人脸信息的情况下，处理模块1102确定多媒体数据不包括与会人员的人脸信息。

可选的，通信模块1101还用于：获取与会人员的人脸信息；与会人员的人脸信息包括与会人员的人脸关键点；处理模块1102具体用于：确定多媒体数据包括与会人员的人脸信息的情况下，对多媒体数据进行人脸面部动作识别；在多媒体数据中不包括与会人员的讲话动作的情况下，确定终端设备所在会场为非发言人会场。

可选的，处理模块1102具体用于：获取多媒体数据中目标人脸关键点的多个位移；目标人脸关键点为与会人员的人脸关键点中的人脸关键点；多个位移为多媒体数据中首帧的目标人脸关键点与其余各帧的目标人脸关键点的位移；在多个位移均小于第一预设阈值的情况下，确定多媒体数据中不包括与会人员的讲话动作。

可选的，处理模块1102具体用于：根据预先训练好的神经网络模型，得到多媒体数据的视频数据中各帧的类别；类别包括讲话图像帧和非讲话图像帧；神经网络模型的输入为帧，输出为帧的类别；在目标占比小于第二预设阈值的情况下，确定多媒体数据不包括与会人员的讲话动作；目标占比为多媒体数据中类别为讲话图像帧的帧数量与多媒体数据中帧总数量的比值。

可选的，处理模块1102还用于：在终端设备接入视频会议的过程中，接收人脸图像的录入指令；响应于录入指令，控制图像采集装置采集与会人员的人脸信息；或者，通信模块1101还用于：在终端设备接入视频会议的过程中，向服务器发送请求消息；请求消息用于服务器向终端设备发送与会人员的人脸信息；接收服务器发送的与会人员的人脸信息。

可选的，处理模块1102具体用于：在多媒体数据包括音频数据的情况下，对音频数据进行语音识别；确定音频数据不包括人类语言的情况下，确定终端设备所在会场为非发言人会场。

可选的，处理模块1102具体用于：关闭向服务器发送多媒体数据的传输通道。

可选的，处理模块1102具体用于：从待发送数据中删除多媒体数据；待发送数据为终端设备中等待向服务器发送的数据。

在一个例子中，结合图3，上述处理模块1102的功能可以由图3中的处理器310调用存储器320中的计算机程序实现。通信模块1101的功能可以由图3中的通信接口330实现。

如图12所示为本申请实施例提供的一种芯片的结构示意图。芯片120包括一个或两个以上(包括两个)处理器1201、通信线路1202和通信接口1203，可选的，芯片120还包括存储器1204。

在一些实施方式中，存储器1204存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

上述本申请实施例描述的方法可以应用于处理器1201中，或者由处理器1201实现。处理器1201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1201可以是通用处理器(例如，微处理器或常规处理器)、数字信号处理器(digitalsignal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门、晶体管逻辑器件或分立硬件组件，处理器1201可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。其中，软件模块可以位于随机存储器、只读存储器、可编程只读存储器或带电可擦写可编程存储器(electricallyerasable programmable read only memory，EEPROM)等本领域成熟的存储介质中。该存储介质位于存储器1204，处理器1201读取存储器1204中的信息，结合其硬件完成上述方法的步骤。

处理器1201、存储器1204以及通信接口1203之间可以通过通信线路1202进行通信。

在上述实施例中，存储器存储的供处理器执行的指令可以以计算机程序产品的形式实现。其中，计算机程序产品可以是事先写入在存储器中，也可以是以软件形式下载并安装在存储器中。

本申请实施例还提供一种计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。例如，可用介质可以包括磁性介质(例如，软盘、硬盘或磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本申请实施例提供一种终端设备，该终端设备可以执行上述任一种视频会议控制方法中终端设备所执行的方法。

本申请实施例还提供一种计算机可读存储介质。上述实施例中描述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。计算机可读介质可以包括计算机存储介质和通信介质，还可以包括任何可以将计算机程序从一个地方传送到另一个地方的介质。存储介质可以是可由计算机访问的任何目标介质。

作为一种可能的设计，计算机可读介质可以包括紧凑型光盘只读储存器(compactdisc read-only memory，CD-ROM)、RAM、ROM、EEPROM或其它光盘存储器；计算机可读介质可以包括磁盘存储器或其它磁盘存储设备。而且，任何连接线也可以被适当地称为计算机可读介质。例如，如果使用同轴电缆，光纤电缆，双绞线，DSL或无线技术(如红外，无线电和微波)从网站，服务器或其它远程源传输软件，则同轴电缆，光纤电缆，双绞线，DSL或诸如红外，无线电和微波之类的无线技术包括在介质的定义中。如本文所使用的磁盘和光盘包括光盘(CD)，激光盘，光盘，数字通用光盘(digital versatile disc，DVD)，软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光光学地再现数据。

上述的组合也应包括在计算机可读介质的范围内。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频会议控制方法，其特征在于，应用于视频会议系统；所述视频会议系统包括服务器和终端设备；所述方法包括：

在视频会议过程中，所述终端设备获取所述终端设备所在会场的多媒体数据；所述多媒体数据包括音频数据或视频数据中的至少一种；

所述终端设备根据所述多媒体数据，确定所述终端设备所在会场为非发言人会场；所述非发言人会场为预设时间段内与会人员没有发言的会场；

所述终端设备停止向所述服务器发送所述多媒体数据；

所述终端设备包括手机以及与手机连接的蓝牙耳机时，所述终端设备停止向所述服务器发送所述多媒体数据包括：手机向蓝牙耳机发送指示消息，所述指示消息用于指示蓝牙耳机降低蓝牙模块的功率；

所述终端设备获取所述与会人员的人脸信息；所述与会人员的人脸信息包括所述与会人员的人脸关键点；

所述终端设备根据所述多媒体数据，确定所述终端设备所在会场为非发言人会场，包括：

所述终端设备确定获取的多媒体数据中的音频数据不包括人类语言，且多媒体数据中的视频数据中不包括与会人员的情况下，确定所述终端设备所在会场非发言人会场；

或者，

所述终端设备确定所述视频数据包括所述与会人员的人脸信息的情况下，所述终端设备根据预先训练好的神经网络模型，得到所述视频数据的视频数据中各帧的类别；所述类别包括讲话图像帧和非讲话图像帧；所述神经网络模型的输入为帧，输出为帧的类别；

在目标占比小于第二预设阈值的情况下，所述终端设备确定所述视频数据不包括所述与会人员的讲话动作；所述目标占比为所述视频数据中类别为所述讲话图像帧的帧数量与所述视频数据中帧总数量的比值；

在所述视频数据中不包括所述与会人员的讲话动作的情况下，所述终端设备确定所述终端设备所在会场为所述非发言人会场。

2.根据权利要求1所述的方法，其特征在于，所述终端设备获取所述与会人员的人脸信息，包括：

在所述终端设备接入视频会议的过程中，所述终端设备接收人脸图像的录入指令；所述终端设备响应于所述录入指令，控制图像采集装置采集所述与会人员的人脸信息；

或者，

在所述终端设备接入视频会议的过程中，所述终端设备向所述服务器发送请求消息；所述请求消息用于所述服务器向所述终端设备发送所述与会人员的人脸信息；

所述终端设备接收所述服务器发送的所述与会人员的人脸信息。

3.根据权利要求1或2所述的方法，其特征在于，所述终端设备停止向所述服务器发送所述多媒体数据，包括：

所述终端设备关闭向所述服务器发送所述多媒体数据的传输通道。

4.根据权利要求1或2所述的方法，其特征在于，所述终端设备停止向所述服务器发送所述多媒体数据，包括：

所述终端设备从待发送数据中删除所述多媒体数据；所述待发送数据为所述终端设备中等待向所述服务器发送的数据。

5.一种终端设备，其特征在于，包括：

通信模块，用于在视频会议过程中获取所述终端设备所在会场的多媒体数据；所述多媒体数据包括音频数据或视频数据中的至少一种；

处理模块，用于根据所述多媒体数据，确定所述终端设备所在会场为非发言人会场；所述非发言人会场为预设时间段内与会人员没有发言的会场；

所述处理模块还用于停止向服务器发送所述多媒体数据；

所述终端设备包括手机以及与手机连接的蓝牙耳机时，所述处理模块，具体用于：手机向蓝牙耳机发送指示消息，所述指示消息用于指示蓝牙耳机降低蓝牙模块的功率；

所述通信模块还用于：

获取所述与会人员的人脸信息；所述与会人员的人脸信息包括所述与会人员的人脸关键点；

所述处理模块具体用于：所述终端设备确定获取的多媒体数据中的音频数据不包括人类语言，且多媒体数据中的视频数据中不包括与会人员的情况下，确定所述终端设备所在会场非发言人会场；

或者，

6.根据权利要求5所述的终端设备，其特征在于，

所述处理模块还用于：在所述终端设备接入视频会议的过程中，接收人脸图像的录入指令；响应于所述录入指令，控制图像采集装置采集所述与会人员的人脸信息；

或者，

所述通信模块还用于：在所述终端设备接入视频会议的过程中，向所述服务器发送请求消息；所述请求消息用于所述服务器向所述终端设备发送所述与会人员的人脸信息；

接收所述服务器发送的所述与会人员的人脸信息。

7.根据权利要求5或6所述的终端设备，其特征在于，所述处理模块具体用于：

关闭向所述服务器发送所述多媒体数据的传输通道。

8.根据权利要求5或6所述的终端设备，其特征在于，所述处理模块具体用于：

从待发送数据中删除所述多媒体数据；所述待发送数据为所述终端设备中等待向所述服务器发送的数据。

9.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述处理器用于调用所述存储器中的计算机程序，以执行如权利要求1-4中任一项所述的视频会议控制方法中所述终端设备所执行的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在终端设备上运行时，使得所述终端设备执行如权利要求1-4中任一项所述的视频会议控制方法中所述终端设备所执行的步骤。