CN115988164A

CN115988164A - 一种会议室多媒体控制方法、系统及计算机设备

Info

Publication number: CN115988164A
Application number: CN202211541731.8A
Authority: CN
Inventors: 方斌; 段克; 范仁亮; 黄伟; 马起礼; 郑章劲
Original assignee: Beijing Shitong Science And Technology Co ltd
Current assignee: Beijing Shitong Science And Technology Co ltd
Priority date: 2022-12-03
Filing date: 2022-12-03
Publication date: 2023-04-18

Abstract

本申请涉及一种会议室多媒体控制方法、系统及计算机设备，属于多媒体控制技术领域，应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个会议室内的参会者；控制方法包括：接收用户发送的会议开始请求；实时获取每个图像采集设备采集的图像信息，并提取各个图像信息中参会者的人脸特征图像；根据各个参会者的人脸特征图像，识别各个参会者的发言状态并确定发言者；控制发言者对应的图像采集设备对发言者的人脸特征图像进行自动对焦，采集发言者的面部图像；控制发言者对应的音频采集设备采集发言者的音频信息；将发言者的面部图像和音频信息实时上传至网络在线会议。本申请具有提高会议体验感的效果。

Description

一种会议室多媒体控制方法、系统及计算机设备

技术领域

本申请涉及多媒体控制技术领域，尤其是涉及一种会议室多媒体控制方法、系统及计算机设备。

背景技术

随着科技与社会的飞速发展，人们在日常生活和工作中接触的信息量越来越大，因此人们之间的信息交流和沟通也就变得越来越频繁，越来越重要。而当今商务谈判、学术交流、产品演示、来宾会见等等会议都需要通过各种现代化音响、视频设备等多种多媒体设备实现。

由于人们的要求越来越高，简单的会议室已无法满足客户对高效率会议环境的要求，所以先进的会议环境控制系统是当今各行业会议室的必备系统。目前，在经济全球化及远程办公迅猛发展的时代，企业和员工的异地办公也成为了普遍现象，对于异地会议的需求也大幅度上升，而随着计算机、通讯、网络、多媒体监控等技术的快速发展和应用，使得会议室也可以与远方的会议室连接起来，召开或参加远程视音频会议。

针对上述中的相关技术，发明人发现相关技术中至少存在如下问题：在进行异地会议且有线上人员参会时，往往是通过摄像头对整个会议室进行摄像，并将摄像内容上传至网络在线会议，再通过线上人员的设备屏幕进行显示，但对于线上人员来说，当会议室内的参会人员发言时，线上人员往往无法直观地观察到会议室内当前发言者的神态表情，从而导致视频会议的互动性较差，降低了会议体验感。

发明内容

为了提高会议体验感，本申请提供了一种会议室多媒体控制方法、系统及计算机设备。

第一方面，本申请提供一种会议室多媒体控制方法，采用如下的技术方案：

一种会议室多媒体控制方法，应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个会议室内的参会者；所述控制方法包括：

接收用户发送的会议开始请求；

实时获取每个图像采集设备采集的图像信息，并提取各个所述图像信息中参会者的人脸特征图像；

根据各个所述参会者的人脸特征图像，识别各个所述参会者的发言状态并确定所述发言者；

控制所述发言者对应的图像采集设备对所述发言者的人脸特征图像进行自动对焦，采集所述发言者的面部图像；

控制所述发言者对应的音频采集设备采集所述发言者的音频信息；

将所述发言者的面部图像和音频信息实时上传至网络在线会议。

通过采用上述技术方案，在会议室内配置多个图像采集设备和音频采集设备，每个参会者均对应使用一个图像采集设备和一个音频采集设备，通过各个图像采集设备获取各个参会者的人脸特征图像，根据多个人脸特征图像确定其中的发言者；控制该发言者对应的图像采集设备对该发言者进行自动对焦，即可采集到该发言者清晰独立的面部图像，同时控制音频采集设备采集该发言者的音频信息，再将发言者的面部图像和音频信息实时上传至网络在线会议，通过线上人员的设备屏幕进行显示，线上人员即可直观地观察到会议室内当前发言者的神态表情，从而增强了视频会议的互动性，提高了会议体验感。

可选的，所述提取各个所述图像信息中参会者的人脸特征图像的具体步骤包括：

若提取到多个人脸特征图像，则分别对所述多个人脸特征图像的所占面积进行比较，并将所占面积最大的所述人脸特征图像与预设的参会人脸信息库中的人脸特征图像进行匹配，若匹配成功，则作为所述参会者的人脸特征图像进行提取。

通过采用上述技术方案，当在图像信息中提取到多个人脸特征图像时，则可能是相邻参会者之间距离较近或会议室内有其他人员走动的情况，通过选择所占面积最大的人脸特征图像与参会人脸信息库中的人脸特征图像进行匹配，并将匹配成功的人脸特征图像作为参会者的人脸特征图像，从而减少了参会者误识别的情况发生。

可选的，将所占面积最大的所述人脸特征图像与预设的参会人脸信息库中的人脸特征图像进行匹配的步骤包括：

将所述所占面积最大的人脸特征图像分别与参会人脸信息库中的各个人脸特征图像进行比对，若参会人脸信息库中存在比对结果大于或等于预设人脸相似度阈值的人脸特征图像，则为匹配成功。

通过采用上述技术方案，在会议开始前，可预先在参会人脸信息库内录入每个参会者的人脸特征图像，通过将提取到的所占面积最大的人脸特征图像与参会人脸信息库中的人脸特征图像进行相似度对比，从而即可进一步判断该提取到的人脸特征图像是否为参会者，进而提高了识别准确性。

可选的，识别各个所述参会者的发言状态并确定所述发言者的具体步骤包括：

根据所述参会者的人脸特征图像，判断所述人脸特征图像是否为正面人脸图像；

若是，则根据所述人脸特征图像，提取唇动特征；

判断所述唇动特征是否满足预设条件，若是，则确定所述参会者的发言状态为发言中，并将所述参会者作为所述发言者。

通过采用上述技术方案，在得到参会人员的人脸特征图像后，先判断是否为正面人脸图像，若是，则提取唇动特征并判断是否满足预设条件，即可根据嘴唇状态判断发言状态；当参会者在发言时，通常正对图像采集设备，因此先进行正面人脸图像的识别，再判断参会者的发言状态，从而不仅有效减少了参会者在左右交头接耳交流时被识别为发言者的情况，还能一定程度地避免会议室的噪声干扰导致发言者识别错误，提高了发言者的识别准确度。

可选的，控制所述发言者对应的音频采集设备采集所述发言者的音频信息之后，还包括：

根据所述发言者的音频信息，对所述音频信息进行实时语音识别，得到语音文本；

基于预设的语义识别模型，对所述语音文本进行语义分析；

判断所述语音文本与预设的发言结束关键词的语义相似度是否超过预设语义相似度阈值，若是，则控制所述发言者对应的音频采集设备关闭；

返回至所述识别各个所述参会者的发言状态并确定所述发言者的步骤。

通过采用上述技术方案，对发言者的音频信息进行实时语音识别，当某位发言者发言结束时，通过识别发言内容中是否存在与预设的发言结束关键词相似的发言内容，即可判断该发言者的发言是否结束，从而便于自动切换并识别下一位发言者，提高了参会人员的参会体验感。

可选的，将所述发言者的面部图像和音频信息实时上传至网络在线会议之后，还包括：

根据所述发言者的面部图像，基于预设的参会人脸信息库，确定所述发言者的身份信息；

根据所述发言者的音频信息进行语音识别，并生成文本信息；

根据所述发言者的身份信息对所述文本信息进行标注，并存储至会议发言纪要。

通过采用上述技术方案，根据发言者的面部图像确定发言者的身份信息，再根据发言者的音频信息生成文本信息，利用身份信息对该文本信息进行标注，并存储至会议发言纪要，从而便于会后进行追溯，保证了会议内容的有效记录，同时减少了人工记录的繁琐和出错情况。

第二方面，本申请提供一种会议室多媒体控制系统，采用如下的技术方案：

一种会议室多媒体控制系统，应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个会议室内的参会者，所述控制系统包括，

会议开始请求接收模块，用于接收用户发送的会议开始请求；

人脸特征图像提取模块，用于实时获取每个图像采集设备采集的图像信息，并提取各个所述图像信息中参会者的人脸特征图像；

发言者确定模块，用于根据各个所述参会者的人脸特征图像，识别各个所述参会者的发言状态并确定所述发言者；

图像采集控制模块，用于控制所述发言者对应的图像采集设备对所述发言者的人脸特征图像进行自动对焦，采集所述发言者的面部图像；

音频采集控制模块，控制所述发言者对应的音频采集设备采集所述发言者的音频信息；

实时上传模块，用于将所述发言者的面部图像和音频信息实时上传至网络在线会议。

可选的，所述控制系统还包括，

身份信息确定模块，用于根据所述发言者的面部图像，基于预设的参会人脸信息库，确定所述发言者的身份信息；

文本信息生成模块，用于根据所述发言者的音频信息进行语音识别，并生成文本信息；

存储模块，用于根据所述发言者的身份信息对所述文本信息进行标注，并存储至会议发言纪要。

第三方面，本申请提供一种计算机设备，采用如下的技术方案：

一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面中任一种方法的计算机程序。

综上所述，本申请包括以下至少一种有益技术效果：通过各个图像采集设备获取各个参会者的人脸特征图像，根据多个人脸特征图像确定其中的发言者；控制该发言者对应的图像采集设备对该发言者进行自动对焦，即可采集到该发言者清晰独立的面部图像，同时控制音频采集设备采集该发言者的音频信息，再将发言者的面部图像和音频信息实时上传至网络在线会议，通过线上人员的设备屏幕进行显示，线上人员即可直观地观察到会议室内当前发言者的神态表情，从而增强了视频会议的互动性，提高了会议体验感，能够满足现代化会议室的各种智能化要求，达到提高会议质量和效率的目的。

附图说明

图1是本申请其中一实施例的会议室多媒体控制方法的流程示意图。

图2是本申请另一实施例的会议室多媒体控制方法的流程示意图。

图3是本申请又一实施例的会议室多媒体控制方法的流程示意图。

图4是本申请其中一实施例的会议室多媒体控制系统的结构框图。

图5是本申请另一实施例的会议室多媒体控制系统的结构框图。

附图标记说明：101、会议开始请求接收模块；102、人脸特征图像提取模块；103、发言者确定模块；104、图像采集控制模块；105、音频采集控制模块；106、实时上传模块；107、身份信息确定模块；108、文本信息生成模块；109、存储模块。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图1-5及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例公开一种会议室多媒体控制方法。

一种会议室多媒体控制方法，应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个会议室内的参会者；

其中，图像采集设备可采用摄像头，音频采集设备可采用麦克风，每个会议室内的参会者均对应使用一个摄像头和一个麦克风；

参照图1，控制方法包括：

步骤S101，接收用户发送的会议开始请求；

其中，在确定会议室内的所有参会者均到场后，用户可通过发送会议开始请求触发会议开始命令；

步骤S102，实时获取每个图像采集设备采集的图像信息，并提取各个图像信息中参会者的人脸特征图像；

其中，会议室内的每个参会者面前均设置有图像采集设备，以便于采集每个参会者的人脸信息；

步骤S103，根据各个参会者的人脸特征图像，识别各个参会者的发言状态并确定发言者；

其中，发言者即为当前正处于发言中的参会者；

步骤S104，控制发言者对应的图像采集设备对发言者的人脸特征图像进行自动对焦，采集发言者的面部图像；

其中，摄像头上可配置有红外测距传感器，在确定发言者后，通过红外测距传感器测量发言者与摄像头之间的距离，再根据该距离对摄像头的焦距进行调整，使得采集到的发言者面部图像更加清晰；

步骤S105，控制发言者对应的音频采集设备采集发言者的音频信息；

步骤S106，将发言者的面部图像和音频信息实时上传至网络在线会议。

可以理解的是，会议室内可预先配置有多个摄像头和麦克风，所有的摄像头与麦克风均与会议室内的主机服务器连接，主机服务器则通过互联网连接到网络在线会议，异地的线上人员均可通过互联网进入网络在线会议；在进行异地会议时，主机服务器通过将摄像头和麦克风采集的视音频信息上传至网络在线会议，以满足远程视音频会议的需求。

上述实施方式中，通过各个图像采集设备获取各个参会者的人脸特征图像，根据多个人脸特征图像确定其中的发言者；控制该发言者对应的图像采集设备对该发言者进行自动对焦，即可采集到该发言者清晰独立的面部图像，同时控制音频采集设备采集该发言者的音频信息，再将发言者的面部图像和音频信息实时上传至网络在线会议，通过线上人员的设备屏幕进行显示，线上人员即可直观地观察到会议室内当前发言者的神态表情，从而增强了视频会议的互动性，提高了会议体验感，能够满足现代化会议室的各种智能化要求，达到提高会议质量和效率的目的。

需要说明的是，步骤S104和步骤S105在执行时可不区分先后顺序，即步骤S104可以先执行，也可以后执行，也可以与步骤S105同时执行，本申请实施例不做限定。

作为步骤S102中提取各个图像信息中参会者的人脸特征图像的一种实施方式，具体步骤包括：

若提取到多个人脸特征图像，则分别对多个人脸特征图像的所占面积进行比较，并将所占面积最大的人脸特征图像与预设的参会人脸信息库中的人脸特征图像进行匹配，若匹配成功，则作为参会者的人脸特征图像进行提取。

其中，参会人脸信息库包括预先录入的每个参会者的人脸特征图像，在会议开始前，可在会议室门口设置人脸采集设备，从而预先将各个参会者的人脸特征图像录入至参会人脸信息库内。

上述实施方式中，当在图像信息中提取到多个人脸特征图像时，则可能是相邻参会者之间距离较近或会议室内有其他人员走动的情况，通过选择所占面积最大的人脸特征图像与参会人脸信息库中的人脸特征图像进行匹配，并将匹配成功的人脸特征图像作为参会者的人脸特征图像，从而减少了参会者误识别的情况发生。

作为将所占面积最大的人脸特征图像与预设的参会人脸信息库中的人脸特征图像进行匹配的一种实施方式，具体步骤包括：

将所占面积最大的人脸特征图像分别与参会人脸信息库中的各个人脸特征图像进行比对，若参会人脸信息库中存在比对结果大于或等于预设人脸相似度阈值的人脸特征图像，则为匹配成功。

其中，该预设人脸相似度阈值可预先进行设置，当参会人脸信息库中存在满足该预设人脸相似度阈值的人脸特征图像时，即为匹配成功。

上述实施方式中，通过将提取到的所占面积最大的人脸特征图像与参会人脸信息库中的人脸特征图像进行相似度对比，从而即可进一步判断该提取到的人脸特征图像是否为参会者，进而提高了识别准确性。

参照图2，作为步骤S103中识别各个参会者的发言状态并确定发言者的一种实施方式，具体步骤包括：

步骤S1031，根据参会者的人脸特征图像；

步骤S1032，判断人脸特征图像是否为正面人脸图像；若是，则执行步骤S1033；

步骤S1033，根据人脸特征图像，提取唇动特征；

其中，唇动特征即为发言者的嘴唇状态特征，包括嘴唇张开、嘴唇闭合、嘴唇有规律地张开与闭合均属于嘴唇状态特征；

步骤S1034，判断唇动特征是否满足预设条件，若是，则执行步骤S1034；

其中，该预设条件可设置为嘴唇有规律地张开与闭合，当参会者的唇动特征满足预设条件时，发言状态即为发言中；未满足预设条件时，发言状态则为未发言。

步骤S1035，确定参会者的发言状态为发言中，并将参会者作为发言者。

上述实施方式中，在得到参会人员的人脸特征图像后，先判断是否为正面人脸图像，若是，则提取唇动特征并判断是否满足预设条件，即可根据嘴唇状态判断发言状态；当参会者在发言时，通常正对图像采集设备，因此先进行正面人脸图像的识别，再判断参会者的发言状态，从而不仅有效减少了参会者在左右交头接耳交流时被识别为发言者的情况，还能一定程度地避免会议室的噪声干扰导致发言者识别错误，提高了发言者的识别准确度。

另外，作为步骤S1031中判断人脸特征图像是否为正面人脸图像的其中一种实施方式，具体步骤包括：

将人脸特征图像进行眼睛检测，若检测到眼睛，则判断人脸特征图像为正面人脸图像；若未检测到眼睛，则将人脸特征图像进行鼻子检测和嘴巴检测；若检测到鼻子和嘴巴，则判断人脸特征图像为正面人脸图像。

作为步骤S1031中判断人脸特征图像是否为正面人脸图像的另一种实施方式，还可通过卷积神经网络构造人脸的正侧面分类模型，通过正侧面分类模型即可判断所获取的人脸特征图像为正面人脸图像或侧面人脸图像。

作为会议室多媒体控制方法进一步的实施方式，在步骤S105控制发言者对应的音频采集设备采集发言者的音频信息之后，还包括：

根据发言者的音频信息，对音频信息进行实时语音识别，得到语音文本；

基于预设的语义识别模型，对语音文本进行语义分析；

其中，预设的语义识别模型可以为预先训练的能够适应发言结束场景的语音文本含义的语义识别模型；

判断语音文本与预设的发言结束关键词的语义相似度是否超过预设语义相似度阈值，若是，则控制发言者对应的音频采集设备关闭；

其中，预设语义相似度阈值可根据实际情况进行预先设置，发言结束关键词可设置为“发言完毕”、“发言结束”等等；

返回至步骤S103中识别各个参会者的发言状态并确定发言者的步骤。

上述实施方式中，对发言者的音频信息进行实时语音识别，当某位发言者发言结束时，通过识别发言内容中是否存在与预设的发言结束关键词相似的发言内容，即可判断该发言者的发言是否结束，从而便于自动切换并识别下一位发言者，提高了参会人员的参会体验感。

需要说明的是，为了降低识别要求，本申请实施例通过设置语义识别模型进行语义识别，能够在发言者的发言内容中不包括发言结束关键词时，通过识别发言内容的含义，判断与发言结束关键词之间的语义相似度，从而增加了发言内容的识别准确性。

参照图3，作为会议室多媒体控制方法进一步的实施方式，在步骤S106中将发言者的面部图像和音频信息实时上传至网络在线会议之后，还包括：

步骤S107，根据发言者的面部图像，基于预设的参会人脸信息库，确定发言者的身份信息；

其中，发言者的身份信息可以包括发言者的姓名、职级、所在部门等；

步骤S108，根据发言者的音频信息进行语音识别，并生成文本信息；

步骤S109，根据发言者的身份信息对文本信息进行标注，并存储至会议发言纪要。

上述实施方式中，利用身份信息对发言者的发言内容进行标注，并存储至会议发言纪要，从而便于会后进行追溯，保证了会议内容的有效记录，同时减少了人工记录的繁琐和出错情况。

需要说明的是，在对发言者的音频信息进行语音识别时，可先对音频信息进行降噪处理和回音消除，得到降噪后的语音数据，再利用预构建的语音转文本工具对降噪后的语音数据进行识别，即可得到文本信息，从而提高了语音识别的准确性。

参照图4，本申请实施例还公开一种会议室多媒体控制系统。

一种会议室多媒体控制系统，应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个参会者；控制系统包括，

会议开始请求接收模块101，用于接收用户发送的会议开始请求；

人脸特征图像提取模块102，用于实时获取每个图像采集设备采集的图像信息，并提取各个图像信息中参会者的人脸特征图像；

发言者确定模块103，用于根据各个参会者的人脸特征图像，识别各个参会者的发言状态并确定发言者；

图像采集控制模块104，分别连接于会议室内的多个图像采集设备，用于控制发言者对应的图像采集设备对发言者的人脸特征图像进行自动对焦，采集发言者的面部图像；

音频采集控制模块105，分别连接于会议室内的多个音频采集设备，控制发言者对应的音频采集设备采集发言者的音频信息；

实时上传模块106，用于将发言者的面部图像和音频信息实时上传至网络在线会议。

上述实施方式中，在会议室内配置多个图像采集设备和音频采集设备，每个参会者均对应使用一个图像采集设备和一个音频采集设备，通过各个图像采集设备获取各个参会者的人脸特征图像，根据多个人脸特征图像确定其中的发言者；控制该发言者对应的图像采集设备对该发言者进行自动对焦，即可采集到该发言者清晰独立的面部图像，同时控制音频采集设备采集该发言者的音频信息，再将发言者的面部图像和音频信息实时上传至网络在线会议，通过线上人员的设备屏幕进行显示，线上人员即可直观地观察到会议室内当前发言者的神态表情，从而增强了视频会议的互动性，提高了会议体验感。

作为控制系统进一步的实施方式，控制系统还包括，

语音识别模块，用于根据发言者的音频信息，对音频信息进行实时语音识别，得到语音文本；

语义分析模块，用于基于预设的语义识别模型，对语音文本进行语义分析；

语义相似度判断模块，用于判断语音文本与预设的发言结束关键词的语义相似度是否超过预设语义相似度阈值，若是，则输出第一判断结果；

音频采集控制模块105，还用于响应于第一判断结果，控制发言者对应的音频采集设备关闭。

参照图5，作为控制系统进一步的实施方式，控制系统还包括，

身份信息确定模块107，用于根据发言者的面部图像，基于预设的参会人脸信息库，确定发言者的身份信息；

文本信息生成模块108，用于根据发言者的音频信息进行语音识别，并生成文本信息；

存储模块109，用于根据发言者的身份信息对文本信息进行标注，并存储至会议发言纪要。

上述实施方式中，利用身份信息对各个发言者的发言内容进行标注，并存储至会议发言纪要，从而便于会后进行追溯，保证了会议内容的有效记录，同时减少了人工记录的繁琐和出错情况。

本申请实施例的会议室多媒体控制系统能够实现上述会议室多媒体控制方法的任一种方法，且会议室多媒体控制系统中各个模块的具体工作过程可参考上述方法实施例中的对应过程。

在本申请所提供的几个实施例中，应该理解到，所提供的方法和系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的；例如，某个模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例还公开一种计算机设备。

计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的会议室多媒体控制方法。

本申请实施例还公开一种计算机可读存储介质。

计算机可读存储介质，存储有能够被处理器加载并执行如上述的会议室多媒体控制方法中任一种方法的计算机程序。

其中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

需要说明的是，在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种会议室多媒体控制方法，其特征在于，应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个会议室内的参会者；所述控制方法包括：

接收用户发送的会议开始请求；

2.根据权利要求1所述的一种会议室多媒体控制方法，其特征在于，所述提取各个所述图像信息中参会者的人脸特征图像的具体步骤包括：

3.根据权利要求2所述的一种会议室多媒体控制方法，其特征在于，将所占面积最大的所述人脸特征图像与预设的参会人脸信息库中的人脸特征图像进行匹配的步骤包括：

4.根据权利要求1所述的一种会议室多媒体控制方法，其特征在于，识别各个所述参会者的发言状态并确定所述发言者的具体步骤包括：

若是，则根据所述人脸特征图像，提取唇动特征；

5.根据权利要求1所述的一种会议室多媒体控制方法，其特征在于：控制所述发言者对应的音频采集设备采集所述发言者的音频信息之后，还包括：

基于预设的语义识别模型，对所述语音文本进行语义分析；

6.根据权利要求1到5任一所述的一种会议室多媒体控制方法，其特征在于，将所述发言者的面部图像和音频信息实时上传至网络在线会议之后，还包括：

7.一种会议室多媒体控制系统，其特征在于：应用于配置有多个音频采集设备和图像采集设备的会议室，每个图像采集设备和音频采集设备对应一个会议室内的参会者，所述控制系统包括，

会议开始请求接收模块（101），用于接收用户发送的会议开始请求；

人脸特征图像提取模块（102），用于实时获取每个图像采集设备采集的图像信息，并提取各个所述图像信息中参会者的人脸特征图像；

发言者确定模块（103），用于根据各个所述参会者的人脸特征图像，识别各个所述参会者的发言状态并确定所述发言者；

图像采集控制模块（104），用于控制所述发言者对应的图像采集设备对所述发言者的人脸特征图像进行自动对焦，采集所述发言者的面部图像；

音频采集控制模块（105），控制所述发言者对应的音频采集设备采集所述发言者的音频信息；

实时上传模块（106），用于将所述发言者的面部图像和音频信息实时上传至网络在线会议。

8.根据权利要求7所述的一种会议室多媒体控制系统，其特征在于：所述控制系统还包括，

身份信息确定模块（107），用于根据所述发言者的面部图像，基于预设的参会人脸信息库，确定所述发言者的身份信息；

文本信息生成模块（108），用于根据所述发言者的音频信息进行语音识别，并生成文本信息；

存储模块（109），用于根据所述发言者的身份信息对所述文本信息进行标注，并存储至会议发言纪要。

9.一种计算机设备，其特征在于：包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1到6任一所述的方法。

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1到6任一项方法步骤的计算机程序。