CN116074629A

CN116074629A - 一种基于多模态数据的视频会议发言人跟踪装置、系统及方法

Info

Publication number: CN116074629A
Application number: CN202211601679.0A
Authority: CN
Inventors: 杨家荣; 解永良; 陈虢; 许荣再
Original assignee: Xiamen Hualian Electronics Co Ltd
Current assignee: Xiamen Hualian Electronics Co Ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-05-05

Abstract

本发明公开了一种基于多模态数据的视频会议发言人跟踪装置、系统及方法，其中，人员信息加载单元加载并输出人员结构化数据；数据融合分析单元获取在视频会议过程中实时获取视频会议设备采集到的视频会议信息和文本信息，并进行人脸图像特征分析和/或对文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息；会议信息处理单元对确定的发言人图像信息及身份信息进行处理以生成控制指令，使视频会议设备响应该控制指令对发言人进行实时的图像采集和显示。通过本发明，实现图像、语音、文本多模态数据融合进行目标定位，以完成视频会议中的发言人识别及图像跟踪效果。

Description

一种基于多模态数据的视频会议发言人跟踪装置、系统及方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于多模态数据的视频会议发言人跟踪装置、系统及方法。

背景技术

随着网络科技的快速发展，视频会议、视频教学、可视电话等双向通信在用户的生活、工作、学习等方面广泛普及。

视频会议，是指位于两个或多个地点的人脉，通过通信设备和网络，进行面对面交谈的会议。根据参会地点数目不同，视频会议可分为点对点会议和多点会议。

通常在视频会议过程中，需要对发言人进行镜头跟踪。现有技术中，一种处理方案是：通常是在视频会议过程中，由专门的会议记录人员人工记录会议发言人的信息，也就是说，需要会议记录人员工人分析发言人是谁，然后控制视频会议镜头对准发言人员进行录像跟踪；这种处理方案，要求会议记录人员需要一直在会议现场，限制性较大，如果在切换发言人的情况下也可能会由于未及时处理而出现错误；因此，该种处理方案需要人为干预、费时费力、效率较低、容易出错；另一种处理方案是：通过全向拾音、声源定位来分析发言人的位置，以实现镜头跟踪；这种处理方案，虽然能够在一定程度上实现发言人位置的锁定，但是，无法识别发言人身份信息；仍然需要会议记录人员进行现场的识别与分析。

发明内容

本发明的目的在于提供一种基于多模态数据的视频会议发言人跟踪装置、系统及方法，以解决上述现有技术中存在的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于多模态数据的视频会议发言人跟踪装置，包括：人员信息加载单元，用于加载并输出人员结构化数据；其中，所述人员结构化数据为包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；数据融合分析单元，与视频会议设备、文本数据库、语音识别服务器、以及所述人员信息加载单元分别建立通信连接，用于：获取所述人员信息加载单元输出的人员结构化数据；在视频会议过程中实时获取所述视频会议设备每个图像采集单元采集到的视频会议信息，以及所述语音识别服务器发送的文本信息；以及对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，并结合所述人员结构化数据确定发言人的图像信息及其对应的身份信息；其中，所述文本信息为所述语音识别服务器实时地将所述视频会议设备采集到的语音信息进行识别生成；会议信息处理单元，与视频会议设备、数据融合分析单元分别建立通信连接，用于对所述数据融合分析单元确定的发言人的图像信息及其对应的身份信息进行处理，以生成对应的控制指令，使得所述视频会议设备响应所述控制指令对准确所述发言人以实时采集、显示发言人的图像信息。

其中，所述数据融合分析单元包括：人脸检测模块，用于对所述图像采集单元采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；人脸特征检测模块，用于对所述人员结构化数据中的人脸图像进行人脸特征分析，以得到对应的第一人脸特征数据；以及遍历所述人脸检测模块确定的人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；身份识别模块，用于：调用所述人员结构化数据；将所述人脸特征检测模块检测分析得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算；判断所述距离值是否大于第二阈值；以及在所述距离值不大于所述第二阈值时，根据对应的人员结构化数据确定所述图像采集单元采集到的人脸图像所对应的人员身份；敏感词提取模块，用于：调取文本数据库中预先保存的关键词文本数据集；以及基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词；其中，所述关键词文本数据集包括前导关键词、后导关键词；敏感词匹配模块，用于获取所述数据融合分析单元生成的人员结构化数据，将所述关键词提取模块获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；若是，则根据所述匹配结果对应的结构化数据确定发言人的身份；发言人确认模块，用于根据所述身份识别模块对所述视频会议信息进行的人脸图像特征分析的结果、以及所述敏感词匹配模块对所述文本信息进行的敏感词提取匹配的结果，以确定发言人的人脸图像及其对应的身份信息。

其中，所述数据融合分析单元还包括：关键词拆分模块，用于：当所述敏感词匹配模块确定没有匹配结果时，将所述关键词进行拆分以分别与所述人员结构化数据进行拆分匹配，以判断是否有匹配结果；以及

当判断有匹配结果时，根据所述匹配结果对应的结构化数据确定发言人的身份。

其中，所述敏感词提取模块，用于：依据所述关键词文本数据集，对所述语音识别服务器发送的文本信息进行分析，提取所述文本信息中的关键词；依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；以及提取所述文本信息中位于所述前导关键词、后导关键词之间的文本，以得到所述敏感词文本。

其中，当所述敏感词提取模块提取所述文本信息中的关键词包含多个前导关键词、后导关键词时，分别提取所述文本信息中位于相邻前导关键词和后导关键词之间的敏感词文本，按照在所述文本信息中的位置由前到后进行排序，并将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

其中，当所述敏感词提取模块提取所述文本信息中位于所述前导关键词、后导关键词之间的文本得到多个敏感词文本时，按照在所述文本信息中的位置由前到后进行排序，将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

其中，所述数据融合分析单元包括：人脸检测模块，用于对所述图像采集单元采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；人脸特征检测模块，用于：对所述人员结构化数据中的人脸图像进行人脸特征分析，以得到对应的第一人脸特征数据；遍历所述人脸检测模块确定的人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；以及分析所述第二人脸特征数据中的嘴部特征数据，以计算嘴部的高度与长度的比值x，并根据所述比值x确定对应人员的嘴部状态；其中，当x<a时，确定对应人员的嘴部状态为闭嘴；当a≤x<b时，确定对应人员的嘴部状态为正常张嘴；当b≤x<c时，确定对应人员的嘴部状态为较大程度张嘴；a、b、c为预设值；以及对连续预设时间段内的确定的嘴部状态进行分析，以判断嘴部状态变化次数是否不小于第一阈值，并在确定嘴部状态变化次数不小于所述第一阈值时，判断对应人员为疑似发言者；身份识别模块，用于：调用所述人员结构化数据；将所述人脸特征检测模块检测分析得到的所述疑似发言者的第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算；以及判断所述距离值是否大于第二阈值；若否，则根据对应的人员结构化数据确定所述图像采集单元采集到的人脸图像所对应的人员身份，以得到所述疑似发言者的人员身份；发言人确认模块，用于根据所述身份识别模块得到的所述疑似发言者的人员身份，以及根据语音采集单元在所述连续预设时间段内是否采集到语音信息，以确定所述疑似发言者是否为发言人；若是，则确定所述疑似发言者为发言人，同时得到所述发言人对应的人脸图像及其身份信息。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于多模态数据的视频会议发言人跟踪系统，包括多个视频会议设备、数据库；所述视频会议设备，包括：显示单元，用于显示视频会议画面；图像采集单元，用于采集参与视频会议的现场人员图像及会议现场的图像；语音采集单元，用于采集视频会议现场的音频信息；其特征在于，所述数据库，包括人员信息数据库，用于预先保存人员结构化数据；其中，所述人员结构化数据为包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；所述系统还包括如上所述的基于多模态数据的视频会议发言人跟踪装置、以及语音识别服务器；所述语音识别服务器，用于实时地将所述视频会议设备采集到的语音信息进行识别以生成相应的文本信息；所述视频会议发言人跟踪装置，用于在视频会议过程中获取每个所述视频会议设备采集到的视频会议信息，并根据所述人员辅助信息与所述文本信息，对所述视频会议信息进行分析处理以确定发言人及其画面位置，并向所述视频会议设备输出相应的控制指令以显示所述发言人及其画面。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于多模态数据的视频会议发言人跟踪方法，所述方法包括：视频会议发言人跟踪装置加载并输出人员结构化数据；其中，所述人员结构化数据包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；所述视频会议发言人跟踪装置接收由视频会议设备在视频会议过程中实时获取到的视频会议信息，以及语音识别服务器识别到的文本信息；其中，所述文本信息为所述语音识别服务器实时地将所述视频会议设备采集到的语音信息进行识别生成；所述视频会议发言人跟踪装置对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息；以及所述视频会议发言人跟踪装置实时地将确定的发言人的图像信息及其对应的身份信息发送至所述视频会议设备以在其显示单元显示所述图像信息和身份信息。

其中，所述视频会议发言人跟踪装置对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体包括：所述视频会议发言人跟踪装置对所述人员结构化数据中的人脸图像进行人脸特征分析、检测，以得到对应的第一人脸特征数据；所述视频会议发言人跟踪装置对所述视频会议设备的图像采集单元采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；所述视频会议发言人跟踪装置遍历确定的所述人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；所述视频会议发言人跟踪装置调用所述人员结构化数据，将检测得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第二阈值；若所述距离值不大于第二阈值时，所述视频会议发言人跟踪装置根据对应的人员结构化数据确定所述视频会议设备采集到的人脸图像所对应的人员身份；所述视频会议发言人跟踪装置调取文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词；所述视频会议发言人跟踪装置获取所述人员结构化数据，将获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；若有匹配结果时，所述视频会议发言人跟踪装置根据所述匹配结果对应的结构化数据确定发言人的身份。

其中，所述视频会议发言人跟踪装置调取所述文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体包括：所述视频会议发言人跟踪装置依据所述关键词文本数据集，对所述语音识别服务器发送的文本信息进行分析，提取所述文本信息中的关键词；所述视频会议发言人跟踪装置依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；所述视频会议发言人跟踪装置提取所述文本信息中位于所述前导关键词、后导关键词之间的文本，以得到所述敏感词文本。

其中，所述视频会议发言人跟踪装置调取所述文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体包括：所述视频会议发言人跟踪装置依据所述关键词文本数据集，对所述语音识别服务器发送的文本信息进行分析，提取所述文本信息中的关键词；所述视频会议发言人跟踪装置依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；其中，所述文本信息中的关键词包含多个前导关键词、后导关键词；所述视频会议发言人跟踪装置分别提取所述文本信息中位于相邻前导关键词和后导关键词之间的敏感词文本，按照在所述文本信息中的位置由前到后进行排序，并将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

其中，所述视频会议发言人跟踪装置调取所述文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体包括：所述视频会议发言人跟踪装置依据所述关键词文本数据集，对所述语音识别服务器发送的文本信息进行分析，提取所述文本信息中的关键词；所述视频会议发言人跟踪装置依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；所述视频会议发言人跟踪装置提取所述文本信息中位于相邻前导关键词和后导关键词之间的多个敏感词文本，按照在所述文本信息中的位置由前到后进行排序，将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

其中，当所述视频会议发言人跟踪装置判断获取到的敏感词与所述人员结构化数据没有全匹配结果时，所述方法还包括：所述视频会议发言人跟踪装置将所述关键词进行拆分以分别与所述人员结构化数据进行拆分匹配，以判断是否有匹配结果；若是，则执行所述视频会议发言人跟踪装置根据所述匹配结果对应的结构化数据确定发言人的身份。

其中，所述视频会议发言人跟踪装置对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体包括：所述视频会议发言人跟踪装置对所述人员结构化数据中的人脸图像进行人脸特征分析，以得到对应的第一人脸特征数据；所述视频会议发言人跟踪装置对所述视频会议设备的图像采集单元采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；所述视频会议发言人跟踪装置遍历确定的所述人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；所述视频会议发言人跟踪装置分析所述第二人脸特征数据中的嘴部特征数据，以计算嘴部的高度与长度的比值x，以根据所述比值x确定对应人员的嘴部状态；其中，当x<a时，确定对应人员的嘴部状态为闭嘴；当a≤x<b时，确定对应人员的嘴部状态为正常张嘴；当b≤x<c时，确定对应人员的嘴部状态为较大程度张嘴；a、b、c为预设值；所述视频会议发言人跟踪装置对连续预设时间段内的确定的嘴部状态进行分析，以判断嘴部状态变化次数是否不小于第一阈值；若是，则判断对应人员为疑似发言者；所述视频会议发言人跟踪装置调用所述人员结构化数据，将分析得到的所述第疑似发言者的第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第二阈值；若否，则所述视频会议发言人跟踪装置根据对应的人员结构化数据确定所述图像采集单元采集到的人脸图像所对应的人员身份，以得到所述疑似发言者的人员身份；所述视频会议发言人跟踪装置根据所述疑似发言者的人员身份，以及根据语音采集单元在所述连续预设时间段内是否采集到语音信息，以确定所述疑似发言者是否为发言人；若是，则确定所述疑似发言者为发言人，同时得到所述发言人对应的人脸图像及其身份信息；以及所述视频会议发言人跟踪装置实时地将所述发言人的人脸图像及身份信息发送至视频会议设备以在其显示单元显示人脸图像和身份信息。

本发明的有益效果是：区别于现有技术的情况，本发明提供的一种基于多模态数据的视频会议发言人跟踪装置、系统及方法，通过对视频会议设备采集到的视频会议画面图像、语音、语音识别服务器对音频信息识别转换生成的文本信息的输入，并结合参会人员的结构化信息，融合多模态数据识别人物、分析口部特征、语音文本转录、文本数据分析，最终输出发言人位置信息，控制视频会议设备跟踪发言人，实现图像、语音、文本多模态数据融合进行目标定位，以完成视频会议中的发言人识别及图像跟踪效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式中的一种基于多模态数据的视频会议发言人跟踪系统的结构示意图；

图2是图1所示的数据融合分析理单元的结构示意图；

图3是本发明实施方式中的人员结构化数据的数据结构示意图；

图4是本发明第一实施方式中一种基于多模态数据的视频会议发言人跟踪方法的流程示意图；

图5是本发明第二实施方式中一种基于多模态数据的视频会议发言人跟踪方法的流程示意图；

图6是图5所示的步骤S436的第一实施方式中的具体实现方法的流程示意图；

图7是图5所示的步骤S436的第二实施方式中的具体实现方法的流程示意图；

图8是图5所示的步骤S436的第三实施方式中的具体实现方法的流程示意图；

图9是本发明第三实施方式中一种基于多模态数据的视频会议发言人跟踪方法的流程示意图

图10是本发明第四实施方式中一种基于多模态数据的视频会议发言人跟踪方法的流程示意图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施方式，对本发明进行更详细的说明。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，为本发明实施方式中的一种基于多模态数据的视频会议发言人跟踪系统的结构示意图。其中，所述系统10包括：多个视频会议设备20、视频会议发言人跟踪装置30、数据库40、以及语音识别服务器50。其中，所述视频会议设备20、数据库40、语音识别服务器50均通过网络与所述视频会议发言人跟踪装置30建立连接。

所述数据库40用于预先保存人员辅助信息；其中，所述人员辅助信息至少包括：人脸图像、姓名、职务。

所述语音识别服务器50用于实时地将所述视频会议设备20采集到的语音信息进行识别以生成相应的文本信息，并发送所述文本信息至所述视频会议发言人跟踪装置30。

所述视频会议发言人跟踪装置30用于在视频会议过程中获取每个所述视频会议设备20采集到的视频会议信息，并根据所述人员辅助信息与所述文本信息，对所述视频会议信息进行分析处理以确定发言人及其画面位置，并向所述视频会议设备20输出相应的控制指令以显示所述发言人及其画面。

所述视频会议设备20包括：

显示单元21，用于显示视频会议画面；在本实施方式中，所述显示单元21可以是计算机/笔记本电脑的显示屏、投影仪等具备画面图像显示功能的设备。

图像采集单元22，用于采集参与视频会议的现场人员图像及会议现场的图像；其中，在同一会议现场中可以由多个现场人员参与，一场视频会议可以包含不同所在地的多个会议现场；在本实施方式中，所述图像采集单元22可以是计算机/笔记本电脑的摄像头、会议现场安装/配置的摄像机等。

语音采集单元23，用于采集视频会议现场的音频信息；在本实施方式中，所述语音采集单元23可以是计算机/笔记本电脑的麦克风、会议现场安装/配置的麦克风等。

进一步地，所述语音识别服务器50与所述语音采集单元23建立通信连接，用于实时地将所述语音采集单元23采集到的语音信息进行识别以转换成文本信息。具体地，所述语音识别服务器50提供语音文本转录接口，所述语音采集单元23采集语音并发送至所述语音识别服务器50，所述语音识别服务器50接收语音后将其转录成文本后实时发回本地，此时便能在开会录音的同时将对应的文本也进行同步记录。

所述数据库40包括：

人员信息数据库41，用于预先保存人员辅助信息；其中，所述人员辅助信息至少包括：人脸图像、姓名、性别、年龄、职称、职务、部门。

文本数据库42，用于预先保存关键词文本数据集；其中，所述关键词文本数据集包括前导关键词、后导关键词(具体使用原理将在下文进行详细描述)。

所述视频会议发言人跟踪装置30，包括：

人员信息加载单元31，用于加载并输出人员结构化数据；具体地，所述人员信息加载单元31与所述人员信息数据库41建立通信连接，访问所述人员信息数据库41以加载保存在所述人员信息数据库41中的人员结构化数据；在本实施方式中，所述人员信息加载单元31用于预先根据视频会议参与名单访问所述人员信息数据库41，以加载相应的人员结构化数据；其中，所述视频会议参与名单为视频会议的统筹人员预先输入至所述视频会议发言人跟踪装置30中。其中所述人员结构化数据为包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；请同时参阅图3，为本发明实施方式中的人员结构化数据的数据结构示意图；其中，所述人员结构化数据包含个人信息和工作信息，所述个人信息由姓名、年龄、性别、照片(即，人脸图像)组成，所述工作信息由职称、职务、所处部门组成；

数据融合分析单元32，分别与所述图像采集单元22、人员信息加载单元31、文本数据库42、以及语音识别服务器50建立通信连接，用于：

在视频会议过程中实时获取每个所述图像采集单元22采集到的视频会议信息，以及所述语音识别服务器50发送的文本信息；以及对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，并结合所述人员结构化数据确定发言人的图像信息及其对应的身份信息。

会议信息处理单元33，与所述图像采集单元22、数据融合分析单元32分别建立通信连接，用于：

对所述数据融合分析单元32确定的发言人的图像信息及其对应的身份信息进行处理，以生成对应的控制指令，使得所述图像采集单元22响应所述控制指令对准确所述发言人以实时采集发言人的图像信息；以及

对所述数据融合分析单元32确定的发言人的图像信息及其对应的身份信息进行处理，以生成相应的图像信息，使得所述显示单元21显示所述图像信息。

请参阅图2，为图1所示的数据融合分析单元32的功能模块示意图；具体地，所述数据融合分析单元32包括：

人脸特征检测模块322，用于对所述人员信息加载单元31加载的人员结构化数据中的人脸图像进行人脸特征分析、检测，以得到对应的第一人脸特征数据。其中，所述第一人脸特征数据被融合加入至对应的所述人员结构化数据中。

如此，所述视频会议发言人跟踪装置30会先对所有与会人员的照片进行提前录入，并提取每个与会人员的人脸特征，以得到一个包含所有与会人员人脸特征的特征库。

进一步地，所述数据融合分析单元32还包括：

人脸检测模块321，用于对所述图像采集单元22采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；具体地，所述人脸检测模块321使用人脸检测技术从图像中检测出人脸框的位置；

所述人脸特征检测模块322还用于：遍历所述人脸检测模块321确定的人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据。具体地，所述人脸特征检测模块322对所述人脸检测模块321检测得到的若干个人脸框进行人脸关键点的检测以得到所述第二人脸特征数据。

进一步地，所述数据融合分析单元32还包括：

身份识别模块323，用于：

调用所述人员结构化数据；

将所述人脸特征检测模块322检测分析得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算；

判断所述距离值是否大于第二阈值；若否，则根据对应的人员结构化数据确定所述图像采集单元22采集到的人脸图像所对应的人员身份；若是，则对应的人员结构化数据不是所述图像采集单元22采集到的人脸图像所对应的人员身份。

在本实施方式中，所述第二阈值为0.6。

例如，视频会议的与会人员包括三人，分别为p₁、p₂、p₃，所述人脸特征检测模块322先对这三人的照片进行提前录入和人脸特征识别，从而得到对应的人脸特征数据T₁、T₂、T₃，构成人脸特征库K。所述图像采集单元22会实时采集这三人的图像以供所述人脸特征检测模块322进行人脸特征提取，从而得到对应的人脸特征数据t₁、t₂、t₃。所述身份识别模块324将人脸特征数据t₁与特征库K中的人脸特征数据T₁、T₂、T₃分别进行人脸特征数据距离值的计算。若根据人脸特征数据t₁与人脸特征数据T₁计算出的距离值小于0.6，则人脸特征数据t₁所对应的人员身份p₁就是人脸特征数据T₁所述对应的人员身份。

进一步地，所述人脸特征检测模块322，还用于：

分析所述第二人脸特征数据中的嘴部特征数据，以计算嘴部的高度与长度的比值x，并根据所述比值x确定对应人员的嘴部状态；其中，当x<a时，确定对应人员的嘴部状态为闭嘴；当a≤x<b时，确定对应人员的嘴部状态为正常张嘴；当b≤x<c时，确定对应人员的嘴部状态为较大程度张嘴；a、b、c为预设值；以及

对连续预设时间段内的确定的嘴部状态进行分析，以判断嘴部状态变化次数是否不小于第一阈值，并在确定嘴部状态变化次数不小于所述第一阈值时，判断对应人员为疑似发言者；

进一步地，所述数据融合分析单元32还包括：

发言人确认模块324，用于根据所述身份识别模块323得到的所述疑似发言者的人员身份，以及根据语音采集单元23在所述连续预设时间段内是否采集到语音信息，以确定所述疑似发言者是否为发言人；若是，则确定所述疑似发言者为发言人，同时得到所述发言人对应的人脸图像及其身份信息。

进一步地，所述数据融合分析单元32还包括：

敏感词提取模块325，用于调取所述文本数据库42中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器50发送的文本信息进行分析，以提取所述文本信息中的敏感词。在本实施方式中，所述敏感词提取模块325使用正则表达式提取所述文本信息中的敏感词。

敏感词匹配模块326，用于获取所述人员结构化处理模块321生成的人员结构化数据，将所述敏感词提取模块325获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；若是，则根据所述匹配结果对应的结构化数据确定发言人的身份。其中，所述全匹配为所述敏感词匹配模块326将不做拆分的敏感词作为搜索的关键词，在人员结构化数据中直接进行查找以判断是否有完全匹配的词语。例如，敏感词是“张三”，同时人员结构化数据中存在姓名“张三”，则直接匹配到目标，从而确定发言人的姓名为“张三”，相应地，通过人员结构化数据可以知道“张三”的个人信息和工作信息。

关键词拆分模块327，当所述敏感词匹配模块326确定没有匹配结果时，将所述关键词进行拆分以分别与所述人员结构化数据进行拆分匹配，以判断是否有匹配结果；若是，则根据所述匹配结果对应的结构化数据确定发言人的身份；否则，则确定没有文本描述的目标。所述拆分匹配为所述关键词拆分模块327将敏感词拆分成若干个搜索关键词，在人员结构化数据中进行查找以判断是否有匹配其中一个或多个关键词的词语。例如，敏感词是“周经理”，所述关键词拆分模块327将其拆分成“周”、“经理”两个关键词语，在人员结构化数据中进行查找。若人员结构化数据中存在姓名中包含“周”、以及/或者职务为“经理”的情况，则能够匹配到目标，从而确定发言人的身份。

具体地，所述文本数据库42预先保存关键词文本数据集；其中，所述关键词文本数据集包含的前导关键词，例如，“请”、“让”、“欢迎”等；后导关键词，例如，“发言”、“讲话”、“说”等。所述敏感词提取模块334依据所述关键词文本数据集，对所述语音识别服务器50发送的文本信息进行分析，提取所述文本信息中的关键词，同时确定调取得到的关键词为前导关键词、或后导关键词。所述敏感词提取模块326进一步地提取所述文本信息中位于所述前导关键词、后导关键词之间的文本，以得到所述敏感词文本。例如，所述文本信息为“请张三发言”，所述敏感词提取模块326提取到关键词“请”、“发言”，同时确定前导关键词为“请”以及后导关键词为“发言”，进一步提取位于前导关键词“请”以及后导关键词“发言”之间的文本以得到敏感词文本“张三”。

进一步地，当所述敏感词提取模块325提取所述文本信息中的关键词包含多个前导关键词、后导关键词时，分别提取所述文本信息中位于相邻前导关键词和后导关键词之间的敏感词文本，按照在所述文本信息中的位置由前到后进行排序，并将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。例如，所述文本信息为“请张三讲话请李四讲话”，所述敏感词提取模块325提取到前导关键词“请”、“请”，以及后导关键词“讲话”、“讲话”，并分别提取敏感词“张三”、“李四”，并以位于最后位置的敏感词“李四”作为识别目标。又例如，所述文本信息为“请张三请李四讲话”，所述敏感词提取模块326提取到前导关键词“请”、“请”，后导关键词“讲话”；此时，由于第一个前导关键词“请”没有位置相邻对应的后导关键词；因此，所述敏感词提取模块325只对第二个前导关键词“请”与其位置相邻对应的后导关键词“讲话”进行识别以提取敏感词“李四”。

进一步地，当所述敏感词提取模块325提取所述文本信息中位于所述前导关键词、后导关键词之间的文本得到多个敏感词文本时，按照在所述文本信息中的位置由前到后进行排序，将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。例如，所述文本信息为“请张三、李四讲话”，所述敏感词提取模块325提取到前导关键词“请”以及后导关键词“讲话”，并提取敏感词“张三”、“李四”，以位于最后位置的敏感词“李四”作为识别目标。

进一步地，所述发言人确认模块324，还用于根据所述身份识别模块323对所述视频会议信息进行的人脸图像特征分析的结果、以及所述敏感词匹配模块326对所述文本信息进行的敏感词提取匹配的结果，以确定发言人的人脸图像及其对应的身份信息。

请参阅图4，为本发明实施方式中的一种基于多模态数据的视频会议发言人跟踪方法，包括如下步骤：

步骤S41，所述视频会议发言人跟踪装置30加载并输出人员结构化数据；其中，所述人员结构化数据包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息。

具体地，所述视频会议发言人跟踪装置30根据视频会议参与名单访问所述人员信息数据库41，以相应地加载保存在所述人员信息数据库41中的人员结构化数据。所述人员结构化数据包含个人信息和工作信息，所述个人信息由姓名、年龄、性别、照片(即，人脸图像)组成，所述工作信息由职称、职务、所处部门组成。

在本实施方式中，所述视频会议发言人跟踪装置30预先根据视频会议参与名单访问所述人员信息数据库41，以加载相应的人员结构化数据。其中，所述视频会议参与名单为视频会议的统筹人员预先输入至所述视频会议发言人跟踪装置30中。

步骤S42，所述视频会议发言人跟踪装置30接收由所述视频会议设备20在视频会议过程中实时获取到的视频会议信息，以及所述语音识别服务器50识别到的文本信息。

具体地，所述视频会议信息包括由所述视频会议设备20的图像采集单元22采集到的参与视频会议的现场人员图像及会议现场的图像。所述文本信息为所述语音识别服务器50实时地将所述视频会议设备20的所述语音采集单元23采集到的语音信息进行识别以转换成的文本信息。其中，所述语音识别服务器50提供语音文本转录接口，所述语音采集单元23采集语音并发送至所述语音识别服务器50，所述语音识别服务器50接收语音后将其转录成文本后实时发回本地，此时便能在开会录音的同时将对应的文本也进行同步记录。

步骤S43，所述视频会议发言人跟踪装置30对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息。

步骤S44，所述视频会议发言人跟踪装置30实时地将确定的发言人的图像信息及其对应的身份信息发送至所述视频会议设备20以在其显示单元21显示所述图像信息和身份信息。

然后，流程结束。

请参阅图5，步骤S43，即，所述视频会议发言人跟踪装置30对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体通过如下方法实现。

步骤S431，所述视频会议发言人跟踪装置30对所述人员结构化数据中的人脸图像进行人脸特征分析、检测，以得到对应的第一人脸特征数据。

其中，所述第一人脸特征数据被融合加入至对应的所述人员结构化数据中。

步骤S432，所述视频会议发言人跟踪装置30对所述视频会议设备20的图像采集单元22采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域。

步骤S433，所述视频会议发言人跟踪装置30遍历确定的所述人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据。

具体地，所述视频会议发言人跟踪装置30对检测得到的若干个人脸框进行人脸关键点的检测以得到所述第二人脸特征数据。

步骤S434，所述视频会议发言人跟踪装置30调用所述人员结构化数据，将检测得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第二阈值；若否，则执行步骤S435；若是，则返回执行步骤S42。

若是，则对应的人员结构化数据不是所述图像采集单元22采集到的人脸图像所对应的人员身份，所述视频会议发言人跟踪装置30则继续对实时获取到的视频会议信息进行如上所述的检测分析，以判断视频会议信息中的人脸图像的人员身份。

在本实施方式中，所述第二阈值为0.6。

步骤S435，所述视频会议发言人跟踪装置30根据对应的人员结构化数据确定所述图像采集单元22采集到的人脸图像所对应的人员身份。

步骤S436，所述视频会议发言人跟踪装置30调取所述文本数据库42中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器50发送的文本信息进行分析，以提取所述文本信息中的敏感词。

在本实施方式中，所述视频会议发言人跟踪装置30使用正则表达式提取所述文本信息中的敏感词。

请同时参阅图6，在一实施方式中，步骤S436，即，所述视频会议发言人跟踪装置30调取所述文本数据库42中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器50发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体通过如下步骤实现。

步骤S4361a，所述视频会议发言人跟踪装置30依据所述关键词文本数据集，对所述语音识别服务器50发送的文本信息进行分析，提取所述文本信息中的关键词。

步骤S4362a，所述视频会议发言人跟踪装置30依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词。

具体地，所述文本数据库42预先保存的关键词文本数据集包含前导关键词和后导关键词。

步骤S4363b，所述视频会议发言人跟踪装置30提取所述文本信息中位于所述前导关键词、后导关键词之间的文本，以得到所述敏感词文本。

例如，所述文本信息为“请张三发言”，所述视频会议发言人跟踪装置30提取到关键词“请”、“发言”，同时确定前导关键词为“请”以及后导关键词为“发言”，进一步提取位于前导关键词“请”以及后导关键词“发言”之间的文本以得到敏感词文本“张三”。

请同时参阅图7，在另一实施方式中，步骤S436，即，所述视频会议发言人跟踪装置30调取所述文本数据库42中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器50发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体通过如下步骤实现。

步骤S4361b，所述视频会议发言人跟踪装置30依据所述关键词文本数据集，对所述语音识别服务器50发送的文本信息进行分析，提取所述文本信息中的关键词。

步骤S4362b，所述视频会议发言人跟踪装置30依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词。

其中，所述文本信息中的关键词包含多个前导关键词、后导关键词。

步骤S4363b，所述视频会议发言人跟踪装置30分别提取所述文本信息中位于相邻前导关键词和后导关键词之间的敏感词文本，按照在所述文本信息中的位置由前到后进行排序，并将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

请同时参阅图8，再一实施方式中，步骤S436，即，所述视频会议发言人跟踪装置30调取所述文本数据库42中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器50发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体通过如下步骤实现。

步骤S4361c，所述视频会议发言人跟踪装置30依据所述关键词文本数据集，对所述语音识别服务器50发送的文本信息进行分析，提取所述文本信息中的关键词。

步骤S4362c，所述视频会议发言人跟踪装置30依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词。

步骤S4363c，所述视频会议发言人跟踪装置30提取所述文本信息中位于相邻前导关键词和后导关键词之间的多个敏感词文本，按照在所述文本信息中的位置由前到后进行排序，将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

步骤S437，所述视频会议发言人跟踪装置30获取所述人员结构化数据，将获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；若是，则执行步骤S438；否则，返回执行步骤S42。

步骤S438，所述视频会议发言人跟踪装置30根据所述匹配结果对应的结构化数据确定发言人的身份。然后，执行步骤S44。

其中，所述全匹配为所述视频会议发言人跟踪装置30将不做拆分的敏感词作为搜索的关键词，在人员结构化数据中直接进行查找以判断是否有完全匹配的词语。例如，敏感词是“张三”，同时人员结构化数据中存在姓名“张三”，则直接匹配到目标，从而确定发言人的姓名为“张三”，相应地，通过人员结构化数据可以知道“张三”的个人信息和工作信息。

请参阅图9，在另一实施方式中，步骤S43，即，所述视频会议发言人跟踪装置30对所述视频会议信息进行人脸图像特征分析、以及对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体通过如下方法实现。

步骤S531，所述视频会议发言人跟踪装置30对所述人员结构化数据中的人脸图像进行人脸特征分析、检测，以得到对应的第一人脸特征数据。

步骤S532，所述视频会议发言人跟踪装置30对所述视频会议设备20的图像采集单元22采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域。

步骤S533，所述视频会议发言人跟踪装置30遍历确定的所述人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据。

步骤S534，所述视频会议发言人跟踪装置30调用所述人员结构化数据，将检测得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第一阈值；若否，则执行步骤S535；若是，则返回执行步骤S42。

在本实施方式中，所述第一阈值为0.6。

步骤S535，所述视频会议发言人跟踪装置30根据对应的人员结构化数据确定所述图像采集单元22采集到的人脸图像所对应的人员身份。

步骤S536，所述视频会议发言人跟踪装置30调取所述文本数据库42中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器50发送的文本信息进行分析，以提取所述文本信息中的敏感词。

步骤S537，所述视频会议发言人跟踪装置30获取所述人员结构化数据，将获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；若是，则执行步骤S538；否则，执行步骤S539。

步骤S538，所述视频会议发言人跟踪装置30根据所述匹配结果对应的结构化数据确定发言人的身份。然后，执行步骤S44。

步骤S539，所述视频会议发言人跟踪装置30将所述关键词进行拆分以分别与所述人员结构化数据进行拆分匹配，以判断是否有匹配结果；若是，则返回执行步骤S538；否则，返回执行步骤S42。

其中，所述拆分匹配为所述视频会议发言人跟踪装置30将敏感词拆分成若干个搜索关键词，在人员结构化数据中进行查找以判断是否有匹配其中一个或多个关键词的词语。例如，敏感词是“周经理”，所述视频会议发言人跟踪装置30将其拆分成“周”、“经理”两个关键词语，在人员结构化数据中进行查找。若人员结构化数据中存在姓名中包含“周”、以及/或者职务为“经理”的情况，则能够匹配到目标，从而确定发言人的身份。

请参阅图10，在另一实施方式中，步骤S43，即，所述视频会议发言人跟踪装置30对所述视频会议信息进行人脸图像特征分析、以及对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体通过如下方法实现。

步骤S631，所述视频会议发言人跟踪装置30对所述人员结构化数据中的人脸图像进行人脸特征分析、检测，以得到对应的第一人脸特征数据。

步骤S632，所述视频会议发言人跟踪装置30对所述视频会议设备20的图像采集单元22采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域。

步骤S633，所述视频会议发言人跟踪装置30遍历确定的所述人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据。

步骤S634，所述视频会议发言人跟踪装置30调用所述人员结构化数据，将检测得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第二阈值；若否，则执行步骤S635；若是，则返回执行步骤S42。

在本实施方式中，所述第二阈值为0.6。

步骤S635，所述视频会议发言人跟踪装置30根据对应的人员结构化数据确定所述图像采集单元22采集到的人脸图像所对应的人员身份。

步骤S636，所述视频会议发言人跟踪装置30分析所述第二人脸特征数据中的嘴部特征，以计算嘴部的高度与长度的比值x。

步骤S637，所述视频会议发言人跟踪装置30根据所述比值x确定对应人员的嘴部状态；其中，当x<a时，确定对应人员的嘴部状态为闭嘴；当a≤x<b时，确定对应人员的嘴部状态为正常张嘴；当b≤x<c时，确定对应人员的嘴部状态为较大程度张嘴；a、b、c为预设值。

步骤S638，所述视频会议发言人跟踪装置30对连续预设时间段内的确定的嘴部状态进行分析，以判断嘴部状态变化次数是否不小于第一阈值；若是，则判断对应人员为疑似发言者，执行步骤S639；否则，返回执行步骤S42。

步骤S639，所述视频会议发言人跟踪装置30根据所述身份识别模块323得到的所述疑似发言者的人员身份，以及根据语音采集单元23在所述连续预设时间段内是否采集到语音信息；若是，则确定所述疑似发言者为发言人，同时得到所述发言人对应的人脸图像及其身份信息，然后执行步骤S44；否则，返回执行步骤S42。

本发明提供的一种基于多模态数据的视频会议发言人跟踪装置、系统及方法，通过对视频会议设备采集到的视频会议画面图像、语音、语音识别服务器对音频信息识别转换生成的文本信息的输入，并结合参会人员的结构化信息，融合多模态数据识别人物、分析口部特征、语音文本转录、文本数据分析，最终输出发言人位置信息，控制视频会议设备跟踪发言人，实现图像、语音、文本多模态数据融合进行目标定位，以完成视频会议中的发言人识别及图像跟踪效果。

在本发明所提供的实施方式中，所揭露的系统、终端和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例是示意性的，所述单元的划分，为一种逻辑功能划分，实际实现时可以有另外的划分方式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本发明的说明书及其附图中给出了本发明的较佳的实施方式，但是，本发明可以通过许多不同的形式来实现，并不限于本说明书所描述的实施方式，这些实施方式不作为对本发明内容的额外限制，提供这些实施方式的目的是使对本发明的公开内容的理解更加透彻全面。并且，上述各技术特征继续相互组合，形成未在上面列举的各种实施方式，均视为本发明说明书记载的范围；进一步地，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于多模态数据的视频会议发言人跟踪装置，其特征在于，包括：

人员信息加载单元，用于加载并输出人员结构化数据；其中，所述人员结构化数据为包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；

数据融合分析单元，与视频会议设备、文本数据库、语音识别服务器、以及所述人员信息加载单元分别建立通信连接，用于：

获取所述人员信息加载单元输出的人员结构化数据；

在视频会议过程中实时获取所述视频会议设备每个图像采集单元采集到的视频会议信息，以及所述语音识别服务器发送的文本信息；以及

对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，并结合所述人员结构化数据确定发言人的图像信息及其对应的身份信息；其中，所述文本信息为所述语音识别服务器实时地将所述视频会议设备采集到的语音信息进行识别生成；

会议信息处理单元，与视频会议设备、数据融合分析单元分别建立通信连接，用于对所述数据融合分析单元确定的发言人的图像信息及其对应的身份信息进行处理，以生成对应的控制指令，使得所述视频会议设备响应所述控制指令对准确所述发言人以实时采集、显示发言人的图像信息。

2.根据权利要求1所述的基于多模态数据的视频会议发言人跟踪装置，其特征在于，所述数据融合分析单元包括：

人脸检测模块，用于对所述图像采集单元采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；

人脸特征检测模块，用于对所述人员结构化数据中的人脸图像进行人脸特征分析，以得到对应的第一人脸特征数据；以及遍历所述人脸检测模块确定的人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；

身份识别模块，用于：

调用所述人员结构化数据；

将所述人脸特征检测模块检测分析得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算；

判断所述距离值是否大于第二阈值；以及

在所述距离值不大于所述第二阈值时，根据对应的人员结构化数据确定所述图像采集单元采集到的人脸图像所对应的人员身份；

敏感词提取模块，用于：

调取文本数据库中预先保存的关键词文本数据集；以及

基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词；其中，所述关键词文本数据集包括前导关键词、后导关键词；

敏感词匹配模块，用于获取所述数据融合分析单元生成的人员结构化数据，将所述关键词提取模块获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；若是，则根据所述匹配结果对应的结构化数据确定发言人的身份；

发言人确认模块，用于根据所述身份识别模块对所述视频会议信息进行的人脸图像特征分析的结果、以及所述敏感词匹配模块对所述文本信息进行的敏感词提取匹配的结果，以确定发言人的人脸图像及其对应的身份信息。

3.根据权利要求2所述的基于多模态数据的视频会议发言人跟踪装置，其特征在于，所述数据融合分析单元还包括：

关键词拆分模块，用于：

当所述敏感词匹配模块确定没有匹配结果时，将所述关键词进行拆分以分别与所述人员结构化数据进行拆分匹配，以判断是否有匹配结果；以及

4.根据权利要求2所述的基于多模态数据的视频会议发言人跟踪装置，其特征在于，所述敏感词提取模块，用于：

依据所述关键词文本数据集，对所述语音识别服务器发送的文本信息进行分析，提取所述文本信息中的关键词；

依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；以及

提取所述文本信息中位于所述前导关键词、后导关键词之间的文本，以得到所述敏感词文本。

5.根据权利要求4所述的基于多模态数据的视频会议发言人跟踪装置，其特征在于，当所述敏感词提取模块提取所述文本信息中的关键词包含多个前导关键词、后导关键词时，分别提取所述文本信息中位于相邻前导关键词和后导关键词之间的敏感词文本，按照在所述文本信息中的位置由前到后进行排序，并将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

6.根据权利要求4所述的基于多模态数据的视频会议发言人跟踪装置，其特征在于，当所述敏感词提取模块提取所述文本信息中位于所述前导关键词、后导关键词之间的文本得到多个敏感词文本时，按照在所述文本信息中的位置由前到后进行排序，将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

7.根据权利要求1所述的基于多模态数据的视频会议发言人跟踪装置，其特征在于，所述数据融合分析单元包括：

人脸特征检测模块，用于：

对所述人员结构化数据中的人脸图像进行人脸特征分析，以得到对应的第一人脸特征数据；

遍历所述人脸检测模块确定的人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；以及

身份识别模块，用于：

调用所述人员结构化数据；

将所述人脸特征检测模块检测分析得到的所述疑似发言者的第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算；以及

判断所述距离值是否大于第二阈值；若否，则根据对应的人员结构化数据确定所述图像采集单元采集到的人脸图像所对应的人员身份，以得到所述疑似发言者的人员身份；

发言人确认模块，用于根据所述身份识别模块得到的所述疑似发言者的人员身份，以及根据语音采集单元在所述连续预设时间段内是否采集到语音信息，以确定所述疑似发言者是否为发言人；若是，则确定所述疑似发言者为发言人，同时得到所述发言人对应的人脸图像及其身份信息。

8.一种基于多模态数据的视频会议发言人跟踪系统，包括多个视频会议设备、数据库；

所述视频会议设备，包括：

显示单元，用于显示视频会议画面；

图像采集单元，用于采集参与视频会议的现场人员图像及会议现场的图像；

语音采集单元，用于采集视频会议现场的音频信息；

其特征在于，所述数据库，包括人员信息数据库，用于预先保存人员结构化数据；其中，所述人员结构化数据为包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；

所述系统还包括如权利要求1～7任意一项所述的基于多模态数据的视频会议发言人跟踪装置、以及语音识别服务器；

所述语音识别服务器，用于实时地将所述视频会议设备采集到的语音信息进行识别以生成相应的文本信息；

所述视频会议发言人跟踪装置，用于在视频会议过程中获取每个所述视频会议设备采集到的视频会议信息，并根据所述人员辅助信息与所述文本信息，对所述视频会议信息进行分析处理以确定发言人及其画面位置，并向所述视频会议设备输出相应的控制指令以显示所述发言人及其画面。

9.一种基于多模态数据的视频会议发言人跟踪方法，其特征在于，所述方法包括：

视频会议发言人跟踪装置加载并输出人员结构化数据；其中，所述人员结构化数据包含人员辅助信息中的文本、图像、音频三种类型的人员综合特征信息；

所述视频会议发言人跟踪装置接收由视频会议设备在视频会议过程中实时获取到的视频会议信息，以及语音识别服务器识别到的文本信息；其中，所述文本信息为所述语音识别服务器实时地将所述视频会议设备采集到的语音信息进行识别生成；

所述视频会议发言人跟踪装置对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息；以及

所述视频会议发言人跟踪装置实时地将确定的发言人的图像信息及其对应的身份信息发送至所述视频会议设备以在其显示单元显示所述图像信息和身份信息。

10.根据权利要求9所述的基于多模态数据的视频会议发言人跟踪方法，其特征在于，所述视频会议发言人跟踪装置对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体包括：

所述视频会议发言人跟踪装置对所述人员结构化数据中的人脸图像进行人脸特征分析、检测，以得到对应的第一人脸特征数据；

所述视频会议发言人跟踪装置对所述视频会议设备的图像采集单元采集到的视频会议信息图像进行人脸检测，并分析图像以确定人脸区域；

所述视频会议发言人跟踪装置遍历确定的所述人脸区域，分析每个人脸区域内的人脸特征，以得到对应的第二人脸特征数据；

所述视频会议发言人跟踪装置调用所述人员结构化数据，将检测得到的所述第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第二阈值；

若所述距离值不大于第二阈值时，所述视频会议发言人跟踪装置根据对应的人员结构化数据确定所述视频会议设备采集到的人脸图像所对应的人员身份；

所述视频会议发言人跟踪装置调取文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词；

所述视频会议发言人跟踪装置获取所述人员结构化数据，将获取到的敏感词与所述人员结构化数据进行全匹配，以判断是否有匹配结果；

若有匹配结果时，所述视频会议发言人跟踪装置根据所述匹配结果对应的结构化数据确定发言人的身份。

11.根据权利要求10所述的基于多模态数据的视频会议发言人跟踪方法，其特征在于，所述视频会议发言人跟踪装置调取所述文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体包括：

所述视频会议发言人跟踪装置依据所述关键词文本数据集，对所述语音识别服务器发送的文本信息进行分析，提取所述文本信息中的关键词；

所述视频会议发言人跟踪装置依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；

所述视频会议发言人跟踪装置提取所述文本信息中位于所述前导关键词、后导关键词之间的文本，以得到所述敏感词文本。

12.根据权利要求10所述的基于多模态数据的视频会议发言人跟踪方法，其特征在于，所述视频会议发言人跟踪装置调取所述文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体包括：

所述视频会议发言人跟踪装置依据所述关键词文本数据集确定调取得到的关键词为前导关键词、或后导关键词；其中，所述文本信息中的关键词包含多个前导关键词、后导关键词；

所述视频会议发言人跟踪装置分别提取所述文本信息中位于相邻前导关键词和后导关键词之间的敏感词文本，按照在所述文本信息中的位置由前到后进行排序，并将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

13.根据权利要求10所述的基于多模态数据的视频会议发言人跟踪方法，其特征在于，所述视频会议发言人跟踪装置调取所述文本数据库中预先保存的关键词文本数据集，基于所述关键词文本数据集对所述语音识别服务器发送的文本信息进行分析，以提取所述文本信息中的敏感词，具体包括：

所述视频会议发言人跟踪装置提取所述文本信息中位于相邻前导关键词和后导关键词之间的多个敏感词文本，按照在所述文本信息中的位置由前到后进行排序，将位于最后位置的敏感词文本作为目标敏感词文本进行确定与提取。

14.根据权利要求10所述的基于多模态数据的视频会议发言人跟踪方法，其特征在于，当所述视频会议发言人跟踪装置判断获取到的敏感词与所述人员结构化数据没有全匹配结果时，所述方法还包括：

所述视频会议发言人跟踪装置将所述关键词进行拆分以分别与所述人员结构化数据进行拆分匹配，以判断是否有匹配结果；

若是，则执行所述视频会议发言人跟踪装置根据所述匹配结果对应的结构化数据确定发言人的身份。

15.根据权利要求9所述的基于多模态数据的视频会议发言人跟踪方法，其特征在于，所述视频会议发言人跟踪装置对所述视频会议信息进行人脸图像特征分析和/或对所述文本信息进行敏感词提取匹配，以确定发言人的图像信息及其对应的身份信息，具体包括：

所述视频会议发言人跟踪装置对所述人员结构化数据中的人脸图像进行人脸特征分析，以得到对应的第一人脸特征数据；

所述视频会议发言人跟踪装置分析所述第二人脸特征数据中的嘴部特征数据，以计算嘴部的高度与长度的比值x，以根据所述比值x确定对应人员的嘴部状态；其中，当x<a时，确定对应人员的嘴部状态为闭嘴；当a≤x<b时，确定对应人员的嘴部状态为正常张嘴；当b≤x<c时，确定对应人员的嘴部状态为较大程度张嘴；a、b、c为预设值；

所述视频会议发言人跟踪装置对连续预设时间段内的确定的嘴部状态进行分析，以判断嘴部状态变化次数是否不小于第一阈值；若是，则判断对应人员为疑似发言者；

所述视频会议发言人跟踪装置调用所述人员结构化数据，将分析得到的所述第疑似发言者的第二人脸特征数据分别与所述人员结构化数据所包含的第一人脸特征进行人脸特征数据距离值的计算，判断所述距离值是否大于第二阈值；若否，则所述视频会议发言人跟踪装置根据对应的人员结构化数据确定所述图像采集单元采集到的人脸图像所对应的人员身份，以得到所述疑似发言者的人员身份；

所述视频会议发言人跟踪装置根据所述疑似发言者的人员身份，以及根据语音采集单元在所述连续预设时间段内是否采集到语音信息，以确定所述疑似发言者是否为发言人；若是，则确定所述疑似发言者为发言人，同时得到所述发言人对应的人脸图像及其身份信息；以及

所述视频会议发言人跟踪装置实时地将所述发言人的人脸图像及身份信息发送至视频会议设备以在其显示单元显示人脸图像和身份信息。