CN118301279A

CN118301279A - 一种面向会议室场景的音视频定位系统

Info

Publication number: CN118301279A
Application number: CN202410434380.3A
Authority: CN
Inventors: 丁梓昂; 戴路恒; 夏旭; 于兴; 陈宇航; 吴思睿; 黄彦涛; 李江祥; 张鸿锦; 郭佳乐; 李嘉宁; 吴晓欢
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-04-11
Filing date: 2024-04-11
Publication date: 2024-07-05

Abstract

本发明公开了一种面向会议室场景的音视频定位系统，系统分为数据存储与可视化模块、视频采集与处理模块、音频采集与处理模块。数据存储与可视化模块，包括前端和后端两部分。前端搭建主要可视化网页，用户登录系统后可进行观看回放、查询说话人定位信息等操作。后端包括登录用户模块和数据查询模块，并将数据库中的存储数据显示在前端展示的页面中。视频采集与处理模块，通过鱼眼全景摄像头进行视频采集，将采集后的视频进行正畸后根据人脸检测和张口识别算法进行定位。音频采集与处理模块，可依次进行数据采集、音频预处理、音频定位。最终数据和定位结果在可视化界面显示。本发明可有效提高会议记录与回顾会议内容效果，满足了会议场景中基于参会人员定位等拓展性功能的需要。

Description

一种面向会议室场景的音视频定位系统

技术领域

本发明涉及信号处理领域，尤其是涉及一种面向会议室场景的音视频定位系统。

背景技术

近年来，越来越多的企业、学校等单位开始注重于会议效率，会议过程的记录与查阅是提高会议效率的重要手段。在传统的会议记录方法中，通常是通过摄像头录制会议全程，这种记录方式在分析时参杂了大量冗余信息，对会议内容的评估带来了不便。因此，基于参会人员定位等拓展性功能的需要，音视频定位系统开始应用到会议场景中。

在会议室场景中，由于室内空间回声，人员密集等因素，很难有效地根据参会人员的发言情况来记录会议。美国保利、LiTVHD等公司已经先后推出了基于麦克风阵列音频/视频回忆产品的VSX系列和Lifesize Phone系列等产品。目前在会议室场景下，武汉明科智慧科技有限公司发明了一种声音追踪的会议音视频记录装置，通过声音定位确定发言人方位，调整云台进行录像，录音同时通过语音识别模块进行语音识别,保存发言人讲话内容,实现会议的音视频自动记录。本项目基于会议室场景，从参会人员的需求出发，针对会议过程中的讨论发言行为，拟设计一个基于纯声场的会议测量记录系统，同时引入视频技术来弥补音频测量中的一些缺陷，发明一个会议室视音频混合测量记录系统。

发明内容

基于上述问题，本发明的目的在于提供一种面向会议室智能音视频定位系统，能够全面录制会议，并针对会议记录识别不同发言者的关键发言信息，自动分析筛查参会人员的发言与定位结果。

为实现上述目的，本系统分为数据存储及可视化模块、视频采集与处理模块、音频采集与处理模块。

数据存储及可视化单元，用于获取会议视频内容、音频内容、定位信息并将其在网页端可视化，用户登录后，可查看会议视频回放与说话人位置，其包括前端和后端两部分。前端部分，使用Vue框架，利用Element-UI库快速搭建了主要页面接收端。后端部分，包括登录用户模块和数据查询模块，可以实现将以录入数据库的信息与输入页面的账号密码相比对，不符合则提示校验失败，用户名或密码错误，并将数据库中的存储数据显示在前端展示的页面中，并且可以分类查询。

视频采集与处理单元，用于会议录制及检测与会人员的面部情况，提取面部信息，利用张口检测判定面部状态，结合人脸检测对说话人进行定位。具体是通过鱼眼摄像头进行视频采集，将采集后的视频进行正畸，根据人脸检测和张口识别算法进行定位。

音频采集与处理单元，用于录制会议音频信息，将音频预处理后，转换为便于定位的音频数据，通过声源定位算法对说话人定位。具体是利用麦克风阵列进行声音数据采集，选择最适合会议室场景下声源定位的方法，确保对参会人员在发言时进行准确判断并估计出其方位，从而便于对参会人员在会议上的发言情况进行统计。

作为本发明的进一步改进，所述视频采集与处理模块包括：

视频采集单元，用于录制会议的完整流程，同时获取与会人员的面部信息；本单元基于圆桌会议、与会人员环桌而坐的场景，采取鱼眼摄像机放置会议桌中央对会议全程进行全景录制；

视频预处理单元，包含视频帧图像正畸、关键帧抽取两部分。正畸部分用于将鱼眼摄像头录制的鱼眼边缘部分以拉伸、压缩或弯曲等形式出现畸变的视频展开为略有畸变的正常矩形视频；抽取关键帧部分，对原始视频按照时间顺序，每秒均匀地抽取10帧图像来进行分析判断，在完成抽取之后，对获取的超广角图像使用横向展开法将图像还原为一个略有畸变的360度平视图像，同时将经过正畸处理后的这些图片帧合成为视频；

面部检测单元，用于检测每一张图片的人脸；

张口检测单元，用于根据是否张口判断说话人相对位置并得到在会议室的绝对位置，得到定位信息；计算每个人嘴的高度与宽度之比，当比例大于某个阈值时可认为嘴巴是张开状态，否则为闭合状态；判定嘴张开3次即可认为处于发言状态；在判断出参会人员处于发言状态时对发言人人脸的关键点进行检测并计算出其所处的方位角；本单元基于人脸68点检测模型，检测位于人脸眉心位置的关键点，获取该点的像素点的位置；利用图片帧的总像素点数，将图片横向总像素点数与关键点的像素点横坐标进行比较；划分横向的总像素点为360份，判断关键点像素横坐标在360份中的位置，说话人所在方位角即是该等份所对应的角度。

作为本发明的进一步改进，所述音频采集与处理模块包括：

音频采集单元，用于录制会议音频；采用六麦环形麦克风阵列作为音频采集装置、树莓派作为麦克风阵列的控制终端，以提高录制音频的清晰度与定位结果的准确性；本单元使用自动录制音频程序来控制设备完成会议发言的录制；设置麦克风阵列的音频采样率为16000、音频通道数为8（包含2个麦克风回声通道）、采样值的保存位数为2，同时设置录制的音频时长；运行程序后即可开始录制；

音频预处理单元，用于将音频文件进行归一化、滤波等预处理，得到降噪滤波后的音频文件，提高定位结果准确性；

声源定位单元，用于得到说话人的位置信息；本单元采用最大可控响应功率波束形成法算法（SRP-PHAT），实现会议室声源点的测量；该算法可解算出单个声源的来向，同时在适应包括各种回声、噪声和混响等各种不同的声场环境下具有较好的鲁棒性。在完成单位时间的发言人方位解算并输出后，本系统通过对音频定位结果进行解析，在数据存储与可视化模块中导入数据库中存储。

作为本发明的进一步改进，所述数据存储与可视化模块包括：

音视频数据存储单元，用于储存视频采集与处理模块与音频采集与处理模块得到的音视频文件；本单元对上传的音视频数据，根据视频采集与处理模块、音频采集与处理模块流程进行调度处理，将发言统计结果、音频定位结果、视频定位结果、最终定位结果、视频图像等数据本地化，并在数据库中存储，以备后端调用，继而发送至前端，在前端页面详细展示分析会议所需要的数据内容，便于相关人员查看分析；

发言统计单元，用于记录会议中说话人的发言情况；包括：说话人姓名、照片、发言开始时间、结束时间、发言时长等，并在可视化页面中展示；

发言定位动态展示单元，用于将定位结果展示出来；展示不同时间下的音频、视频定位结果，以及联合定位的最终结果，并给出说话人的座位区间；定位数据需要和视频处理所得数据相统一，选取统一规定角度作为起始点；同理，对视频数据处理，得到时间轴与定位数据相对应的信息；将音视频所得时间轴数据对齐后，存入数据库，供前端调用展示；

视频回放单元，用于会后查看会议视频回放；每一个会议均有一个专属标号，前端页面跳转时记录当前页面标号，当两个标号相匹配时，则从数据库中调出对应的位置信息，后端发送视频流，前端获取对应的视频流，在页面展示出具体回放内容。

如上所述，本发明面向会议室音视频定位的系统，具有以下有益效果：

本发明可有效提高会议效率，满足了会议场景中基于参会人员定位等拓展性功能的需要。将基于视频的定位算法和声源定位算法结合，在会议过程中自动记录发言人的参会数据，并根据数据对其位置进行估计，将音视频数据与相应的位置信息上传到云端，以便在会后对与会成员参与情况进行统计、查验，更有效率地把握会议效果。最后数据可在可视化界面查看，使参会人员更能掌控会议结果，可以此分析并做出会议优化调整。

附图说明

图1是本发明提供的一种面向会议室场景的音视频定位系统的结构框图。

具体实施方式

为使本申请解决的问题、采用的技术方案和达到的技术效果更加清楚，下面结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所述视频采集与处理模块1包括：

视频采集单元11，用于根据会议室场景的特征采用进行视频采集并存储。

具体地，在会议室场景下，参会人员围着会议桌坐在一起，如果采用传统的普通摄像头或者广角镜头进行拍摄，难以从一个位置拍摄到在场所有参会人员的面部姿态，因此本系统采用可以拍摄360度全景的鱼眼摄像头来拍摄会议室的会议视频。

摄像头部署在无遮挡的会议室中央，设备通电后自动连接网络，根据需要录制会议的会议时间计划，由萤石云提供的管理软件对鱼眼摄像头设置好定时任务。录制完成后，将视频上传到萤石平台的云存储中。

后台服务器通过萤石提供的OpenSDK和API，通过APPKey 获取AccessToken，通过视频录像搜索获取到相关视频，然后通过回放功能将视频存储到本地，并在云服务器的数据库中记录相关视频的信息数据。

视频预处理单元12，用于对视频采集模块获得的视频进行正畸处理。

具体地，由于会议室场景的特殊性，所有参会人员环绕会议桌继续讨论，为了同时采集在场所有参会人员的面部数据，我们采用鱼眼全景镜头来进行会议室视频的录制。

鱼眼镜头具有极短的焦距和极大的视场角，因此可以捕捉到非常广阔的景象。然而，由于镜头设计的特殊性，鱼眼相机拍摄的图像在边缘部分会出现严重的畸变，表现为拉伸、压缩或者弯曲等形式。与普通相机不同，这种畸变是由于光线通过鱼眼镜头时，没有经过完全的折射和聚焦，导致的图像失真。

处理鱼眼相机拍摄的图像前，需要进行适当的校正和处理，以尽量减轻畸变带来的影响，提高图像质量和视频效果。同时，为了对图像进行分析，需要均匀地从会议室视频中抽取视频帧，作为输入数据来进行相关图像处理。

为了满足这一需求，本系统中基于opencv-python开发了一个用于预处理的模块，对原始视频按照时间顺序，均匀地每秒抽取10帧图像来进行分析判断，在完成抽取之后，对获取的超广角图像使用横向展开法将图像还原为一个略有畸变的360度平视图像，同时将经过正畸处理后的这些图片帧合成为视频。

横向展开法通过对鱼眼相机拍摄的原始图像进行适当的投影变换和校正，使畸变的原始图像可以正常显示。这种方法对图像进行几何变换和扭曲操作，将原始的鱼眼图像映射到一个更自然的视角上。这样处理后的图像可以更好地展示全景场景，以便于对图像进行面部检测以及张口检测。

面部检测单元块13，用于对视频中的出现人脸进行检测。

具体地，在完成会议视频图像的预处理后，需要对抽取出来的关键帧进行人脸检测，目前在这个领域中的人脸检测算法有很多种，本单元采用的是基于dlib库进行人脸检测。通过使用dlib库，可以很容易地实现人脸检测功能，并且还能够实现人脸关键点定位功能。

导入必要的库和模块，在代码中导入dlib库以及其他必要的库和模块，加载人脸检测器模型，dlib提供了训练好的人脸检测器模型文件，可以通过加载这个模型来实现人脸检测功能。

读取图像数据，读取一张图片作为输入数据作为进行的人脸检测目标图像，运行人脸检测器，使用加载的人脸检测器模型对目标图像进行人脸检测。通过调用相应的函数或方法，可以在图像中找到人脸的位置，一旦检测到人脸的位置，就将矩形框绘制在人脸周围，以突出显示检测到的人脸。

张口检测单元14，用于对会议人员是否说话进行检测。

具体地，在从每一张图片中识别并截取了其中的人脸后，利用dlib库中的人脸关键点检测模型检测人脸图片中的68个关键点，包括眼睛、眉毛、鼻子、嘴等部位的位置，通过检测这些关键点，判断会议人员是否说话。使用这个模型需要先加载训练好的预训练模型文件，然后将人脸图像输入到模型中进行检测。

本系统通过人脸关键点检测模型，计算会议人员嘴巴的开合程度，开合程度由嘴巴宽度和高度的比值来衡量，给嘴巴开合程度设置一定的阈值，即2.8，当开合程度小于2.8时判定相应与会人员为张口状态，反之则处于闭口状态。在每6帧过程中，嘴巴的开合程度大于该阈值次数为3次以上，即判定为在说话，否则判定为未说话。

对发言人人脸的关键点进行检测并计算出其所处的方位角。基于人脸68个关键点检测模型，检测位于人脸眉心位置的关键点，获取该点的像素点的位置同时获取图片帧的总像素点数，对图片横向总像素点数与关键点的像素点横坐标进行计算。划分横向的总像素点为360份，判断关键点像素横坐标在360份中的位置，说话人所在方位角即是该等份所对应的角度。

所述音频采集与处理模块2包括：

音频录制单元21，用于对参会人员的声音进行采集。

具体的，需要在不干扰会议的情况下，采集参会人员的语音以供后续进行声源定位及音视频回放。

本系统采用六麦克风均匀圆形阵列来进行音频数据的采集，其置于会议桌的中央位置，在录制会议音频的同时对发言者声音来向进行有效的角度判断。使用树莓派作为麦克风阵列的控制终端，以完成整个音频采集的过程，并将采集到的音频文件上传到云服务器中存储。

由于阵列设备本身并未提供音频录制的工具，因此基于PyAudio编写了一个自动录制音频程序，来控制设备完成会议发言的录制。根据需要，预设置音频采样率为16000、音频通道数为8、采样值的保存位数为2，并设置好音频录制时长。然后获取开始录制时间点并记录，根据预设的音频参数，打开设备音频流，开始录制音频。

利用 python编写一个用于负责设备自动化运行的后台监控守护程序，使音频采集设备能够上电自动开始运行。在指定路径下创建python启动脚本文件，并输入启动命令，修改该脚本权限并设置为开机自动加载。编辑 /etc/rc.local文件，在该文件中添加启动脚本的路径，以确保树莓派在启动时会执行该脚本。保存rc.local文件后，重启树莓派来使设置生效。

音频录制完成后，根据录制时间规则命名新建设备文件，根据预先参数设置好音频文件的存储格式，将所有字符串连接后写入文件中保存，完成一次音频文件的录制。

音频预处理单元22。

具体的，由于会议室环境本身存在多种噪音干扰，如空调、桌椅、水杯或者其他一些非发言行为，都有可能造成声源点的错误判断，因此本系统将原始的会议音频通过一个固定频率的带通滤波器，滤除音频中的低频分量和高频分量，在本系统中，将有限冲击响应（FIR）滤波器的下限截止频率设置为20Hz，将上限截止频率设置为4kHz，接下来将介绍预处理的具体实现过程。

读取音频：本系统通过python 中自带的wave库来进行音频操作，读取音频文件后获取其通道数、采样率、采样保存位数和帧数。读取完音频后，通音频幅值归一化得到多通道的原始音频数据；

分通道滤波：本系统选用降噪用的FIR滤波器滤波，根据音频采样率和截止频率计算出滤波器参数，将每一个通道的音频数据分别通过带通滤波器，去除频段外的噪音，获得降噪后的单通道音频；

声源定位单元23。

获取降噪滤波后的音频文件后，本实施案例采用最大可控响应功率波束形成法算法（SRP-PHAT），实现会议室声源点的测量。该算法可以帮助确定单个声源的方向和位置，可以适应各种不同的声场环境，包括各种回声、噪声和混响。相对于传统的声源定位方法，SRP-PHAT算法对于噪声和混响具有较强的鲁棒性，能够在复杂环境下实现较为准确的声源定位。它利用了相位信息，因此在一定程度上提高了声源定位的精度。

由于噪点的存在，双声源点的互相干扰，定位结果数据的准确性有所下降，因此本系统对一段时间内的定位数据进行校准处理。

具体地，在完成了单位时间的发言人方位计算后，本系统通过对音频定位结果进行解析，导入数据库中存储。再对声源进行ID分类，选择中心点，并根据距离，重新计算中心点。若有变换，则继续计算。否则去除离散点后，计算声源点，最终得到的较为准确的定位结果。

所述数据存储与可视化模块包括：

音视频数据存储单元31。

将音频数据采集设备正确部署安装在会议室内，设备驱动正常后开始录制，将录音分段存储在本地，并定时将本地音频文件上传到云服务器，在服务器数据库中写入音频相关信息。

视频录制设备通电后自动连接网络，完成系统时钟同步。会议录制完成后，通过网络将录制的视频上传到云服务器完成存储，并在云服务器写入相关视频信息，记录会议名称、会议时间、会议地点、会议主题、参会人员等信息。

系统对上传的音视频数据，根据视频模块、音频模块流程进行调度处理，将发言统计结果、音频定位结果、视频定位结果、最终定位结果、图像等数据本地化，并在数据库中记录。记录的数据信息将用于后端的调用，再将其发送给前端，这样前端页面上便可详细地展示出对分析会议所需要的数据内容，便于相关人员查看分析。

发言统计单元32。

发言统计能很好地反应会议实际情况，方便记录会议内容，做出具体评估，及时复盘改进。因此，在发言统计模块，需要记录参会人员具体发言内容及对应发言时间，这样能够直观地观察到具体发言情况，从而更好地做出恰当的评价。具体发言内容通过调用语音识别技术来获得，下面介绍其具体处理流程。

对本地存储的音频数据进行语音识别处理，利用语言识别技术，调用相关接口，将其转换成文本数据。直接调用接口，返回的是层层嵌套的JSON数据，对数据还要进一步处理，才能得到最终的文字内容。首先对接收的JSON数据进行递归解析。如果 JSON 数据是一个数组，就需要遍历数组中的每一个元素。如果是一个对象，就需要遍历对象中的每一对键值对。层层递归调用，直到找到所需字段lattice后，将字段内容提取出来，并按对应的格式以文本文档的形式保存在本地，最后一键导入本地数据库，供前端调用显示。其中，需要确保文本文档中的数据类型与数据库表中相应字段的数据类型匹配，数据间以逗号作为分隔符。

除了得到文字内容，还要得到相对应的时间轴，也是同上文的递归调用来获取。接口返回的数据是以毫秒为单位，我们对其进行逻辑处理，将其转换成形如“01:20:20”的时间戳，其具体含义指1时20分20秒，这样便可清晰地知道发言具体时间，并与发言定位结果相结合分析。一段识别出来的文字内容对应一个开始时间、一个结束时间、一个发言时长，三者均以时间戳的形式记录。

发言定位展示单元33。

对于发言人的定位，最初的方案是通过只基于声场测量，这样的方案存在一些局限性，例如双人重叠发言无法识别、近距离测量误差波动大等情况。通过本发明中视频与音频的联合定位，可以很好地改善这些局限性。

本发明采用音频、视频两种定位，并对定位结果进行合理地处理，得到一个综合后的联合定位结果，这样即使多人重叠发言，也可通过视频定位来判断真实情况，克服了具体应用时的局限性。

对原始音频数据进行处理，可以得到时间轴与定位数据相对应的信息。其中，定位数据需要和视频处理所得数据相统一，选取统一规定角度作为起始点。同样的，对视频数据处理，也可得到时间轴与定位数据相对应的信息。将音视频所得时间轴数据对齐后，存入数据库，供前端调用展示。

在部署设备时，尽量保证音频采集设备和视频采集设备相近，但仍无法避免固有误差。通过声源定位计算角度与图形识别角度标准化，使二者空间上对齐，规划为统一坐标系。

会议视频回放单元34。

本模块提供会议录像回放功能，以克服单一的文字内容，难以很好地展现会议情况的问题，从而更好地展现会议真实情况。

具体实现方式如下：

将上传到云服务器的视频内容保存到本地，并记录其在本地磁盘的具体位置，视频名等信息。在后端数据库中建立一个存储视频名称、位置等信息的表格，这样便可查询到其位置，并返回给前端调用。

本系统需要存储不同的会议，因此需要给数据库中每一个会议设置不同的标号。同时在前端页面跳转时，利用session Storage记录当前页面标号。当两个标号匹配时，则从数据库中调出对应会议存储的位置信息，后端根据该信息发送视频流，前端获取对应的视频流，在页面展示出具体回放内容。

以上实施例对本申请进行了详细说明，但本申请并不限于此。在符合本申请技术精神和范围的前提下，本领域的技术人员可以对上述实施例中记载的技术方案进行修改，或者对部分技术特征进行等同替换，以满足实际应用的需要。因此，凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种面向会议室场景的音视频定位系统，其特征在于，包括：

视频采集与处理模块，用于会议录制及检测与会人员的面部情况，提取面部信息，利用张口检测判定面部状态，结合人脸检测对说话人进行定位；

音频采集与处理模块，用于录制会议音频信息，将音频预处理后，转换为便于定位的音频数据，通过声源定位算法对说话人定位；

数据存储与可视化模块，用于获取会议视频内容、音频内容、定位信息并将其在网页端可视化，用户登录后，能查看会议视频回放与说话人位置。

2.根据权利要求1所述的一种面向会议室场景的音视频定位系统，其特征在于，所述视频采集与处理模块包括：

视频预处理单元，包含视频帧图像正畸、关键帧抽取两部分；正畸部分用于将鱼眼摄像头录制的鱼眼边缘部分以拉伸、压缩或弯曲形式出现畸变的视频展开为略有畸变的正常矩形视频；抽取关键帧部分，对原始视频按照时间顺序，每秒均匀地抽取10帧图像来进行分析判断，在完成抽取之后，对获取的超广角图像使用横向展开法将图像还原为一个略有畸变的360度平视图像，同时将经过正畸处理后的这些图片帧合成为视频；

面部检测单元，用于检测每一张图片的人脸；

张口检测单元，用于根据是否张口判断说话人相对位置并得到在会议室的绝对位置，得到定位信息；计算每个人嘴的高度与宽度之比，当比例大于2.8时可认为嘴巴是张开状态，否则为闭合状态；判定嘴张开3次即认为处于发言状态；在判断出参会人员处于发言状态时对发言人人脸的关键点进行检测并计算出其所处的方位角；本单元基于人脸68点检测模型，检测位于人脸眉心位置的关键点，获取该点的像素点的位置；利用图片帧的总像素点数，将图片横向总像素点数与关键点的像素点横坐标进行比较；划分横向的总像素点为360份，判断关键点像素横坐标在360份中的位置，说话人所在方位角即是该等份所对应的角度。

3.根据权利要求1所述的一种面向会议室场景的音视频定位系统，其特征在于，所述音频采集与处理模块包括：

音频采集单元，用于录制会议音频；采用六麦环形麦克风阵列作为音频采集装置、树莓派作为麦克风阵列的控制终端，以提高录制音频的清晰度与定位结果的准确性；本单元使用自动录制音频程序来控制设备完成会议发言的录制；设置麦克风阵列的音频采样率为16000、音频通道数为8、采样值的保存位数为2，同时设置录制的音频时长；运行程序后即可开始录制，其中，8个音频通道数中包含2个麦克风回声通道；

音频预处理单元，用于将音频文件进行归一化、滤波预处理，得到降噪滤波后的音频文件，提高定位结果准确性；

声源定位单元，用于得到说话人的位置信息；本单元采用最大可控响应功率波束形成法算法SRP-PHAT，实现会议室声源点的测量；该算法能解算出单个声源的来向，同时在适应包括各种回声、噪声和混响各种不同的声场环境下具有较好的鲁棒性；在完成单位时间的发言人方位解算并输出后，本系统通过对音频定位结果进行解析，在数据存储与可视化模块中导入数据库中存储。

4.根据权利要求1所述的一种面向会议室场景的音视频定位系统，其特征在于，所述数据存储与可视化模块包括：

音视频数据存储单元，用于储存视频采集与处理模块以及音频采集与处理模块得到的音视频文件；本单元对上传的音视频数据，根据视频采集与处理模块、音频采集与处理模块流程进行调度处理，将发言统计结果、音频定位结果、视频定位结果、最终定位结果、视频图像数据本地化，并在数据库中存储，以备后端调用，继而发送至前端，在前端页面详细展示分析会议所需要的数据内容，便于相关人员查看分析；

发言统计单元，用于记录会议中说话人的发言情况；包括：说话人姓名、照片、发言开始时间、结束时间、发言时长，并在可视化页面中展示；