CN113762219A

CN113762219A - 一种移动会议室内人物识别方法、系统和存储介质

Info

Publication number: CN113762219A
Application number: CN202111291171.0A
Authority: CN
Inventors: 王江林; 王郑兴; 姚林强; 王星
Original assignee: Henglin Home Furnishings Co Ltd
Current assignee: Henglin Home Furnishings Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2021-12-07

Abstract

本发明涉及一种移动会议室内人物识别方法，包括：S1采集移动会议室内信息，所述信息包括视频信息及音频信息；S2解析视频信息，获得每一时刻的第一图像信息；S3根据每一时刻的音频信息确定对应时刻的第一图像信息加强区域；S4对第一图像信息的非加强区域进行处理，获得第二图像信息；S5基于第二图像信息判断移动会议室内是否存在人物。本发明解决了现有技术中移动会议室内人物识别效率低、准确率差的技术问题，在较低计算量的情况下保证移动会议室内人物的识别的有效性。

Description

一种移动会议室内人物识别方法、系统和存储介质

技术领域

本发明涉及于图像识别，尤其涉及一种移动会议室内人物识别方法、系统和存储介质。

背景技术

移动会议室内的人物准确识别，是移动会议室安全的关键之一，能够有效避免在会议室内有人的情况下的锁在会议室内带来的安全问题。仅根据会议室内声音的信息判断，无法有效区分会议室内未及时关断的投影设备或印象设备带来的音源，或人物带来的音源。根据图像识别的方式识别会议室的人物，存在计算量大，实时性差的技术问题。

发明内容

为了现有技术存在的上述技术缺陷，在较低计算量的情况下保证移动会议室内人物的识别的有效性，本发明提供了：

一种移动会议室内人物识别方法，包括：

S1采集移动会议室内信息，所述信息包括视频信息及音频信息；

S2解析视频信息，获得每一时刻的第一图像信息；

S3根据每一时刻的音频信息确定对应时刻的第一图像信息加强区域；

S4对第一图像信息的非加强区域进行处理，获得第二图像信息；

S5基于第二图像信息判断移动会议室内是否存在人物；

所述第一图像信息加强区域通过在移动会议室内的至少三个可收音装置的收音曲线的散度计算的与轴线的夹角获得。

优选的，所述S3包括：

S3.1在K空间内建立剖分系数为r的空间网格；

S3.2声源距离中心点的距离d的计算方法为：

，

其中，d为声源距离中心点的距离，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

为差值模型；

S3.3基于声源位置及剖分系数r确定第一图像信息加强区域。

优选的，所述基于声源位置及剖分系数r确定第一图像信息加强区域的方法为：

其中，x、y、z为声源位置的坐标范围，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

、

、

、

为系数，

，

，

，

。

优选的，所述差值模型

为：

其中，

为差值模型，i为声源位置，c为声音在空气中的传播速度，i₁，i₂，i₃为三个可收音装置的位置。

优选的，所述对第一图像信息的非加强区域进行处理包括：对第一图像信息的非加强区域添加椒盐噪声。

优选的，所述S5采用Yolov3网络架构判断移动会议室内是否存在人物。

一种移动会议室内人物识别系统，包括：

信息采集模块，所述信息采集模块被配置为采集移动会议室内信息，所述信息包括视频信息及音频信息；

视频解析模块，所述视频解析模块被配置为解析视频信息，获得每一时刻的第一图像信息；

图像预处理模块，所述图像预处理模块被配置为根据每一时刻的音频信息确定对应时刻的第一图像信息加强区域；对第一图像信息的非加强区域进行处理，获得第二图像信息；所述第一图像信息加强区域通过在移动会议室内的至少三个可收音装置的收音曲线的散度计算的与轴线的夹角获得；

人物判断模块，所述人物判断模块被配置为基于第二图像信息判断移动会议室内是否存在人物。

优选的，所述图像预处理模块被配置为执行：

在K空间内建立剖分系数为r的空间网格；

声源距离中心点的距离d的计算方法为：

，

其中，d为声源距离中心点的距离，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

为差值模型；

基于声源位置及剖分系数r确定第一图像信息加强区域；

所述基于声源位置及剖分系数r确定第一图像信息加强区域的方法为：

其中，x、y、z为声源位置的坐标范围，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

、

、

、

为系数，

，

，

，

。

优选的，所述人物判断模块采用Yolov3网络架构判断移动会议室内是否存在人物。

一种计算机存储介质，其上存储有计算机程序，当所述计算机程序被计算设备中的处理器执行时，计算设备执行上述任一项所述的方法。

与现有技术相比，本发明的有益效果：

1、本发明通过声源定位确定的范围对图像识别的区域进行重点框取，有效降低了图像识别的计算量，提高会议室内的人物识别的效率；

2、本发明将声源定位的问题简化为遍历三个可收音装置获得的收音曲线以寻找最大增长率所在点，较现有声源定位的方法相比，在保证一定准确率的情况下，计算量低、计算效率高；

3、本发明对声源定位点的范围进行优化，根据剖分系数划分声源点的周边的范围，提高了定位范围的合理性，进而提高了识别的准确率。

附图说明

附图用于对本发明的进一步理解，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是本发明实施例所提供的一种移动会议室内人物识别方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了更好地理解上述技术方案，下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。

实施例一

本实施例公开了一种移动会议室内人物识别方法，如图1所示，包括：

S1采集移动会议室内信息，所述信息包括视频信息及音频信息。

S2解析视频信息，获得每一时刻的第一图像信息。

S3根据每一时刻的音频信息确定对应时刻的第一图像信息加强区域；所述第一图像信息加强区域通过在移动会议室内的至少三个可收音装置的收音曲线的散度计算的与轴线的夹角获得。

移动会议室中设置至少三个可收音装置，根据多个可收音装置的时间延迟确定声源位置。如图n所述为边界为K的空间内，剖分系数为r的空间网格，声源坐标在空间网格中的坐标为

。声源距离中心点的距离d的确定基于声源位置及剖分系数r确定第一图像信息加强区域，具体函数关系为：

其中，d为声源距离中心点的距离，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

为差值模型。

上述模型将声源定位的问题，简化为在会议室的空间网格中遍历三个可收音装置获得的收音曲线以获得最大增长率所在点的问题。通过声源位置，对采集的图像区域进行有针对性识别，对与声源位置较远的区域不进行识别。该声源的定位方法根据声源定位时获得的声波曲线特点，有效平衡了计算效率及定位准确性。

重点识别的声源位置的区域，根据定位及空间网格的剖分系数确定，所述基于声源位置及剖分系数r确定第一图像信息加强区域的方法为：

其中，x、y、z为声源位置的坐标范围，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

、

、

、

为系数，

，

，

，

。

上述坐标范围的确定，综合考虑了被识别对象的尺寸范围及剖分系数r。当剖分系数r较大时，即剖分的网格较大时，声源定位准确性较低，故而第一图像信息加强区域的范围变化幅度更大；当剖分系数r较小时，即剖分的网格较小时，声源定位准确性较高，故而第一图像信息加强区域的范围变化幅度更小。此外，位置的坐标范围的上下限通过被识别对象的尺寸范围进行约束，以确保后续图像识别的过程中，识别对象具备完整性的同时较大程度的在第一图像信息加强区域呈现。

所述差值模型

为：

其中，

S4对第一图像信息的非加强区域进行处理，获得第二图像信息；所述对第一图像信息的非加强区域进行处理包括：对第一图像信息的非加强区域添加椒盐噪声。更进一步的，所述椒盐噪声处理包括将图像的像素点的值改为黑色（即，0）或白色（即，255）。椒盐噪声的增加比例可根据移动会议室内的实际情况及图像处理的要求设定，不影响本实施例技术效果的实现。

S5基于第二图像信息判断移动会议室内是否存在人物。

所述S5采用Yolov3网络架构判断移动会议室内是否存在人物。

对移动会议室无人状态内的图像进行采集，尤其是常见声源发生的位置的图像、人物在会议室内常见的发声位置的图像进行重点采集，形成训练样本。优选的，将存在会议室内的人物图像设置为正例，将无人状态下的移动会议室内图片设置为负例，尤其是存在会议室内的投影、音响等声源图片设置为负例。图片的训练采用本领域公知技术，不影响本实施例技术效果的实现。

采用Darknet-53的网络结构提取图像的基础特征，优选采用256*256*3的输入，并根据重复的残差组件确定卷积层和快捷链路个数。

以较高的采样倍数提取第二图像信息。由于第二图像信息根据声源范围进行了优化，声源在优化后的图像中的尺寸更小，显著程度较未处理的随机范围的声源在图像中的比重更明显，采用较大采样倍数的设定更适应于高效准确的识别图像中较大尺寸的对象。对Yolov3网络的部分层，尤其是常规Yolov3网络架构的模型中针对细粒度、小感受野、小尺寸对象的检测网络层进行剪枝，以提高计算效率。此外，本实施例通过前置的声源范围确定识别范围的方式，避免了Yolov3常规过程中涉及的背景框是和预测框的计算问题，无需精细化优化设定背景框及预测框也可对人物进行准确识别。

优选采用softmax进行对象预测，以提高预测效率。诚然使用logistic的输出进行预测可以支持多标签对象，输出内容的维度更丰富，但经过声源范围优化后的图像，仅需快速对比是否属于人物或非人物即可，故而采用softmax的分类效率更高，计算量更低，干扰更小。

更进一步的，若移动会议室管理系统显示为未预定的异常使用时间，且会议室内判断为有人时，进行声音提醒；若移动会议室管理系统显示为未预定的异常使用时间，且会议室内判断为无人时，进行相应的切断投影或音响等声源设备以避免人员离开移动会议室而未进行及时的投影或音响的关断而带来的能源浪费。

实施例二

本实施例公开了一种移动会议室内人物识别系统，包括：

其中，d为声源距离中心点的距离，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

为差值模型。

其中，x、y、z为声源位置的坐标范围，

为声源与z方向的夹角，

为映射到水平平面后，与x轴正方向的夹角，

、

、

、

为系数，

，

，

，

。

上述坐标范围的确定，综合考虑了被识别对象的尺寸范围及剖分系数r。当剖分系数r较大时，即剖分的网格较大时，声源定位准确性较低，故而第一图像信息加强区域的范围更大；当剖分系数r较小时，即剖分的网格较小时，声源定位准确性较高，故而第一图像信息加强区域的范围更小。此外，位置的坐标范围的上下限通过被识别对象的尺寸范围进行约束，以确保后续图像识别的过程中，识别对象具备完整性的同时较大程度的在第一图像信息加强区域呈现。

所述差值模型

为：

其中，

所述人物判断模块采用Yolov3网络架构判断移动会议室内是否存在人物。

实施例三

本实施例提高一种计算机存储介质，其上存储有计算机程序，当所述计算机程序被计算设备中的处理器执行时，计算设备执行上实施例一所述的方法。

与现有技术相比，本发明提供的有益效果是：

以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。