CN213240485U

CN213240485U - 一种多模态信息融合说话人定位装置

Info

Publication number: CN213240485U
Application number: CN202021921416.4U
Authority: CN
Inventors: 金浩然; 李诚宇
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-05-18
Anticipated expiration: 2030-09-04

Abstract

本实用新型提供一种多模态信息融合说话人定位装置，包括底层保护盖、旋转平台、第一麦克风阵列、摄像头、传感装置、第二麦克风阵列和顶层保护盖，旋转平台固定在底层保护盖上方，第一麦克风阵列安装在底层保护盖上，摄像头和传感装置并排固定在旋转平台一侧，第二麦克风阵列固定在顶层保护盖的底面，顶层保护盖位于旋转平台正上方，顶层保护盖上表面设有显示屏。本实用新型的有益效果：本实用新型通过第一麦克风阵列、摄像头和第二麦克风阵列以实时定位说话人的方位，并通过热成像传感器和红外测距传感器的结合，有效对说话人的水平方向角、垂直俯仰角及距离进行准确定位，同时还可有效解决传统设备无法区分真实用户和非真实用户的问题。

Description

一种多模态信息融合说话人定位装置

技术领域

本实用新型涉及声音与图像信息融合技术领域，尤其涉及一种多模态信息融合说话人定位装置。

背景技术

近年来，随着人工智能领域的飞速发展，人们对人机交互模式展开了进一步的探索。有研究指出，键盘打字的平均速度为每分钟41个字，而人每分钟平均可以说出150个字。在输入效率上，语音的信息交换密度远远领先于键盘输入。由于语言交流具有天然的优势，语音交互一经应用便迅速推广到各种应用场景中。根据中国信通院数据显示，我国智能语音市场规模已超百亿元。随着互联网、移动智能终端的快速发展，人们对人机交互技术提出了更高的要求。以人为中心、自然、高效是发展新一代人机交互方式的主要目标。

为保证快速准确的获得用户在复杂环境下的语音交互信息，也为了对用户的需求有更加准确的响应，机器需要准确的获得说话人的位置，从而进行后续的定向语音识别、情感识别以及为用户提供定向服务等操作。

现有说话人定位方案多采用声音或图像单模态定位，这些定位方法在噪声较大或是环境光较复杂的条件下难以完成精确定位。部分发明者提出将图像与声音信息融合提高定位精度，但在实施过程中出现了距离信息精度不高的问题，这导致了具体位置无法准确确定的问题。此外，声音图像融合的方法存在将照片和电子屏显示的人像识别为真实用户的缺点，这对定位装置的识别精度造成了负面影响。现有装置还存在依赖上位机的缺点，装置自身只能完成信号的采集和简单预处理，无法独立完成整个定位过程。

实用新型内容

有鉴于此，本实用新型的实施例提供了一种多模态信息融合说话人定位装置。

本实用新型的实施例提供一种多模态信息融合说话人定位装置，包括底层保护盖、旋转平台、第一麦克风阵列、摄像头、传感装置、第二麦克风阵列和顶层保护盖，所述旋转平台的截面为圆形，且其通过旋转轴固定在所述底层保护盖上方，所述第一麦克风阵列安装在所述底层保护盖上，所述摄像头和所述传感装置并排固定在所述旋转平台一侧，且所述摄像头和所述传感装置前方设有保护罩，所述保护罩后方设有圆弧型保护壳，所述第二麦克风阵列固定在所述顶层保护盖的底面，所述顶层保护盖与所述底层保护盖相对设置，且其位于所述旋转平台正上方并固定在所述保护壳上，所述顶层保护盖上表面设有显示屏。

进一步地，包括内置处理器，所述内置处理器安装在所述旋转平台上，且所述第一麦克风阵列、所述摄像头、所述传感装置和所述第二麦克风阵列分别与所述内置处理器连接。

进一步地，所述第一麦克风阵列和所述第二麦克风阵列均包括至少三个等间隔等角度设置的麦克风，且所述第一麦克风阵列的各所述麦克风和所述第二麦克风阵列的各所述麦克风一一相对设置。

进一步地，所述第一麦克风阵列和所述第二麦克风阵列前方均设有金属网状的麦克风防尘罩，两所述麦克风防尘罩均为圆弧型，且两所述麦克风防尘罩均与所述保护壳连接。

进一步地，所述传感装置包括热成像传感器和红外测距传感器，所述摄像头与所述热成像传感器和所述红外测距传感器并排设置，且所述摄像头位于所述热成像传感器与所述红外测距传感器之间。

进一步地，所述保护壳一侧设有用于供电和/或数据传输的接口。

进一步地，所述旋转轴的上端固定在所述旋转平台的中部，其下端与电机的动力输出轴连接。

本实用新型的实施例提供的技术方案带来的有益效果是：本实用新型的一种多模态信息融合说话人定位装置通过所述第一麦克风阵列、所述摄像头和所述第二麦克风阵列以实时定位说话人的方位，并通过所述热成像传感器和所述红外测距传感器的结合，有效对说话人的水平方向角、垂直俯仰角及距离进行准确定位，同时还可有效解决传统设备无法区分真实用户和非真实用户的问题。

附图说明

图1是本实用新型一种多模态信息融合说话人定位装置的爆炸图。

图2是本实用新型一种多模态信息融合说话人定位装置的工作流程图。

图中：1-底层保护盖，2-旋转平台，3-第一麦克风阵列，4-摄像头，5-传感装置，6-第二麦克风阵列，7-顶层保护盖，8-旋转轴，9-保护罩，10-保护壳，11-显示屏，12-内置处理器，13-麦克风，14-麦克风防尘罩，15-热成像传感器，16-红外测距传感器，17-接口。

具体实施方式

为使本实用新型的目的、技术方案和优点更加清楚，下面将结合附图对本实用新型实施方式作进一步地描述。

请参考图1，本实用新型的实施例提供了一种多模态信息融合说话人定位装置，包括底层保护盖1、旋转平台2、第一麦克风阵列3、摄像头4、传感装置5、第二麦克风阵列6、顶层保护盖7和内置处理器12。

所述旋转平台2的截面为圆形，且其通过旋转轴8固定在所述底层保护盖1上方，本实施例中所述旋转轴8的上端固定在所述旋转平台2的中部，其下端与电机的动力输出轴连接，从而在电机的驱动下，所述旋转轴8可带动所述旋转平台2来回转动。

所述第一麦克风阵列3安装在所述底层保护盖1上，所述摄像头4和所述传感装置5并排固定在所述旋转平台2一侧，具体地，所述传感装置5包括热成像传感器15和红外测距传感器16，所述摄像头4与所述热成像传感器15和所述红外测距传感器16并排设置，且所述摄像头4位于所述热成像传感器15与所述红外测距传感器16之间。本实用新型中所述摄像头4的定位原理为：在所述摄像头4建立的像素坐标系中计算人脸像素图形与像素坐标系几何中心的相对位置关系，进而确定人脸的角度信息。本实施例中所述热成像传感器15用于测量人体热辐射产生的不可见光，从而根据能量与波长的关系测算温度信息。通常情况下，所述热成像传感器15捕捉到的人体热辐射信息与人的体型近似，与周围环境有明显的差异，从而通过这一点就可很容易区分检测得到的说话人是真实说话人还是多媒体设备。

所述摄像头4和所述传感装置5前方设有透明的保护罩9，所述保护罩9后方设有圆弧型保护壳10，且所述保护壳10一侧设有用于供电和/或数据传输的接口17。所述第二麦克风阵列6固定在所述顶层保护盖7的底面，所述顶层保护盖7与所述底层保护盖1相对设置，且其位于所述旋转平台2正上方并固定在所述保护壳10上，所述顶层保护盖7上表面设有显示屏11。

所述内置处理器12安装在所述旋转平台2上，且所述第一麦克风阵列3、所述摄像头4、所述传感装置5和所述第二麦克风阵列6分别与所述内置处理器12连接。

本实用新型中所述第一麦克风阵列3和所述第二麦克风阵列6均包括至少三个等间隔等角度设置的麦克风13，且所述第一麦克风阵列3的各所述麦克风13和所述第二麦克风阵列6的各所述麦克风13一一相对设置，本实施例中所述第一麦克风阵列3和所述第二麦克风阵列6前方均设有金属网状的麦克风防尘罩14，两所述麦克风防尘罩14均为圆弧型，且两所述麦克风防尘罩14均与所述保护壳10连接。

通过所述第一麦克风阵列3和所述第二麦克风阵列6的配合可实现对说话人所在位置的水平偏移角和竖直俯仰角进行测量，并在水平方向和竖直方向两个维度同时使用到达时间差算法(TDOA)，如下以所述第一麦克风阵列3和所述第二麦克风阵列6分别设置三个所述麦克风13为例进行具体说明，由于所述第一麦克风阵列3的三所述麦克风13和所述第二麦克风阵列6的三所述麦克风13在同一平面内均呈三角形形状，故处于后方的两所述麦克风13与前方的所述麦克风13存在一定距离，从而可以增强距离信息的测量精度；另外由于所述第一麦克风阵列3和所述第二麦克风阵列6是分为两层设计的，从而通过测量声源到达双层结构的时间差可计算竖直方向上的角度偏移量。

请参考图2，本实用新型的定位具体流程如下：

启用所述第一麦克风阵列3和所述第二麦克风阵列6以采集声源音频，同时启用所述摄像头4，并通过所述旋转轴8带动所述摄像头4转动至声源方向以实时采集图像信号，当所述摄像头4检测到人脸时，启动所述热成像传感器15以判断声源是否为真人用户，若为真人用户则进一步启动所述红外测距传感器16进行测距，从而所述内置处理器12综合通过所述第一麦克风阵列3、所述第二麦克风阵列6、所述摄像头4和所述红外测距传感器16等设备分别获取到的信息，进一步得到说话人的准确位置信息。

本实用新型的一种多模态信息融合说话人定位装置通过所述第一麦克风阵列3、所述摄像头4和所述第二麦克风阵列6以实时定位说话人的方位，并通过所述热成像传感器15和所述红外测距传感器16的结合，有效对说话人的水平方向角、垂直俯仰角及距离进行准确定位，同时还可有效解决传统设备无法区分真实用户和非真实用户(如照片、视频及人形机器人等)的问题。

在本文中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本实用新型的较佳实施例，并不用以限制本实用新型，凡在本实用新型的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实用新型的保护范围之内。

Claims

1.一种多模态信息融合说话人定位装置，其特征在于：包括底层保护盖、旋转平台、第一麦克风阵列、摄像头、传感装置、第二麦克风阵列和顶层保护盖，所述旋转平台的截面为圆形，且其通过旋转轴固定在所述底层保护盖上方，所述第一麦克风阵列安装在所述底层保护盖上，所述摄像头和所述传感装置并排固定在所述旋转平台一侧，且所述摄像头和所述传感装置前方设有保护罩，所述保护罩后方设有圆弧型保护壳，所述第二麦克风阵列固定在所述顶层保护盖的底面，所述顶层保护盖与所述底层保护盖相对设置，且其位于所述旋转平台正上方并固定在所述保护壳上，所述顶层保护盖上表面设有显示屏。

2.如权利要求1所述的一种多模态信息融合说话人定位装置，其特征在于：包括内置处理器，所述内置处理器安装在所述旋转平台上，且所述第一麦克风阵列、所述摄像头、所述传感装置和所述第二麦克风阵列分别与所述内置处理器连接。

3.如权利要求2所述的一种多模态信息融合说话人定位装置，其特征在于：所述第一麦克风阵列和所述第二麦克风阵列均包括至少三个等间隔等角度设置的麦克风，且所述第一麦克风阵列的各所述麦克风和所述第二麦克风阵列的各所述麦克风一一相对设置。

4.如权利要求2所述的一种多模态信息融合说话人定位装置，其特征在于：所述第一麦克风阵列和所述第二麦克风阵列前方均设有金属网状的麦克风防尘罩，两所述麦克风防尘罩均为圆弧型，且两所述麦克风防尘罩均与所述保护壳连接。

5.如权利要求1所述的一种多模态信息融合说话人定位装置，其特征在于：所述传感装置包括热成像传感器和红外测距传感器，所述摄像头与所述热成像传感器和所述红外测距传感器并排设置，且所述摄像头位于所述热成像传感器与所述红外测距传感器之间。

6.如权利要求1所述的一种多模态信息融合说话人定位装置，其特征在于：所述保护壳一侧设有用于供电和/或数据传输的接口。

7.如权利要求1所述的一种多模态信息融合说话人定位装置，其特征在于：所述旋转轴的上端固定在所述旋转平台的中部，其下端与电机的动力输出轴连接。