CN116449292A

CN116449292A - 一种用于语音定位的声学设备自主映射方法

Info

Publication number: CN116449292A
Application number: CN202310408729.1A
Authority: CN
Inventors: 李克秋; 陈建成; 佟鑫宇; 吴原原; 田逸尘; 刘秀龙; 石拓; 钟臻哲
Original assignee: Tianjin University; Xiamen Intretech Inc
Current assignee: Tianjin University; Xiamen Intretech Inc
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-18

Abstract

本发明公开了一种用于语音定位的声学设备自主映射方法，属于无线感知技术领域；本发明提出一种用于语音定位的声学设备自主映射方法，探索扫地机器人与语音设备之间的合作，通过扫地机器人构建的室内电子地图，并利用其正常工作时所产生的微小噪声，对室内语音设备在地图中的空间位置进行定位，从而避免繁琐的人工标定，最后基于语音地图来定位声源。相较于以往的部分声学定位工作，本发明无需对室内空间有任何的先验知识，具有极强的灵活性，更能满足用户对于室内定位场景的各项需求。

Description

一种用于语音定位的声学设备自主映射方法

技术领域

本发明涉及无线感知技术领域，尤其涉及一种用于语音定位的声学设备自主映射方法。

背景技术

近年来随着互联网的飞速发展和高度普及，相关智能设备的数量和种类呈现出爆炸性趋势的增长，各式各样的智能接入设备显著改善了我们的日常生活，并为智能家居和智能办公等一系列应用提供了坚实的硬件基础。智能设备的运作需要各类输入系统的支持。其中，语音输入系统作为一种低成本、高便捷性的远程指令输入控制模块，已经广泛部署于各种设备中。例如，智能电器和智能语音助手集成了语音模块，因此我们可以在无额外输入设备的情况下，远程控制这些智能设备。

对于智能服务的供应商来说，上下文感知服务是当下抢占智能服务市场的一项核心竞争力技术。其中声源位置信息是其中最关键的要素之一，华为、小米、谷歌和苹果等公司都希望实现声源定位来获取有效的上下文信息。这是因为位置信息可以帮助解决带有歧义的问题，例如，在智能家居领域中，当用户说“打开灯”时，系统就能够确定要打开哪间房屋的灯。

为了实现上述的室内声源定位服务，典型的定位系统依赖于设备位置、设备定位和室内平面图的先验知识。这不仅要求用户获得一张室内电子地图，而且还需要在地图上标记这些设备的空间信息。上述过程将导致额外的成本，特别是当室内部署了多个智能语音设备时。为了降低这种劳动力成本并实现即插即用的应用程序，我们设想了一种理想的智能家居系统：有一个机器人可以自动探索室内地图，并确定地图上的语音设备的空间信息，进而系统可以基于上述的语音图来定位声源。

无线感知技术是室内定位领域中一项广泛使用的技术。具体来说，无线感知技术包含声学感知、WIFI感知、蓝牙、RFID和计算机视觉等。对于上述的基于智能设备的室内场景构建及室内定位蓝图，声学传感是一种理想的低成本高质量解决方案。声学感知技术就是通过一系列声学处理方法，提取声音信号中所包含的信号到达角(Angle of Arrival,AoA)、多普勒频偏(Doppler Shift)、信号飞行时间(Time of Flight，TOF)、信号衰减等信息，进而感知周围的环境状况和人体活动。根据用于传感的声音信号种类的不同，传统的声学传感技术可以分为基于调制信号的声学传感和基于未知信号的声学传感。对于基于调制信号的声学传感，扬声器设备发出经过精心调制的声学信号，如连续波(Continuous Wave，CW)和调频连续波(Frequency Modulated Continuous Wave，FMCW)等，使麦克风可以对接收到的已知信号提取信道状态特征。由于原始信号的特征已知，因此该方法往往能够获得更高的精度。对于基于未知信号的声学传感，麦克风阵列接收来自声源的随机声学信号，如话语声、音乐声、脚步声甚至是噪声等，进而提取有用的信息进行位姿感知。由于系统既不能控制，也不能预测这种频率和内容均不含有先验知识的自然声音，因此很难利用传统的信道估计方法来提取环境特征。2020年的工作VoLoc设计了一种基于时域的方法来估计信号的AoA，并联合附近墙壁的几何参数来估计用户在室内的位置，但该系统对房间形状有一定的限制。

为了解决上述问题，本发明提出一种用于语音定位的声学设备自主映射方法。

发明内容

本发明的目的在于提供一种能够解析未知声学信号中的AoA信息，以完成室内语音设备的空间位置标定并支持高精度的室内定位工作的用于语音定位的声学设备自主映射方法以解决背景技术中所提出的问题。

为了实现上述目的，本发明采用了如下技术方案：

一种用于语音定位的声学设备自主映射方法，探索扫地机器人与语音设备之间的合作，通过扫地机器人构建的室内电子地图，并利用其正常工作时所产生的微小噪声，对室内语音设备在地图中的空间位置进行定位，从而避免繁琐的人工标定，最后基于语音地图来定位声源，具体包括以下内容：

S1、超分辨率样本偏移测量：利用智能语音设备的麦克风获取频域信号，在时域上进行插值，完成频域的零填充，接着使用滤波器对声音信号进行过滤，对滤波后的信号进行处理，计算得出细粒度的样本偏移；

S2、基于惯性的AoA估计：利用智能语音设备的麦克风采集实际轨迹序列，对其进行数据增强进而生成训练集，基于所得训练集计算AoA序列，结合S1中超分辨率样本偏移测量方法获得更细粒度样本偏移量，进而构建AoA模型；

S3、麦克风阵列定位：利用具有SLAM功能的机器人探索房间的布局，然后智能语音设备中的麦克风阵列捕捉机器人在运行时的声音，基于S2计算声音信号的AoA，利用复数来表示麦克风阵列的位置和方向，同步SLAM地图和AoA的坐标系，进而在SLAM地图上标定麦克风阵列的空间位置；

S4、房间结构和定位：基于S3所述内容在电子地图上标定麦克风阵列位置，获得准确的房间信息，然后利用麦克风阵列定位人的声音，使用墙壁反射和多个AoAs确定目标的位置，并利用几何关系完成人声定位。

优选地，所述S1具体包括以下内容：

S1.1、利用麦克风采集获得长度为N的接收序列，记作h_r(t)，对其进行傅里叶变换，获得接收序列的频域信号，具体表示为：

H_r(t)＝F(h_r(t))

其中，F(·)表示傅里叶变换；

S1.2、在S1.1中所得的频域上进行零填充，通过长度为K×N的反傅里叶变换得到一个新的时域序列，具体表示为：

φh’_r(t)＝F^-1(H_r(t),KN)

其中，F^-1(·)表示反傅里叶变换；

S1.3、使用hampel滤波器对声音信号进行过滤，消除高频跳跃，然后对滤波后的信号进行互相关，计算得出细粒度的样本偏移。

优选地，所述S2具体包括以下内容：

S2.1、利用麦克风采集声信号，对声信号少量的实际轨迹序列进行旋转、缩放和平移操作，在不改变原始轨迹形状的条件下生成新的运动轨迹序列；在复数坐标系上表示轨迹坐标，假设t时刻的坐标为：

l_t＝x_t+jy_t

其中，j表示复数单位；根据欧拉公式对上式进行变形，则坐标可表示为：

l_t＝ρ_te^jφt＝ρ_tcos(φt)+ρ_tsin(φt)＝x_t+jy_t

S2.2、通过几何形状来计算AoA，计算过程中假设麦克风位置固定且候选情况通过旋转、平移、缩放机器人的轨迹模拟获得；

S2.3、假设声信号的速度为c，声音采样率为f_s，则样本偏移可表示为

其中，S_off表示样本偏移；

S2.4、构造一种无监督学习的神经网络AE嵌入AoA估计模型，将S2.3中所得的S_off作为模型输入值，然后通过训练使预测值接近输入值S_off；使用数学模型/>替代解码器引导模型输入值S_off定向旋转，确保AE提供的潜在特征是AoAs；基于上述操作，使目标编码器将逼近该解码器的逆函数，从而将样本的偏移转换为AoAs。

优选地，所述S3具体包括以下内容：

S3.1、布局探索及声音捕捉：利用具有SLAM功能的机器人探索房间的布局，然后智能语音设备中的麦克风阵列捕捉机器人在运行时的声音，基于S2计算声音信号的AoA；

S3.2、阵列表示：通过复数表示麦克风阵列的位置和方向，分别记作Q＝x+jy和将机器人的位置序列表示为/>其中，l_t＝x_t+jy_t，表示t时刻的位置；假设S3.1中计算所得的AoA序列为/>通过/>和/>计算Q和/>

S3.3、序列同步：以固定周期t的窗口对声信号进行切片，然后检测平均能量确定开始阶段，并通过频率检测消除人声干扰，最后通过插值方法完成两个序列样本的对齐；

S3.4、坐标系同步：假设机器人报告的位置为p_t，麦克风阵列导出的AoA估计为θ_t，结合S3.1～S3.3所述内容可知，属于机器人坐标系，θ_t属于麦克风坐标系；因此，通过基于位置的表示可以得到p_t-Q,，通过基于角度的表示可以得到/>考虑单位向量，则：

进一步变换为：

遍历搜索空间Q来使等式在T窗口内的平均值最大化：

在确定了麦克风阵列的位置后，通过下式计算出其方向：

优选地，所述S4具体包括以下内容：

S4.1、对于带有N个麦克风的阵列，其原始输入信号为N×M矩阵，其中，M表示样本数；

S4.2、对信号进行零填充，然后采用时域信号的短时傅里叶变换得到时频图；

S4.3、使用差分消除低频处的干扰得到更清晰的波形，再遍历每个时隙确定最大的频率分量，获得不同麦克风的信道频率响应；

S4.4、利用MUSIC算法求解AoA；对于所获得的AoAs，使用聚类方法来确定直接路径和反射路径，并利用几何关系完成人声定位。

与现有技术相比，本发明提供了一种用于语音定位的声学设备自主映射方法，具备以下有益效果：

(1)本发明提出了一种用于语音定位的声学设备自主映射方法，其基于智能机器人与智能语音设备之间的合作，通过具有SLAM功能的机器人构建室内电子地图，并利用其正常工作时所产生的微小噪声，对室内语音设备在地图中的空间位置进行定位，从而避免繁琐的人工标定，最后基于语音地图来定位声源一种基于麦克风阵列和智能机器人的语音地图；相较于以往的部分声学定位工作，本发明无需对室内空间有任何的先验知识，具有极强的灵活性，更能满足用户对于室内定位场景的各项需求。

(2)本发明提出了一种基于惯性的超分辨率AoA估计方法，它结合了目标运动和AoA估计，提高了运动目标跟踪的精度。此外，该方法只需智能语音设备捕获扫地机器人日常工作中的微小噪声，而无需单独发送特制的声学信号。

(3)本发明开发了一种有效的方法来同步运动物体和声学装置的坐标系，从而使该系统能够实现麦克风阵列的自主映射。

(4)本发明在多个场景中设计了大量实验来对系统的能力进行验证。本发明使用商用的SLAM扫地机器人和麦克风阵列构建了一个原型，并实现了较高精度的麦克风定位效果。

附图说明

图1为本发明提出的一种用于语音定位的声学设备自主映射方法的流程图；

图2为本发明实施例1中麦克风阵列模型示意图；

图3为本发明实施例1中神经网络模型示意图；

图4为本发明实施例1中坐标转换示意图；

图5为本发明实施例1中人声定位原理示意图；

图6为本发明实施例1中人声定位流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

首先对本发明中所涉及的本领域专业术语进行解释：

无线感知是一项利用环境中泛在的无线传感信号来获取信道状态信息从而对周围环境及人体活动进行感知的技术，是物联网领域中最关键的技术之一。可用于无线传感的信号种类繁多，例如WIFI、声音、光信号、蓝牙、RFID等。

声学传感技术是无线感知中的重要组成部分，是一种利用声学信号来进行环境感知的技术。具体原理是通过分析声音信号在传播过程中的变化(如方向、速度、延迟、能量)，来分析传感目标的状态及特征。

室内定位跟踪技术是智能家具中常用的方案之一。由于GPS在室内的信号弱而导致剧烈的定位漂移，因此常用无线感知技术来满足室内的定位需求。

信号到达角(AoA)即信号来波的方向。在声学传感中，其目的是确定声音信号从哪个方向来，进而逆向推导待定发声目标的方位角。在实践中，我们通常使用麦克风阵列来捕获信号到达角，常用的有6麦克风圆形阵列和4麦克风线性阵列等。由于远场效应，到达麦克风的声音可以看作是一系列的平行线，因此不同麦克风接收到的信号可视为原始信号的具有不同延迟的版本，根据接收信号不同的延迟水平可以帮助我们确定来波方向。

坐标系同步即将对应于不同设备的相机坐标系变换到一个统一的世界坐标系中。在本发明中，则是将语音设备的相机坐标系和扫地机器人的相机坐标系进行同步，统一变换到地图的世界坐标系中。

到达角分辨率是指系统对于信号来波方向的分辨能力。对于智能语音设备中的麦克风阵列，各个麦克风所接收到的语音信号具有不同的延迟。由于接收信号是麦克风对于声波的离散采样，因此在时域中我们无法获得准确的延迟时间。整数采样点偏移意味着系统无法区分小于一个采样时间的延迟，进一步导致多个到达角可能对应着相同的样本偏移(sample shift)，造成AoA估计误差。

下面结合具体实例及附图对本发明技术方案进行详细的操作描述。

实施例1：

不失一般性，在一个6.4m×6.4m的开放空间内，本发明使用商用的SLAM扫地机器人和麦克风阵列搭建了一个语音定位系统原型。SLAM扫地机器人能够报告其位置，并提供室内电子地图服务，这些功能已经得到部分商业扫地机器人的支持。为了模拟常见的智能语音设备，我们使用Seeed Studio 4麦克风线性阵列和6麦克风圆形阵列捕捉SLAM扫地机器人的工作噪声，它们的形状与亚马逊的Echo和阿里巴巴的天猫精灵相似。麦克风阵列分别连接了一台树莓派4B进行控制。对于上述的两款麦克风阵列，相邻麦克风之间的距离为4.75cm，其中圆形阵列的6个麦克风的布局为正六边形。在我们的原型系统中，语音设备以48kHz的采样率收集声音。数据收集后，我们使用台式计算机来执行用Matlab编写的代码。基于上述语音定位系统原型，本发明提出一种用于语音定位的声学设备自主映射方法，具体包括以下内容：

①超分辨率样本偏移测量部分：

本发明的一个子场景是利用声音信号的AoA来定位连续移动的设备。在远场效应下，麦克风阵列接收的信号可以看作是一系列的平行线。在忽略多径效应的情况下，将到达第i个麦克风的声学信号记为s_i(t)。根据几何关系，信号到达不同麦克风对存在着额外飞行距离。假设第i个麦克风的位置是将第i个和第j个麦克风之间的空间向量表示为Δd_ij。因此，额外的飞行距离为:

其中,为θ方向上的单位向量，其原理如图2所示。在时域中，这种距离反映为一个时移τ_ij＝Δd_ij/c，进而可得s_i(t)＝s_i(t-τ_ij)，其中c表示声音的速度。

然而，受到声信号的采样率(48kHz)的限制，样本偏移必须是一个整数，基于时域的方法不足以区分不同的AoAs，因为本发明提出一种新的时频分析方法。

本发明首先对信号频域上进行零填充，这等价于在时域上进行插值，接着我们使用特殊的滤波器对声音信号进行过滤。具体来说，对于长度为N的接收序列h_r(t)，首先得到其频域信号，用H_r(t)＝F(h_r(t))表示，其中F(·)表示傅里叶变换。接下来，在频域上进行零填充，通过长度为K×N的反傅里叶变换得到一个新的时域序列，即h’_r(t)＝F^-1(H_r(t),KN)，其中，F^-1(·)表示反傅里叶变换。上述两步等价于在时域内进行插值。然后进行互相关操作计算样本偏移值。为了得到更加细粒度的样本偏移，本发明提出了一个简单但更有效的解决方案，即hampel滤波器。这将导致我们获得一个新的峰值，它来自于插值过程中的冗余频率分量，在插值序列中反映为微小波纹。为此我们使用hampel滤波器来消除高频跳跃。因此，我们可以首先使用hampel和平滑滤波器，然后对滤波后的信号进行互相关，以计算细粒度的样本偏移。

②基于惯性的AoA估计部分：

在实际中多径信号(例如回声)影响了我们对于AoA的估计，但基于运动是连续的这一事实，连续信号片段的AoAs不会发生明显的变化。也就是说，在Ground Truth和观测结果之间存在着一种隐含的关系。为此我们设计了一种基于神经网络的数据驱动方法。

首先，为避免人工数据收集将耗费的劳动力成本，我们采用了一种有效的方式来生成训练集。具体来说，我们通过对少量的实际轨迹序列进行旋转、缩放和平移操作，在不改变原始轨迹形状的条件下生成了新的运动轨迹序列，进而达到数据增强的目的。我们在复数坐标系上表示轨迹坐标，假设t时刻的坐标为l_t＝x_t+jy_t，其中j表示复数单位，根据欧拉公式，可得：

l_t＝ρ_te^jφt＝ρ_tcos(φt)+ρ_tsin(φt)＝x_t+jy_t

再通过基本变换操作，可以得到新的轨迹序列。

接着通过几何形状来计算AoA序列。由于位置关系的相对性，在这个过程中即使我们假设麦克风位置固定，也能够通过旋转、平移、缩放机器人的轨迹来模拟所有的候选情况。

对于一段AoA序列，我们需要计算样本偏移。假设声信号的速度为c，声音采样率为f_s，则样本偏移可表示为：

其中，S_off表示样本偏移。

利用上述的超分辨率样本偏移测量方法，我们可以获得更细粒度的样本偏移量。

最后提出一种无监督学习的神经网络AE来嵌入AoA估计模型。如图3所示，通过训练使预测值接近输入值S_off，可以得到编码器和解码器。为了保证AE提供的潜在特征是本发明使用数学模型/>替代解码器来引导它实现定向转换。因此，目标编码器将逼近该解码器的逆函数，从而将样本的偏移转换为AoAs。

③麦克风阵列定位部分：

本发明用复数来表示麦克风阵列的位置和方向，分别为和Q＝x+jy和同样，机器人的位置序列表示为/>其中表示t时刻的位置。假设上述步骤导出的AoA序列为/>通过/>和/>计算Q和/>

序列同步：由于机器人和麦克风的采样率不同，我们需要同步序列的起始，并同步每个样本。我们以0.01s的窗口对声信号进行切片，然后检测平均能量以确定开始阶段，并通过频率检测来消除人类的语音干扰。接下来我们使用插值方法来对齐两个序列的样本。在实践中，麦克风阵列进行48kHz的均匀采样，而机器人报告的位置序列的时间间隔不均匀，因此根据运动的连续性我们对机器人的位置序列进行样条插值，使相邻轨迹点的时间间隔为0.01秒。

坐标系同步：由于机器人和麦克风的坐标系不同，我们需要对其进行同步。假设机器人报告的位置为p_t，麦克风阵列导出的AoA估计为θ_t，那么属于机器人坐标系，θ_t属于麦克风坐标系。因此，通过基于位置的表示可以得到p_t-Q，通过基于角度的表示可以得到/>考虑单位向量，则：

进一步变换为：

遍历搜索空间Q来使等式在T窗口内的平均值最大化：

在确定了麦克风阵列的位置后，通过下式计算出其方向：

④房间结构和定位部分：

在电子地图上标定麦克风阵列位置后，可以利用这个麦克风阵列来定位人的声音。我们使用墙壁反射和多个AoAs来确定目标的位置，具体原理如图5。

对于带有N个麦克风的阵列，原始输入信号为N×M矩阵，其中M表示样本数。为了提高频域分辨率，对信号进行零填充后我们采用时域信号的短时傅里叶变换(Short TimeFourier Transform，STFT)得到时频图。接着使用差分来消除低频处的干扰得到更清晰的波形，再遍历每个时隙来确定最大的频率分量以获得不同麦克风的信道频率响应(ChannelFrequency Response，CFR)，最后利用MUSIC算法求解AoA。对于最终的AoAs，我们使用聚类方法来确定直接路径和反射路径，并利用几何关系完成人声定位。工作流程见图6。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于语音定位的声学设备自主映射方法，其特征在于，具体包括以下内容：

2.根据权利要求1所述的一种用于语音定位的声学设备自主映射方法，其特征在于，所述S1具体包括以下内容：

H_r(t)＝F(h_r(t))

其中，F(·)表示傅里叶变换；

φh’_r(t)＝F^-1(H_r(t),KN)

其中，F^-1(·)表示反傅里叶变换；

3.根据权利要求1所述的一种用于语音定位的声学设备自主映射方法，其特征在于，所述S2具体包括以下内容：

l_t＝x_t+jy_t

l_t＝ρ_te^jφt＝ρ_tcos(φt)+ρ_tsin(φt)＝x_t+jy_t

其中，S_off表示样本偏移；

4.根据权利要求1所述的一种用于语音定位的声学设备自主映射方法，其特征在于，所述S3具体包括以下内容：

进一步变换为：

遍历搜索空间Q来使等式在T窗口内的平均值最大化：

在确定了麦克风阵列的位置后，通过下式计算出其方向：

5.根据权利要求1所述的一种用于语音定位的声学设备自主映射方法，其特征在于，所述S4具体包括以下内容：