CN116164751A

CN116164751A - 一种室内音频指纹定位方法、系统、介质、设备及终端

Info

Publication number: CN116164751A
Application number: CN202310183017.4A
Authority: CN
Inventors: 陈锐志; 徐诗豪; 郭光毅; 叶锋
Original assignee: Zhejiang Deqing Zhilu Navigation Technology Co ltd
Current assignee: Zhejiang Deqing Zhilu Navigation Technology Co ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-26
Anticipated expiration: 2043-02-21
Also published as: CN116164751B

Abstract

本发明属于室内指纹定位与导航技术领域，公开了一种室内音频指纹定位方法、系统、介质、设备及终端，对设备接收到的原始音频信号进行去噪、分帧以及归一化预处理，形成能量密度图EDM；整合归一化EDM的主干分支和边缘检测图的掩码分支，结合注意力和边缘检测模块，构建基于注意力机制的CNN网络；构建音频指纹数据库，对基于注意力机制的CNN网络进行训练；将终端实时采集的音频数据分类到具体的参考指纹点，实现室内音频指纹定位功能。评估结果表明，本发明在静态和动态条件下的整体定位精度为1.13米，在遮挡情况下实现2.24米的平均定位均方根误差，与传统Wi‑Fi或蓝牙和地磁指纹方法相比，精度分别提高32.9％和4.3％；与不做归一化预处理的音频指纹定位相比，总体终端设备的定位差异性降低了68.17％。

Description

一种室内音频指纹定位方法、系统、介质、设备及终端

技术领域

本发明属于室内指纹定位与导航技术领域，尤其涉及一种室内音频指纹定位方法、系统、介质、设备及终端。

背景技术

近十年来，FP(Fingerprinting，指纹技术)在室内定位领域得到了广泛的研究。同一空间内的信号在不同位置上通常会表现出不同的特征，指纹技术总结了这些位置与特征的关系，在离线阶段建立空间数据库，并于在线阶段依靠各种匹配机制来估计目标的实时坐标。指纹技术中可利用的信号源可以是任何具有空间识别特性的物理或生物信号，如RF信号(Radio-frequency，射频)、音频信号、地磁信号、光信号等。

Wi-Fi和蓝牙技术使用一定时间内从AP(Access Point，接入点)处获得的RSS(Received signal strength，接收信号强度)，以及RSS的平均值和方差等统计信息作为指纹定位的特征。同时还派生了由路径损耗模型测距，以及RTT(Round-trip-time，往返测时)产生的ToA(Time-of-arrival，到达时间)与RSS的组合。由于AP密集地部署在日常生活场所内，因此基于Wi-Fi和蓝牙的指纹定位方法几乎实现了无处不在的信号覆盖，现有研究成果丰硕。然而，它们通常只能实现米级定位精度，难以满足不断增长的实际应用需求。CSI(Channel state information，信道状态信息)由物理层入手，从30个信号子载波的信道频率响应中获得更精细的特征，更高的空间分辨率和更稳定的信号捕获率显著地提高了基于CSI的指纹定位性能，定位精度可达分米级。然而，目前仍没有一款商用手机可以直接利用它，应用严重受限。

光学指纹定位方法利用调制在不同频率上的可见光光强的空间多样性来识别位置。其与射频信号相比，单个信号的有效作用范围较小，且对NLOS(None-line-of-sight，非视线)条件异常敏感。地磁信号被广泛用作基于射频指纹的辅助和补充，它不需要任何基础设施，并利用不同的室内布局引起的地磁场变化来实现低成本的定位。然而，它无法实现开阔环境下的定位快速初始化。当强磁物体在环境中移动时，定位稳定性容易受到影响。综上，现有指纹定位技术都难以同时满足高精度、方便快捷和大众智能设备支持的复合性要求。

同时，音频信号包含了丰富而细腻的时频域特征，是指纹定位方法的一类良好载体。现有的将音频指纹应用到目标定位的研究侧重于从少数几个频点发展到整个频谱域，相关应用的规模和信号频率都在不断增加。但这些研究的方法集中在传统数据处理上，特别是传统机器学习上，不利于终端的高效位置解算和设备的普适性提高。因此，音频信号虽然凭借其丰富的时频域特征，成为室内指纹定位(FPP)领域的一类信号源。然而，现有技术通常仅考虑了信号的数值特征，而往往忽略了信号在终端的相对到达时刻的上下文意义。

通过上述分析，现有技术存在的问题及缺陷为：

(1)基于Wi-Fi和蓝牙的指纹定位方法通常只能实现米级定位精度，且信号在不同终端设备上的差异性显著，难以满足不断增长的实际应用需求；而基于CSI的指纹定位方法的应用严重受限。

(2)光学指纹定位方法无法实现开阔环境下的定位快速初始化；地磁指纹定位方法在环境中存在强磁物体移动时，定位稳定性容易受到影响。

(3)现有指纹定位技术集中在传统数据处理方法上，特别是传统机器学习上，不利于终端的高效位置解算和设备的普适性提高。

(4)现有指纹定位技术通常仅考虑了信号的数值特征，而往往忽略了信号在终端的相对到达时刻的上下文意义，难以同时满足高精度、方便快捷和大众智能设备支持的复合性要求。

发明内容

针对现有技术存在的问题，本发明提供了一种室内音频指纹定位方法、系统、介质、设备及终端，尤其涉及一种基于卷积神经网络的室内音频指纹定位方法、系统、介质、设备及终端。

本发明是这样实现的，一种室内音频指纹定位方法，室内音频指纹定位方法包括：对设备接收到的原始音频信号进行去噪、分帧以及归一化的预处理，形成能量密度图EDM(Energy density map)；整合归一化能量密度图EDM的主干分支和边缘检测图的掩码分支，结合注意力和边缘检测模块，构建基于注意力机制的CNN网络；构建音频指纹数据库，并对基于注意力机制的CNN网络(Convolution neural network，卷积神经网络)进行训练；将终端实时采集到的音频数据分类到具体的参考指纹点，通过加权手段实现室内音频指纹的定位。

进一步，室内音频指纹定位方法包括以下步骤：

步骤一，建立时频域特征丰富的音频信号组；

步骤二，原始音频信号分帧，提炼感兴趣域频谱图，归一化EDM生成；

步骤三，提取归一化EDM中的信号边缘信息，构建基于信号边缘提取与注意力机制的通用卷积神经网络模型；

步骤四，利用训练好的通用卷积神经网络模型实现室内音频指纹定位。

进一步，步骤一中，将音频信号按照不同的频段变化复用为两种类型，包括上行变化模式和下行变化模式。每个音频信号连续播发Δt ms，将信号组织成“下行-上行-下行-上行”或者“上行-下行-上行-下行”模式的音频网络；以t ms的内部信号周期和T s的外部整周期进行广播，得到信号组，在终端的标准接收时间戳为“0ms-Δt ms-2*Δt ms-3*Δtms”。

进一步，步骤二中的基于EDM的生成包括：

(1)原始音频信号分帧

在接收到的原始音频信号上应用12阶巴特沃斯带通滤波器，对滤波后的数据进行分帧，并在时域信号上采用振幅和时间双阈值的方差法判断直达径：

/>

以滤波后数据的每S个采样点为单位，连续计算方差；选择方差振幅阈值为V_{方差振幅阈值}，以1ms的精度判断一个音频信号组内4个独立信号的ToA。

(2)感兴趣域频谱图提炼

使用短期傅里叶变换计算成帧后的数据频谱图。选择Hanning窗，窗口长度为512，重叠率为87.5％；计算后得到尺寸为R×C频谱图，时间分辨率为1.3ms/像素；截取频谱图中音频信号对应的频段数据提炼最终感兴趣域的频谱图，尺寸为row×column。

(3)归一化EDM生成

对感兴趣域的频谱图采取归一化处理，将采集到的所有数据的每一个频点的最小能量值设定为归一化下限E_lower，任何低于阈值的能量值均认为是噪声，并被赋予值0；将最接近基站的测试距离上的频点的最大能量值设定为归一化上限E_upper，任何超过归一化上限的其他能量被赋予值1，则归一化计算公式如下：

其中，

是经过计算后的归一化能量，范围为[0,1]；信号能量越强，对应像素的数值越高；每个像素的行和列索引分别用i和j表示，最后得到EDM。

进一步，步骤(1)中的原始音频信号分帧还包括：

根据时间阈值和信号组的时间上下文结构确定接收信号的顺序。将第一个超过方差振幅阈值的采样索引暂定为#1候选索引；以t±Δtms的时间阈值在新数据中检索，选出#2候选索引；若#1和#2候选索引的时间间隔大于t+Δtms，则#2候选索引被认定为初始的1#信号；若不是，则#2候选索引成为新的#1候选索引，并重复在新数据中检索，直到#1和#2候选索引的时间间隔大于t+Δtms的阈值；所有后续的#1候选索引仅在距离前一个#1候选索引至少T±Δtms时才被选定；从每个接收到的#1候选索引开始截取长度为Ts的信号，完成分帧处理。

进一步，步骤三中的基于信号边缘提取与注意力机制的通用卷积神经网络模型的构建包括：

(1)指纹数据库构建

选择静态指纹采集方式，使用三脚架将终端设备固定在每个指纹点上方，并持续采集音频数据，其中每个指纹点的地面参考坐标是由带有跟踪棱镜的全站仪测量得到的，进而得到在测试场景A建立的指纹数据集DS^A；其中，数据集表示如下：

其中，AFP为在某个指纹点上采集到的所有EDM指纹的集合，m为场景A中预设的总指纹点数量，n为每条音频指纹中所包含的EDM数量。

(2)边缘检测图计算

使用Canny算子提取信号的边缘信息，并将Canny用到的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4。

(3)CNN模型构建

设计主干和掩码分支相结合的CNN估计位置。从Canny计算的检测图结果中提取信号部分的注意力权重，获取边缘特征；将归一化EDM作为主干分支输入，将边缘检测结果图作为掩码分支输入。主干分支中，采用卷积和最大池化提取信号的深层特征；堆叠执行3次标准残差块计算得到精细特征；掩膜分支中，采用卷积和最大池化提取信号的深层特征；执行2次标准残差块计算；通过sigmoid层归一化，将分支的输出限制在[0，1]的范围内，表达方式如下：

A＝T(F)*(1+M(E))；

其中，A为融合了主干分支图结果与掩膜分支图结果后的、空间信息特征得到加强的图，T表示主干分支，M表示掩膜分支，F为EDM图，E为边缘提取图。

随后依次执行2次标准残差块计算，直到达到特征图的最低分辨率；最后执行NiNBlock和全局平均池化计算取代传统的全连接层；GAP层输出m个置信度分数，表示当前输入的EDM对应数据集中每个指纹点的概率；最终，m个置信度分数被送入Soft-max层，并以加权的方式估计坐标，如下所示：

其中，S_i为第i个指纹点的得分，(x_i,y_i)是第i个指纹点的坐标。

(4)CNN训练

将每条音频指纹中的所有EDM数据按照80％和20％的比例划分为训练集和验证集。在将边缘检测图输入到掩膜分支之前，将其中的非边缘像素赋予0.00001的小值；训练目标为最小化损失函数，其中损失函数定义为某一EDM对应的真实指纹点坐标和网络估计坐标之间的欧氏距离，如下所示：

其中，P_label对应于当前标签点的位置，

是每一轮训练的输出估计位置。选择SGD作为优化器，每轮训练输入4张EDM；网络的学习率从0.01开始，每训练10个历元便将学习率减半，直到学习率减小至0.0001；网络训练将在损失函数计算结果没有明显下降后的第5个历元停止。

本发明的另一目的在于提供一种应用所述的室内音频指纹定位方法的室内音频指纹定位系统，室内音频指纹定位系统包括：

音频信号组建立模块，用于建立时频域特征丰富的音频信号组；

EDM生成模块，用于对原始音频信号进行分帧后提炼感兴趣域的频谱图，并生成归一化的EDM；

卷积神经网络模型构建模块，用于构建基于信号边缘提取与注意力机制的通用卷积神经网络模型并进行模型训练；

室内音频指纹定位模块，用于利用训练好的基于信号边缘提取与注意力机制的通用卷积神经网络模型实现室内音频指纹定位。

本发明的另一目的在于提供一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的室内音频指纹定位方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的室内音频指纹定位方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，信息数据处理终端用于实现所述的室内音频指纹定位系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一，针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明设计了一个特征丰富的音频信号组来加强信号的空间相关性，生成了终端接收信号的能量密度图(EDM)并将其作为一个整体进行分析。本发明提供的室内音频指纹定位方法，首先通过全局归一化缩小了信号响应域范围，以减少设备差异；其次，构建了一个简单而有效的卷积神经网络，将边缘检测图与归一化的EDM相融合，加强了对相对ToA的关注，并将指纹数据集与相应的空间位置联系起来，进行实时坐标估计。最后，本发明在三个场景内对三款不同手机在软遮挡和硬遮挡情况下的性能进行了评估。评估结果表明，本发明所提出的系统在静态和动态条件下的整体定位精度为1.13米，在遮挡情况下实现了2.24米的平均定位均方根误差，与传统的Wi-Fi或蓝牙和地磁指纹方法相比，精度分别提高了32.9％和4.3％。同时，本发明还证明了在使用相同的网络模型时，使用归一化EDM数据训练得到的CNN可以减少68.17％的设备差异；与使用原始EDM数据训练得到的CNN相比，减少了54.73％的绝对定位误差。

本发明探索了使用音频指纹方法定位室内终端设备的可能性。本发明所设计的音频信号组在数值和时间上下文意义方面与空间位置密切相关。为了克服指纹定位中常见的设备差异问题，本发明提出了预处理手段来生成归一化的EDM数据，并通过注意力掩码辅助的CNN挖掘了更多的信号空间特征。EDM中独特的ToA时序关系及其显著的梯度变化适合于提取接收信号的边缘信息以完成空间加权，所提出的CNN在网络复杂性层面进行了优化，以使其简单而有效。

本发明提出了一个基于音频指纹和使用CNN的室内定位系统。本发明对设备接收到的原始音频流进行去噪、分帧和归一化处理，从数值属性和时间戳属性两个方面降低了不同品牌、型号终端设备的数据差异性，形成了具有较高空间识别能力的EDM。每个独立的EDM中的信号表现出了明显的梯度变化特性，因此适合于边缘检测以获得更多的空间先验特征。本发明设计了一个简单而有效的基于注意力机制的网络，将终端实时采集到的音频数据分类到某一具体的参考指纹点。该网络整合了归一化EDM的主干分支和边缘检测图的掩码分支，以挖掘更精细的空间特征。本发明的主要创新贡献可以概括为以下几点：

(1)本发明提供了一种基于CNN的音频指纹室内定位系统与方法，与当下常见的ToA或TDoA方法相比，极大克服了NLOS环境的影响，摆脱了严苛的信号检测要求，将信号接收时间估计的容许偏差扩大至最多2ms。

(2)本发明探索了一种EDM的生成方法，提高了音频信号组的空间识别能力，在数值属性和时间戳属性两方面削弱了由接收信号的特征差异引起的终端设备差异。

(3)本发明构建了一个CNN模型，该模型结合了注意力和边缘检测模块，以加强音频信号的时间背景特征的相互表达。就本发明所知，这是第一个将深度学习方法应用于基于音频信号的FPP的工作。

(4)本发明在实际场景中验证了音频指纹定位方法的性能，并评估了数据归一化和边缘检测掩码的改进效果。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

与大多数使用可听波段信号的已有技术不同，本发明的室内音频指纹定位方法采用了在16.5kHz以上的次超声波段上调制的音频信号，这种信号对环境和人耳感知是友好的。此外，音频信号在频谱图中具有更丰富的位置指向性特征，因此本发明基于深度学习的音频指纹定位系统是合理且将是富有成效的。

本发明在办公室、大厅和附有走廊的大厅的三部智能手机终端上测试了室内音频指纹定位系统，验证边缘检测和全局归一化在提高模型适应性方面的有效性。本发明的音频指纹定位方法实现了1.13米的总体平均定位RMSE。在NLOS条件下，音频指纹定位方法的RMSE为2.24米，这比射频和地磁指纹方法分别提高了32.9％和4.3％。在归一化EDM数据上训练的模型与在原始EDM数据上训练的模型相比，定位误差减少了54.73％，最终的设备差异也减少了68.17％。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

音频定位技术通常在大空间内具有成本和效果两方面的优势，如交通枢纽、大型商场和会展中心等场景。一个大空间场景通常囊括了如电梯厅、走廊、楼梯间、卫生间等狭小的、不适合铺设大量音频信号发射基站的小空间。本发明提出的音频指纹定位方法可在大空间内以极少数的基站来补齐这些小空间的定位需求，真正实现室内的无缝定位，助力“北斗”系统将泛在感知与智慧城市的功能拓展至室内，使得“北斗+大众消费”优先应用更好地服务于出行、购物、公共安全等领域。

(2)本发明的技术方案填补了国内外业内技术空白：

基于音频的室内定位技术按照定位原理可分为基于几何的定位方法和基于概率统计的定位方法。其中，基于几何的定位方法包括基于ToA、TDoA、AoA等方案；而基于概率统计定位的主流方案是基于音频信号的数值特征的。本发明提出的音频指纹定位技术方案不仅利用了信号的数值特征，更是挖掘了信号在终端接收时间方面的上下文特征，为形成更为全面的音频室内定位技术提供了一定的参考。

(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题：

人们有近80％的时间是在室内环境中度过的，但室内环境的拓扑结构复杂、室内行人的行为多变，尤其是由NLOS引起的数据粗差为全场景覆盖高精度定位服务带来了不小的困难。基于指纹数据的定位方案记录了指纹点处所能接收到信号的更详细的特征，包括信号是否经过遮挡等信息，因而在复杂场景下具有精度优势。

(4)本发明的技术方案克服了技术偏见：

首先，通常人们会认为环境中的声音嘈杂，利用音频来实现定位具有很大的局限性，但本发明首先提出了一个调制在次超声波频段的音频信号组，通过滤波器可过滤日常生活中的绝大部分环境噪音，且该信号组具有更多定向的蕴含位置信息的特征，容易在接收终端通过信号处理手段提取。其次，由不同厂家生产的智能终端设备所采用的音频传感器型号不同、系统层面对音频信号的优化程度不同，由此产生的接收信号差异性容易使得一般的CNN网络在多设备上失效。本发明首先将数据进行归一化，缩小了不同设备对信号响应域范围的差异；同时，借助边缘提取信息来增强所设计的音频信号组的ToA特性，并优化CNN网络，使其简单而高效，并进一步削弱了终端设备的差异性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的室内音频指纹定位方法流程图；

图2是本发明实施例提供的室内音频指纹定位方法原理图(以Chirp信号为例)；

图3是本发明实施例提供的时频域特征丰富的音频信号组示意图(以Chirp信号为例)；

图4是本发明实施例提供的在某一测试场景A下建立的指纹数据集示意图；

图5是本发明实施例提供的主干和掩码分支相结合的CNN结构图；

图6是本发明实施例提供的各定位方法的定位误差的累积分布函数曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种室内音频指纹定位方法、系统、介质、设备及终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的室内音频指纹定位方法包括以下步骤：

S101，对设备接收到的原始音频信号进行去噪、分帧以及归一化的预处理，形成EDM(Energy density map，能量密度图)；

S102，整合归一化EDM的主干分支和边缘检测图的掩码分支，结合注意力和边缘检测模块，构建基于注意力机制的CNN网络(Convolution neural network，卷积神经网络)；

S103，对基于注意力机制的CNN网络进行训练，并构建音频指纹数据库；

S104，将终端实时采集到的音频数据分类到具体的参考指纹点，实现室内音频指纹的定位。

作为优选实施例，如图2所示，以Chirp信号为例，本发明实施例提供的室内音频指纹定位方法具体包括以下步骤：

A.提供了一种时频域特征丰富的音频信号组。

为了充分利用带宽，本发明将音频信号复用为两种类型：频率上行模式和频率下行模式。每个音频信号连续播发Δtms。这些信号被进一步组织成“下行-上行-下行-上行”或者“上行-下行-上行-下行”模式的网络，并以tms的内部信号周期和Ts的外部整周期进行广播，此处以Chirp信号为例(上行频率为16.5-19.5kHz，下行频率为19.5-16.5kHz，Δt＝40，t＝200，T＝1)，如此设计的音频播发网络可如图3所示。通过这种方式，得到一个特征更丰富的信号组，其在终端的标准接收时间戳为“0ms-Δtms-2*Δtms-3*Δtms”。

B.提供了一种基于EDM的生成方法。

B.1原始音频信号分帧

首先，在接收到的原始音频信号上应用12阶巴特沃斯带通滤波器来提高信噪比。在这个步骤中，大部分的环境噪声和人声将被抑制。由于EDM是由频谱图中1#信号的接收时间戳触发的长度为Ts的频谱图切片，因此对滤波后的数据进行分帧。若在第一直达径判断中产生了1ms的时间误差，那么将会在距离估计中引起大约34cm的测距误差，因此在基于ToA(Time-of-arrival，到达时间)或TDoA(Time-difference-of-arrival，到达时间差)的定位系统中，准确估计直达经信号的到达时间戳是至关重要的。在本发明的系统中，信号采集的准确性是由EDM的分辨率决定的。当指纹点的密度为每平方米一个时，EDM的分辨率应至少应该为50cm/像素。为了满足这一要求，本发明在时域信号上采用了振幅和时间双阈值的方差法判断直达径，如下式所示：

即使原始音频流已经通过带通滤波器去噪，环境的混响和反射信号仍会叠加在原始数据上。这种自噪声有可能导致振幅接近第一个LOS(Line-of-sight，直达径)的时域数据出现在正确的信号ToA前面，引起错判1#信号的到达时间戳，从而使得阈值策略失败。因此，本发明以滤波后数据的每S个采样点为单位，连续计算方差，以期减少污染数据的负面影响。本发明在安静和嘈杂的多个典型室内环境中分析了大量近距离和远距离的数据样本，基于这种分析，本发明最终选择了0.0002的方差振幅阈值，它以1ms的精度来判断音频信号组内4个独立信号的ToA。

由于音频数据流的采样可能在一个Ts周期的任何时刻开始，而4个信号在时域上会产生相似的方差变化，因此有必要根据时间阈值和信号组的时间上下文结构进一步确定接收信号的顺序。首先，将第一个超过方差振幅阈值的采样索引暂定为#1候选索引。接着，为了保持独立信号间tms内部周期的正确性，本发明以t±Δtms的时间阈值在新数据中检索，选出#2候选索引。若#1和#2候选索引的时间间隔大于t±Δtms，那么#2候选索引将被认定为初始的1#信号；若不是，那么#2候选索引将成为新的#1候选索引，并且重复在新数据中检索，直到#1和#2候选索引的时间间隔大于t±Δtms的阈值为止。最后，为了保持信号组间Ts外部周期的正确性，所有后续的#1候选索引只有在距离其前一个#1候选索引至少T±Δtms时才被选定。最后，从每个接收到的#1候选索引开始，截取长度为Ts的信号，完成分帧处理。

B.2感兴趣域频谱图生成

使用STFT(Short-time Fourier transform，短期傅里叶变换)来计算成帧后的数据频谱图。STFT通常与某个窗函数配对，以减轻非整数周期采样引起的频率泄漏问题。为了保持足够的EDM分辨率，窗函数的窗口和重叠长度都应该被仔细考虑。本发明选择Hanning(汉宁)窗，因为它对音频信号来说是简单而有用的。通常而言，窗函数的窗口长度越大，频率分辨率就越高。然而，这样的窗口会模糊信号的边缘。另一方面，窗函数的重叠度越高，时间分辨率越高，信息冗余度和计算复杂性也越大。对于像Hanning窗这样的宽时域窗口，合适的重叠值应该至少为50％。然而，在50％重叠值和48kHz采样率的条件下，很难实现像素分辨率优于50cm的低计算开销。为了尽可能地优化参数，经过大量测试，最终的参数被选为窗口长度为512，重叠率为87.5％。这将为本发明提供一个尺寸为R×C的频谱图，其时间分辨率为1.3ms/像素，也就是45.77cm/像素。在这种情况下，即使接收到的音频信号的ToA被误判了1～2毫秒，体现在EDM中的偏差最多为2个像素，这对后续的定位影响较弱。接下来，截取上述频谱图中对应感兴趣域内的数据，生成最终感兴趣域的频谱图，其尺寸为row×column。

B.3归一化EDM生成

音频信号在每个频点的相对能量大小可以通过取频谱图中每个像素值的绝对对数来获得。该计算结果与信号距离衰减直接相关，因此，空间中不同位置处的信号频谱图所显示的能量范围是不同的。此外，不同采样设备在同一位置处的信号频率响应也可能不同。因此，EDM应该能够应对空间和设备两个方面的差异。设备的响应域反映了这些差异。一般来说，同一设备对不同距离的音频信号的响应域的边界越清晰，其指纹识别的准确性就越高。如果在同一距离的响应域很宽，则难以区分邻近的信号。要想提高由某一设备创建的指纹数据集在其他设备上的适应性，则有必要在空间内收集大量的数据，并通过能量归一化来削弱这种设备差异。

通过观察数据本发明发现，不同设备在同一距离下的归一化信号能量水平是相似的，同时相同距离间隔的能量变化范围也是相似的。因此，本发明对感兴趣域的频谱图采取归一化处理：将采集到的所有数据的每一个频点的最小能量值设定为归一化下限E_lower，任何低于这个阈值的能量值都被认为是噪声，并被赋予值0；同理，将最接近基站的测试距离上的频点的最大能量值设定为归一化上限E_upper，任何超过它的其他能量被赋予值1。归一化计算如下所示：

其中，

是经过计算后的归一化能量，它的范围为[0,1]，信号能量越强，对应像素的数值越高。每个像素的行和列索引分别用i和j表示。最后便得到经过所有预处理操作后的EDM。

C.提供了一种基于信号边缘提取与注意力机制的通用卷积神经网络模型。

C.1指纹数据库构建

音频指纹定位的准确性与离线数据集的质量密切相关。在建立数据集的过程中，本发明观察到：前后相距1m的数据在响应域上大概产生了50％的重叠。又因为2m的指纹点密度对于定位而言在精度层面上是不够的。因此，本实施例采用1.5m左右的指纹点设计密度。选择静态指纹采集方式：使用三脚架将终端设备固定在每个指纹点上面约1.3m的高度，并持续采集40s的音频数据，其中每个指纹点的地面参考坐标是由带有跟踪棱镜的全站仪测量得到的。由此，便得到了在测试场景A建立的指纹数据集DS^A，如图4所示。该数据集表示如下：

C.2边缘检测图计算

从图3的EDM可视化结果中不难发现，即使是一个能量相对较弱的信号，其在EDM中也能与附近的非信号部分产生明显的梯度改变。因此，传统的边缘检测结果将足以协助CNN在较少的训练参数下对AFP数据进行更好的分类。为了准确地从EDM中提取信号的边缘信息，首先应该尽可能地抑制边缘噪声。

在EDM中，主要噪声可以分为三部分。I类噪声是接收信号时的频谱泄漏，II类噪声是由劣质MEMS扬声器和环境回声引起的信号拖尾，III类噪声则是高频环境噪声。其中，I类噪声与信号的ToA密切相关，可以加以利用，而其他则应予以抑制。本发明使用Canny算子来提取信号的边缘信息。Canny算子保留了有效信号连接域中局部梯度变化最大的像素，这与EDM中信号出现和消失时梯度的急剧上升和下降相吻合。此外，它以最差两个像素的宽度有效地表达了Chirp信号的边缘信息，同时抑制了大部分II类和III类噪声。在这里，为了进一步过滤伪边缘，本发明将Canny用到的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4，这在所有三个不同的典型室内环境中的所有数据集上被验证都是有效的。

C.3CNN模型构建

本发明设计了一个主干和掩码分支相结合的CNN来估计位置，如图5所示。EDM作为数据源，具有直观简单的特点。本发明从Canny计算的检测图结果中提取信号部分的注意力权重，获取高精度的边缘特征。本发明将归一化EDM作为主干分支输入，将边缘检测结果图作为掩码分支输入。主干分支中：首先，采用卷积和最大池化快速提取信号的深层特征；然后，堆叠执行3次标准残差块计算以推断出更精细的特征。掩膜分支中：首先，采用卷积和最大池化快速提取信号的深层特征；然后，执行2次标准残差块计算以减少参数开销；最后通过sigmoid层归一化，将该分支的输出限制在[0，1]的范围内。两个分支被整合，以保持主干分支的良好特性，其表达方式如下：

A＝T(F)*(1+M(E))

随后依次执行2次标准残差块计算，直到达到特征图的最低分辨率。最后，执行NiNBlock和全局平均池化(GAP)计算来取代传统的全连接层，以减少网络参数，使其更适合在计算资源有限的手机上运行。GAP层输出m个置信度分数，表示当前输入的EDM对应数据集中每个指纹点的概率。最终，m个置信度分数被送入Soft-max层，并以加权的方式估计坐标，如下所示：

C.4CNN训练

将每条音频指纹中的所有EDM数据按照80％和20％的比例划分为训练集和验证集。在将边缘检测图输入到掩膜分支之前，先将其中的非边缘像素被赋予0.00001的一个小值，以避免在训练的早期阶段出现梯度消失问题。训练目标为最小化损失函数，其中损失函数定义为某一EDM对应的真实指纹点坐标和网络估计坐标之间的欧氏距离，如下所示：

其中，P_label对应于当前标签点的位置，

是每一轮训练的输出估计位置。选择SGD作为优化器，每轮训练输入4张EDM。网络的学习率从0.01开始，每训练10个历元便将学习率减半，学习率最小为0.0001。此外，网络训练将在损失函数计算结果没有明显下降后的第5个历元停止。

本发明实施例提供的室内音频指纹定位系统包括：

EDM生成模块，用于对原始音频信号进行分帧后生成感兴趣域得频谱图，并归一化EDM的生成；

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

(一)环境配置

以某大厅为例，其空间尺寸为11.7m×14.5m×4m，在大厅四个角落约3.5m高处布设4台音频信号发射基站，基站朝向指向大厅中央。本实施例中各基站将发射Chirp信号，其上行模式的频率变化为16.5-19.5kHz，下行模式的频率变化为19.5-16.5kHz，单信号播发时长为40ms。4台基站组织成“下行-上行-下行-上行”的音频网络进行播发，其内部信号周期为200ms，外部信号整周期为1s，终端的标准接收时间戳为“0ms-200ms-400ms-600ms”。

(二)离线数据采集

在大厅内以1.5m的参考布设密度，均匀布设63个指纹点。以华为Nova8 Pro为参考测试手机，开展离线数据采集任务以及在线实时位置估计任务。依次在每个指纹点处架设三脚架，将测试手机固定在每个指纹点上方约1.3m的高度，相对静止地以单声道和48kHz采样率采集40s音频数据。本步骤将形成大小为63×40的原始音频数据集。

(三)EDM与音频指纹库生成

以步骤二中获得的长度为40s的原始音频数据为例。首先应用12阶巴特沃斯带通滤波器过滤非感兴趣频域的信号，提高信噪比，其通带频段为16-20.0kHz。以48个采样点为单位，计算滤波后的音频数据方差，并按照以下的方差振幅与时间双阈值判断每个Chirp信号的ToA及对应各整周期的#1信号：

如此，便得到一组Chirp信号的ToA序列：{t₁，t₂，…，t₁₆₀}，以及一组各整周期的#1信号的ToA序列：{t₁，t₅，…，t₁₅₇}。从每个#1信号的ToA开始，往后截取长度为1s的信号，完成分帧。

对完成分帧后的每一帧音频数据计算STFT，选择Hanning窗，其窗口长度为512，重叠率为87.5％，得到尺寸为256×558的频谱图，其时间分辨率为1.3ms/像素，也就是45.77cm/像素。截取上述频谱图中对应16.5-19.5kHz数据，也就是第176-208行，生成最终感兴趣域的频谱图，其尺寸为33×558。

将在本实施例的大厅中采集到的所有频谱图，统计各频点的最小能量值，将其设定为归一化下限E_lower，任何低于这个阈值的能量值都被认为是噪声，并被赋予值0；同理，统计各频点的最大能量值，将其设定为归一化上限E_upper，任何超过它的其他能量被赋予值1。最后对数据集内63×40的各感兴趣域频谱图按如下公式计算归一化：

最终得到经过所有预处理操作后的、在大厅场景下的音频EDM指纹数据库：

(四)提取各EDM数据的Chirp信号边缘信息

取Canny算子，将其属性中的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4，输入EDM数据直接计算信号边缘信息，得到边缘图E。

(五)训练CNN模型

将预处理后得到的音频EDM指纹数据库按照80％和20％的比例划分为训练集和验证集，即2016条EDM指纹和502条EDM指纹。同理，将边缘图也按相同的比例划分。将训练集数据(包括EDM指纹数据与边缘图数据)与其对应的参考指纹点进行绑定，完成标注。将标注后的数据送入预设好的CNN模型中进行训练，每轮输入4条EDM指纹数据和边缘图数据。以SGD作为优化器，以真实指纹点坐标和网络估计坐标之间的欧氏距离作为损失函数，预设网络初始学习率为0.01，每训练10个历元便将学习率减半，直至学习率最小为0.0001。观察损失函数结果，当其不再明显下降(连续两个历元的损失函数结果差值小于0.5m)后的第5个历元，结束网络训练，得到最终的网络模型。

(六)实时估计位置

将实时采集到的原始音频数据先按照步骤三的分帧操作形成长度为1s的基本单元，并对其进行归一化，生成EDM图；按照步骤四的操作生成边缘信息图。将EDM图与边缘信息图输入训练好的模型中，计算得到估计的坐标结果。

在三个典型的室内场景中测试了本发明实施例提供的室内音频指纹定位系统与方法：一个10.6m×18.2m的办公室，一个11.7m×14.5m的大厅，以及囊括了一条40.6m长走廊的大厅。在办公室和大厅的场景中，四个音频基站被固定在场景的四个角落。为了验证NLOS对音频指纹定位的影响，本发明实施例在大厅左上和右下角落放置2个音频基站，并在走廊的左右两侧各放置1个基站。三个场景中分别预设了34、63和84个指纹点，点间距为1.5m。同时，本发明设计了三条覆盖全场景的动态轨迹，所有指纹点和动态定位过程中的参考坐标均由Leica TS 60全站仪进行测量。本发明使用Vivo S10、华为Nova8 Pro和谷歌Pixel 3三部终端设备来采集离线音频指纹数据和实时在线定位。本发明实施例使用代表着总体误差68％水平的RMSE作为描述定位精度的主要指标：

其中，M为总测试结果数量，(X_k,Y_k)和

分别为第k个测试点的参考坐标和估计坐标。

实施例1

本发明实施例比较了设计的CNN的可行性与有效性。在办公室场景下采集静态数据并以静态测试点的分类精度为准则，在类似的网络深度上比较ResNet-18、RAN和设计的CNN三种网络模型的效果，其中ResNet-18和RAN网络是卷积神经网络分类任务中常见的用于比较的对象。表1提供了网络配置、属性、单次定位在设备上的运行时间和分类精度等指标，设计的CNN网络在单次定位耗时和分类精度两方面实现了综合最优的表现。尽管RAN在分类精度上优于现有方法，但与设计的CNN网络相比，它需要几乎两倍的运行时间。此外，当本发明在RAN的掩码模块中应用提出的边缘检测图时，该网络的分类错误率进一步降低了0.44％，这证明了边缘检测在接收信号时间上下文加权中的有效性。

表1不同网络模型的指标

实施例2

本发明实施例比较了设计的音频指纹定位方法的可行性与有效性，特别是在NLOS条件下的工作性能。

本发明以Vivo S10在办公室和带有长走廊的大厅内的动态定位性能为例，比较了几种常见的室内指纹定位方法与提出的音频指纹定位方法，包括Wi-Fi指纹、蓝牙指纹和地磁指纹。同时，传统的基于KNN机器学习方法也进行了比较。其中，各组对比测试均在相同的测试场景中开展。在大厅场景内，分别准备了8个Wi-Fi AP和15个蓝牙信标，确保足够的射频信号。测试采用相同的步行速度，遵循相同的路线，并实时记录手机估算的坐标。各定位方法的定位误差的累积分布函数曲线和50-68-95百分位精度结果分别如图6和表2所示。

表2各定位方法的精度结果

由于音频信号的机械波特性，在只有软遮挡物(如办公桌和电脑等)而没有明显的硬遮挡物(如墙壁、书柜和巨型屏幕等)的办公室和大厅环境中表现了出类似的性能。在这样的环境中，设计的基于CNN的音频指纹定位方法比其他指纹定位方法更为可靠。然而，墙壁的遮挡使得音频指纹定位的性能下降近70.91％，RMSE从1.65m增加到2.82m。即便如此，由于音频指纹具有良好的空间辨别能力，在存在硬遮挡物的情况下，其仍以较少的基站数量实现了2.24m的平均定位RMSE，与射频和地磁指纹定位方法相比，其RMSE分别下降了32.9％和4.3％。此外，传统的基于KNN的音频指纹定位方法高度依赖于EDM的数值特征，而忽略了信号组内各信号之间的时间上下文特征，因此，KNN方法更容易产生较大的误差。

实施例3

本发明实施例比较了是否采取归一化操作对降低音频指纹的设备差异的效果。本发明仍以三部测试终端为例，将其中某一终端设备在大厅场景内采集的归一化EDM数据训练得到的模型应用到其他终端设备上，以验证其静态和动态定位性能。本发明将静态和动态定位的RMSE之和定义为模型的效益得分，使用归一化EDM数据的三部测试终端的自效益得分和他效益得分分别为1.74-2.37、1.58-2.58和1.99-2.24；使用原始EDM数据的三部测试终端的自效益得分和他效益得分分别为4.18-5.26、3.90-5.66和4.57-5.12。与使用原始EDM数据训练的CNN模型相比，本发明的归一化操作将静态场景的平均RMSE从1.34m降至0.53m，动态场景的RMSE从3.63m降至1.72m，总体绝对定位误差降低了约54.73％。此外，本发明通过归一化操作还将设备间的总体差异性降低了约68.17％，使得平均RMSE从0.89m降至0.54m。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种室内音频指纹定位方法，其特征在于，所述室内音频指纹定位方法包括：对设备接收到的原始音频信号进行去噪、分帧以及归一化的预处理，形成能量密度图EDM；整合归一化能量密度图EDM的主干分支和边缘检测图的掩码分支，结合注意力和边缘检测模块，构建基于注意力机制的CNN网络；构建音频指纹数据库，并对基于注意力机制的CNN网络进行训练；将终端实时采集到的音频数据分类到具体的参考指纹点，通过加权手段实现室内音频指纹的定位。

2.如权利要求1所述的室内音频指纹定位方法，其特征在于，室内音频指纹定位方法包括以下步骤：

步骤一，建立时频域特征丰富的音频信号组；

3.如权利要求1所述的室内音频指纹定位方法，其特征在于，步骤一中，将音频信号按照不同的频段变化复用为两种类型，包括上行变化模式和下行变化模式，每个音频信号连续播发Δt ms，将信号组织成“下行-上行-下行-上行”或者“上行-下行-上行-下行”模式的音频网络；以t ms的内部信号周期和T s的外部整周期进行广播，得到信号组，在终端的标准接收时间戳为“0ms-Δt ms-2*Δt ms-3*Δt ms”。

4.如权利要求1所述的室内音频指纹定位方法，其特征在于，步骤二中的基于EDM的生成包括：

(1)原始音频信号分帧

以滤波后数据的每S个采样点为单位，连续计算方差；选择方差振幅阈值为V_{方差振幅阈值}，以1ms的精度判断一个音频信号组内4个独立信号的ToA；

(2)感兴趣域频谱图提炼

使用短期傅里叶变换计算成帧后的数据频谱图，选择Hanning窗，窗口长度为512，重叠率为87.5％；计算后得到尺寸为R×C频谱图，时间分辨率为1.3ms/像素；截取频谱图中音频信号对应的频段数据提炼最终感兴趣域的频谱图，尺寸为row×column；

(3)归一化EDM生成

其中，

5.如权利要求1所述的室内音频指纹定位方法，其特征在于，步骤(1)中的原始音频信号分帧还包括：

根据时间阈值和信号组的时间上下文结构确定接收信号的顺序，将第一个超过方差振幅阈值的采样索引暂定为#1候选索引；以t±Δtms的时间阈值在新数据中检索，选出#2候选索引；若#1和#2候选索引的时间间隔大于t+Δtms，则#2候选索引被认定为初始的1#信号；若不是，则#2候选索引成为新的#1候选索引，并重复在新数据中检索，直到#1和#2候选索引的时间间隔大于t+Δtms的阈值；所有后续的#1候选索引仅在距离前一个#1候选索引至少T±Δtms时才被选定；从每个接收到的#1候选索引开始截取长度为Ts的信号，完成分帧处理。

6.如权利要求1所述的室内音频指纹定位方法，其特征在于，步骤三中的基于信号边缘提取与注意力机制的通用卷积神经网络模型的构建包括：

(1)指纹数据库构建

其中，AFP为在某个指纹点上采集到的所有EDM指纹的集合，m为场景A中预设的总指纹点数量，n为每条音频指纹中所包含的EDM数量；

(2)边缘检测图计算

使用Canny算子提取信号的边缘信息，并将Canny用到的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4；

(3)CNN模型构建

设计主干和掩码分支相结合的CNN估计位置，从Canny计算的检测图结果中提取信号部分的注意力权重，获取边缘特征；将归一化EDM作为主干分支输入，将边缘检测结果图作为掩码分支输入，主干分支中，采用卷积和最大池化提取信号的深层特征；堆叠执行3次标准残差块计算得到精细特征；掩膜分支中，采用卷积和最大池化提取信号的深层特征；执行2次标准残差块计算；通过sigmoid层归一化，将分支的输出限制在[0，1]的范围内，表达方式如下：

A＝T(F)*(1+M(E))；

其中，A为融合了主干分支图结果与掩膜分支图结果后的、空间信息特征得到加强的图，T表示主干分支，M表示掩膜分支，F为EDM图，E为边缘提取图；

其中，S_i为第i个指纹点的得分，(x_i,y_i)是第i个指纹点的坐标；

(4)CNN训练

将每条音频指纹中的所有EDM数据按照80％和20％的比例划分为训练集和验证集，在将边缘检测图输入到掩膜分支之前，将其中的非边缘像素赋予0.00001的小值；训练目标为最小化损失函数，其中损失函数定义为某一EDM对应的真实指纹点坐标和网络估计坐标之间的欧氏距离，如下所示：

其中，P_label对应于当前标签点的位置，

是每一轮训练的输出估计位置，选择SGD作为优化器，每轮训练输入4张EDM；网络的学习率从0.01开始，每训练10个历元便将学习率减半，直到学习率减小至0.0001；网络训练将在损失函数计算结果没有明显下降后的第5个历元停止。

7.一种应用权利要求1～6任意一项所述室内音频指纹定位方法的室内音频指纹定位系统，其特征在于，所述室内音频指纹定位系统包括：

8.一种计算机设备，其特征在于，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述室内音频指纹定位方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～6任意一项所述的室内音频指纹定位方法的步骤。

10.一种信息数据处理终端，其特征在于，信息数据处理终端用于实现如权利要求7所述室内音频指纹定位系统。