CN112566056B

CN112566056B - 基于音频指纹信息的电子设备室内定位系统和方法

Info

Publication number: CN112566056B
Application number: CN202011427823.4A
Authority: CN
Inventors: 陈锐志; 徐诗豪; 郭光毅
Original assignee: Zhejiang Deqing Zhilu Navigation Research Institute Co ltd
Current assignee: Zhejiang Deqing Zhilu Navigation Research Institute Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-06-24
Anticipated expiration: 2040-12-07
Also published as: CN112566056A

Abstract

一种基于音频指纹信息的电子设备室内定位系统和方法。在待定位区域内放置通过时间同步自组网的多个扬声器节点，以固定的时间周期和时间间隔向外播放以预定方式调制的音频信号；将区域划分为内外圈，在每个位置已知的格网点上静态采集一段时间的音频信号作为原始音频时域数据；使用预处理将该原始数据划分为多个周期数据，将每一段周期数据从时域转化至频域并提取感兴趣区域，获得一维能量密度向量，作为指纹记录至数据库；通过提取周期数据的特征获得一系列特征向量，作为指纹加以训练得到分类模型；利用电子终端执行在线匹配，以欧几里得度量比较实时数据与音频指纹数据库的数据的互相关程度，并通过聚类方法对候选点做加权平均得到定位坐标。

Description

基于音频指纹信息的电子设备室内定位系统和方法

技术领域

本发明涉及涉及电子信息技术和室内指纹定位与导航技术领域，特别涉及一种基于音频指纹信息的电子设备室内定位系统和方法。

背景技术

现代人类有80％以上的时间学习、工作、生活在室内空间中。随着人们的物质生活水平不断提升和科学技术不断发展，对精准营销、展馆导览、正反向寻车和人流管理等室内LBS(Location based serve，基于位置的服务)的要求日趋严苛，市场迫切地需要一种或多种满足无额外设备辅助的、高精度且高普适性的定位手段出现。

在室外，GNSS(Global Navigation Satellite System，全球卫星导航系统)已经实现了厘米级的动静态定位服务，创造了数以亿计的经济价值。但由于卫星信号相对室内而言不可达或不可用，需要新的定位源以提供稳健的数据输出。

时下业内常用的定位技术主要可分为基于射频信号和基于传感器两大类。射频信号中常以Wi-Fi、蓝牙和UWB(Ultra-wide-band，超宽带)等为定位源；传感器中常以惯性传感器、光源传感器、音频传感器和视觉传感器等为定位源。依靠上述定位源，几种典型的定位方法有基于RSSI(Received Signal Strength Indication，接收信号强度)、TOA(Timeof Arrival，到达时间)和TDOA(Time Difference of Arrival，到达时间差)等将定位信号转化为距离或距离差或者基于AOA(Angle of Arrival，到达方向角)等将定位信号转化为角度的几何定位方法；以及基于RSSI、CSI(Channel State Information，信道状态信息)和SNR(Signal-noise Ratio，信噪比)等的概率定位方法。其中，以谷歌Wi-Fi FTM RTT、苹果iBeacon、Quuppa和Decawave UWB等成熟产品最具代表性。对于前三者而言，随着安卓手机对系统功耗的优化加深，Wi-Fi和蓝牙扫描频率受到限制，以及不同手机厂商在不同型号的设备间存在硬件差异，引起最终定位更新频率低或者定位性能差异大；对于后者而言，目前尚未有真正支持UWB接收端硬件的智能手机出现，大众化仍待实现。

与基于射频信号的定位相比，基于音频信号的定位具有高精度、高安全度和高普适性等特点：①声音传播速度低，相应的信号漏检误检引起的误差小，可达亚米级精度；②声音属于机械波，终端无需对外输出，用户隐私得到较好的保护；③终端只需具备麦克风传感器即可完成数据接收，且这一动作对于市面上各种型号的智能手机而言几乎不存在差异性，便于应用的普及和推广。

目前已有的音频定位方案大多聚焦在TDOA估计上，它们通过有线或无线的方式将音频基站组网，并采用时分的方式，以严密的信号检测算法估计两基站信号的到达时间差，进而估计位置。这一方法对信号检测算法提出了较高的要求，在产生非视距和多径现象的情况下，信号的错检率高。

发明内容

本发明所要解决的技术问题是针对现有技术中存在上述缺陷，提供一种基于音频指纹信息的电子设备室内定位方法和系统，消除了智能手机的差异性和定位信号的周期性变化给室内定位带来的负荷，同时极大降低了算法复杂度，在保证一定精度的前提下，提升了定位的可操作性。

根据本发明，提供了一种基于音频指纹信息的电子设备室内定位系统，包括：扬声器节点、电子终端和音频指纹数据库；

其中在待定位区域内放置多个扬声器节点，扬声器节点间通过时间同步自组网，扬声器节点以固定的时间周期和时间间隔向外播放以预定方式调制的音频信号；

电子终端将待定位区域划分为内圈和外圈，并在每个位置已知的格网点上静态采集一段时间的扬声器节点播放的音频信号作为原始音频时域数据；使用带通滤波器和方差法时域粗检测，将该原始数据划分为多个周期数据，将每一段周期数据从时域转化至频域并提取感兴趣区域，获得一维能量密度向量，作为指纹记录至音频指纹数据库；通过提取周期数据的特征获得一系列特征向量，作为指纹加以训练得到分类模型；

电子终端执行在线匹配，以欧几里得度量比较实时数据与音频指纹数据库的数据的互相关程度，并通过聚类方法对候选点做加权平均得到定位坐标；并且直接使用该模型依照实时数据的特征对当前位置进行判断，并通过聚类得到定位坐标。

优选地，扬声器节点包括主控模块、数模转换模块、功率放大模块、同步模块和扬声器模块；电子终端包括离线数据采集部分和在线实时定位部分以实现离线数据采集和在线实时定位功能；音频指纹数据库包括频域指纹信息和特征指纹信息；其中，扬声器节点以主控模块的时钟产生的时序，同步驱动数模转换模块产生模拟信号和处理同步信号的收发；数模转换模块将主控模块产生的波形转换成模拟信号，功率放大模块放大模拟信号并驱动扬声器模块发声；扬声器模块具有时间同步组网功能。

优选地，电子终端是一个大众智能手机终端。

根据本发明，还提供了一种基于音频指纹信息的电子设备室内定位方法，包括：

在待定位区域内放置多个扬声器节点，利用扬声器节点间通过时间同步自组网，扬声器节点以固定的时间周期和时间间隔向外播放以预定方式调制的音频信号；

将待定位区域划分为内圈和外圈，并在每个位置已知的格网点上静态采集一段时间的扬声器节点播放的音频信号作为原始音频时域数据；使用带通滤波器和方差法时域粗检测，将该原始数据划分为多个周期数据，将每一段周期数据从时域转化至频域并提取感兴趣区域，获得一维能量密度向量，作为指纹记录至音频指纹数据库；通过提取周期数据的特征获得一系列特征向量，作为指纹加以训练得到分类模型；

利用电子终端执行在线匹配，以欧几里得度量比较实时数据与音频指纹数据库的数据的互相关程度，并通过聚类方法对候选点做加权平均得到定位坐标；并且直接使用该模型依照实时数据的特征对当前位置进行判断，并通过聚类得到定位坐标。

优选地，区域划分离线数据采集过程，所述区域划分离线数据采集过程包括：将待定位区域划分为外圈及内圈，外圈及内圈之间的分界为包括墙体和玻璃的边沿部分，整个待定位区域按照统一密度生成格网；利用电子终端在每个格网点上进行数据采集，其中，在静态而且无遮挡的状态下在内圈进行数据采集；分别以面向、背向、朝向左侧向边沿和朝向右侧向边沿四种姿态在静态下在外圈进行数据采集。

优选地，基于音频信号时域粗检测的数据预处理过程，所述基于音频信号时域粗检测的数据预处理过程包括：对原始音频时域数据做带通滤波以去除背景噪声，并按照固定样本跨度对滤波后的数据做方差统计；将该统计结果作为输入，为音频信号直达径的判断设置幅值阈值和时间阈值，电子终端接收音频信号的每一个触发帧，生成到达序列，依据该序列将原始音频时域数据划分为自初号基站信号到达往后预定时间内的周期数据。

优选地，基于频域能量密度向量的音频指纹库离线构建过程和在线匹配处理包括：对预处理后的周期数据分片做短时傅里叶变换，得到全局能量密度矩阵；以扬声器节点播发的音频信号频段为界，生成感兴趣区域并对全局全局能量密度矩阵进行提取，得到感兴趣区域的全局能量密度矩阵；待定位区域内每一个格网点最终均可获得一个感兴趣区域的全局能量密度矩阵；将全局能量密度矩阵转换为一维能量密度向量；在线匹配时，实时计算得到的能量密度向量以欧几里得度量为互相关函数依次与库中各点的能量密度向量做相关性计算并计分；音频指纹数据库遍历结束后，将设置积分阈值对各指纹点进行筛选，满足阈值条件且累分排序前预定个数的指纹点将做KNN分类，对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到匹配坐标。

优选地，基于机器学习的音频指纹离线训练过程和在线分类与匹配处理包括：对预处理后的周期数据以峰度、主频率、MFCCs为选定特征做特征提取，得到一维特征向量，待定位区域内每一个格网点按照数据采样周期数获得多个特征向量，将这些向量与对应的点坐标关联，制作成训练集；以分类准确率和泛化误差为准则，对各类机器学习分类器进行训练和交叉验证，生成性能最佳的模型；在线匹配时，实时计算得到的特征向量可直接输入至模型中，得到包含匹配坐标和权重的分类结果；将该分类结果进一步做KNN分类，对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到匹配坐标。

本发明提供的上述技术方案的有益效果至少包括：

(1)本发明采用音频指纹信息进行定位，使用大众智能手机作为定位设备，无需额外硬件测量设备，系统成本低；

(2)本发明采用音频指纹信息进行定位，作为定位设备的大众智能手机麦克风硬件差异性小、普适性强，有利于技术的普及与推广；

(3)本发明采用音频指纹信息进行定位，相比较现有的指纹定位技术，如Wi-Fi指纹定位、蓝牙指纹定位和地磁指纹定位等，不存在指纹信号周期性发生改变的问题，无需周期性更新音频指纹数据库数据，有效降低了系统的部署成本；

(4)本发明采用音频指纹信息进行定位，与现有的基于TDOA的音频定位方案相比，避免了严苛的信号检测要求，算法复杂度更低、鲁棒性更高。

附图说明

结合附图，并通过参考下面的详细描述，将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征，其中：

图1示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位系统中的一种示例。

图2示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位系统中的扬声器节点的组成示意图。

图3示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的近墙、近玻璃的区域划分离线数据采集过程。

图4示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的基于音频信号时域粗检测的数据预处理方法。

图5示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的基于感兴趣区域提取和频域能量密度矩阵互相关计算的音频指纹库离线构建和在线匹配处理的示例流程。

图6示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的基于机器学习的音频指纹离线训练过程和在线分类与匹配处理的示例流程。

需要说明的是，附图用于说明本发明，而非限制本发明。注意，表示结构的附图可能并非按比例绘制。并且，附图中，相同或者类似的元件标有相同或者类似的标号。

具体实施方式

为了使本发明的内容更加清楚和易懂，下面结合具体实施例和附图对本发明的内容进行详细描述。

<第一实施例>

图1示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位系统中的一种示例，图2示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位系统中的扬声器节点的组成示意图。

现在参照图1和图2来描述根据本发明优选实施例的一种基于音频指纹信息的电子设备室内定位系统，其包括：扬声器节点、电子终端和音频指纹数据库。

在待定位区域内放置多个扬声器节点，扬声器节点间通过时间同步自组网，扬声器节点以固定的时间周期和时间间隔向外播发特殊调制(以预定方式调制)的音频信号。

电子终端作为定位终端，将待定位区域划分为内圈和外圈，并在每个位置已知的格网点上静态采集一段时间的扬声器节点播放的音频信号作为原始音频时域数据；使用带通滤波器和方差法时域粗检测的数据预处理手段，将该原始数据划分为一段段周期数据。将每一段周期数据从时域转化至频域并提取感兴趣区域，获得一维能量密度向量，作为指纹记录至音频指纹数据库。通过提取周期数据的特征，获得一系列特征向量，作为指纹加以训练得到分类模型。

电子终端执行在线匹配，以欧几里得度量比较实时数据与音频指纹数据库的数据的互相关程度，并通过聚类方法对候选点做加权平均得到定位坐标。直接使用该模型依照实时数据的特征对当前位置进行判断，并通过聚类得到定位坐标。

本发明优化了现有基于指纹定位的相关技术存在终端差异性大、数据库需周期性更新的问题，具有系统成本低、大众普适性强、算法鲁棒性高等优点。

具体地，每个扬声器节包括：主控模块100、数模转换模块200、功率放大模块300、同步模块400和扬声器模块500。电子终端包括离线数据采集部分和在线实时定位部分以实现离线数据采集和在线实时定位功能；音频指纹数据库包括频域指纹信息和特征指纹信息。

例如，电子终端是一个大众智能手机终端。

其中，扬声器节点以主控模块100的时钟产生的时序，同步驱动数模转换模块200产生模拟信号和处理同步信号的收发；数模转换模块200将主控模块100产生的波形转换成模拟信号，功率放大模块300放大模拟信号并驱动扬声器模块500发声；扬声器模块500具有时间同步组网功能，而且以固定的时间间隔和周期向外发射具有预定编码波形的音频信号。

优选地，如图1所示，独立的待定位区域的四个角落分布部署一个扬声器节点。

优选地，扬声器节点利用存储在主控模块内部存储器(例如内存)中的波形数据产生数字信号，配置简易，切换方便。

作为优选，扬声器节点通过功率放大模块放大模拟信号并驱动扬声器发声，可动态调节输出功率以适应不同环境对噪音等级控制的需求。

作为优选，扬声器节点可分为同步信号发送端和接收端，多个节点保持固定的时间周期做时间同步，无需外部介入即可实现自组网。

作为优选，扬声器节点具备特定的高频信号编码，抗干扰能力强。

作为优选，电子终端支持Android操作系统与iOS操作系统。

作为优选，所述的音频指纹库以一维向量的方式存储每个点的指纹信息，体积小，遍历查找效率高。

扬声器节点，使用具备时间同步组网功能的扬声器模块，以固定的时间间隔和周期，向外发射具有预定编码波形的音频信号。

电子终端(例如，大众智能手机终端)通过实施本发明的音频指纹室内定位方法，实现离线数据采集和在线实时定位功能；

音频指纹数据库以独立存在且仅可读的方式为终端的实时定位提供外部数据支撑。

通常，每个扬声器节点的工作流程包括以下步骤：

扬声器节点上电，主控模块配置系统时钟，时序产生；

主控模块通过接口，接收到第一帧同步信号，根据本节点在系统中的发声次序，延迟一定的周期驱动数模转换模块，利用存储在主控模块内部存储器(例如内存)中的波形数据产生模拟信号，其信号调制表达式为：

其中：A(t)为信号幅值，f₀为初始频率，u₀为调制频率，φ₀为初始相位，T为信号持续时间；

调节功率放大模块输出功率使其满足待定位区域环境对噪音等级控制的需求，放大所述的模拟信号，并驱动扬声器发声；

同步信号以1s为周期将所述的待定位区域中所有扬声器节点进行同步组网，一个扬声器节点初次发声后需重复步骤102～103，以1s为周期重复发声。

<第二实施例>

在具体实施例的区域划分离线数据采集过程中，技术人员或用户将待定位区域划分为外圈及内圈，外圈及内圈之间的分界为包括墙体和玻璃的边沿部分，使得整个待定位区域按照统一密度生成格网(每个格网点位置已知)；利用电子终端在每个格网点上进行数据采集，其中，在静态而且无遮挡的状态下在内圈进行数据采集；分别以面向、背向、朝向左侧向边沿和朝向右侧向边沿四种姿态在静态下在外圈进行数据采集。

具体地，图3示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的近墙、近玻璃的区域划分离线数据采集过程。

例如，待定位区域事先已经按照一定的密度划分成格网，其中格网点的密度优选地不大于1个/m²，总共划分格网点100个，系统或测试人员应知晓这些格网点的坐标。离线数据采集过程包括以下步骤：

第一步骤：以图1为例，以两个格网点的宽度为界，将所述的待定位区域划分为外圈及内圈两个部分，其中外圈定义为近墙、近玻璃等边沿部分(浅色部分)，而内圈则定义为除外圈的剩余部分(深色部分)；

第二步骤：测试人员使用具备一定高度的脚架等设备，其中高度应不低于1m，将智能手机固定在设备的中心点上；

第三步骤：测试人员将所述的设备连同智能手机静置在某个格网点上，内圈保证无遮挡采集，外圈分别以面向、背向、左右侧向边沿四种姿态采集；在一段时间内持续采集音频数据，并以.wav的格式存储在智能手机存储空间中；

第四步骤：判断：待定位区域内所有格网点是否完成数据采集；

如果未完成采集，则重复第三步骤～第四步骤，采集并保存音频数据；

如果已完成采集，则结束离线数据采集工作，得到一系列与坐标捆绑的原始音频时域数据。

<第三实施例>

在具体实施例中，基于音频信号时域粗检测的数据预处理过程包括：对原始音频时域数据做带通滤波以去除背景噪声，并按照固定样本跨度对滤波后的数据做方差统计；将该统计结果作为输入，为音频信号直达径的判断设置幅值阈值和时间阈值，探测终端接收音频信号的每一个触发帧，生成到达序列，依据该序列将原始音频时域数据划分为自初号基站信号到达往后预定时间内(例如750ms内)的周期数据。

具体地，图4示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的基于音频信号时域粗检测的数据预处理方法的示例流程，包括：

第五步骤：取某个格网点的原始音频时域数据TA，以扬声器节点播发的音频信号频段为上下界，生成10阶带通滤波器，对所述的TA做带通滤波以剔除背景噪声；

第六步骤：按照固定样本跨度l₁对滤波后的数据做方差统计，得到方差序列VarA；

第七步骤：将所述的方差序列VarA作为输入，为音频信号直达径的判断设置幅值阈值At和时间阈值Tt，运用判定条件：

VarA<Index_i>＞At，i＝1，2，...，k和

Index_i-Index_i-1＞Tt，i＝1，2，...，k，

其中：Index_i为所述第i个音频信号直达径在方差序列VarA中的下标，VarA<Index_i>为所述方差序列的第Index_i个值，k为所述采样数据中实际总直达径的个数。

电子终端接收到4个扬声器节点音频信号的每一个触发帧，生成音频信号到达序列；

第八步骤：依据所述的序列将所述的格网点的原始音频时域数据划分为自初号基站信号到达往后750ms的周期数据；

第九步骤：判断：待定位区域内所有格网点的原始音频时域数据是否均完成数据预处理工作，

如果否，则输入下一个格网点的音频数据，重复上述步骤；

如果是，则结束数据预处理工作，得到一系列与坐标捆绑的750ms周期数据。

<第四实施例>

在具体实施例中，基于频域能量密度向量的音频指纹库离线构建过程和在线匹配处理包括：对预处理后的周期数据分片做短时傅里叶变换(STFT)，得到全局能量密度矩阵(EDM)。以扬声器节点播发的音频信号频段为界，生成感兴趣区域并对全局全局能量密度矩阵进行提取，得到感兴趣的全局能量密度矩阵。定位区域内每一个格网点最终均可获得一个感兴趣的全局能量密度矩阵，为方便存储，全局能量密度矩阵将转换为一维能量密度向量(EDV)并入库。在线匹配时，实时计算得到的能量密度向量将以欧几里得度量为互相关函数(CCF)依次与库中各点的能量密度向量做相关性计算并计分。音频指纹数据库遍历结束后，将设置积分阈值对各指纹点进行筛选，满足阈值条件且累分排序前5(不足5个按实际个数计算)的指纹点将做KNN分类，对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到匹配坐标。

具体地，图5示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的基于感兴趣区域提取和频域能量密度矩阵互相关计算的音频指纹库离线构建和在线匹配处理的示例流程，包括：

第十步骤：离线阶段，取某个格网点的某个周期数据，按照分片长度l₂对周期数据做STFT，得到维度为512*250的全局EDM；

第十一步骤：以扬声器节点播发的音频信号频段为上下界，生成感兴趣区域并对所述的全局EDM进行提取，得到维度为100*250的感兴趣EDM；

第十二步骤：将所述的感兴趣EDM将转换为维度为1*25000的EDV；

第十三步骤：取该格网点的所有周期数据生成的EDV，求平均后得到最终的EDV，连同该格网点的坐标一起存储至智能手机内存空间中；

第十四步骤：判断：音频频域信息音频指纹数据库中是否包含待定位区域内所有格网点的EDV，

如果否，则输入下一个格网点的所有周期数据，重复第十步骤～第十四步骤，生成指纹并入库；

如果是，则完成音频频域信息音频指纹数据库构建。

第十五步骤：在线阶段，取缓存的原始音频时域数据，重复第五步骤～第八步骤，得到实时的750ms周期数据；

第十六步骤：以欧几里得度量为CCF，依次与音频指纹数据库中各格网点的EDV做相关性计算并计分。计分方法运用公式

其中：Score_i为对应所述音频音频指纹数据库第i个指纹点的互相关得分，、分别为所述的实时计算EDV和所述的音频指纹数据库EDV，k为EDV维度下标；

第十七步骤：音频指纹数据库遍历结束后，设置积分阈值St对各指纹点进行筛选，满足阈值条件

Score_i＞St，

且累分排序前5(不足5个按实际个数计算)的指纹点将形成新的候选序列；

第十八步骤：对所述的候选序列做KNN分类，其具体实现包括以下子子步骤：

第一子步骤：对候选序列第i个指纹点，以欧几里得度量为基准对其余各指纹点求几何距离，依据所需定位精度的要求，设置聚类判定条件

其中：Kt为聚类判定阈值，单位为m，I(k)为指示函数，代表所述候选序列第k个指纹点是否包含于第i个指纹点的聚类中，1为所述候选序列的长度；

第二子步骤：对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到频域EDM-CCF匹配坐标。

第十九步骤：判断：用户是否发出停止定位指令，

如果否，则重复步骤406～410，继续定位；

如果是，则停止定位。

<第五实施例>

在具体实施例中，基于机器学习的音频指纹离线训练过程和在线分类与匹配处理包括：对预处理后的周期数据以峰度、主频率、MFCCs为选定特征做特征提取，得到一维特征向量。定位区域内每一个格网点按照数据采样周期数可获得多个特征向量，将这些向量与对应的点坐标捆绑，制作成训练集。以分类准确率和泛化误差为准则，对各类机器学习分类器进行训练和交叉验证，生成性能最佳的模型。在线匹配时，实时计算得到的特征向量可直接输入至模型中，得到包含匹配坐标和权重的分类结果。将该分类结果进一步做KNN分类，对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到匹配坐标。

具体地，图6示意性地示出了根据本发明优选实施例的基于音频指纹信息的电子设备室内定位方法采用的基于机器学习的音频指纹离线训练过程和在线分类与匹配处理的示例流程，包括：

第二十步骤：离线阶段，取某个格网点的某个周期数据，以峰度、主频率、MFCCs为选定特征做特征提取，具体包括以下子步骤：

计算TAT750的峰度，运用公式

其中：E为期望求取符号，μ为TA_T750的均值，σ为TA_T750的标准差；

计算TA_T750的主频率，运用公式

f_main＝max(f)，

其中：f为TA_T750的离散频谱，N为傅里叶变换点数；

计算TA_T750的MFCCs，运用公式

其中：f_mel(f(k))为对应离散频率的梅尔频率，MFCC(a)为a阶梅尔频率倒谱系数，H_m(k)为三角形滤波器，M为常值25；

第二十一步骤：将所述的特征提取结果形成一维特征向量Vec_fea；

第二十二步骤：所述的待定位区域内每个格网点上每个周期可生成一条所述的一维特征向量，最终形成音频指纹训练集

Vec_fea<x_i，y_i，j>，i＝1，2，...，N，j＝1，2，...，K，

其中：N为所述的待定位区域内格网点总数，K为每个格网点上采集数据的周期数；

第二十三步骤：以分类准确率和泛化误差为准则，对各类机器学习分类器进行训练和交叉验证，生成性能最佳的模型SVM；

第二十四步骤：在线阶段，取缓存的原始音频时域数据，重复第五步骤～第八步骤，得到实时的750ms周期数据；

第二十五步骤：重复第二十步骤中的子步骤，计算得到当前周期数据的特征向量；

第二十六步骤：将所述的特征向量直接输入至所述的SVM中，得到包含匹配坐标和权重的候选序列；

第二十七步骤：重复第四实施例中提及的第一子步骤，将所述的SVM分类结果进一步做KNN分类，对具有最大容量的聚类，以点集中各点的分类权重进行坐标加权平均，得到匹配坐标。

第二十八步骤：判断：用户是否发出停止定位指令，

如果否，则重复步骤第二十四步骤～第二十八步骤，继续定位；

如果是，则停止定位。

本发明的各个实施例的基于音频指纹信息的大众手机室内定位方法和系统，从信号生成与发射、离线数据采集、指纹库与模型构建、在线实时定位等方面完善了硬软件均涉及的全套室内定位技术方案，优化了现有的基于指纹定位相关技术存在的手机差异性大、数据库需周期性更新以及基于音频TDOA定位存在的检测算法复杂的问题，具有系统成本低、大众普适性强、算法鲁棒性高等优点，可支撑本专利在室内定位领域的应用前景。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，除非特别指出，否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等，而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。

可以理解的是，虽然本发明已以较佳实施例披露如上，然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言，在不脱离本发明技术方案范围情况下，都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于音频指纹信息的电子设备室内定位系统，其特征在于包括：扬声器节点、电子终端和音频指纹数据库；

将待定位区域划分为内圈和外圈，并在每个位置已知的格网点上静态采集一段时间的扬声器节点播放的音频信号作为原始音频时域数据；使用带通滤波器和方差法时域粗检测，将原始数据划分为多个周期数据，将每一段周期数据从时域转化至频域并提取感兴趣区域，获得一维能量密度向量，作为指纹记录至音频指纹数据库；通过提取周期数据的特征获得一系列特征向量，作为指纹加以训练得到分类模型；

电子终端执行在线匹配，以欧几里得度量比较实时数据与音频指纹数据库的数据的互相关程度，并通过聚类方法对候选点做加权平均得到定位坐标；并且直接使用模型依照实时数据的特征对当前位置进行判断，并通过聚类得到定位坐标；

包括区域划分离线数据采集过程，所述区域划分离线数据采集过程包括：将待定位区域划分为外圈及内圈，外圈及内圈之间的分界为包括墙体和玻璃的边沿部分，整个待定位区域按照统一密度生成格网；利用电子终端在每个格网点上进行数据采集，其中，在静态而且无遮挡的状态下在内圈进行数据采集；分别以面向、背向、朝向左侧向边沿和朝向右侧向边沿四种姿态在静态下在外圈进行数据采集。

2.根据权利要求1所述的基于音频指纹信息的电子设备室内定位系统，其特征在于，扬声器节点包括主控模块、数模转换模块、功率放大模块、同步模块和扬声器模块；电子终端包括离线数据采集部分和在线实时定位部分以实现离线数据采集和在线实时定位功能；音频指纹数据库包括频域指纹信息和特征指纹信息；其中，扬声器节点以主控模块的时钟产生的时序，同步驱动数模转换模块产生模拟信号和处理同步信号的收发；数模转换模块将主控模块产生的波形转换成模拟信号，功率放大模块放大模拟信号并驱动扬声器模块发声；扬声器模块具有时间同步组网功能。

3.根据权利要求1或2所述的基于音频指纹信息的电子设备室内定位系统，其特征在于，电子终端是一个大众智能手机终端。

4.一种基于音频指纹信息的电子设备室内定位方法，其特征在于包括：在待定位区域内放置多个扬声器节点，利用扬声器节点间通过时间同步自组网，扬声器节点以固定的时间周期和时间间隔向外播放以预定方式调制的音频信号；

利用电子终端将待定位区域划分为内圈和外圈，并在每个位置已知的格网点上静态采集一段时间的扬声器节点播放的音频信号作为原始音频时域数据；使用带通滤波器和方差法时域粗检测，将原始数据划分为多个周期数据，将每一段周期数据从时域转化至频域并提取感兴趣区域，获得一维能量密度向量，作为指纹记录至音频指纹数据库；通过提取周期数据的特征获得一系列特征向量，作为指纹加以训练得到分类模型；

利用电子终端执行在线匹配，以欧几里得度量比较实时数据与音频指纹数据库的数据的互相关程度，并通过聚类方法对候选点做加权平均得到定位坐标；并且直接使用模型依照实时数据的特征对当前位置进行判断，并通过聚类得到定位坐标；

5.根据权利要求4所述的基于音频指纹信息的电子设备室内定位方法，其特征在于包括基于音频信号时域粗检测的数据预处理过程，所述基于音频信号时域粗检测的数据预处理过程包括：对原始音频时域数据做带通滤波以去除背景噪声，并按照固定样本跨度对滤波后的数据做方差统计；将统计结果作为输入，为音频信号直达径的判断设置幅值阈值和时间阈值，电子终端接收音频信号的每一个触发帧，生成到达序列，依据序列将原始音频时域数据划分为自初号基站信号到达往后预定时间内的周期数据。

6.根据权利要求4所述的基于音频指纹信息的电子设备室内定位方法，其特征在于包括基于频域能量密度向量的音频指纹库离线构建过程和在线匹配处理，其包括：对预处理后的周期数据分片做短时傅里叶变换，得到全局能量密度矩阵；以扬声器节点播发的音频信号频段为界，生成感兴趣区域并对全局能量密度矩阵进行提取，得到感兴趣区域的全局能量密度矩阵；待定位区域内每一个格网点最终均可获得一个感兴趣区域的全局能量密度矩阵；将全局能量密度矩阵转换为一维能量密度向量；在线匹配时，实时计算得到的能量密度向量以欧几里得度量为互相关函数依次与库中各点的能量密度向量做相关性计算并计分；音频指纹数据库遍历结束后，将设置积分阈值对各指纹点进行筛选，满足阈值条件且累分排序前预定个数的指纹点将做KNN分类，对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到匹配坐标。

7.根据权利要求4所述的基于音频指纹信息的电子设备室内定位方法，其特征在于包括基于机器学习的音频指纹离线训练过程和在线分类与匹配处理，包括：对预处理后的周期数据以峰度、主频率、梅尔倒谱系数为选定特征做特征提取，得到一维特征向量，待定位区域内每一个格网点按照数据采样周期数获得多个特征向量，将这些向量与对应的点坐标关联，制作成训练集；以分类准确率和泛化误差为准则，对各类机器学习分类器进行训练和交叉验证，生成性能最佳的模型；在线匹配时，实时计算得到的特征向量可直接输入至模型中，得到包含匹配坐标和权重的分类结果；将该分类结果进一步做KNN分类，对具有最大容量的聚类，以点集中各点得分为权重进行坐标加权平均，得到匹配坐标。