CN116164751A - 一种室内音频指纹定位方法、系统、介质、设备及终端 - Google Patents
一种室内音频指纹定位方法、系统、介质、设备及终端 Download PDFInfo
- Publication number
- CN116164751A CN116164751A CN202310183017.4A CN202310183017A CN116164751A CN 116164751 A CN116164751 A CN 116164751A CN 202310183017 A CN202310183017 A CN 202310183017A CN 116164751 A CN116164751 A CN 116164751A
- Authority
- CN
- China
- Prior art keywords
- fingerprint
- edm
- audio
- indoor
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000005236 sound signal Effects 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000010606 normalization Methods 0.000 claims abstract description 28
- 238000003708 edge detection Methods 0.000 claims abstract description 27
- 238000009432 framing Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims abstract description 14
- 230000003068 static effect Effects 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000004807 localization Effects 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000009760 electrical discharge machining Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 206010028197 multiple epiphyseal dysplasia Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000010420 art technique Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005358 geomagnetic field Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
- G01C21/206—Instruments for performing navigational calculations specially adapted for indoor navigation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Complex Calculations (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明属于室内指纹定位与导航技术领域,公开了一种室内音频指纹定位方法、系统、介质、设备及终端,对设备接收到的原始音频信号进行去噪、分帧以及归一化预处理,形成能量密度图EDM;整合归一化EDM的主干分支和边缘检测图的掩码分支,结合注意力和边缘检测模块,构建基于注意力机制的CNN网络;构建音频指纹数据库,对基于注意力机制的CNN网络进行训练;将终端实时采集的音频数据分类到具体的参考指纹点,实现室内音频指纹定位功能。评估结果表明,本发明在静态和动态条件下的整体定位精度为1.13米,在遮挡情况下实现2.24米的平均定位均方根误差,与传统Wi‑Fi或蓝牙和地磁指纹方法相比,精度分别提高32.9%和4.3%;与不做归一化预处理的音频指纹定位相比,总体终端设备的定位差异性降低了68.17%。
Description
技术领域
本发明属于室内指纹定位与导航技术领域,尤其涉及一种室内音频指纹定位方法、系统、介质、设备及终端。
背景技术
近十年来,FP(Fingerprinting,指纹技术)在室内定位领域得到了广泛的研究。同一空间内的信号在不同位置上通常会表现出不同的特征,指纹技术总结了这些位置与特征的关系,在离线阶段建立空间数据库,并于在线阶段依靠各种匹配机制来估计目标的实时坐标。指纹技术中可利用的信号源可以是任何具有空间识别特性的物理或生物信号,如RF信号(Radio-frequency,射频)、音频信号、地磁信号、光信号等。
Wi-Fi和蓝牙技术使用一定时间内从AP(Access Point,接入点)处获得的RSS(Received signal strength,接收信号强度),以及RSS的平均值和方差等统计信息作为指纹定位的特征。同时还派生了由路径损耗模型测距,以及RTT(Round-trip-time,往返测时)产生的ToA(Time-of-arrival,到达时间)与RSS的组合。由于AP密集地部署在日常生活场所内,因此基于Wi-Fi和蓝牙的指纹定位方法几乎实现了无处不在的信号覆盖,现有研究成果丰硕。然而,它们通常只能实现米级定位精度,难以满足不断增长的实际应用需求。CSI(Channel state information,信道状态信息)由物理层入手,从30个信号子载波的信道频率响应中获得更精细的特征,更高的空间分辨率和更稳定的信号捕获率显著地提高了基于CSI的指纹定位性能,定位精度可达分米级。然而,目前仍没有一款商用手机可以直接利用它,应用严重受限。
光学指纹定位方法利用调制在不同频率上的可见光光强的空间多样性来识别位置。其与射频信号相比,单个信号的有效作用范围较小,且对NLOS(None-line-of-sight,非视线)条件异常敏感。地磁信号被广泛用作基于射频指纹的辅助和补充,它不需要任何基础设施,并利用不同的室内布局引起的地磁场变化来实现低成本的定位。然而,它无法实现开阔环境下的定位快速初始化。当强磁物体在环境中移动时,定位稳定性容易受到影响。综上,现有指纹定位技术都难以同时满足高精度、方便快捷和大众智能设备支持的复合性要求。
同时,音频信号包含了丰富而细腻的时频域特征,是指纹定位方法的一类良好载体。现有的将音频指纹应用到目标定位的研究侧重于从少数几个频点发展到整个频谱域,相关应用的规模和信号频率都在不断增加。但这些研究的方法集中在传统数据处理上,特别是传统机器学习上,不利于终端的高效位置解算和设备的普适性提高。因此,音频信号虽然凭借其丰富的时频域特征,成为室内指纹定位(FPP)领域的一类信号源。然而,现有技术通常仅考虑了信号的数值特征,而往往忽略了信号在终端的相对到达时刻的上下文意义。
通过上述分析,现有技术存在的问题及缺陷为:
(1)基于Wi-Fi和蓝牙的指纹定位方法通常只能实现米级定位精度,且信号在不同终端设备上的差异性显著,难以满足不断增长的实际应用需求;而基于CSI的指纹定位方法的应用严重受限。
(2)光学指纹定位方法无法实现开阔环境下的定位快速初始化;地磁指纹定位方法在环境中存在强磁物体移动时,定位稳定性容易受到影响。
(3)现有指纹定位技术集中在传统数据处理方法上,特别是传统机器学习上,不利于终端的高效位置解算和设备的普适性提高。
(4)现有指纹定位技术通常仅考虑了信号的数值特征,而往往忽略了信号在终端的相对到达时刻的上下文意义,难以同时满足高精度、方便快捷和大众智能设备支持的复合性要求。
发明内容
针对现有技术存在的问题,本发明提供了一种室内音频指纹定位方法、系统、介质、设备及终端,尤其涉及一种基于卷积神经网络的室内音频指纹定位方法、系统、介质、设备及终端。
本发明是这样实现的,一种室内音频指纹定位方法,室内音频指纹定位方法包括:对设备接收到的原始音频信号进行去噪、分帧以及归一化的预处理,形成能量密度图EDM(Energy density map);整合归一化能量密度图EDM的主干分支和边缘检测图的掩码分支,结合注意力和边缘检测模块,构建基于注意力机制的CNN网络;构建音频指纹数据库,并对基于注意力机制的CNN网络(Convolution neural network,卷积神经网络)进行训练;将终端实时采集到的音频数据分类到具体的参考指纹点,通过加权手段实现室内音频指纹的定位。
进一步,室内音频指纹定位方法包括以下步骤:
步骤一,建立时频域特征丰富的音频信号组;
步骤二,原始音频信号分帧,提炼感兴趣域频谱图,归一化EDM生成;
步骤三,提取归一化EDM中的信号边缘信息,构建基于信号边缘提取与注意力机制的通用卷积神经网络模型;
步骤四,利用训练好的通用卷积神经网络模型实现室内音频指纹定位。
进一步,步骤一中,将音频信号按照不同的频段变化复用为两种类型,包括上行变化模式和下行变化模式。每个音频信号连续播发Δt ms,将信号组织成“下行-上行-下行-上行”或者“上行-下行-上行-下行”模式的音频网络;以t ms的内部信号周期和T s的外部整周期进行广播,得到信号组,在终端的标准接收时间戳为“0ms-Δt ms-2*Δt ms-3*Δtms”。
进一步,步骤二中的基于EDM的生成包括:
(1)原始音频信号分帧
在接收到的原始音频信号上应用12阶巴特沃斯带通滤波器,对滤波后的数据进行分帧,并在时域信号上采用振幅和时间双阈值的方差法判断直达径:
以滤波后数据的每S个采样点为单位,连续计算方差;选择方差振幅阈值为V方差振幅阈值,以1ms的精度判断一个音频信号组内4个独立信号的ToA。
(2)感兴趣域频谱图提炼
使用短期傅里叶变换计算成帧后的数据频谱图。选择Hanning窗,窗口长度为512,重叠率为87.5%;计算后得到尺寸为R×C频谱图,时间分辨率为1.3ms/像素;截取频谱图中音频信号对应的频段数据提炼最终感兴趣域的频谱图,尺寸为row×column。
(3)归一化EDM生成
对感兴趣域的频谱图采取归一化处理,将采集到的所有数据的每一个频点的最小能量值设定为归一化下限Elower,任何低于阈值的能量值均认为是噪声,并被赋予值0;将最接近基站的测试距离上的频点的最大能量值设定为归一化上限Eupper,任何超过归一化上限的其他能量被赋予值1,则归一化计算公式如下:
进一步,步骤(1)中的原始音频信号分帧还包括:
根据时间阈值和信号组的时间上下文结构确定接收信号的顺序。将第一个超过方差振幅阈值的采样索引暂定为#1候选索引;以t±Δtms的时间阈值在新数据中检索,选出#2候选索引;若#1和#2候选索引的时间间隔大于t+Δtms,则#2候选索引被认定为初始的1#信号;若不是,则#2候选索引成为新的#1候选索引,并重复在新数据中检索,直到#1和#2候选索引的时间间隔大于t+Δtms的阈值;所有后续的#1候选索引仅在距离前一个#1候选索引至少T±Δtms时才被选定;从每个接收到的#1候选索引开始截取长度为Ts的信号,完成分帧处理。
进一步,步骤三中的基于信号边缘提取与注意力机制的通用卷积神经网络模型的构建包括:
(1)指纹数据库构建
选择静态指纹采集方式,使用三脚架将终端设备固定在每个指纹点上方,并持续采集音频数据,其中每个指纹点的地面参考坐标是由带有跟踪棱镜的全站仪测量得到的,进而得到在测试场景A建立的指纹数据集DSA;其中,数据集表示如下:
其中,AFP为在某个指纹点上采集到的所有EDM指纹的集合,m为场景A中预设的总指纹点数量,n为每条音频指纹中所包含的EDM数量。
(2)边缘检测图计算
使用Canny算子提取信号的边缘信息,并将Canny用到的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4。
(3)CNN模型构建
设计主干和掩码分支相结合的CNN估计位置。从Canny计算的检测图结果中提取信号部分的注意力权重,获取边缘特征;将归一化EDM作为主干分支输入,将边缘检测结果图作为掩码分支输入。主干分支中,采用卷积和最大池化提取信号的深层特征;堆叠执行3次标准残差块计算得到精细特征;掩膜分支中,采用卷积和最大池化提取信号的深层特征;执行2次标准残差块计算;通过sigmoid层归一化,将分支的输出限制在[0,1]的范围内,表达方式如下:
A=T(F)*(1+M(E));
其中,A为融合了主干分支图结果与掩膜分支图结果后的、空间信息特征得到加强的图,T表示主干分支,M表示掩膜分支,F为EDM图,E为边缘提取图。
随后依次执行2次标准残差块计算,直到达到特征图的最低分辨率;最后执行NiNBlock和全局平均池化计算取代传统的全连接层;GAP层输出m个置信度分数,表示当前输入的EDM对应数据集中每个指纹点的概率;最终,m个置信度分数被送入Soft-max层,并以加权的方式估计坐标,如下所示:
其中,Si为第i个指纹点的得分,(xi,yi)是第i个指纹点的坐标。
(4)CNN训练
将每条音频指纹中的所有EDM数据按照80%和20%的比例划分为训练集和验证集。在将边缘检测图输入到掩膜分支之前,将其中的非边缘像素赋予0.00001的小值;训练目标为最小化损失函数,其中损失函数定义为某一EDM对应的真实指纹点坐标和网络估计坐标之间的欧氏距离,如下所示:
其中,Plabel对应于当前标签点的位置,是每一轮训练的输出估计位置。选择SGD作为优化器,每轮训练输入4张EDM;网络的学习率从0.01开始,每训练10个历元便将学习率减半,直到学习率减小至0.0001;网络训练将在损失函数计算结果没有明显下降后的第5个历元停止。
本发明的另一目的在于提供一种应用所述的室内音频指纹定位方法的室内音频指纹定位系统,室内音频指纹定位系统包括:
音频信号组建立模块,用于建立时频域特征丰富的音频信号组;
EDM生成模块,用于对原始音频信号进行分帧后提炼感兴趣域的频谱图,并生成归一化的EDM;
卷积神经网络模型构建模块,用于构建基于信号边缘提取与注意力机制的通用卷积神经网络模型并进行模型训练;
室内音频指纹定位模块,用于利用训练好的基于信号边缘提取与注意力机制的通用卷积神经网络模型实现室内音频指纹定位。
本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的室内音频指纹定位方法的步骤。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的室内音频指纹定位方法的步骤。
本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的室内音频指纹定位系统。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明设计了一个特征丰富的音频信号组来加强信号的空间相关性,生成了终端接收信号的能量密度图(EDM)并将其作为一个整体进行分析。本发明提供的室内音频指纹定位方法,首先通过全局归一化缩小了信号响应域范围,以减少设备差异;其次,构建了一个简单而有效的卷积神经网络,将边缘检测图与归一化的EDM相融合,加强了对相对ToA的关注,并将指纹数据集与相应的空间位置联系起来,进行实时坐标估计。最后,本发明在三个场景内对三款不同手机在软遮挡和硬遮挡情况下的性能进行了评估。评估结果表明,本发明所提出的系统在静态和动态条件下的整体定位精度为1.13米,在遮挡情况下实现了2.24米的平均定位均方根误差,与传统的Wi-Fi或蓝牙和地磁指纹方法相比,精度分别提高了32.9%和4.3%。同时,本发明还证明了在使用相同的网络模型时,使用归一化EDM数据训练得到的CNN可以减少68.17%的设备差异;与使用原始EDM数据训练得到的CNN相比,减少了54.73%的绝对定位误差。
本发明探索了使用音频指纹方法定位室内终端设备的可能性。本发明所设计的音频信号组在数值和时间上下文意义方面与空间位置密切相关。为了克服指纹定位中常见的设备差异问题,本发明提出了预处理手段来生成归一化的EDM数据,并通过注意力掩码辅助的CNN挖掘了更多的信号空间特征。EDM中独特的ToA时序关系及其显著的梯度变化适合于提取接收信号的边缘信息以完成空间加权,所提出的CNN在网络复杂性层面进行了优化,以使其简单而有效。
本发明提出了一个基于音频指纹和使用CNN的室内定位系统。本发明对设备接收到的原始音频流进行去噪、分帧和归一化处理,从数值属性和时间戳属性两个方面降低了不同品牌、型号终端设备的数据差异性,形成了具有较高空间识别能力的EDM。每个独立的EDM中的信号表现出了明显的梯度变化特性,因此适合于边缘检测以获得更多的空间先验特征。本发明设计了一个简单而有效的基于注意力机制的网络,将终端实时采集到的音频数据分类到某一具体的参考指纹点。该网络整合了归一化EDM的主干分支和边缘检测图的掩码分支,以挖掘更精细的空间特征。本发明的主要创新贡献可以概括为以下几点:
(1)本发明提供了一种基于CNN的音频指纹室内定位系统与方法,与当下常见的ToA或TDoA方法相比,极大克服了NLOS环境的影响,摆脱了严苛的信号检测要求,将信号接收时间估计的容许偏差扩大至最多2ms。
(2)本发明探索了一种EDM的生成方法,提高了音频信号组的空间识别能力,在数值属性和时间戳属性两方面削弱了由接收信号的特征差异引起的终端设备差异。
(3)本发明构建了一个CNN模型,该模型结合了注意力和边缘检测模块,以加强音频信号的时间背景特征的相互表达。就本发明所知,这是第一个将深度学习方法应用于基于音频信号的FPP的工作。
(4)本发明在实际场景中验证了音频指纹定位方法的性能,并评估了数据归一化和边缘检测掩码的改进效果。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
与大多数使用可听波段信号的已有技术不同,本发明的室内音频指纹定位方法采用了在16.5kHz以上的次超声波段上调制的音频信号,这种信号对环境和人耳感知是友好的。此外,音频信号在频谱图中具有更丰富的位置指向性特征,因此本发明基于深度学习的音频指纹定位系统是合理且将是富有成效的。
本发明在办公室、大厅和附有走廊的大厅的三部智能手机终端上测试了室内音频指纹定位系统,验证边缘检测和全局归一化在提高模型适应性方面的有效性。本发明的音频指纹定位方法实现了1.13米的总体平均定位RMSE。在NLOS条件下,音频指纹定位方法的RMSE为2.24米,这比射频和地磁指纹方法分别提高了32.9%和4.3%。在归一化EDM数据上训练的模型与在原始EDM数据上训练的模型相比,定位误差减少了54.73%,最终的设备差异也减少了68.17%。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
音频定位技术通常在大空间内具有成本和效果两方面的优势,如交通枢纽、大型商场和会展中心等场景。一个大空间场景通常囊括了如电梯厅、走廊、楼梯间、卫生间等狭小的、不适合铺设大量音频信号发射基站的小空间。本发明提出的音频指纹定位方法可在大空间内以极少数的基站来补齐这些小空间的定位需求,真正实现室内的无缝定位,助力“北斗”系统将泛在感知与智慧城市的功能拓展至室内,使得“北斗+大众消费”优先应用更好地服务于出行、购物、公共安全等领域。
(2)本发明的技术方案填补了国内外业内技术空白:
基于音频的室内定位技术按照定位原理可分为基于几何的定位方法和基于概率统计的定位方法。其中,基于几何的定位方法包括基于ToA、TDoA、AoA等方案;而基于概率统计定位的主流方案是基于音频信号的数值特征的。本发明提出的音频指纹定位技术方案不仅利用了信号的数值特征,更是挖掘了信号在终端接收时间方面的上下文特征,为形成更为全面的音频室内定位技术提供了一定的参考。
(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
人们有近80%的时间是在室内环境中度过的,但室内环境的拓扑结构复杂、室内行人的行为多变,尤其是由NLOS引起的数据粗差为全场景覆盖高精度定位服务带来了不小的困难。基于指纹数据的定位方案记录了指纹点处所能接收到信号的更详细的特征,包括信号是否经过遮挡等信息,因而在复杂场景下具有精度优势。
(4)本发明的技术方案克服了技术偏见:
首先,通常人们会认为环境中的声音嘈杂,利用音频来实现定位具有很大的局限性,但本发明首先提出了一个调制在次超声波频段的音频信号组,通过滤波器可过滤日常生活中的绝大部分环境噪音,且该信号组具有更多定向的蕴含位置信息的特征,容易在接收终端通过信号处理手段提取。其次,由不同厂家生产的智能终端设备所采用的音频传感器型号不同、系统层面对音频信号的优化程度不同,由此产生的接收信号差异性容易使得一般的CNN网络在多设备上失效。本发明首先将数据进行归一化,缩小了不同设备对信号响应域范围的差异;同时,借助边缘提取信息来增强所设计的音频信号组的ToA特性,并优化CNN网络,使其简单而高效,并进一步削弱了终端设备的差异性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的室内音频指纹定位方法流程图;
图2是本发明实施例提供的室内音频指纹定位方法原理图(以Chirp信号为例);
图3是本发明实施例提供的时频域特征丰富的音频信号组示意图(以Chirp信号为例);
图4是本发明实施例提供的在某一测试场景A下建立的指纹数据集示意图;
图5是本发明实施例提供的主干和掩码分支相结合的CNN结构图;
图6是本发明实施例提供的各定位方法的定位误差的累积分布函数曲线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种室内音频指纹定位方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的室内音频指纹定位方法包括以下步骤:
S101,对设备接收到的原始音频信号进行去噪、分帧以及归一化的预处理,形成EDM(Energy density map,能量密度图);
S102,整合归一化EDM的主干分支和边缘检测图的掩码分支,结合注意力和边缘检测模块,构建基于注意力机制的CNN网络(Convolution neural network,卷积神经网络);
S103,对基于注意力机制的CNN网络进行训练,并构建音频指纹数据库;
S104,将终端实时采集到的音频数据分类到具体的参考指纹点,实现室内音频指纹的定位。
作为优选实施例,如图2所示,以Chirp信号为例,本发明实施例提供的室内音频指纹定位方法具体包括以下步骤:
A.提供了一种时频域特征丰富的音频信号组。
为了充分利用带宽,本发明将音频信号复用为两种类型:频率上行模式和频率下行模式。每个音频信号连续播发Δtms。这些信号被进一步组织成“下行-上行-下行-上行”或者“上行-下行-上行-下行”模式的网络,并以tms的内部信号周期和Ts的外部整周期进行广播,此处以Chirp信号为例(上行频率为16.5-19.5kHz,下行频率为19.5-16.5kHz,Δt=40,t=200,T=1),如此设计的音频播发网络可如图3所示。通过这种方式,得到一个特征更丰富的信号组,其在终端的标准接收时间戳为“0ms-Δtms-2*Δtms-3*Δtms”。
B.提供了一种基于EDM的生成方法。
B.1原始音频信号分帧
首先,在接收到的原始音频信号上应用12阶巴特沃斯带通滤波器来提高信噪比。在这个步骤中,大部分的环境噪声和人声将被抑制。由于EDM是由频谱图中1#信号的接收时间戳触发的长度为Ts的频谱图切片,因此对滤波后的数据进行分帧。若在第一直达径判断中产生了1ms的时间误差,那么将会在距离估计中引起大约34cm的测距误差,因此在基于ToA(Time-of-arrival,到达时间)或TDoA(Time-difference-of-arrival,到达时间差)的定位系统中,准确估计直达经信号的到达时间戳是至关重要的。在本发明的系统中,信号采集的准确性是由EDM的分辨率决定的。当指纹点的密度为每平方米一个时,EDM的分辨率应至少应该为50cm/像素。为了满足这一要求,本发明在时域信号上采用了振幅和时间双阈值的方差法判断直达径,如下式所示:
即使原始音频流已经通过带通滤波器去噪,环境的混响和反射信号仍会叠加在原始数据上。这种自噪声有可能导致振幅接近第一个LOS(Line-of-sight,直达径)的时域数据出现在正确的信号ToA前面,引起错判1#信号的到达时间戳,从而使得阈值策略失败。因此,本发明以滤波后数据的每S个采样点为单位,连续计算方差,以期减少污染数据的负面影响。本发明在安静和嘈杂的多个典型室内环境中分析了大量近距离和远距离的数据样本,基于这种分析,本发明最终选择了0.0002的方差振幅阈值,它以1ms的精度来判断音频信号组内4个独立信号的ToA。
由于音频数据流的采样可能在一个Ts周期的任何时刻开始,而4个信号在时域上会产生相似的方差变化,因此有必要根据时间阈值和信号组的时间上下文结构进一步确定接收信号的顺序。首先,将第一个超过方差振幅阈值的采样索引暂定为#1候选索引。接着,为了保持独立信号间tms内部周期的正确性,本发明以t±Δtms的时间阈值在新数据中检索,选出#2候选索引。若#1和#2候选索引的时间间隔大于t±Δtms,那么#2候选索引将被认定为初始的1#信号;若不是,那么#2候选索引将成为新的#1候选索引,并且重复在新数据中检索,直到#1和#2候选索引的时间间隔大于t±Δtms的阈值为止。最后,为了保持信号组间Ts外部周期的正确性,所有后续的#1候选索引只有在距离其前一个#1候选索引至少T±Δtms时才被选定。最后,从每个接收到的#1候选索引开始,截取长度为Ts的信号,完成分帧处理。
B.2感兴趣域频谱图生成
使用STFT(Short-time Fourier transform,短期傅里叶变换)来计算成帧后的数据频谱图。STFT通常与某个窗函数配对,以减轻非整数周期采样引起的频率泄漏问题。为了保持足够的EDM分辨率,窗函数的窗口和重叠长度都应该被仔细考虑。本发明选择Hanning(汉宁)窗,因为它对音频信号来说是简单而有用的。通常而言,窗函数的窗口长度越大,频率分辨率就越高。然而,这样的窗口会模糊信号的边缘。另一方面,窗函数的重叠度越高,时间分辨率越高,信息冗余度和计算复杂性也越大。对于像Hanning窗这样的宽时域窗口,合适的重叠值应该至少为50%。然而,在50%重叠值和48kHz采样率的条件下,很难实现像素分辨率优于50cm的低计算开销。为了尽可能地优化参数,经过大量测试,最终的参数被选为窗口长度为512,重叠率为87.5%。这将为本发明提供一个尺寸为R×C的频谱图,其时间分辨率为1.3ms/像素,也就是45.77cm/像素。在这种情况下,即使接收到的音频信号的ToA被误判了1~2毫秒,体现在EDM中的偏差最多为2个像素,这对后续的定位影响较弱。接下来,截取上述频谱图中对应感兴趣域内的数据,生成最终感兴趣域的频谱图,其尺寸为row×column。
B.3归一化EDM生成
音频信号在每个频点的相对能量大小可以通过取频谱图中每个像素值的绝对对数来获得。该计算结果与信号距离衰减直接相关,因此,空间中不同位置处的信号频谱图所显示的能量范围是不同的。此外,不同采样设备在同一位置处的信号频率响应也可能不同。因此,EDM应该能够应对空间和设备两个方面的差异。设备的响应域反映了这些差异。一般来说,同一设备对不同距离的音频信号的响应域的边界越清晰,其指纹识别的准确性就越高。如果在同一距离的响应域很宽,则难以区分邻近的信号。要想提高由某一设备创建的指纹数据集在其他设备上的适应性,则有必要在空间内收集大量的数据,并通过能量归一化来削弱这种设备差异。
通过观察数据本发明发现,不同设备在同一距离下的归一化信号能量水平是相似的,同时相同距离间隔的能量变化范围也是相似的。因此,本发明对感兴趣域的频谱图采取归一化处理:将采集到的所有数据的每一个频点的最小能量值设定为归一化下限Elower,任何低于这个阈值的能量值都被认为是噪声,并被赋予值0;同理,将最接近基站的测试距离上的频点的最大能量值设定为归一化上限Eupper,任何超过它的其他能量被赋予值1。归一化计算如下所示:
C.提供了一种基于信号边缘提取与注意力机制的通用卷积神经网络模型。
C.1指纹数据库构建
音频指纹定位的准确性与离线数据集的质量密切相关。在建立数据集的过程中,本发明观察到:前后相距1m的数据在响应域上大概产生了50%的重叠。又因为2m的指纹点密度对于定位而言在精度层面上是不够的。因此,本实施例采用1.5m左右的指纹点设计密度。选择静态指纹采集方式:使用三脚架将终端设备固定在每个指纹点上面约1.3m的高度,并持续采集40s的音频数据,其中每个指纹点的地面参考坐标是由带有跟踪棱镜的全站仪测量得到的。由此,便得到了在测试场景A建立的指纹数据集DSA,如图4所示。该数据集表示如下:
其中,AFP为在某个指纹点上采集到的所有EDM指纹的集合,m为场景A中预设的总指纹点数量,n为每条音频指纹中所包含的EDM数量。
C.2边缘检测图计算
从图3的EDM可视化结果中不难发现,即使是一个能量相对较弱的信号,其在EDM中也能与附近的非信号部分产生明显的梯度改变。因此,传统的边缘检测结果将足以协助CNN在较少的训练参数下对AFP数据进行更好的分类。为了准确地从EDM中提取信号的边缘信息,首先应该尽可能地抑制边缘噪声。
在EDM中,主要噪声可以分为三部分。I类噪声是接收信号时的频谱泄漏,II类噪声是由劣质MEMS扬声器和环境回声引起的信号拖尾,III类噪声则是高频环境噪声。其中,I类噪声与信号的ToA密切相关,可以加以利用,而其他则应予以抑制。本发明使用Canny算子来提取信号的边缘信息。Canny算子保留了有效信号连接域中局部梯度变化最大的像素,这与EDM中信号出现和消失时梯度的急剧上升和下降相吻合。此外,它以最差两个像素的宽度有效地表达了Chirp信号的边缘信息,同时抑制了大部分II类和III类噪声。在这里,为了进一步过滤伪边缘,本发明将Canny用到的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4,这在所有三个不同的典型室内环境中的所有数据集上被验证都是有效的。
C.3CNN模型构建
本发明设计了一个主干和掩码分支相结合的CNN来估计位置,如图5所示。EDM作为数据源,具有直观简单的特点。本发明从Canny计算的检测图结果中提取信号部分的注意力权重,获取高精度的边缘特征。本发明将归一化EDM作为主干分支输入,将边缘检测结果图作为掩码分支输入。主干分支中:首先,采用卷积和最大池化快速提取信号的深层特征;然后,堆叠执行3次标准残差块计算以推断出更精细的特征。掩膜分支中:首先,采用卷积和最大池化快速提取信号的深层特征;然后,执行2次标准残差块计算以减少参数开销;最后通过sigmoid层归一化,将该分支的输出限制在[0,1]的范围内。两个分支被整合,以保持主干分支的良好特性,其表达方式如下:
A=T(F)*(1+M(E))
其中,A为融合了主干分支图结果与掩膜分支图结果后的、空间信息特征得到加强的图,T表示主干分支,M表示掩膜分支,F为EDM图,E为边缘提取图。
随后依次执行2次标准残差块计算,直到达到特征图的最低分辨率。最后,执行NiNBlock和全局平均池化(GAP)计算来取代传统的全连接层,以减少网络参数,使其更适合在计算资源有限的手机上运行。GAP层输出m个置信度分数,表示当前输入的EDM对应数据集中每个指纹点的概率。最终,m个置信度分数被送入Soft-max层,并以加权的方式估计坐标,如下所示:
其中,Si为第i个指纹点的得分,(xi,yi)是第i个指纹点的坐标。
C.4CNN训练
将每条音频指纹中的所有EDM数据按照80%和20%的比例划分为训练集和验证集。在将边缘检测图输入到掩膜分支之前,先将其中的非边缘像素被赋予0.00001的一个小值,以避免在训练的早期阶段出现梯度消失问题。训练目标为最小化损失函数,其中损失函数定义为某一EDM对应的真实指纹点坐标和网络估计坐标之间的欧氏距离,如下所示:
其中,Plabel对应于当前标签点的位置,是每一轮训练的输出估计位置。选择SGD作为优化器,每轮训练输入4张EDM。网络的学习率从0.01开始,每训练10个历元便将学习率减半,学习率最小为0.0001。此外,网络训练将在损失函数计算结果没有明显下降后的第5个历元停止。
本发明实施例提供的室内音频指纹定位系统包括:
音频信号组建立模块,用于建立时频域特征丰富的音频信号组;
EDM生成模块,用于对原始音频信号进行分帧后生成感兴趣域得频谱图,并归一化EDM的生成;
卷积神经网络模型构建模块,用于构建基于信号边缘提取与注意力机制的通用卷积神经网络模型并进行模型训练;
室内音频指纹定位模块,用于利用训练好的基于信号边缘提取与注意力机制的通用卷积神经网络模型实现室内音频指纹定位。
为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
(一)环境配置
以某大厅为例,其空间尺寸为11.7m×14.5m×4m,在大厅四个角落约3.5m高处布设4台音频信号发射基站,基站朝向指向大厅中央。本实施例中各基站将发射Chirp信号,其上行模式的频率变化为16.5-19.5kHz,下行模式的频率变化为19.5-16.5kHz,单信号播发时长为40ms。4台基站组织成“下行-上行-下行-上行”的音频网络进行播发,其内部信号周期为200ms,外部信号整周期为1s,终端的标准接收时间戳为“0ms-200ms-400ms-600ms”。
(二)离线数据采集
在大厅内以1.5m的参考布设密度,均匀布设63个指纹点。以华为Nova8 Pro为参考测试手机,开展离线数据采集任务以及在线实时位置估计任务。依次在每个指纹点处架设三脚架,将测试手机固定在每个指纹点上方约1.3m的高度,相对静止地以单声道和48kHz采样率采集40s音频数据。本步骤将形成大小为63×40的原始音频数据集。
(三)EDM与音频指纹库生成
以步骤二中获得的长度为40s的原始音频数据为例。首先应用12阶巴特沃斯带通滤波器过滤非感兴趣频域的信号,提高信噪比,其通带频段为16-20.0kHz。以48个采样点为单位,计算滤波后的音频数据方差,并按照以下的方差振幅与时间双阈值判断每个Chirp信号的ToA及对应各整周期的#1信号:
如此,便得到一组Chirp信号的ToA序列:{t1,t2,…,t160},以及一组各整周期的#1信号的ToA序列:{t1,t5,…,t157}。从每个#1信号的ToA开始,往后截取长度为1s的信号,完成分帧。
对完成分帧后的每一帧音频数据计算STFT,选择Hanning窗,其窗口长度为512,重叠率为87.5%,得到尺寸为256×558的频谱图,其时间分辨率为1.3ms/像素,也就是45.77cm/像素。截取上述频谱图中对应16.5-19.5kHz数据,也就是第176-208行,生成最终感兴趣域的频谱图,其尺寸为33×558。
将在本实施例的大厅中采集到的所有频谱图,统计各频点的最小能量值,将其设定为归一化下限Elower,任何低于这个阈值的能量值都被认为是噪声,并被赋予值0;同理,统计各频点的最大能量值,将其设定为归一化上限Eupper,任何超过它的其他能量被赋予值1。最后对数据集内63×40的各感兴趣域频谱图按如下公式计算归一化:
最终得到经过所有预处理操作后的、在大厅场景下的音频EDM指纹数据库:
(四)提取各EDM数据的Chirp信号边缘信息
取Canny算子,将其属性中的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4,输入EDM数据直接计算信号边缘信息,得到边缘图E。
(五)训练CNN模型
将预处理后得到的音频EDM指纹数据库按照80%和20%的比例划分为训练集和验证集,即2016条EDM指纹和502条EDM指纹。同理,将边缘图也按相同的比例划分。将训练集数据(包括EDM指纹数据与边缘图数据)与其对应的参考指纹点进行绑定,完成标注。将标注后的数据送入预设好的CNN模型中进行训练,每轮输入4条EDM指纹数据和边缘图数据。以SGD作为优化器,以真实指纹点坐标和网络估计坐标之间的欧氏距离作为损失函数,预设网络初始学习率为0.01,每训练10个历元便将学习率减半,直至学习率最小为0.0001。观察损失函数结果,当其不再明显下降(连续两个历元的损失函数结果差值小于0.5m)后的第5个历元,结束网络训练,得到最终的网络模型。
(六)实时估计位置
将实时采集到的原始音频数据先按照步骤三的分帧操作形成长度为1s的基本单元,并对其进行归一化,生成EDM图;按照步骤四的操作生成边缘信息图。将EDM图与边缘信息图输入训练好的模型中,计算得到估计的坐标结果。
在三个典型的室内场景中测试了本发明实施例提供的室内音频指纹定位系统与方法:一个10.6m×18.2m的办公室,一个11.7m×14.5m的大厅,以及囊括了一条40.6m长走廊的大厅。在办公室和大厅的场景中,四个音频基站被固定在场景的四个角落。为了验证NLOS对音频指纹定位的影响,本发明实施例在大厅左上和右下角落放置2个音频基站,并在走廊的左右两侧各放置1个基站。三个场景中分别预设了34、63和84个指纹点,点间距为1.5m。同时,本发明设计了三条覆盖全场景的动态轨迹,所有指纹点和动态定位过程中的参考坐标均由Leica TS 60全站仪进行测量。本发明使用Vivo S10、华为Nova8 Pro和谷歌Pixel 3三部终端设备来采集离线音频指纹数据和实时在线定位。本发明实施例使用代表着总体误差68%水平的RMSE作为描述定位精度的主要指标:
实施例1
本发明实施例比较了设计的CNN的可行性与有效性。在办公室场景下采集静态数据并以静态测试点的分类精度为准则,在类似的网络深度上比较ResNet-18、RAN和设计的CNN三种网络模型的效果,其中ResNet-18和RAN网络是卷积神经网络分类任务中常见的用于比较的对象。表1提供了网络配置、属性、单次定位在设备上的运行时间和分类精度等指标,设计的CNN网络在单次定位耗时和分类精度两方面实现了综合最优的表现。尽管RAN在分类精度上优于现有方法,但与设计的CNN网络相比,它需要几乎两倍的运行时间。此外,当本发明在RAN的掩码模块中应用提出的边缘检测图时,该网络的分类错误率进一步降低了0.44%,这证明了边缘检测在接收信号时间上下文加权中的有效性。
表1不同网络模型的指标
实施例2
本发明实施例比较了设计的音频指纹定位方法的可行性与有效性,特别是在NLOS条件下的工作性能。
本发明以Vivo S10在办公室和带有长走廊的大厅内的动态定位性能为例,比较了几种常见的室内指纹定位方法与提出的音频指纹定位方法,包括Wi-Fi指纹、蓝牙指纹和地磁指纹。同时,传统的基于KNN机器学习方法也进行了比较。其中,各组对比测试均在相同的测试场景中开展。在大厅场景内,分别准备了8个Wi-Fi AP和15个蓝牙信标,确保足够的射频信号。测试采用相同的步行速度,遵循相同的路线,并实时记录手机估算的坐标。各定位方法的定位误差的累积分布函数曲线和50-68-95百分位精度结果分别如图6和表2所示。
表2各定位方法的精度结果
由于音频信号的机械波特性,在只有软遮挡物(如办公桌和电脑等)而没有明显的硬遮挡物(如墙壁、书柜和巨型屏幕等)的办公室和大厅环境中表现了出类似的性能。在这样的环境中,设计的基于CNN的音频指纹定位方法比其他指纹定位方法更为可靠。然而,墙壁的遮挡使得音频指纹定位的性能下降近70.91%,RMSE从1.65m增加到2.82m。即便如此,由于音频指纹具有良好的空间辨别能力,在存在硬遮挡物的情况下,其仍以较少的基站数量实现了2.24m的平均定位RMSE,与射频和地磁指纹定位方法相比,其RMSE分别下降了32.9%和4.3%。此外,传统的基于KNN的音频指纹定位方法高度依赖于EDM的数值特征,而忽略了信号组内各信号之间的时间上下文特征,因此,KNN方法更容易产生较大的误差。
实施例3
本发明实施例比较了是否采取归一化操作对降低音频指纹的设备差异的效果。本发明仍以三部测试终端为例,将其中某一终端设备在大厅场景内采集的归一化EDM数据训练得到的模型应用到其他终端设备上,以验证其静态和动态定位性能。本发明将静态和动态定位的RMSE之和定义为模型的效益得分,使用归一化EDM数据的三部测试终端的自效益得分和他效益得分分别为1.74-2.37、1.58-2.58和1.99-2.24;使用原始EDM数据的三部测试终端的自效益得分和他效益得分分别为4.18-5.26、3.90-5.66和4.57-5.12。与使用原始EDM数据训练的CNN模型相比,本发明的归一化操作将静态场景的平均RMSE从1.34m降至0.53m,动态场景的RMSE从3.63m降至1.72m,总体绝对定位误差降低了约54.73%。此外,本发明通过归一化操作还将设备间的总体差异性降低了约68.17%,使得平均RMSE从0.89m降至0.54m。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种室内音频指纹定位方法,其特征在于,所述室内音频指纹定位方法包括:对设备接收到的原始音频信号进行去噪、分帧以及归一化的预处理,形成能量密度图EDM;整合归一化能量密度图EDM的主干分支和边缘检测图的掩码分支,结合注意力和边缘检测模块,构建基于注意力机制的CNN网络;构建音频指纹数据库,并对基于注意力机制的CNN网络进行训练;将终端实时采集到的音频数据分类到具体的参考指纹点,通过加权手段实现室内音频指纹的定位。
2.如权利要求1所述的室内音频指纹定位方法,其特征在于,室内音频指纹定位方法包括以下步骤:
步骤一,建立时频域特征丰富的音频信号组;
步骤二,原始音频信号分帧,提炼感兴趣域频谱图,归一化EDM生成;
步骤三,提取归一化EDM中的信号边缘信息,构建基于信号边缘提取与注意力机制的通用卷积神经网络模型;
步骤四,利用训练好的通用卷积神经网络模型实现室内音频指纹定位。
3.如权利要求1所述的室内音频指纹定位方法,其特征在于,步骤一中,将音频信号按照不同的频段变化复用为两种类型,包括上行变化模式和下行变化模式,每个音频信号连续播发Δt ms,将信号组织成“下行-上行-下行-上行”或者“上行-下行-上行-下行”模式的音频网络;以t ms的内部信号周期和T s的外部整周期进行广播,得到信号组,在终端的标准接收时间戳为“0ms-Δt ms-2*Δt ms-3*Δt ms”。
4.如权利要求1所述的室内音频指纹定位方法,其特征在于,步骤二中的基于EDM的生成包括:
(1)原始音频信号分帧
在接收到的原始音频信号上应用12阶巴特沃斯带通滤波器,对滤波后的数据进行分帧,并在时域信号上采用振幅和时间双阈值的方差法判断直达径:
以滤波后数据的每S个采样点为单位,连续计算方差;选择方差振幅阈值为V方差振幅阈值,以1ms的精度判断一个音频信号组内4个独立信号的ToA;
(2)感兴趣域频谱图提炼
使用短期傅里叶变换计算成帧后的数据频谱图,选择Hanning窗,窗口长度为512,重叠率为87.5%;计算后得到尺寸为R×C频谱图,时间分辨率为1.3ms/像素;截取频谱图中音频信号对应的频段数据提炼最终感兴趣域的频谱图,尺寸为row×column;
(3)归一化EDM生成
对感兴趣域的频谱图采取归一化处理,将采集到的所有数据的每一个频点的最小能量值设定为归一化下限Elower,任何低于阈值的能量值均认为是噪声,并被赋予值0;将最接近基站的测试距离上的频点的最大能量值设定为归一化上限Eupper,任何超过归一化上限的其他能量被赋予值1,则归一化计算公式如下:
5.如权利要求1所述的室内音频指纹定位方法,其特征在于,步骤(1)中的原始音频信号分帧还包括:
根据时间阈值和信号组的时间上下文结构确定接收信号的顺序,将第一个超过方差振幅阈值的采样索引暂定为#1候选索引;以t±Δtms的时间阈值在新数据中检索,选出#2候选索引;若#1和#2候选索引的时间间隔大于t+Δtms,则#2候选索引被认定为初始的1#信号;若不是,则#2候选索引成为新的#1候选索引,并重复在新数据中检索,直到#1和#2候选索引的时间间隔大于t+Δtms的阈值;所有后续的#1候选索引仅在距离前一个#1候选索引至少T±Δtms时才被选定;从每个接收到的#1候选索引开始截取长度为Ts的信号,完成分帧处理。
6.如权利要求1所述的室内音频指纹定位方法,其特征在于,步骤三中的基于信号边缘提取与注意力机制的通用卷积神经网络模型的构建包括:
(1)指纹数据库构建
选择静态指纹采集方式,使用三脚架将终端设备固定在每个指纹点上方,并持续采集音频数据,其中每个指纹点的地面参考坐标是由带有跟踪棱镜的全站仪测量得到的,进而得到在测试场景A建立的指纹数据集DSA;其中,数据集表示如下:
其中,AFP为在某个指纹点上采集到的所有EDM指纹的集合,m为场景A中预设的总指纹点数量,n为每条音频指纹中所包含的EDM数量;
(2)边缘检测图计算
使用Canny算子提取信号的边缘信息,并将Canny用到的高斯滤波器的标准差和高低阈值分别设置为2.0、0.2和0.4;
(3)CNN模型构建
设计主干和掩码分支相结合的CNN估计位置,从Canny计算的检测图结果中提取信号部分的注意力权重,获取边缘特征;将归一化EDM作为主干分支输入,将边缘检测结果图作为掩码分支输入,主干分支中,采用卷积和最大池化提取信号的深层特征;堆叠执行3次标准残差块计算得到精细特征;掩膜分支中,采用卷积和最大池化提取信号的深层特征;执行2次标准残差块计算;通过sigmoid层归一化,将分支的输出限制在[0,1]的范围内,表达方式如下:
A=T(F)*(1+M(E));
其中,A为融合了主干分支图结果与掩膜分支图结果后的、空间信息特征得到加强的图,T表示主干分支,M表示掩膜分支,F为EDM图,E为边缘提取图;
随后依次执行2次标准残差块计算,直到达到特征图的最低分辨率;最后执行NiNBlock和全局平均池化计算取代传统的全连接层;GAP层输出m个置信度分数,表示当前输入的EDM对应数据集中每个指纹点的概率;最终,m个置信度分数被送入Soft-max层,并以加权的方式估计坐标,如下所示:
其中,Si为第i个指纹点的得分,(xi,yi)是第i个指纹点的坐标;
(4)CNN训练
将每条音频指纹中的所有EDM数据按照80%和20%的比例划分为训练集和验证集,在将边缘检测图输入到掩膜分支之前,将其中的非边缘像素赋予0.00001的小值;训练目标为最小化损失函数,其中损失函数定义为某一EDM对应的真实指纹点坐标和网络估计坐标之间的欧氏距离,如下所示:
7.一种应用权利要求1~6任意一项所述室内音频指纹定位方法的室内音频指纹定位系统,其特征在于,所述室内音频指纹定位系统包括:
音频信号组建立模块,用于建立时频域特征丰富的音频信号组;
EDM生成模块,用于对原始音频信号进行分帧后提炼感兴趣域的频谱图,并生成归一化的EDM;
卷积神经网络模型构建模块,用于构建基于信号边缘提取与注意力机制的通用卷积神经网络模型并进行模型训练;
室内音频指纹定位模块,用于利用训练好的基于信号边缘提取与注意力机制的通用卷积神经网络模型实现室内音频指纹定位。
8.一种计算机设备,其特征在于,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~6任意一项所述室内音频指纹定位方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~6任意一项所述的室内音频指纹定位方法的步骤。
10.一种信息数据处理终端,其特征在于,信息数据处理终端用于实现如权利要求7所述室内音频指纹定位系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310183017.4A CN116164751B (zh) | 2023-02-21 | 2023-02-21 | 一种室内音频指纹定位方法、系统、介质、设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310183017.4A CN116164751B (zh) | 2023-02-21 | 2023-02-21 | 一种室内音频指纹定位方法、系统、介质、设备及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116164751A true CN116164751A (zh) | 2023-05-26 |
CN116164751B CN116164751B (zh) | 2024-04-16 |
Family
ID=86413032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310183017.4A Active CN116164751B (zh) | 2023-02-21 | 2023-02-21 | 一种室内音频指纹定位方法、系统、介质、设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116164751B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460114A (zh) * | 2018-02-09 | 2018-08-28 | 福州大学 | 一种基于层次注意力模型的图像检索方法 |
CN112566056A (zh) * | 2020-12-07 | 2021-03-26 | 浙江德清知路导航研究院有限公司 | 基于音频指纹信息的电子设备室内定位系统和方法 |
CN112992121A (zh) * | 2021-03-01 | 2021-06-18 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的语音增强方法 |
WO2022112594A2 (en) * | 2020-11-30 | 2022-06-02 | Dolby International Ab | Robust intrusive perceptual audio quality assessment based on convolutional neural networks |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
CN115696196A (zh) * | 2022-10-18 | 2023-02-03 | 佛山市顺德区智慧科技产业创新研究院 | 用于空间定位的基于深度学习的Wi-Fi指纹重建方法与系统 |
-
2023
- 2023-02-21 CN CN202310183017.4A patent/CN116164751B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460114A (zh) * | 2018-02-09 | 2018-08-28 | 福州大学 | 一种基于层次注意力模型的图像检索方法 |
WO2022112594A2 (en) * | 2020-11-30 | 2022-06-02 | Dolby International Ab | Robust intrusive perceptual audio quality assessment based on convolutional neural networks |
CN112566056A (zh) * | 2020-12-07 | 2021-03-26 | 浙江德清知路导航研究院有限公司 | 基于音频指纹信息的电子设备室内定位系统和方法 |
CN112992121A (zh) * | 2021-03-01 | 2021-06-18 | 德鲁动力科技(成都)有限公司 | 基于注意力残差学习的语音增强方法 |
CN115696196A (zh) * | 2022-10-18 | 2023-02-03 | 佛山市顺德区智慧科技产业创新研究院 | 用于空间定位的基于深度学习的Wi-Fi指纹重建方法与系统 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
Non-Patent Citations (2)
Title |
---|
WANG ZEXING等: "A novel method locating pedestrian with smartphone indoors using acoustic fingerprints", IEEE SENSORS JOURNAL, vol. 21, no. 24, 11 November 2021 (2021-11-11), XP011893509, DOI: 10.1109/JSEN.2021.3126863 * |
陈锐志等: "基于数据与模型双驱动的音频/惯性传感器耦合定位方法", 测绘学报, vol. 51, no. 7, 31 July 2022 (2022-07-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN116164751B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11398235B2 (en) | Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array | |
Abdelnasser et al. | Wigest: A ubiquitous wifi-based gesture recognition system | |
CN109275095B (zh) | 一种基于蓝牙的室内定位系统、定位设备和定位方法 | |
CN109525935A (zh) | 一种针对普适室内环境的智能楼层感知方法及控制系统 | |
CN109444813A (zh) | 一种基于bp和dnn双神经网络的rfid室内定位方法 | |
CN108828501B (zh) | 在室内声场环境中对移动声源进行实时跟踪定位的方法 | |
WO2020024816A1 (zh) | 音频信号处理方法、装置、设备和存储介质 | |
Ruan et al. | Hi-Loc: Hybrid indoor localization via enhanced 5G NR CSI | |
CN114828211B (zh) | 一种智能手机和可穿戴设备的音频定位系统、方法及终端 | |
CN105717483A (zh) | 一种基于多源定位方式的位置确定方法及装置 | |
US11495111B2 (en) | Indoor occupancy estimation, trajectory tracking and event monitoring and tracking system | |
Hon et al. | Audio fingerprinting for multi-device self-localization | |
CN110543842A (zh) | 一种基于Wi-Fi信号的目标运动识别方法及系统 | |
US11808848B1 (en) | Method, system and terminal for wide-area acoustic indoor positioning based on RF enhancement | |
Yuan et al. | First arrival picking using U-net with Lovasz loss and nearest point picking method | |
Siyang et al. | WKNN indoor Wi-Fi localization method using k-means clustering based radio mapping | |
CN107202559A (zh) | 基于室内声学信道扰动分析的物体识别方法 | |
CN103901400A (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
CN103442432A (zh) | 指纹定位方法与服务器 | |
Wang et al. | Indoor PDR Positioning Assisted by Acoustic Source Localization, and Pedestrian Movement Behavior Recognition, Using a Dual‐Microphone Smartphone | |
CN116164751B (zh) | 一种室内音频指纹定位方法、系统、介质、设备及终端 | |
Wang et al. | Adaptive room-level localization system with crowd-sourced WiFi data | |
KR20190122423A (ko) | 머신러닝 기반의 실내 측위 방법 및 시스템 | |
KR101332832B1 (ko) | 형태 인식 장치를 이용한 실내 이용자 측위 방법 | |
CN116095600A (zh) | 一种基于5g时空大数据协同的室内定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |