CN115954015B

CN115954015B - 多路径和非视距室内环境下的chirp信号检测方法

Info

Publication number: CN115954015B
Application number: CN202211591166.6A
Authority: CN
Inventors: 陈锐志; 李正; 郭光毅; 叶锋
Original assignee: Zhejiang Deqing Zhilu Navigation Technology Co ltd
Current assignee: Zhejiang Deqing Zhilu Navigation Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-07-25
Anticipated expiration: 2042-12-12
Also published as: CN115954015A

Abstract

本发明属于音频定位技术领域，公开了一种多径和非视距的室内环境下的chirp信号检测方法，首先使用带通滤波器过滤音频原始数据，再基于时频分析法获得过滤数据的功率谱密度，对其进行能量监测从中提取包含第一路径的音频数据段；利用信号检测的极值归一化方法根据粗检测提取的音频数据段与发射的音频信号之间的互相关函数的输出计算原始峰值，对原始峰值的极值进行归一化；根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征动态选择松弛阈值和严格阈值，再基于归一化后的极值使用动态阈值法提取第一路径。本发明能够通过低成本的基础设施在多径和NLOS室内环境中实现鲁棒和高精度的音频测距，以便在大众智能手机上进行实际应用。

Description

多路径和非视距室内环境下的chirp信号检测方法

技术领域

本发明属于音频定位技术领域，尤其涉及一种多路径和非视距室内环境下的chirp信号检测方法。

背景技术

目前，随着智能手机在日常生活中的普及，以及人们对室内位置服务的迫切需求，各种与智能手机兼容的室内定位技术层出不穷，主要包括蓝牙、Wi-Fi、视频、惯性传感器和音频。在这些室内定位方法中，基于音频的室内定位技术已成为一个研究热点，这是由于音频定位技术具有相对较高的定位精度，对定时精度要求较不严格，以及无论硬件能力如何，都有可能与现成的商用智能手机合作的优势，毕竟每个智能手机都至少配备一个扬声器和一个麦克风。

大多数音频定位系统都是利用chirp信号的到达时间(TOA)或到达时差(TDOA)估计来确定从信号发射节点到目标设备的距离或伪距，并推断后者的位置。因此，TOA和TDOA的测量精度是音频室内定位和导航系统的基石。然而，在实际应用中，通过智能手机和低成本的基础设施在复杂的室内环境中进行鲁棒和高精度的TOA和TDOA估计仍然是一个众所周知的挑战，许多问题仍然需要克服：1)多径传播，声音在室内产生反射和衍射，接收到的chirp信号由多个衰减和延迟复制的原始音频信号组成；2)非视距(NLOS)现象，原始音频信号和智能手机之间的信号直达路径被物体或墙壁遮挡，特别是人体遮挡，3)智能手机的差异，不同智能手机从同一原始音频信号接收到的信号特征不同，4)近远效应，原始音频信号与智能手机之间的距离也会影响智能手机接收到的信号的特性。综上所述，室内多径效应和非视距(NLOS)现象严重降低了TOA或TDOA估计精度，而近远效应和智能手机的差异性则大大降低了估计方法的普适性，它们都对音频定位系统在现实世界中的应用提出了巨大的挑战。

如果可以准确地检测chirp信号的到达时延，则就可以获得精确的TOA和TDOA。在复杂的室内环境中，通常将信号到达的第一路径作为音频信号的直达路径，以减轻多路径和NLOS的影响。因此，设计一种鲁棒的chirp信号检测算法，在多径和NLOS室内环境中有效地提取第一路径，是实现高精度TOA或TDOA估计的关键。在过去的几十年里，人们对第一路径检测算法进行了广泛的讨论，主要包括基于互相关函数(CCF)的方法、超分辨率估计方法和时频(TF)分析方法。在一些基于CCF的早期研究中，CCF输出的最大峰值被认为是第一路径。有的文献还引入了希尔伯特变换插值算法来提取信号包络为了更精确地检测峰值。不幸的是，这些峰值检测方法只在理想环境中有效，在混响环境中可能失效。针对复杂的室内环境，有些研究提出了改进的阈值检测方法，为了基于CCF输出更准确地检测第一路径。在这些阈值方法中，由于现实世界中室内环境的复杂性，阈值的最优值很难选择。与基于CCF的方法不同，超分辨率方法是在频域中检测第一路径，有研究提出了一种基于多信号分类(MUSIC)的超分辨率方法来实现chirp信号的TOA估计。基于TF分析的方法则是利用chirp信号的频率随时间线性变化的特点来实现第一路径的提取。有研究通过在每次迭代清理过程中消除最强路径分量，在分数阶傅里叶域(FrFD)从接收信号中检测出第一路径。尽管这些在频域中的检测第一路径的方法可以提高检测精度，但也增加了计算的复杂度，使得在智能手机上难以实现。同时，在低信噪比(SNR)的情况下，这些方法的第一路径检测的成功率也不是很好。

通过上述分析，现有技术存在的问题及缺陷为：现有的音频定位方法定位精度不高，定位效率低，且不能适用于复杂的室内环境中。

发明内容

针对现有技术存在的问题，本发明提供了一种多路径和非视距室内环境下的chirp信号检测方法。

本发明是这样实现的，一种多路径和非视距室内环境下的chirp信号检测方法，所述多路径和非视距室内环境下的chirp信号检测方法包括：

首先，利用带通滤波器对原始音频信号进行滤波，再基于滤波后的数据进行短时傅里叶变换后得到的功率谱密度进行能量监测的方法，提取包含第一路径的音频数据段；

其次，根据粗检测提取的音频数据段与原始音频信号之间的互相关函数的输出计算原始峰值，对原始峰值的极值进行归一化；

最后，根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征，选择松弛阈值和严格阈值，再基于归一化极值的动态阈值法提取第一路径。

进一步，所述多路径和非视距室内环境下的chirp信号检测方法包括以下步骤：

步骤一，进行粗检测：利用带通滤波器对原始音频信号进行滤波，通过对滤波后的信号进行短时傅里叶变换得到表示每个音频数据段的功率谱密度矩阵；通过监测功率谱密度的能量变化检测第一路径之前的时延，并对精检测中提取第一路径的比例因子进行预测；

步骤二，进行精检测：从粗检测提取的音频数据段与原始音频信号之间的互相关函数输出中计算原始峰值，对原始峰值的极值进行归一化，得到归一化后的极值和预测精检测中提取第一路径的比例因子；将步骤一与步骤二得到的两个预测相结合进行动态选择比例因子的阈值，得到chirp信号的第一路径的时延结果。

进一步，所述进行粗检测包括以下步骤：

(1)接收包含chirp信号的原始音频信号，并利用带通滤波器对原始信号进行滤波处理，得到滤波后的音频信号；

(2)利用短时傅里叶变换处理滤波后的音频信号得到音频信号的功率谱密度，根据发射的chirp信号的参数计算它在功率谱密度PSD中的参数：

Ws＝round[DT/(SL/Fs)] (1)

其中，round[·]表示舍入函数，Ws表示PSD中chirp信号持续时间的窗口数，m_start和m_end分别表示PSD中chirp信号频率窗口的开始和结束；其中，WL表示窗口的长度，SL表示窗口的移动步长，SL/Fs表示时间分辨率，Fs/WL表示频率分辨率；

(3)从音频信号的PSD中获取每个时延τ_n的平均能量AE以及能量突变的比例ECR；其中，能量突变的比例ECR表示在时延τ_n频率f_m处的PSD值比时延τ_n-1频率f_m处的PSD值的高出值大于阈值TH_ED的频率f_m个数与时延τ_n频率在使用频段f_m总个数的比值；

(4)利用下式计算τ_n和τ_n-1的平均能量值的突变：

(5)设置两个阈值TH_ED和TH_ECR，当和τ_n处的能量突变的比例时，检测到第一路径的粗略时延τ_n；

(6)利用下式计算粗略时延τ_n处从最强的路径到第一路径的窗口数：

其中，表示在粗时延τ_n处从最强路径到第一路径的窗口数，最强路径的窗口数是从n到n+Ws找到AE的最大值，n表示检测到的第一路径的窗口数；

(7)设置阈值TH_dis，对精检测中提取第一路径的比例因子λ进行预测。

进一步，所述利用短时傅里叶变换处理滤波后的音频信号得到音频信号的功率谱密度包括：

首先，将傅里叶变换的滑动窗口设置为接收信号的起点，窗口函数以t＝τ₀为中心，对信号进行加窗处理：

y(t)＝x(t)·w(t-τ₀) (6)

其中，x(t)表示R(0:WL]的音频数据段；w为汉明窗函数；

其次，执行傅里叶变换获得第一个窗口的功率谱密度PSD：

其中，表示接收信号在(0,τ₀]处的向量；f_m取决于智能手机的Fs，范围为0Hz到Fs/2Hz；τ₀＝(WL/2)/Fs；

最后，计算第n个窗口的PSD：

其中，表示接收信号在(τ_n-1,τ_n]处的向量，x(t_n)＝R((n-1)×SL:WL+(n-1)×SL]；

进一步，所述进行精检测包括以下步骤：

1)将从互相关函数输出的|R_sr(τ)|得到的原始峰值NPVs并按信号峰值的聚集特性分为不同的组，一个组为一个侯选峰CP，得到候选峰集CPs；

2)将NPVs按聚集特性进行分组得到的每个侯选峰CPs的极值归一化，归一化后的极值也可表示信噪比，归一化过程如下：

3)设置阈值TH_CP_s，对精检测中提取第一路径的比例因子λ进行预测；

4)根据得到的检测到第一路径的时延t₀：

其中，λ_ad表示通过结合两个预测确定比例因子的阈值，将超过自适应阈值的第一个时延TC_p视为第一路径，其中比例因子的阈值的确定如下：

进一步，所述将从互相关函数输出的|R_sr(τ)|得到的原始峰值NPVs分为不同的组包括：

1.1)当λ为最小阈值λ_min时，NPVs为|Rsr(τ)|的峰值从最小峰值λ_min×max[|R_sr(τ)|]开始的递增值，得到一个峰值序列其中K表示的数量，TN_k表示每个NPVs对应的时延；利用下式计算用于反映相邻峰时间间隔的时间差diffTN_k：

diffTN_k＝TN_k-TN_k-1 k＝2,3,…,K； (12)

1.2)基于diffTN_k对峰值序列进行分组得到侯选峰集

1.3)利用下式计算

TC_p＝TC_p-end (14)

其中，表示第p个CP；p＝1,2,…,P，P为侯选峰CPs的个数，TC_p表示每个侯选峰CPs的极值对应的时延；

本发明的另一目的在于提供一种实施所述多路径和非视距室内环境下的chirp信号检测方法的多路径和非视距室内环境下的chirp信号检测系统，所述多路径和非视距室内环境下的chirp信号检测系统包括：

粗检测模块，利用带通滤波器对原始音频信号进行滤波，再基于滤波后的数据进行短时傅里叶变换后得到的功率谱密度进行能量监测的方法，提取包含第一路径的音频数据段

精检测模块，利用信号的极值归一化方法根据粗检测提取的音频数据段与原始音频信号之间的互相关函数的输出计算原始峰值，对原始峰值的极值进行归一化；最后，根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征选择松弛阈值和严格阈值，再基于归一化极值的动态阈值法提取第一路径。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述多路径和非视距室内环境下的chirp信号检测方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述多路径和非视距室内环境下的chirp信号检测方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述多路径和非视距室内环境下的chirp信号检测系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明提出了一种基于带通滤波器和短时傅里叶变换(STFT)的基于功率谱密度(PSD)的能量粗检测方法(CS-ED)。与传统的时频分析方法不同，虽然改进的CS-ED方法以降低精度为代价降低了计算复杂度，但它可以确保从在复杂环境下智能手机接收到的音频信号中提取出包含第一路径的音频数据段。采用CS-ED方法，不仅过滤了大量无用的音频数据，而且极大地消除了多径传播效应。

本发明提出了一种简单有效的信号检测的极值归一化算法，根据粗检测提取的音频数据段与原始音频信号之间的CCF输出计算原始峰值(NPVs)，然后对NPVs的极值进行归一化。归一化极值(NEVs)与CCF输出的信噪比有关。从NEVs中检测第一路径，可以同时应对近远效应和不同智能手机间的差异，还可以缓解多径传播效应和NLOS现象。

本发明根据获得的PSD和NPVs，在精检测(FS-SST)中提出了松弛阈值和严格阈值相结合，以动态阈值法提取第一路径。自适应阈值的选择取决于PSD的变化特征和NPVs的波形特征，然后根据自适应阈值从NEVs中检测第一路径。通过这种策略，可以显著提高在多路径和NLOS室内环境中第一路径检测的可靠性。

本发明将检测过程分为粗检测(CS-ED)和精检测(FS-SST)。CS-ED的核心步骤是通过监测基于STFT的能量变化来检测第一路径之前的粗略时延，以保证在复杂环境下的鲁棒性，并给出FS-SST中的比例因子λ的预测。为了进一步提高第一路径检测的准确性和稳定性，在FS-SST中使用了通过结合两种预测而选择松弛阈值和严格阈值。同时，在FS-SST中提出了一种简单的极值归一化方法，以同时缓解近远效应和智能手机的差异。在第一个实验中给出了所提信号检测算法的最佳的阈值参数。从不同的测试场景和实际应用中得到的结果验证了所提出的检测算法能够准确地检测出第一路径，特别是在多径和NLOS环境下。三种粗检测算法和三种精检测算法的对比实验结果表明，在不同环境下的不同智能手机上，所提出的算法的鲁棒性和准确性要优于其他两种基于CCF的检测算法。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提出了一种基于CS-ED和FS-SST的两级chirp信号到达时间检测算法，能够通过低成本的基础设施在多径和NLOS室内环境中实现鲁棒和高精度的音频测距，以便在大众智能手机上进行实际应用。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

本发明的技术方案转化后的预期收益和商业价值为：

本发明的技术方案已在国内多地应用实施，如南京某高铁站、杭州某高铁站、德清某会展中心等，为大众提供智能手机可用的室内音频定位导航体验，另外该技术方案依托的音频定位技术已创造了3704.7万元的经济效益，预期经济效益显著。

附图说明

图1是本发明实施例提供的；

图2是本发明实施例提供的一个典型室内环境中的信号模型说明(包括LOS和NLOS场景)示意图；

图3是本发明实施例提供的信号检测的特征PSD图；

图4是本发明实施例提供的信号检测的特征|R_s(τ)|的波形示意图；

图5是本发明实施例提供的在多路径和LOS环境下接收到的chirp信号的PSD和CCF输出示意图；

图6是本发明实施例提供的在多路径和NLOS环境下接收到的chirp信号的PSD和CCF输出示意图；

图7是本发明实施例提供的chirp信号鲁棒检测算法的原理图；

图8是本发明实施例提供的多路径和LOS环境下粗检测示意图，包括原始和滤波后的接收信号，以及

图9是本发明实施例提供的多路径和NLOS环境下粗检测示意图，包括原始和滤波后的接收信号，以及的示意图；

图10是本发明实施例提供的多路径和LOS环境下的和的示意图；

图11是本发明实施例提供的多路径和NLOS环境下的和的示意图；

图12是本发明实施例提供的多路径和LOS环境下的|R_sr(τ)|和的精检测的示例图；

图13是本发明实施例提供的多路径和NLOS环境下的|R_sr(τ)|和的精检测的示例图；

图14是本发明实施例提供的多路径和LOS环境下的的精检测的示例图；

图15是本发明实施例提供的多路径和NLOS环境下的的精检测的示例图；

图16是本发明实施例提供的实验1测试场景、音频节点、智能手机和不同的采集情况示意图；

图17是本发明实施例提供的在LOS和NLOS场景下，三种不同智能手机上的阈值参数diffAEs的平均值随距离变化的示意图；

图18是本发明实施例提供的在LOS和NLOS场景下，三种不同智能手机上的阈值参数ECRs的平均值随距离变化的示意图；

图19是本发明实施例提供的在LOS和NLOS场景下，三种不同智能手机上的阈值参数dis的平均值随距离变化的示意图；

图20是本发明实施例提供的在LOS和NLOS场景下，三种不同智能手机上的阈值参数CPs的平均值随距离变化的示意图；

图21是本发明实施例提供的在LOS场景下，智能手机荣耀8在不同比例因子下FS-SST在不同测试点上的性能示意图；

图22是本发明实施例提供的在NLOS场景下，智能手机荣耀8上不同比例因子下FS-SST在不同测试点上的性能示意图；

图23是本发明实施例提供的在LOS场景下，智能手机小米10在不同比例因子下FS-SST在不同测试点上的性能示意图；

图24是本发明实施例提供的在NLOS场景下，智能手机小米10在不同比例因子下FS-SST在不同测试点上的性能示意图；

图25是本发明实施例提供的在LOS场景下，智能手机华为P40在不同比例因子下FS-SST在不同测试点上的性能示意图；

图26是本发明实施例提供的在NLOS场景下，智能手机华为P40在不同比例因子下FS-SST在不同测试点上的性能示意图；

图27是本发明实施例提供的实验2测试场景、四个音频锚点、智能手机和两种采集情况示意图；

图28是本发明实施例提供的在第二个测试场景的采集情况1下三种精检测算法的TDEs的CDF示意图；

图29是本发明实施例提供的在第二个测试场景的采集情况2下三种精检测算法的TDEs的CDF示意图；

图30是本发明实施例提供的实验3测试场景、四个音频锚点和接收者示意图；

图31是本发明实施例提供的测试场景3中来自四种不同智能手机的三种精检测算法的TDEs的CDF示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的多路径和非视距室内环境下的chirp信号检测方法包括以下步骤：

S101，进行粗检测：利用带通滤波器对原始音频信号进行滤波，通过对滤波后的信号进行短时傅里叶变换得到表示每个音频数据段的功率谱密度矩阵；通过监测功率谱密度的能量变化检测第一路径之前的时延，并对精检测中提取第一路径的比例因子进行预测；

S102，进行精检测：从粗检测提取的音频数据段与原始音频信号之间的互相关函数输出中计算原始峰值，对原始峰值的极值进行归一化，得到归一化后的极值和预测精检测中提取第一路径的比例因子；将步骤一与步骤二得到的两个预测相结合进行动态选择比例因子的阈值，得到chirp信号的第一路径的时延结果。

本发明实施例提供的多路径和非视距室内环境下的chirp信号检测系统包括：

粗检测模块，利用带通滤波器对原始音频信号进行滤波，再基于滤波后的数据进行短时傅里叶变换后得到的功率谱密度进行能量监测的方法，提取包含第一路径的音频数据段；

精检测模块，利用信号的极值归一化方法根据粗检测提取的音频数据段与原始音频信号之间的互相关函数的输出计算原始峰值，对原始峰值的极值进行归一化；最后，根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征选择松弛阈值和严格阈值，再基于归一化后的极值使用动态阈值法提取第一路径。

本发明实施例提供的音频信号特性和检测方法如下：

(1)复杂室内环境中的信号特性

在实际应用中，为了满足智能手机的兼容性和一定程度的人耳不敏感性，其中扬声器发出的chirp信号采用较高的频段，它可以被低成本音频信号采集模块有效的采集。几乎所有的智能手机都有麦克风，可以采集采样频率(Fs)高达48kHz的音频信号。chirp信号的函数表示为：

其中，A(t)表示信号振幅，f₀和f_e分别表示初始频率和截止频率，T表示信号周期。

在本发明中，S(t)是一个预定义的chirp脉冲信号，其持续时间为42ms，调制频率随时间线性变化，并由A(t)进行幅度调制。此外，利用汉明窗口函数调制chirp脉冲的振幅，以缓解时域中瞬态快速变化引起的频谱扩散现象。在我们提出的室内定位系统中共有4个调制频率，分别是：18-15kHz、15-18kHz、22-19kHz和19-22kHz。在本发明的信号检测算法中，不同的调制频率对检测来说是一样的，因此，本发明以19-22个kHz作为代表进行讨论。

对于典型的室内环境，接收到的音频信号由目标信号和环境噪声(如背景噪声和混响信号)组成。混响信号通常是由声音在室内环境中的地面、墙壁、天花板和人体的多次反射和衍射而产生的。在一个典型的室内环境下的信号模型如图2所示。

在这种情况下，由智能手机接收到的音频信号R(t)被认为是原始音频信号S(t)通过多条路径的线性叠加。接收到的信号R(t)可以表示为：

其中，*表示卷积，x(t)表示室内环境中音频的信道脉冲响应(CIR)，L表示传播路径的总数，α_l和t_l分别表示第l条路径的衰减系数和传播时延，n(t)表示随机噪声。一般来说，t1表示原始音频信号通过第一路径到达智能手机的时延，可以认为是直达路径。

基于原始音频信号的先验知识，原始音频信号S(t)和接收信号R(t)之间的CCF输出R_sr(τ)表示为：

式中，R_sn(τ)为信号S(t)和噪声n(t)的CCF结果，R_s(τ-t1)可视为S(t)在不同时延t_l后的自相关函数R_s(τ)的线性叠加。

在实际中，R_sn(τ)通常会淹没了较弱的多条路径，从而降低了NLOS和远距离条件下的第一路径的检测性能。因此，本发明提出了一种简单而有效的极值归一化信号检测算法来缓解这一现象。除噪声外，在公式(17)中，R_sn(τ)主要取决于R_s(τ)，这是自相关函数的线性叠加。基于这一原理，本发明利用|R_s(τ)|的波形特征，对原始音频信号通过第一路径到达智能手机的时延进行检测。

(2)复杂室内环境中的信号检测

信号检测主要基于TF信息和CCF输出。图3显示了基于STFT的chirp信号的PSD图，其调制频率为19-22kHz，chirp率约为70Hz/ms。很明显，频率随时间呈线性变化，这是一个明显的特征，可以用来检测复杂环境下的chirp信号。根据以上分析，基于CCF输出的第一路径检测利用了|R_s(τ)|的波形特征，|R_s(τ)|的波形如图4所示。

从公式(17)可以看出，在每个时延t_l处，|R_sr(τ)|的峰值包络处肯定会出现一个正极值。因此，不同传播路径的时延t_l可以如下得到。

t_l＝Extremumτ{peaks[|R_sr(τ)|]} (18)

其中，peaks[·]是峰值检测运算符，Extremum{·}是极值提取运算符。在理想的室内环境中，如图4所示，|R_sr(τ)|为|R_s(τ)|，唯一的一个极值是第一路径(直接路径)的时延。然后通过最大化|R_s(τ)|可以得到时延t_max。

t_max＝argmaxτ,|R_s(τ)|] (19)

但实际情况更为复杂，如图5和图6所示，|R_sr(τ)|近似为不同时延下的|R_s(τ)|的线性叠加。混响、回声和NLOS现象的影响都会导致CCF的输出R_sr(τ)中出现多峰。此时，第一路径的时延t₀可以通过下式计算出来：

t₀＝argmax_l{|R_sr(t_l)|≥λ×max[|R_sr(τ)|]} (20)

其中，λ(0<λ≤1)为比例因子，将超过该阈值的第一个极值峰值视为第一路径。然而，在实际应用中，由于室内环境的复杂性，λ的最优固定值很难确定，因为它主要取决于环境噪声、可能被阻挡的直达路径以及由于室内多径效应叠加而产生的最强路径，这三者之间的能量比值。

首先，第一路径显然不再是能量最强的峰值，那么最大峰值信号检测方法也不再可靠。在这种低信噪比的情况下，通过选择一个合适的阈值，可以正确地检测到第一路径，从而获得一个准确的时延。否则，将会出现大量的信号检测误差。

通过比较图5和图6中的最优阈值，可以看出，λ的最优值不是一个固定值。如果λ太小，由于环境噪声的干扰可能会产生过早检测，即检测到第一路径之前的峰值，正如图5所示的当λ＝0.05时检测到了干扰峰值。另一方面，如果λ太大，可能存在较高概率的过迟检测，这是由于信号衰落或NLOS导致真实峰值可能低于阈值，正如图6所示的当λ＝0.2时错过了真实峰值。因此，设置一个固定的阈值或选择最大峰值都不能正确有效地检测第一路径。

此外，如何从大量的音频数据中简单高效地提取包含第一路径的数据段，以提高算法的实用性，也是一个需要考虑的问题。因此，为了实现高精度的测距精度，提高信号检测算法的鲁棒性，需要一种新的方法来减轻由于多路径传播、NLOS现象造成的第一路径检测策略不可靠的影响。

本发明实施例提供的chirp信号鲁棒检测算法包括：

本发明实施例提供的鲁棒和高精度的音频测距算法的框架如图7所示。信号检测算法分为粗检测和精检测两个步骤。

在粗检测中，首先使用带通滤波器来消除智能手机接收到的原始音频数据中环境噪声的干扰，然后通过对滤波数据做STFT得到表示每个音频数据段的PSD矩阵。最后，通过监测PSD的能量变化来检测第一路径之前的时延，并对精检测(FS-SST)中提取第一路径的比例因子λ进行预测。

精检测是基于粗检测提取的音频数据段与原始音频信号之间的CCF输出。首先，从CCF输出中计算出原始峰值(NPVs)，然后对原始峰值(NPVs)的极值进行归一化，得到归一化后的极值(NEVs)和预测精检测中提取第一路径的比例因子λ。最后，将两个预测相结合进行动态选择比例因子的阈值，以便更准确地进行chirp信号的第一路径的时延检测。

(1)粗检测算法

粗检测利用频率随时间线性变化的特征来检测粗略时延。接收信号的PSD是通过TF分析方法的STFT获得的，因为STFT方法简单，适用于音频信号等非平滑信号。STFT是对滤波后的音频数据使用滑动窗口做傅里叶变换(FFT)的方法。假设窗口的长度为WL，窗口的移动步长为SL，则时间分辨率为SL/Fs s，频率分辨率为Fs/WL Hz。STFT的步骤如下：

首先，将窗口设置在接收信号的起点，此时窗口函数以t＝τ₀为中心，对信号进行加窗处理：

y(t)＝x(t)·w(t-τ₀) (21)

然后，进行傅里叶变换获得第一个窗口的PSD，是接收信号在时延(0,τ₀]处的向量。

其中，x(t)表示R(0:WL]的音频数据段；w为汉明窗函数；f_m取决于智能手机的Fs，范围为0Hz到Fs/2Hz。f_m和τ₀定义如下：

τ₀＝(WL/2)/Fs (24)

最后，计算第n个窗口的PSD，如下所示：

其中，为接收信号在时延(τ_n-1,τ_n]处的向量，x(t_n)和τ_n定义如下：

x(t_n)＝R((n-1)×SL:WL+(n-1)×SL] (26)

根据chirp信号的线性特性，本发明可以从接收信号的PSD中得到在每个时延τ_n处以70Hz/ms的调制斜率在19-22kHz频段的平均能量(AE)。该过程如算法1中所述。值得注意的是，如果τ_n处的音频信号中没有chirp信号，则τ_n处的平均能量很低。然而，当窗口滑动到有chirp信号的地方时，τ_n处的平均能量会突然变高。因此，提出的粗检测算法(CS-ED)利用上述特征来检测平均能量开始突变的时延τ_n，从而提取出包含第一路径的音频数据段。

此外，为了防止环境噪声中有高频噪声出现会干扰平均能量的变化，本发明还从PSD中提取了能量突变比例(ECR)。能量突变比例表示在时延τ_n频率f_m处的PSD值比时延τ_n-1频率f_m处的PSD值的高出值大于阈值TH_ED的频率f_m个数与时延τ_n频率在使用频段f_m总个数的比值。该过程也显示在算法1中。

在算法开始之前，本发明需要将chirp信号参数(持续时间为42ms，调制频率为19-22kHz)转换为它在PSD中的参数，如下：

Ws＝round[DT/(SL/Fs)] (28)

其中，round[·]是一个舍入函数，Ws表示PSD中chirp信号持续时间的窗口数，m_start和m_end分别表示PSD中chirp信号开始频率和结束频率的窗口数。

为了突出平均能量值的突变，本发明取τ_n和τ_n-1处的差值得到算式如下：

此外，还需要考虑τ_n处的能量突变比例设置两个阈值TH_ED和TH_ECR，当和时，检测到第一路径的粗略时延τ_n。同时，还可以对FS-SST中提取第一路径的比例因子λ进行预测。众所周知，在理想环境中，第一路径是最强路径，而在多径环境中，最强路径距离第一路径稍远，而在多径和NLOS的环境中，最强路径距离第一路径会更远。基于这一现象，本发明可以得到从最强路径到第一路径的距离如下：

其中，表示在粗略时延τ_n处从最强的路径到第一路径的窗口数，最强路径的窗口数是从n到n+Ws找到AE的最大值，n是检测到的第一路径的窗口数。设置阈值TH_dis，当时，本发明有理由怀疑信号检测环境是复杂的，并给出FS-SST中提取第一路径的比例因子λ的预测。

以图5和图6中多径影响下的LOS和NLOS场景中收集的数据为例，图8至图11展示了粗检测过程中的细节，通过上述设置的阈值参数TH_ED、TH_ECR和TH_dis可以检测到粗略时延并对精检测中提取第一路径的比例因子λ进行预测。图8和图9显示了接收到的原始音频信号和滤波后的音频信号，接受信号中包含chirp信号。在图8至图11中，接收信号的长度为4096，本发明通过充分考虑了STFT的时间分辨率和频率分辨率之间的平衡，设置了WL＝1024和SL＝128。根据CS-ED原理，算法1可以得到和公式(31)得出公式(32)得出这些值在不同环境下的情况如图8至图11所示。可以看出，即使在信号幅值已经被淹没的多径和NLOS的环境中，当chirp信号出现时，和依然会突然变高。此外，在NLOS环境中明显大于在LOS环境中。因此，当和时，可以检测到粗略时延τ_n。然后，根据值的大小，可以对FS-SST中提取第一路径的比例因子λ进行预测。

(2)精检测算法

由于智能手机的处理能力有限，时频分析的分辨率受到限制，因此CCF仍然被用于检测更准确的时延。CS-ED检测完成后，不仅可以检测到粗略的到达时延，而且还可以有效地去除延时回声和远距离的反射信号。因为，从粗略时延开始截取具有固定长度L_CCF的信号作为包含第一路径的音频数据段。

设置L_CCF应遵循以下原则：1)为了适用于FFT计算，L_CCF最好设置为2的幂数；2)L_CCF不应太大，否则会引入延时回声和远距离的反射信号，且会增加计算消耗；3)为了确保提取的数据段包含完整的chirp信号，L_CCF应略大于chirp信号的长度。考虑到智能手机的计算消耗和chirp信号的完整长度为2016(时延为42ms，Fs为48kHz)，在FS-SST中，L_CCF设置为2048。

精检测的原理是根据|R_s(τ)|的波形特征，从|R_sr(τ)|中检测出第一路径的精准时延。改进的FS-SST包括以下三个主要步骤：

步骤1：根据峰值搜索运算和聚集程度的分析，将从|R_sr(τ)|中得到的NPVs分为不同的组，每个组都可能是第一路径，称为候选峰(CPs)。

如图12和图13所示，NPVs的采集及其分组过程如下：

首先，当λ为最小阈值λ_min时，NPVs定义|Rsr(τ)|的峰值从最小峰值λ_min×max[|R_sr(τ)|]开始递增的峰值，可以得到一个峰值序列，并记为这里，K是的数量，TN_k表示每个NPVs对应的时延。然后，通过以下公式(33)可以得到反映相邻峰时间间隔的时间差diffTN_k。

diffTN_k＝TN_k-TN_k-1 k＝2,3,…,K (33)

根据算法2在不同环境下得到的峰值序列在图12和图13中标记为红色‘o’，算法2也表述了基于diffTN_k的的分组过程。式中，p＝1,2,…,P，P为CPs的数，TC_p为每个CPs的极值对应的时延。

从图4可以看出，在理想的室内环境中，集中在一个CP中。在这种高度聚集的现象中所有diffTN_k的值都小于0.5ms，而λ_min推荐设置为0.02。然而，由于多径影响，可能不集中在一个CP内，如图12所示。而且这种效应在多径和NLOS环境中可能更为严重，会导致出现更多的CPs，如图13示。因此，基于这一特点，在一个CP内的数据是聚集的，而CP之间的数据是足够大的。基于CP内的聚合且CPs之间的diffTN_k足够大的特征，算法2中不仅可以计算得到和还可以对提取第一路径的比例因子λ进行预测。在算法2中，λ_min＝0.02和TH_diffTN＝0.5m，它们来源于对|R_s(τ)|的波形特征分析。

步骤2：将NPVs分组得到的每个CPs的极值归一化，得到可以表示信噪比(SNR)的NEVs。

根据算法2的计算，第p个CP为TC_p＝TC_p-_end。第p个CP的信噪比(SNR)记为计算结果为：

步骤3：通过自适应阈值从中检测精准的第一路径的时延。

获得的表示第p个CP极值与噪声水平的比值。事实上，如果第一路径的时延是TC_p，那么第p个CP的极值应该远远大于噪声水平。根据这个规则，可以检测到第一路径的时延t₀，表示如下：

其中，λ_ad是通过结合公式(36)中所示的两个预测来确定的，将超过自适应阈值的第一个时延TC_p视为第一路径，其中比例因子的阈值的确定如下：

粗检测CS-ED中的阈值参数TH_ED、TH_ECR、TH_dis和精检测FS-SST中的阈值参数λ_slack、λ_strict、TH_CPs都会根据下面的实验设置。

(3)算法性能评价的参数

本发明在三种不同的典型室内环境中进行了LOS和NLOS实验，以评价算法的性能。对于创新的两阶段信号检测算法，本发明分别为粗检测和精检测设置了不同的评价参数。

在CS-ED中，性能评价的重点不是时延的准确性，而是检测的成功率和错误率。成功率是检测到的chirp信号数与发射的chirp信号的总数量之比，错误率是检测到的错误信号数(噪声、延时回声等)与检测到的信号总数之比。此外，还需要评价CS-ED算法每次的计算耗时，以证明算法的可行性。本发明选择在MATLAB R2021a上进行离线处理比较三种不同的粗检测方法的计算时间，电脑配置为2.60-Ghz，第11代Intel(R)核心(TM)i5-11400 CPU和16GB RAM。

在FS-SST中，为了便于评估信号检测算法的性能，将检测到的TDOA观测值乘以声速转换为距离，TDOA检测误差用TDE表示。在本发明中，声速默认为340m/s。

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明的技术方案已在国内多地应用实施，如南京某高铁站、杭州某高铁站、德清某会展中心等。具体产品就是音频定位系统中的音频定位基站和音频定位SDK。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

在三个不同的典型室内环境中进行了三次实验，以评估所提出的信号检测算法的性能。实验有三个主要目标：1)确定提出的信号检测算法的阈值参数；2)在多径和NLOS室内环境下，比较提出的信号检测算法与其他两个经典的信号检测算法的性能，3)验证实际应用中，在不同的环境下和不同智能手机上，提出的信号检测算法的鲁棒性和精度。

A.提出的信号检测算法中的阈值参数的确定

第一个测试场景为典型的室内环境，为办公楼内长约40m、宽约2.5m的走廊，如图16所示。在走廊两端放置两个音频节点，位置见图16，两者相距31.2m。两个音频基站是基于低成本的无线组件进行时间同步，都发射19-22kHz的chirp信号，发射周期为1s。如图16所示，依次在25个测试点分别放置3部智能手机(荣耀8、小米10和华为P40)来接收音频节点发出的信号，在每个测试点用三部手机以三种采集场景分别采集至少30秒的数据：

1)LOS场景，两个音频节点与智能手机之间无任何遮挡；

2)NLOS场景1，音频节点1与智能手机之间的直达路径被人体遮挡，音频节点2在LOS场景下；

3)NLOS场景2，音频节点2与智能手机之间的直达路径被人体遮挡，音频节点1在LOS场景下。

所有测试点和两个音频节点在同一直线上，相邻测试点之间的距离为1.2m。

在对改进的信号检测算法在LOS和NLOS场景下分别进行性能评价之前，需要确定以下阈值参数，包括CS-ED中的THED、THE_CR、TH_dis和FS-SST中的λ_slack、λ_strict、TH_CP_s。一般来说，这些阈值参数与接收信号的信噪比有关。考虑到智能手机的差异、音频节点与智能手机之间的距离以及音频节点与智能手机之间的直达路径是否被遮挡等因素都可能会影响信噪比，本发明分别在LOS和NLOS场景下用三部不同的智能手机对上述阈值参数与距离的关系进行了测试。在三种采集情况下，三部智能手机在每个测试点从两个音频节点采集至少30秒的数据。因此，在三部智能手机上的每个测试点上分别采集到LOS场景下的120个chirp信号数据和NLOS场景下的60个chirp信号数据。

如CS-ED算法所述，当窗口滑动到有chirp信号的地方时，在diffAEs和ECRs中会出现一个突变值。在CS-ED算法中，diffAEs和ECRs的平均值分别用MEAN-ED和MEAN-ECR表示，在LOS和NLOS场景下不同智能手机上的MEAN-ED和MEAN-ECR随距离的变化如图17和图18所示。为了比较，图17和图18中还展示了使用不含chirp信号的音频数据计算的代表了噪声水平的diffAEs和ECRs。从图17和图18可以看出，MEAN-ED和MEAN-ECR在三种不同的智能手机上都随着距离的增加呈下降趋势，不同的智能手机之间以及LOS和NLOS不同场景之间都存在一些差异。但这种下降趋势和这些差异并不明显，不影响两个阈值参数的确定。最重要的是，三个不同的智能手机在30米范围内的LOS和NLOS场景下，MEAN-ED和MEAN-ECR都远远大于噪声水平。因此，根据此实验的结果，考虑到不同智能手机在LOS和NLOS场景下的噪声水平，为保证算法的抗噪能力，本发明将THED设置为15，THE_CR设置为0.5。这些结果也证明了CS-ED算法在LOS和NLOS环境下的鲁棒性，以及与不同智能手机的良好兼容性。

如CS-ED算法所述，根据确定的阈值THED和THE_CR，在三个智能手机上的每个距离值下的测试站点能检测到120个LOS场景下的粗略时延和60个NLOS场景下的粗略时延，对应在FS-SST中可以检测到的相同数量的精确时延。同时，在每个检测时延时能够给出两个关于FS-SST中提取第一路径的比例因子λ的预测。CS-ED中关于比例因子的预测的阈值参数的平均值用MEAN-dis表示，FS-SST中关于比例因子的预测的阈值参数的平均值用MEAN-CPs表示。图19和图20显示了在LOS和NLOS场景下不同智能手机上MEAN-dis和MEAN-CPs随距离的变化。首先，在不同的智能手机上，NLOS场景下的MEAN-dis和MEAN-CPs明显比LOS场景下的要大。同样可以看出，在LOS和NLOS场景下，MEAN-dis和MEAN-CPs在不同的智能手机上都有随距离增加的趋势。这表明，随着距离的增加信号接收环境在变得更加复杂，主要是因为多径效应随着距离增加会加重。根据图19和图20中的结果，TH_dis和TH_CP_s都设置为3。此外，从图19可以看出，受多径效应影响LOS场景下的远距离处MEAN-dis也有一定概率接近甚至超过阈值TH_dis。而如图20所示，NLOS场景下的近距离处MEAN-CPs也接近甚至小于阈值TH_CP_s，说明在近距离处接收信号受NLOS干扰较少。

如FS-SST算法所描述的，最重要的一步就是通过结合对两个关于环境复杂性的预测来选择最优的λ_ad。在上述实验中，三部智能手机在每个测试点上分别可以获得30组LOS情景下的TDOAs和60组NLOS情景下的TDOAs。图21至图26分别显示了不同比例因子λ下FS-SST算法得到的TDOAs的均方根误差(RMSE)，λ值从0.1以固定增量0.1逐渐递增至0.6。从图中的实验结果可以看出，本发明所提算法在LOS场景下的性能明显优于在NLOS场景下的性能。如图21、图23和图25所示，在LOS场景下，λ_ad值为0.5和0.6时算法的性能非常接近，但在小米10和华为P40手机的一些测试点上，λ_ad值为0.5时的性能还是优于0.6。因此本发明将λ_strict的值设置为0.5。在NLOS场景，如后两种采集场景所述，一个音频节点在LOS场景下，另一个音频节点在NLOS场景下，因此先将LOS场景下的λ_ad值固定为0.5，而NLOS场景下λ_ad值也是从0.1以固定增量0.1逐渐递增至0.6，实验结果如图22、图24和图26所示。在NLOS场景下，当λ_ad值小于0.2或大于0.5时，算法性能明显下降。综合考虑检测算法的精度和稳定性，本发明将λ_slack的值设为0.3。

B.在LOS和NLOS场景下，不同检测算法的性能的比较

本实验使用了阈值参数确定实验中采集到的数据，比较了不同chirp信号检测算法在LOS和NLOS两种场景下的性能。为了验证本发明提出的两级chirp信号检测算法的性能，本发明分别将其与两种粗检测算法和两种精检测算法进行了比较。在粗检测算法中，比较了提出的CS-ED算法和基于余弦定理的检测算法以及传统的基于CCF输出的检测算法这三种粗检测算法的性能。用于比较性能的三种精检测算法均基于CS-ED算法提取的音频数据段与原始音频信号之间的CCF输出，它们分别是：1)提出的FS-SST算法，2)经典的以CCF输出的最大峰值作为直达路径的(CCF-Max)算法，3)以CCF输出中第一个大于固定阈值比例因子λ为0.3的峰值作为直达路径(FECCF-0.3)的改进算法。

在进行算法性能比较之前，表1总结了三种粗检测算法每次试验的计算耗时。由于三种精检测算法都是基于CCF输出的，其计算耗时接近，所以本发明不作讨论。可以看出，虽然提出算法的计算耗时比基于时域信息检测的余弦算法慢，但仍然优于传统的基于CCF输出的检测算法，证明了提出算法的实用性。

表1三种粗检测算法每次试验的计算时间

	COS-based	CCF-based	CS-ED
				Mean(ms)	0.0220	0.0948	0.0855

1)在LOS场景下，不同检测算法的性能比较

代表三种粗检测算法性能的检测成功率和错误率的结果如表二所示。三种精检测算法的TDE的统计结果如表三所示。这些实验结果是在多径和LOS的场景下用三部不同的智能手机分别在25个测试点上共采集超过750组的数据计算得到。

表2三部智能手机在多径和LOS的室内环境下的三种粗检测算法性能比较

表3三部智能手机在多径和LOS的室内环境下的三种精检测算法性能比较

因为所有测试都是在LOS场景下，所以表2中三种粗检测算法的结果都很好。但是，所提的CS-ED算法的性能明显是最好的，而且在不同的智能手机上检测的成功率和错误率没有明显的差异，即便在其他两种算法的性能有所下降华为P40上所提算法的性能也没有变差。在多径和LOS场景下，本发明所提的CS-ED算法在不同智能手机上的总体性能为检测成功率全部超过99.8％，检测错误率全在0.5％以内。

从表三的结果可以看出，在多径和LOS场景下，本发明所提的FS-SST的在不同智能手机上的总体性能为平均误差优于0.15m，RMSE优于0.25m。整体来看FECCF-0.3算法的性能和所提的FS-SST算法的性能接近，但还是所提的FS-SST算法整体性能略好一些。此外，与经典的CCF-Max算法相比，上面两种算法都将精度提高了4倍。这些结果表明，在多径和LOS室内环境中，最强的路径不再是直达路径，这是CCF-Max算法性能不佳的主要原因。

2)在NLOS场景下，不同检测算法的性能比较

三种粗检测算法和三种精检测算法的性能比较的统计结果分别总结在表4和表5中。这些实验结果是在多径和NLOS的场景下用三部不同的智能手机分别在25个测试点上共采集超过1500组的数据计算得到。表4三部智能手机在多径和NLOS的室内环境下的三种粗检测算法性能比较

表5三部智能手机在多径和NLOS的室内环境下的三种精检测算法性能比较

如表4所示，在多径和NLOS场景下，基于CCF的算法性能下降严重，基于cos的算法性能也略有下降，而所提的CS-ED算法在LOS和NLOS两种场景下性能并没有明显的差异。在多径和NLOS场景下，所提的CS-ED算法在不同智能手机上的总体性能仍为所有手机都有99.9％以上的检测成功率，以及检测错误率都低于0.4％。

不同于粗检测算法在两种场景下的性能变化，三种精检测算法在多径和NLOS场景下性能都有所下降，结果如表五所示。本发明所提的FS-SST在不同的智能手机上总体的性能为平均误差优于0.25米，RMSE优于0.35米。与FECCF-0.3算法相比，所提算法将检测精度提高了40％；与CCF-Max算法相比，所提算法将检测精度提高了至少7倍。

从表3和表5的结果可以看出，三种精检测算法在LOS和NLOS场景下的最大误差都不超过10m，这要归功于本发明所提的CS-ED算法检测到的粗略时延的精度高可以剔除异常值。FECCF-0.3算法在NLOS场景下性能下降的现象说明，采用固定阈值的FECCF算法不能像FS-SST算法那样适用于不同的室内环境。所有上述测试结果表明，与其他传统算法相比，本发明所提的chirp信号检测算法在多径和NLOS室内环境下不同智能手机上都具有良好的鲁棒性和准确性。

C.不同检测算法在实际应用中的性能比较

为了进一步评估所提出的chirp信号检测算法在实际应用中的性能，本发明分别在一个学术大楼和一个火车站(杭州东站)的6个和10个测试点进行了两次实验，在每个测试点采集数据在60秒以上。在实验中，可以利用实际应用中测试点和音频节点的已知坐标计算出检测到的TDOA观测值的真值。这些得到的TDOA观测值是为了用于室内定位系统，该定位系统的工作原理及其详细描述已在本发明之前的工作中进行了阐述。1)小而安静的室内环境下不同检测算法的性能比较

第二个测试场景是一栋学术大楼中的六个独立的小房间，每个房间的大小约为10m×6m×3m。在每个房间的四个角落安装四个音频节点，组成一个基本的音频定位区域，在每个房间的中心使用荣耀8手机来接收四个音频节点的信号，分别以两种采集方式至少采集60秒的音频数据：1)面朝音频节点2和3，人体遮挡住音频节点1和4；2)面朝音频节点1和4，人体遮挡住音频节点2和3。图27所示为测试场景中6个房间之一，以及音频节点的安装情况和两种采集方式。

三种粗检测算法的性能比较结果如表6所示。这些结果是使用一部智能手机分别在6个不同的测试点上接收来自24个不同音频节点的数据，本次实验中有两种采集方式且每种采集方式至少采集60s数据所以一共有超过2880个信号数据。虽然这个场景很安静，背景噪声只有背景音和走路声，但由于房间很小，所以遮挡和多径的情况比较严重。虽然三种粗检测算法的性能都有所下降，但所提的CS-ED仍然有超过99.6％的检测成功率，比其他两种算法高出约4个百分点，而且检测错误率在0.1％以内。

表6小而安静的室内环境下三种粗检测算法的性能比较

图28-图29显示了在第二个测试场景中的两种采集情况下，各采集到的360组TDOA的TDEs的累积分布函数(CDF)。在采集情况1下的测试结果如图28所示，音频节点1和4被遮挡。所提的FS-SST算法得到的三组TDOAs的95％的TDEs分别为0.52m、0.37m和0.61m。采集情况2下的测试结果如图29所示，音频节点2和3被遮挡。所提的FS-SST算法得到的三组TDOAs的95％的TDEs分别为0.63m、0.91m和0.66m。在这两种情况下，所提的FS-SST算法得到的每组TDOA的TDEs都明显优于其他两种算法，除了采集情况1中的TDOA 2-3的TDEs接近FECCF-0.3算法，这是因为此时的音频节点2和3是无遮挡的情况。此外，即使两个音频节点都被人体遮挡，如采集情况2中的音频节点2和3都被人体遮挡了，本发明所提出的FS-SST的95％的TDEs仍低于1m。

2)空旷而嘈杂的室内环境下不同检测算法的性能比较

第三个实验是在杭州东站的到达大厅进行的，实验区域的总面积超过2000m²，由9组每组约21m×12m×8.8m大小的音频定位区域组成。本发明用4款不同的智能手机(荣耀8、小米10、华为P40和华为Mate RS)在其中两个音频定位区域的四个角落和中心点共10个测试点各采集了60多组TDOAs，其中一个区域的中心采集示意图如图30所示。

在第三个实验中，在四个不同的智能手机上分别获得了2400多个TOAs和1800个TDOAs。表7和图31分别统计了三种粗检测算法和三种精检测算法在不同智能手机上的性能比较结果。

表7空旷而嘈杂的室内环境下三种粗检测算法的性能比较

从表7的结果来看，基于余弦定位的粗检测算法受到嘈杂环境的影响，性能严重下降，而所提的CS-ED在两种实际应用场景下性能没有明显差异。在空旷而嘈杂实际场景下，本发明所提的CS-ED算法在不同智能手机上整体性能可以达到99.6％以上的检测成功率，检测错误率均小于0.4％。

从图31中的蓝线可以看出，本发明所提的FS-SST算法的检测精度是明显优于其他两种精检测算法的。在空旷而嘈杂场景下，所提的FS-SST算法在四部智能手机上的检测精度在50％时的TDEs约为0.14m、0.09m、0.10m、0.10m，在95％时的TDEs为0.54m、0.44m、0.39m、0.38m。两个实际应用的测试结果表明，本发明所提的算法不管是在小而安静的室内环境还是在空旷而嘈杂的室内环境中，检测的精度都非常接近。这些结果不仅证明了所提的信号检测算法在各种室内环境中的检测精度，而且还证明了改进的算法在实际应用中的鲁棒性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种多路径和非视距室内环境下的chirp信号检测方法，其特征在于，所述多路径和非视距室内环境下的chirp信号检测方法包括：

首先，基于能量监测的粗检测方法是先使用带通滤波器过滤音频原始数据，再基于时频分析法获得过滤数据的功率谱密度，对其进行能量监测从中提取包含第一路径的音频数据段；

其次，利用信号检测的极值归一化方法根据粗检测提取的音频数据段与原始音频信号之间的互相关函数的输出计算原始峰值，对原始峰值的极值进行归一化；

最后，根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征动态选择松弛阈值和严格阈值，再基于归一化后的极值使用动态阈值法提取第一路径。

2.如权利要求1所述多路径和非视距室内环境下的chirp信号检测方法，其特征在于，所述多路径和非视距室内环境下的chirp信号检测方法包括以下步骤：

步骤二，进行精检测：从粗检测提取的音频数据段和原始音频信号的互相关函数输出中计算原始峰值，对原始峰值的极值进行归一化，得到归一化后的极值和预测精检测中提取第一路径的比例因子；将步骤一与步骤二得到的两个预测相结合进行动态选择比例因子的阈值，得到chirp信号的第一路径的时延检测结果。

3.如权利要求2所述多路径和非视距室内环境下的chirp信号检测方法，其特征在于，所述进行粗检测包括以下步骤：

(2)利用短时傅里叶变换处理滤波后的音频信号得到音频信号的功率谱密度，根据发射的chirp信号的参数转换为它在功率谱密度PSD中的参数：

Ws＝round[DT/(SL/Fs)]

其中，round[·]表示舍入函数，Ws表示PSD中chirp信号持续时间的窗口数，m_start和m_end分别表示PSD中chirp信号开始频率和结束频率的窗口数；其中，WL表示窗口的长度，SL表示窗口的移动步长，SL/Fs表示时间分辨率，Fs/WL表示频率分辨率；

(3)从音频信号的PSD中获取每个时延τ_n的平均能量AE以及能量突变比例ECR；其中，能量突变比例ECR表示在时延τ_n频率f_m处的PSD值比时延τ_n-1频率f_m处的PSD值的高出值大于阈值TH_ED的频率f_m个数与时延τ_n频率在使用频段f_m总个数的比值；

(4)利用下式计算τ_n和τ_n-1的平均能量值的突变值：

(5)设置两个阈值TH_ED和TH_ECR，当和τ_n处的能量突变比例时，检测到第一路径的粗时延τ_n；

其中，表示在粗略时延τ_n处从最强路径到第一路径的窗口数，最强路径的窗口数是从n到n+Ws找到AE的最大值，n表示检测到的第一路径的窗口数；

(7)设置阈值TH_dis，对精检测中第一路径识别的比例因子λ进行预测。

4.如权利要求3所述多路径和非视距室内环境下的chirp信号检测方法，其特征在于，所述利用短时傅里叶变换处理滤波后的音频信号得到音频信号的功率谱密度包括：

首先，将傅里叶变换的滑动窗口设置为接收信号的起点，窗口函数以t＝τ0为中心，对信号进行加窗处理：

y(t)＝x(t)·w(t-τ₀)；

其中，x(t)表示R(0：WL]的音频数据段；w为汉明窗函数；

其次，执行傅里叶变换获得第一个窗口的功率谱密度PSD：

其中，表示接收信号在(0，τ₀]处的向量；f_m取决于智能手机的Fs，范围为0Hz到Fs/2Hz；τ₀＝(WL/2)/Fs；

最后，计算第n个窗口的PSD：

其中，表示接收信号在(τ_n-1，τ_n]处的向量，x(t_n)＝R((n-1)×SL：WL+(n-1)×SL]；

5.如权利要求2所述多路径和非视距室内环境下的chirp信号检测方法，其特征在于，所述进行精检测包括以下步骤：

1)将从互相关函数输出的|R_sr(τ)|得到的原始峰值NPVs并按信号的聚集特性分为不同的组，一个组为一个侯选峰CP，得到候选峰集CPs；

2)将,NPVs分组得到的每个CPs的极值归一化，得到可以表示信噪比的NEVs，归一化过程如下：

3)设置阈值TH_CPs，对精检测中提取第一路径的比例因子λ进行预测：

4)根据得到的检测到第一路径的时延t₀：

6.如权利要求5所述多路径和非视距室内环境下的chirp信号检测方法，其特征在于，所述将从互相关函数输出的|R_sr(τ)|得到的原始峰值NPVs分为不同的组包括：

1.1)当λ为最小阈值λ_min时，NPVs为|R_sr(τ)|的峰值从最小峰值λ_min×max[|R_sr(τ)|]开始的递增值，得到一个峰值序列k＝1，2，…，K；其中K表示的数量，TN_k表示每个NPVs对应的时延；利用下式计算用于反映相邻峰时间间隔的时间差diffTN_k：

diffTN_k＝TN_k-TN_k-1 k＝2，3，…，K；

1.2)基于diffTN_k对峰值序列进行分组得到侯选峰集

1.3)利用下式计算

TC_p＝TC_p-end；

其中，表示第p个CP；p＝1，2，…，P，P为侯选峰CPs的个数，TC_p表示每个侯选峰CPs的极值对应的时延。

7.一种实施如权利要求1-6任意一项所述多路径和非视距室内环境下的chirp信号检测方法的多路径和非视距室内环境下的chirp信号检测系统，其特征在于，所述多路径和非视距室内环境下的chirp信号检测系统包括：

粗检测模块，先使用带通滤波器过滤音频原始数据，再基于时频分析法获得过滤数据的功率谱密度，对其进行能量监测从中提取包含第一路径的音频数据段；

精检测模块，利用信号的极值归一化方法根据粗检测提取的音频数据段与发射的音频信号之间的互相关函数的输出计算原始峰值，对原始峰值的极值进行归一化；再根据信号的功率谱密度的变化特征与互相关的原始峰值的波形特征动态选择松弛阈值和严格阈值，再基于归一化后的极值使用动态阈值法提取第一路径。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述多路径和非视距室内环境下的chirp信号检测方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述多路径和非视距室内环境下的chirp信号检测方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述多路径和非视距室内环境下的chirp信号检测系统。