CN111950616B

CN111950616B - 基于无监督在线学习的声信号非视距识别方法及装置

Info

Publication number: CN111950616B
Application number: CN202010773427.0A
Authority: CN
Inventors: 白旭晶; 张磊; 胡志新; 王楠; 杨斯怡; 赵志成; 钟宇; 薛文涛
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2024-02-09
Anticipated expiration: 2040-08-04
Also published as: CN111950616A

Abstract

本发明公开了一种基于无监督在线学习的声信号非视距识别方法及装置，方法包括获取带标签类别的声信号数据，对原始声信号进行滤波与增强，再进行探测及分割，得到互相关结果片段，并对其提取特征值，用所提取的特征值初始化聚类种子，线更新聚类模型，基于成对距离的权值计算方法对视距数据集进行权值和分配非视距数据集权值分配；基于无监督分类器完成模型训练，用所述模型对新的数据进行标记和计算，动态数据进行在线分类，得到贴有正例与负例标记的数据结果，本发明能根据少量已知类别的声信号数据，自动在线区分大量未知的动态声信号数据，解决了实际场景下由于数据动态时变，而静态训练集训练所得模型不能够满足精度及稳定性需求的问题。

Description

基于无监督在线学习的声信号非视距识别方法及装置

技术领域

本发明属于室内定位与导航技术领域，具体涉及一种基于无监督在线学习的声信号非视距识别方法及装置。

背景技术

近年来，基于位置的服务已逐渐渗透到人类生活的方方面面。在室外，基于全球卫星导航系统催生了一系列以智能终端为平台的应用，如提供地图浏览的高的地图、百度地图，基于微信社交平台的位置实时共享，提供出行服务的滴滴出行等。而在室内空间，墙体对卫星信号的衰减较大，使得基于卫星的各类技术受到极大限制，机场、高铁站、商场等大型建筑内人员及物体的定位问题日益凸显。同时，5G技术的发展使得智能终端更加普及，基于室内位置的服务需求越来越大。针对以上需求，现已提出基于声音、GSM、蓝牙、Wi-Fi、磁场等技术的多种定位方法，而基于声音的定位技术具有与智能手机完全兼容、定位精度高及成本低等优点，成为最有可能解决手机室内定位的系统之一。然而，尽管市场需求较大，但目前高精度室内定位技术尚未成熟，各类技术应用到实际场景均不能够满足需求。从2017及2018年微软室内定位大赛的评测结果来看，基于声音的室内定位技术在实际评测中最高精度为0.7米，与理想环境下的0.1米精度相差较大。这是由于声音定位技术应用到复杂多样的室内环境时，声源广播设备与接收设备之间的视距(Line of Sight，LOS)路径被遮挡，非视距(Non-Line of Sight，NLOS)现象产生，如图1所示，为距离量测引入较大偏差，这将会给基于声音的定位系统精度及稳定性带来影响。加之人员活动的随意性使得室内环境时变性增强，NLOS现象更加普遍，为基于声音室内定位的智能移动终端应用的推广带来巨大挑战。

如图2(a)所示，在某室内环景存在遮挡的情况下进行定位实验，以直观地展示NLOS现象对定位精度的影响。在该室内环境下分布5个定位基站(Beacon 1～5)对标签进行实时定位，其中Barrier 1～2分别代表建筑物内支撑柱，为场景中主要遮挡物。图中Target所在位置由于Barrier 2的存在，其与Beacon 3间的LOS传播路径消失，NLOS现象出现。图2(b)展示该系统定位后轨迹(圆圈点的连线)与真实轨迹(规则的直线段)。从实验结果来看，由于Target在某些位置与部分Beacon间LOS路径消失，其定位发生严重漂移，NLOS现象严重降低了室内定位精度，而在Target未被遮挡的位置与Beacon间LOS路径均存在，其定位效果较理想。为提高定位精度及稳定性，可通过识别和丢弃NLOS量测，仅基于LOS量测完成目标定位。现基于监督和半监督学习分类器的非视距识别方法无法在分类前获取大量数据用于模型训练，导致分类器稳定性较差，对于动态数据适用性不强。

发明内容

为了解决现有技术中存在的问题，本发明提供一种基于无监督在线学习的非视距识别方法及装置，实现对动态数据更快更好的识别分类，解决实际场景下由于数据动态时变，而静态训练集训练所得模型不能够满足精度及稳定性需求的问题。

为了实现上述目的，本发明采用的技术方案是，一种基于无监督在线学习的声信号非视距识别方法，包括以下步骤：

S1，获取带标签类别的声信号数据，其中包含P个视距数据及N个非视距数据；

S2，对原始声信号x[n]进行滤波与增强，再进行探测及分割，具体过程为：

对S1所得声信号数据的原始声信号x[n]中来自各信标节点的声信号进行探测及分割，获得增强后的声信号片段x_i'[n]及互相关结果片段R_i[τ]，i＝1,2,…N_b，N_b为定位系统中目标设备所接收到信标节点所广播信号的总数量；

S3，对S2中分割后的互相关结果片段R_i[τ]，通过估计声信道相对增益-时延分布，并对其提取特征值；

S4，用S3中所提取的特征值初始化聚类种子，具体过程为：

S41，初步选取视距数据集SP及非视距数据集SN分别如下：

SP＝{SP₁,SP₂,…,SP_n}

SN＝{SN₁,SN₂,…,SN_n}

其中，在保证满足初始模型准确度的前提下，n小于监督及半监督学习所需标签数据；

S42，获取正例聚类种子P和反例聚类种子N；

S43，初始化正例聚类种子P和反例聚类种子N权值均为1，即：

S5，基于成对距离的权值计算方法对视距数据集SP进行权值和分配非视距数据集SN权值分配，分别得到视距数据集SP进行权值和分配非视距数据集SN权值；

同理，分配非视距数据集SN权值如下：

S6，将S4中所选取视距数据集SP和非视距SN合并为初始训练集ST并基于无监督分类器完成模型训练，即初始模型，训练集ST如下：

ST＝{SP₁,SP₂,…,SP_n,SN₁,SN₂,…,SN_n}

S7，基于S5对新样本数据D分别进行正例和反例标记及权值计算；

S8，比较S6所述训练集ST及新样本数据D的权值，确定是否将新样本数据D加入训练集ST以在线更新聚类模型：

如果训练集ST中样本权值均大于新样本数据D的权值，新样本数据D不能够加入训练集；

如果训练集ST中某一样本ST_i的权值最小，ST_i的权值小于样本数据的权值，则新样本数据D能够加入训练集用于模型训练，且新样本数据D替换训练集中的ST_i，生成新的训练集ST’用于模型更新；

S9，基于S8所得训练集进行模型更新，重复S7到S9，动态数据进行在线分类，得到贴有正例与负例标记的数据结果。

S2中，对S1所得声信号数据的原始声信号进行探测及分割具体如下：

S21，对原始声信号x[n]进行滤波与增强，获得信号x'[n]，从信号x'[n]中截取增强后的声信号片段x_i'[n]；

S22，构造参考信号r[n]并对信号x'[n]进行互相关计算，获得互相关结果R_x'r[τ]；

S23，在互相关结果R_x'r[τ]中，对来自各信标节点的声信号进行探测，并将其进行分割提取，获得互相关结果片段，记第i个信标声信号的互相关结果片段为R_i[τ]。

S2中，对原始声信号x[n]通过x'[n]＝IFFT FFT x[n] w[n]进行滤波和增强，其中w[n]为窗函数，使用矩形窗与布莱克曼窗组成复合窗函数，矩形窗的长度来对信号进行带通滤波。

S2中，构造参考信号r[n]，并用参考信号对信号x'[n]进行互相关计算，获得结果其中N为x'[n]的长度。

S2中，S3中，对S2中分割后的声信号数据进行特征提取具体如下：

S31，通过对互相关结果片段进行相对增益-时延分布进行估计，获得{Γ_a,Γ_τ}；

S32，从{Γ_a,Γ_τ}中提取至少包括时延特征、波形特征以及莱斯K系数的特征值，记作特征集F^M，其中M为特征集的维度。

S2中，S4中，正例聚类种子P和反例聚类种子N分别为：

其中，m为样本特征空间维度，正例聚类种子P和反例聚类种子N对应于特征空间P＝[P¹,P²,…P^m，N＝[N¹,N²,…N^m。

S5中，基于成对距离的权值计算方法对正例数据集SP进行权值分配如下：

其中，d₁₀＝SP₁-P，即正例数据集中SP₁与正例聚类种子P对应特征维度差值；

同理，可得反例数据集SN权值如下：

其中，d₁₀＝SN₁-N，即反例数据集中SN₁与正例聚类种子N对应特征维度差值,x_k为第k个样本对应的特征空间向量，d_kj为第k个样本与第j个样本的距离。

本发明提供一种基于无监督在线学习的声信号非视距识别装置，包括一个或多个处理器以及存储器，存储器与处理器通过I/O接口连接，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述基于无监督在线学习的声信号非视距识别方法，存储器还用于存储所获取的信息数据。

一种计算机可读介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现本发明所述基于无监督在线学习的声信号非视距识别方法。

与现有技术相比，本发明至少具有以下有益效果：本发明所提出的基于无监督在线学习的声信号非视距识别方法，包括数据采集、声信号的探测及分割、特征提取及在线更新聚类模型，实现对动态数据的非视距识别分类；与基于监督和半监督学习的声信号非视距识别方法相比，本发明根据少量已知类别的声信号数据，自动在线区分大量未知的动态声信号数据，能够处理动态数据集，解决实际场景下由于数据动态时变，而静态训练集训练所得模型不能够满足精度及稳定性需求的问题，为基于声技术的室内定位系统的实际应用提供了基础。

附图说明

图1a为室内声信号视距传播场景描述。

图1b为室内声信号非视距传播场景描述。

图2a为一种非视距定位系统示意图。

图2b为图2a所示系统定位后轨迹与真实轨迹差别。

图3为本发明方法对所采集的数据进行识别后的结果展示。

具体实施方式

为了更好地说明本发明的目的和优点，下面结合附图和具体实施例对本发明内容作进一步说明。

实施例：

分别以办公室、地下车库、大厅以及会议室为实验场景，搭建基于声技术的室内定位系统，进行原始声信号的数据采集，说明基于无监督在线学习方法在声信号非视距识别应用中的场景适应能力，为进一步提高基于声技术的室内定位精度奠定基础。

1.进行声信号数据采集

(1)分别在上述4个场景中搭建基于声技术的室内定位系统，整个系统由6个信标节点(编号1-6)、1个标签组成。其中，信标节点固定高度为2.5米进行声信号的广播，按照固定时序发送线性调频信号，即t＝[0,T]，其中f₀为起始频率，b₀为调频斜率，b₀t为信号的时域带宽。而标签用来接收声信号。

(2)采集场景可划分为2类区域，其中，第1类区域用于采集正例数据，即视距数据，而第2类区域用于采集反例数据，即非视距数据。

(3)将每个区域划分成由1m×1m的网格组成，网格交点即为数据采集点。

(4)将定制标签安装在三角架上并调节高度为1.2m，由区域1到区域2，放于网格交点依次进行声信号数据采集，原始声信号记作x[n]。

2.声信号探测及分割

(1)对原始信号x[n]进行滤波和增强，通过x'[n]＝IFFT FFT x[n] w[n]获得，其中w[n]为窗函数，本实例使用矩形窗与布莱克曼窗组成复合窗函数，矩形窗的长度来对信号进行带通滤波；构造参考信号r[n]并对信号x'[n]进行互相关计算，获得结果/>其中N为x'[n]的长度。

(2)对R_x'r[τ]进行序贯检测，以确定有效信号的下标索引号，设定信号片段的长度为50ms，记作T_s＝0.05f_s，序贯装载信号片段为seg[τ]＝R_x'r[τ_s]，其中τ_s＝[(i-1)T_s+1:iT_s]，那么seg[τ]中包含有效信号的判定方式为K{seg[τ]}≥thd，其中thd为判定阈值，K{·}为波形峰度计算符；如果seg[τ]中包含有效信号，则依据信标节点的广播时序将信号片段及互相关结果片段与信标节点的ID进行匹配，结果记为a_i；计算互相关结果中的最大峰值位置，记作截取声信号及互相关结果片段的下标索引为：

包含信标节点a_i声信号的信号片段x_i'[n]＝x'[idx_s:idx_e]，互相关片段R_i[τ]＝R_x'r[idx_s:idx_e]；随后依次截取和存储所有信标节点的声信号片段及互相关片段。

3.声信号特征提取

对声信号x_i'[n]进行特征值提取，通过对声信道进行相对增益-时延分布进行估计，相对增益与时延分别记作和/>再分别提取时延特征统计、波形分布形态特征以及莱斯因数分别如下：

(1)平均附加时延(Mean Excess Delay)τ_med和均方根时延(Root Mean SquareDelay)τ_rms为信号处理领域常用的统计量；在LOS和NLOS环境下，τ_med和τ_rms值存在显著差异，其表达式如下：

(2)峰度(Kurtosis)与偏度(Skewness)是统计数据分布的特征量，分别表示数据分布的陡峭程度及非对称程度，将其用于表征时延数据的分布形态，表达式分别为：

其中，r由的一维线性插值获得，以将/>变为均匀采样；E[·]为期望运算符；μ_r及σ_r分别为r的均值与标准方差。

(3)莱斯因数(Rician-K)表示一种LOS成分和散射成分的比值，在NLOS环境下，发射端与接收端之间的LOS路径消失，则通过反射和散射路径传播信号的相对能量增加且时延较大，莱斯因数表示如下：

其中，k_d为在LOS路径下传播信号的能量，σ为NLOS情况下通过散射路径传播信号的能量标准方差。

将上述所提取的5个声信道特征组合成特征集记作F⁵。

4.利用步骤3中所提取的特征以初始化聚类种子。

(1)初步选取正例(视距)及反例(非视距)均30个样本分别组成数据集SP，SN分别如下：

SP＝{SP₁,SP₂,…,SP_n}

SN＝{SN₁,SN₂,…,SN_n}

其中n＝30。

(2)获取正例聚类种子P和反例聚类种子N：

其中，m＝5为样本特征空间维度，正例聚类种子P和反例聚类种子N对应于特征空间P＝[P¹,P²,…P^m，N＝[N¹,N²,…N^m]。

(3)初始化正例聚类种子P和反例聚类种子N权值均为1，即：

5.基于成对距离的权值计算方法对正例数据集SP进行权值分配如下：

其中，d₁₀＝SP₁-P，即正例数据集中SP₁与正例聚类种子P对应特征维度差值。

同理，可得反例数据集SN权值如下：

本发明所述基于成对距离的方法，采用当前所到达新样本与其它已接收样本的距离来定义样本权值，其定义如下：

其中，

b_k＝(x_k·x_k)

h_k＝(x_k·p_k)

式中，x_k为第k个样本对应的特征空间向量，d_kj为第k个样本与第j个样本的距离；基于成对距离的权值计算方法引入先前样本的权值后，能够识别出野值点，而且能够减小其对后续样本权值的影响；由定义式可知，第k个样本权值的计算利用当前样本信息以及第k-1个已知样本信息，适合于在线学习权值计算。

6.将步骤4中所选取正例数据集SP和反例数据集SN合并为初始训练集ST并基于无监督分类器完成模型训练，即初始模型；训练集ST如下：

ST＝{SP₁,SP₂,…,SP_n,SN₁,SN₂,…,SN_n}

7.当新样本数据D到达之后，基于S5对其进行标记及权值计算。

8.比较训练集ST及新样本数据D的权值，确定是否将新样本数据D加入训练集以在线更新聚类模型，分以下两种情况：

情况1：如果训练集ST中样本权值均大于新样本数据D的权值，新样本数据D不能够加入训练集，即训练集中样本无变化；

情况2：如果训练集ST中某一样本ST_i权值最小，则所述新样本数据D能够加入训练集用于模型训练，且用新样本数据D替换训练集中ST_i，生成新的训练集ST用于模型更新；

9.基于步骤8所得训练集进行模型更新，重复步骤7到步骤9，对动态数据进行在线分类，得到贴有正例与负例标记的数据结果。

基于无监督在线学习的声信号非视距识别结果如图3所示，识别结果表明所提出的方法可以在只获得少量已知类别的声信号数据情况下，对大量未知类别的动态声信号数据进行识别分类，其场景适应能力较强，识别精度较高且性能稳定。

本发明还提供一种基于无监督在线学习的声信号非视距识别装置，包括一个或多个处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述基于无监督在线学习的声信号非视距识别方法，存储器还用于存储所获取的信息数据。

本发明所述声信号非视距识别装置可以采用笔记本电脑、平板电脑、桌面型计算机、手机或工作站。

作为可选的，本发明所述处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或可编程逻辑器件(PLD)。

对于本发明所述存储器，可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘或闪存卡。

可选的，本发明提供一种计算机可读介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现本发明所述基于无监督在线学习的声信号非视距识别方法。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

Claims

1.一种基于无监督在线学习的声信号非视距识别方法，其特征在于，包括以下步骤：

S2，对原始声信号x[n]进行滤波与增强，再进行探测及分割，具体如下：

对S1所得声信号数据的原始声信号x[n]中来自各信标节点的声信号进行探测及分割，获得增强后的声信号片段x′_i[n]及互相关结果片段R_i[τ]，i＝1,2,…N_b，N_b为定位系统中目标设备所接收到信标节点所广播信号的总数量；

S4，用S3中所提取的特征值初始化聚类种子，具体过程为：

S41，初步选取视距数据集SP及非视距数据集SN分别如下：

SP＝{SP₁,SP₂,…,SP_n}

SN＝{SN₁,SN₂,…,SN_n}

S42，获取正例聚类种子P和反例聚类种子N；

S43，初始化正例聚类种子P和反例聚类种子N权值均为1，即：

同理，分配非视距数据集SN权值如下：

ST＝{SP₁,SP₂,…,SP_n,SN₁,SN₂,…,SN_n}

S9，基于S8所得训练集进行模型更新，重复S7到S9，动态数据进行在线分类，得到贴有正例与负例标记的数据结果；S2中，对S1所得声信号数据的原始声信号进行探测及分割具体如下：

S21，对原始声信号x[n]进行滤波与增强，获得信号x'[n]，从信号x'[n]中截取增强后的声信号片段x′_i[n]；

2.根据权利要求1所述的基于无监督在线学习的声信号非视距识别方法，其特征在于，S2中，对原始声信号x[n]通过x'[n]＝IFFT{FFT{x[n]}w[n]}进行滤波和增强，其中w[n]为窗函数，使用矩形窗与布莱克曼窗组成复合窗函数，矩形窗的长度来对信号进行带通滤波。

3.根据权利要求1所述的基于无监督在线学习的声信号非视距识别方法，其特征在于，S2中，构造参考信号r[n]，并用参考信号对信号x'[n]进行互相关计算，获得结果其中N为x'[n]的长度。

4.根据权利要求1所述的基于无监督在线学习的声信号非视距识别方法，其特征在于，S2中，S3中，对S2中分割后的声信号数据进行特征提取具体如下：

5.根据权利要求1所述的基于无监督在线学习的声信号非视距识别方法，其特征在于，S2中，S4中，正例聚类种子P和反例聚类种子N分别为：

其中，m为样本特征空间维度，正例聚类种子P和反例聚类种子N对应于特征空间P＝[P¹,P²,…P^m]，N＝[N¹,N²,…N^m]。

6.根据权利要求1所述的基于无监督在线学习的声信号非视距识别方法，其特征在于，S5中，基于成对距离的权值计算方法对正例数据集SP进行权值分配如下：

同理，可得反例数据集SN权值如下：

其中，d₁₀＝SN₁-N’即反例数据集中SN₁与正例聚类种子N对应特征维度差值,x_k为第k个样本对应的特征空间向量，d_kj为第k个样本与第j个样本的距离。

7.一种基于无监督在线学习的声信号非视距识别装置，其特征在于，包括一个或多个处理器以及存储器，存储器与处理器通过I/O接口连接，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现权利要求1～6任一项所述基于无监督在线学习的声信号非视距识别方法，存储器还用于存储所获取的信息数据。

8.一种计算机可读介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-6中任一项所述基于无监督在线学习的声信号非视距识别方法。