CN109766969B

CN109766969B - 基于异步优势动作评价的rfid室内定位算法

Info

Publication number: CN109766969B
Application number: CN201910046026.2A
Authority: CN
Inventors: 郑嘉利; 李丽
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2022-01-07
Anticipated expiration: 2039-01-16
Also published as: CN109766969A

Abstract

本发明涉及一种基于异步优势动作评价的RFID室内定位算法，将定位目标的信号强度值作为输入数据，建立全局动作网络和全局评价网络，建立多个线程子动作网络和线程子评价网络。多个线程并行学习，互不干扰，再将学习到的经验异步更新到全局网络，全局网络最后输出参考标签的具体位置，得到异步优势动作评价定位模型；当有待测目标进入检测区域时，定位模型自动预测出目标具体位置。由于室内定位动作是连续的，异步优势动作评价方法与RFID室内定位相结合，很好的解决了定位连续性问题，有效解决了室内定位模型训练时间长，定位精度低以及环境噪声影响等问题，特别适用于定位目标数量庞大的情况。

Description

基于异步优势动作评价的RFID室内定位算法

技术领域

本发明涉及无线识别中的室内定位技术，具体地说是一种基于异步优势动作评价的RFID室内定位算法。

背景技术

近年来，随着人们对空间位置信息的需求不断增大，定位技术得到越来越多人的关注，尤其是基于GPS定位系统、移动互联网、智能手机等技术提供位置信息的服务，给人们的生活带来了极大的便利。在没有障碍物的室外，GPS的技术已经相对成熟，应用比较广泛。但是由于建筑物、植物、墙壁等障碍物能够将GPS信号减弱或是分散信号，造成GPS无法定位。因此，定位系统也从室外定位发展到室内定位。

现有的室内定位方法主要有基于测距和非测距两类，基于测距定位的方法有基于信号到达时间(TOA)测距法，基于信号到达时间差(TDOA)测距法，基于信号到达角度(AOA)测距法；基于非测距定位的方法有基于信号到达强度(RSSI)测距法。本发明主要是基于信号到达强度(RSSI)测距方法。

近年来，一些学者将机器学习或强化学习引入室内定位中，如K最邻近算法，通过计算距离的度量作为相似性度量。常用于指纹匹配阶段，在定位时利用KNN算法计算目标值与指纹库中样本值之间的欧式距离，按距离大小排序，选取前K个最小距离的参考点，然后以这个K个参考点的平均位置作为目标估计的位置。但是该算法需要遍历指纹库中所有样本的数据，因此会有较大的计算量。支持向量机SVM方法，利用SVM分类模型定位，将定位问题看做分类问题。前期通过数据训练分类模型，然后目标将目标样本数据输入训练好的分类模型中，对应输出一个最优分类结果，再利用具体的估计方法得出目标的位置。但是该算法计算成本较大，训练过程时间长。贝叶斯分类方法，通过多次测量RSSI值并把测量的RSSI值看成符合正态分布概率事件。利用贝叶斯概率模型只筛选出现“大概率事件”的RSSI值，再利用三边测量技术和最小二乘法来估计节点的位置。该方法通过筛选出优质RSSI值，降低了平均定位误差，但是贝叶斯算法是建立在条件相互独立假设的基础上，实际中特征之间不可能绝对独立，从而影响了实际的定位效果。

发明内容

本发明的基于异步优势动作评价的RFID室内定位算法技术方案如下：基于异步优势动作评价的RFID室内定位算法，包括以下步骤：

步骤1)对读写区域内的参考标签的信号强度值进行采集，获得原始信号强度(RSSI)数据；

步骤2)初始化：根据初始动作a_t，获得初始状态s_t并预处理得到相应的特征输入f(RSSI_total|s_t)，建立全局动作网络ψ(a_t|s_t；θ_ψ)、全局评价网络V(s_t；θ_v)以及线程子动作网络ψ(a_t|s_t；θ_ψ′)、线程子评价网络V(s_t；θ_v′)；初始化全局动作网络参数θ_ψ＝0、全局评价网络参数θ_v＝0、线程子动作网络参数θ_ψ′＝0、线程子评价网络参数θ_v′＝0、全局动作网络梯度dθ_ψ＝0、全局评价网络梯度dθ_v＝0；

步骤3)训练异步优势动作评价定位模型：执行线程子动作网络中的动作，并行训练学习并计算每个线程子评价网络的价值，计算线程总回报值R，累加线程子动作网络梯度，即总和为全局动作网络梯度dθ_ψ，累加线程子评价网络梯度，即总和为全局动作网络梯度dθ_v，再对全局动作网络参数θ_ψ和全局评价网络参数θ_v进行异步更新，使其跟踪学习，输出参考标签对应的具体位置，最终得到异步优势动作评价定位模型；

步骤4)精准定位：当携带有RFID标签的待定位目标进入检测区域时，读写器获取目标信息及信号强度值，并将这些数据输入到训练完成的异步优势动作评价定位模型中，定位模型准确识别数据并输出待定位目标的具体位置。

作为本发明的进一步改进，所述步骤2)中的特征输入使用动作决策函数来表示，具体表示如下：

其中，RSSI_total表示在状态s_t下获取的所有RSSI值，σ为标准差，表示为：

N表示标签总数，RSSI_i表示第i个RSSI值，B表示平均值：

作为本发明的进一步改进，所述步骤2)的初始化具体包括：

建立全局动作网络ψ(a_t|s_t；θ_ψ)，表示为：

其中，ω(s_t，θ_ψ)、τ(s_t，θ_ψ)为动作网络输出参数，表示为：ω(s_t，θ_ψ)＝θ_ψ ^Tf(RSSI_total|s_t)，τ(s_t，θ_ψ)＝exp(θ_ψ ^Tf(RSSI_total|s_t))；

建立全局评价网络V(s_t；θ_v)，即对全局网络预期的折扣回报求期望，期望服从贝尔曼方程，表示为：V(s_t；θ_v)＝E[r_t+γV(s_t+1；θ_v)]，其中，γ为折扣因子，r_t为当前回报值；

建立多个线程子动作网络ψ(a_t|s_t；θ_ψ′)，表示为：

建立多个线程子评价网络V(s_t；θ_v′)，即对子线程网络预期的折扣回报求期望，期望服从贝尔曼方程，表示为：V(s_t；θ_v′)＝E[r_t+γV(s_t+1；θ_v′)]。

为了使本发明公开充分，所述步骤3训练异步优势动作评价定位模型的具体训练步骤为：

a)执行线程子网络的动作：同步线程子动作网络参数θ_ψ′为：θ_ψ′＝θ_ψ，获取当前状态s_t，根据状态s_t，用线程子动作网络ψ(a_t|s_t；θ_ψ′)以最大化回报执行动作a_t并观察当前回报值r_t以及下一个状态s_t+1，然后根据状态s_t+1以最大化回报执行动作a_t+1并观察当前回报值r_t+1以及下一个状态s_t+2，以此类推，直至执行n次，完成了一次信号强度的轨迹采样，可表示为{(s₀，a₀，r₀)，(s₁，a₁，r₁)，...，(s_n，a_n，r_n)}；

b)同步训练学习并计算线程子评价网络的价值，用优势函数A(s_t；θ_v′)来表示，用于评价在状态s_t下，选择动作a_t的优劣，可表示为：

A(s_t；θ_v′)＝r_t+γr_t+1...+γ^n-t+1r_n-1+γ^n-tV(s_n；θ_v′)-V(s_t；θ_v′)

c)计算线程总回报值：

d)累加线程子动作网络及线程子评价网络的梯度：

(1)累加线程子动作网络梯度，即总和为全局动作网络梯度：

其中，

H为交叉熵，β为交叉熵的权重；

(2)累加线程子评价网络梯度，即总和为全局动作网络梯度：

e)当线程子动作网络及线程子评价网络计算并累加完梯度时，再反向传播，对全局网络参数进行异步更新，且回合数加1：

(1)全局动作网络参数θ_ψ更新：θ_ψ＝dθ_ψ

(2)全局评价网络参数θ_v更新：θ_v＝dθ_v

f)重复步骤a)-e)，直至回合数训练完毕，异步优势动作评价定位模型训练完成，输出参考标签的具体坐标值，得到异步优势动作评价定位模型。

本发明的有益效果：

1.异步更新：传统的DQN用一个网络代表一个代理(agent)，agent只与单一环境进行交互，从而选出最优信号强度RSSI值，本发明通过多线程来提高训练学习的效率和鲁棒性。利用异步优势动作评价方法搭建全局动作网络和全局评价网络，同时建立多个线程子动作网络和子评价网络，且结构与主网络相同，与各自的训练环境交互学习并定期地将参数异步更新到全局网络上，既加快了训练速度，也避免了采样信号强度值的问题。

2.动作-评价：本发明使用动作-评价方法，结合了值迭代和策略迭代的优点，每个线程子动作网络和子评价网络都相同，仅在最后输出部分不同。

3.优势评估：为了加速训练，本发明在更新权重是会适当的激励或者惩罚某些动作，使用优势评估来保证每个代理(agent)知道某个动作的回报的好坏。

4.动作学习策略为在线学习，即对当前最新的动作模型重新进行交互采样，得到相应的信号强度值序列样本，然后使用这些信号强度值序列样本完成神经网络训练，神经网络得到更新后，使用后的信号强度值样本将被丢弃，再继续采集新的信号强度值样本，不需要建立记忆库，降低了内存和计算能力。

5.相比传统的室内定位方法，本发明可以实现对移动目标的连续自动定位，定位精度和定位速度上都有很大的提升。

附图说明

图1.基于异步优势动作评价的RFID室内定位算法总体框架图；

图2.基于异步优势动作评价的RFID室内定位算法的室内定位场景布置图；

图3.基于异步优势动作评价的RFID室内定位算法流程图。

具体实施方式

以下结合图1～3和实施例描述本发明基于异步优势动作评价的RFID室内定位算法。

一个完整的RFID定位系统包括定位目标，天线，读写器和数据处理中心，数据处理中心发送指令到读写器，读写器获取目标的信号强度值再发送到数据处理中心，数据处理中心计算出目标的具体位置。但是，在大型的RFID系统中，有若干个读写器和大量的定位目标，定位环境复杂，且目标之间和读写器之间都存在严重的干扰，因此本发明的基于异步优势动作评价的RFID室内定位算法，通过多线程同时训练学习并异步更新定位模型，最终定位输出目标具体位置。

如图1所示异步优势动作评价结构总体框图，首先建立全局动作网络和全局评价网络，多个线程子动作网络和线程子评价网络，各个线程与各自的训练环境交互学习，最后线程定期地将参数异步更新到全局网络上。下面举例说明本算法的具体实施过程，如图2所示为室内定位场景布置图，定位环境采用10m×10m的室内矩形区域，设置读写器N为4，读写器分别编号为A1，A2，A3，A4，参考标签数M设置为200，在室内环境建立直角坐标系，以一个顶点为坐标原点O(0，0)，与原点相交的两条边为x轴和y轴。4个读写器放置在区域的4个顶点上，坐标分别为(0，0)，(0，10)，(10，0)，(10，10)，每个读写器天线摆放角度为45度角以获得更大的信号强度。区域内参考标签以0.5m的间隔放置，共测20次，得到4000组参考数据，并将数据保存。对100个待测目标进行测试，共测10次，得到1000组数据，并将数据进行保存。

学习回合总数G设置为4万次，总线程数K＝32，每个回合步数n＝1000次，图3所示为本算法的具体实施流程，具体步骤为：

步骤1)初始化：根据RFID定位环境，初始化全局和线程网络参数，并初始化全局网络梯度，设置动作的决策函数a_t为高斯函数，按合理的距离移动，动作选择最优RSSI值，并训练网络，最后动作输出定位目标坐标。设置状态为临近坐标点的RSSI值，状态变化时，设定不要随机，要在参考标签的数据范围内，从上一个目标移动到下一个目标。设置回报值为定位误差值的取反，误差值越小，奖励值越大。累积奖励值，不断优化定位模型，累积奖励值越大，定位模型定位精度越优。设置训练网络为卷积神经网络，第一层卷积层大小为8×8，滤波器步长为4，第一层卷积层大小为4×4，滤波器步长为2，最后一层为全连接层。

步骤2)执行单个回合动作并训练网络：将全局网络梯度清零：dθ＝0，dθ_v＝0，同步模型参数，θ′＝θ，θ_v′＝θ_v，设置学习率η为0.99，贪婪度ε设置为0.9，动作从ε₁，ε₂，ε₃中取3个值δ₁，δ₂，δ₃，全部设置为1，获得当前状态s_t，根据当前线程子动作网络ψ(a_t|s_t；θ′)以最大化回报执行动作a_t并观察当前回报值r_t，若RSSI_present＞RSSI_best，则RSSI_best＝RSSI_present，则将当前值复制给最优值，然后继续观察下一个状态s_t+1，计算当前参考标签的回报值，多个线程并行执行1000次。

步骤3)积累线程动作和评价网络梯度，梯度更新所用优化器为共享均方根(RootMean Square prop，RMSProp)，更新过程如下：

g＝αg+(1-α)Δθ_ψ ²

这里，g表示平方梯度，α表示动量，η表示学习率，δ表示为一个很小的常数，一般取值为10^-6，防止分母为零，g在线程之间共享，使线程间共享数据信息。学习过程中，在梯度下降时，对梯度震荡较大的项，减小其下降速度；对于震动幅度小的梯度，加速其下降。然后对全局网络进行异步更新，设置每个回合步数为1000次，每个回合更新一次，在前2万个回合学习中，δ₁，δ₂，δ₃从1分别下降到0.1，0.5，0.01，后2万个回合学习主要为优化定位模型，使定位模型精度更优，学习完成，输出异步优势动作评定位模型。

步骤4)当携带有RFID目标的待定位目标进入检测区域时，采用多次测量法。首先，获取到有效的RSSI值原始信息，然后对连续多次测得的待测目标RSSI值累加，得到最终输入值。其次，根据输入值不断调整网络参数，动态更新网络以适应环境变化，最后确定待测目标的位置。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求内。本发明是经过多位RFID室内定位算法技术人员长期科学研究经验积累，并通过创造性劳动创作而出，通过检测和收集定位目标的信号强度值作为输入数据多线程并行学习，训练定位模型，线程定期地将参数异步更新到全局网络，全局网络最后输出目标具体位置，得到异步优势动作评价定位模型；当有待测目标进入检测区域时，定位模型自动预测出目标具体位置。本发明有效解决了室内定位模型训练时间长，定位精度低以及环境噪声影响等问题，且模型易于实现，定位成本较低。

Claims

1.基于异步优势动作评价的RFID室内定位算法，包括以下步骤：

步骤3)训练异步优势动作评价定位模型：执行线程子动作网络中的动作，并行训练学习并计算每个线程子评价网络的价值，计算线程总回报值R，累加线程子动作网络梯度，即总和为全局动作网络梯度dθ_ψ，累加线程子评价网络梯度，即总和为全局评价网络梯度dθ_v，再对全局动作网络参数θ_ψ和全局评价网络参数θ_v进行异步更新，使其跟踪学习，输出参考标签对应的具体位置，最终得到异步优势动作评价定位模型；

2.根据权利要求1所述的基于异步优势动作评价的RFID室内定位算法，其特征在于，所述步骤2)中的特征输入使用动作决策函数来表示，具体表示如下：