CN109239661A

CN109239661A - 一种基于深度q网络的rfid室内定位系统及算法

Info

Publication number: CN109239661A
Application number: CN201811085405.4A
Authority: CN
Inventors: 郑嘉利; 李丽
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-01-18

Abstract

本发明涉及一种基于深度Q网络的RFID室内定位系统及算法，该系统包括：多个RFID标签，用于携带数据信息；多个读写器天线，用于接收标签信息及RSSI值；读写器基带控制模块：用于标签和天线驱动，数据的编解码；无线传输装置(WIFI)：用于传输标签数据；计算机管理系统：用于控制发送标签读写命令，训练深度Q网络模型，输出具体标签位置。该算法包括：定义初始状态和动作以及Q估计网络和目标网络，训练样本标签位置数据，建立位置记忆库，反向传播，更新神经网络并寻找最优的RSSI值从而输出目标位置。本发明与传统的基于神经网络的室内定位算法相比，减小了硬件功耗，提高了读写器的灵敏度以及目标标签的定位精度，特别适用于定位目标数量较庞大的情况。

Description

一种基于深度Q网络的RFID室内定位系统及算法

技术领域

本发明涉及无线射频识别(Radio Frequency Identification，RFID)中的室内定位技术，具体地说，是一种基于深度Q网络的RFID室内定位算法。

背景技术

近年来，随着物联网技术的发展，人们对基于位置服务(LBS)的需求越来越大，打开一部定位手机，都可以看到各种基于位置的APP，几乎涵盖了生活的方方面面，如外卖软件美团，饿了么等软件，打开软件，定位就可以搜索到各种商家，吃到各式各样的美食；打车软件滴滴打车，ofo小黄车等软件，可以方便的骑车和打车。越来越多的基于位置服务软件，让我们的生活更加方便，也促进了定位技术的发展。如今定位服务主要依赖于全球定位系统(GPS)，中国也有自己的定位系统，被动卫星导航系统，不管哪一种卫星定位系统，原理都是利用不同卫星与观测者的距离算出观测值的三维位置。但是卫星定位在室外可以取得较好的结果，但在室内环境下，由于建筑物等阻挡，信号会受到较大的影响，无法进行有效的定位。近年来，人们对室内定位做了大量研究，也取得了相当的成果，包括红外线定位，蓝牙定位，射频识别定位，超声波定位，WIFI定位等室内定位，但是红外线、超声波定位技术对环境和设备要求较高，不适合大规模室内场所部署；WIFI和蓝牙定位技术虽然定位设备要求不高，但是不能精确定位，因此射频识别定位比较适合大规模室内定位，且能精确定位，在室内定位领域，具有广阔的应用前景。

目前，RFID室内定位技术，主要有四种测距思路，分别是基于信号到达时间(TOA)测距法，基于信号到达时间差(TDOA)测距法，基于信号到达角度(AOA)测距法，基于信号到达强度(RSSI)测距法。基于信号到达时间，信号到达时间差，信号到达角度等测距法，测距误差比较小，但是有效距离较短，分辨率较差，且硬件代价太大，增加了定位的成本和时间，基于信号到达强度测距是一种比较好的测距方法，虽然测距误差较大，环境噪声较大，但是有效距离长，无需额外硬件，整体拓扑结构简单，便于测量，适合室内部署，所以本发明为针对基于信号到达强度(Received Signal Strength Indication，RSSI)测距的算法。

通过文献检索，我们检索到了以下相关文献，这些文献所采用的室内定位算法可以实现一定精度的室内定位，但都没有使用深度Q网络的室内定位算法，例如：

中国专利CN201610490721.4一种基于单摄像头、RSSI的室内目标定位系统及方法，专利权人：江苏环亚医用科技集团股份有限公司，该专利公开了一种基于单摄像头、RSSI的室内目标定位系统及方法，将RSSI定位数据与摄像头机器视觉定位信息融合，提高了目标跟踪定位的精度，避免了跟踪失败的情况，减少了RSSI信号由于墙壁折射、屏蔽等原因造成的定位信息不准确现象，提高了系统对目标跟踪定位的精度和可靠性，但是单摄像头定位系统精度较低，RSSI信号易受干扰，上述方法并未对相应信号做过多的精度处理，只能应用于特殊的工作环境，具有一定的局限性。

中国专利CN201610019570.4，基于压缩感知和BP神经网络的无线网络定位方法，专利权人：南京邮电大学，该专利公开了基于压缩感知和BP神经网络的无线网络定位方法，该方法将压缩感知和BP神经网络应用于基于网格的多目标定位，使用接收信号强度(RSSI)为定位参数。用BP神经网络修正RSSI测量值误差，最后用极大似然估计法计算得出未知节点的真实坐标，该方法克服了传统的压缩感知方法只能在网格中心进行定位的缺点，在减小功耗的同时提高了定位精度，但是该方法只是运用在传统的无线网络上，没有用在射频识别定位上，具有一定的局限性。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于深度Q网络的RFID室内定位系统及算法，通过将Q学习算法与神经网络结合，构成深度Q网络，再将深度Q网络融合RFID技术，为室内定位标签选出最优RSSI值，并用神经网络训练，输出精确的标签位置，提高定位的精确性和抗干扰能力。

为实现上述目的，本发明提供了如下方案：

一种基于深度Q网络的RFID室内定位系统及算法，部署N个读写器，M个样本标签，包括以下步骤：

步骤1)打开读写器，对M个样本标签的RSSI值进行采集；

步骤2)Q估计网络学习：利用Q学习算法自主学习，通过奖励值反馈，挑选出样本标签的最优RSSI值，并将学习经验和最优值存入记忆库；

步骤3)训练神经网络：建立目标网络，利用Q估计网络获得当前的状态动作值函数，目标网络获得下一个状态动作值函数，循环每次事件，每隔C个梯度步数，将Q估计网络中的参数复制到目标网络中，同时我们要从记忆库中选择一定大小的数据输入到网络中进行训练，输出每个样本标签对应的具体坐标值，最终获得深度Q网络定位模型；

步骤4)精准定位：当携带有RFID标签的待定位目标进入检测区域时，读写器获取标签信息及RSSI值，并通过无线传输至计算机，将获取的数据输入到训练好的深度Q网络定位模型中，通过经验回放并训练输出目标标签的具体位置。

作为本发明的进一步改进，所述步骤2)中，Q估计网络学习具体包括：

a)初始化：根据RFID网络中原始RSSI值，初始化动作a_t，下标t表示为在t时刻执行的动作，初始化记忆库为D，使用随机权重θ初始化Q估计网络，使之负责与环境交互，同时使用随机权重θ^-初始化目标网络；

b)执行动作：初始化环境，得到初始状态s₁，并预处理s₁对应的特征输入表示为然后产生一个0到1之间的随机数，当这个随机数小于贪婪度ε时，则选择一个随机动作a_t，若大于贪婪度ε，则选择最大Q值对应的动作，表示为执行动作a_t后，累计奖励值r_t和下一状态s_t+1，并预处理得到新状态s_t+1的特征输入表示为将学习到的经验保存在记忆库D中；

c)取记忆并学习：从记忆库D中均匀随机采样一个样本，表示为在j时刻取出的数据根据如下公式计算目标网络并判断是否为终止状态，若不是终止状态，则继续执行Q学习算法，选出最优RSSI值，并将经验存入记忆库：

其中y_t表示目标网络，r_t表示奖励值，γ表示折扣系数，a′表示选择一个动作，该动作a′满足在状态处的Q值最大。

作为本发明的进一步改进，所述的一种基于深度Q网络的RFID室内定位算法步骤2)中，奖励值可以设置为：若RSSI值为0，则奖励值r₁＝-1，表示得到惩罚值；若RSSI值正常，则r₂＝1，表示得到奖励；若RSSI值异常，r₃＝0，表示得不到奖励；累计的奖励值越大，表示RSSI值越优，Q网络学习定位越精确。

作为本发明的进一步改进，所述步骤3)中，训练神经网络具体包括：把目标网络作为标注，通过计算目标网络与Q估计网络输出的误差，再将误差反向传回神经元，并每隔C个梯度步数使用梯度下降的方法更新目标网络权值，即令θ^-＝θ，梯度下降法公式即损失函数为

作为本发明的进一步改进，所述步骤3)中，训练神经网络时，使用RMSProp优化器，采用epsilon-greedy策略(探索率从1线性降到0.1)，从一开始系统采取完全随机的行动以最大化地探索状态空间，也就是完全随机的选择动作，避免局部范围内最优，随着Q网络不断被训练，得到的奖励值越来越多，网络探索率不断降低，最后得到的奖励值最大，Q网络收敛，再稳定在一个固定的探索率0.1上，以微调网络，使网络最优。

作为本发明的进一步改进，所述的系统包括：多个RFID标签，其随机分布在室内，用于携带数据信息；多个读写器天线，其分布在室内的各个角落，用于发射标签控制信号和接收标签信息及RSSI值；读写器基带控制模块：用于标签和天线驱动，数据的编解码，调制解调数据；无线传输装置(WIFI)：用于传输标签数据到计算机管理系统；计算机管理系统：用于显示标签读取信息，发送标签控制命令，并显示标签位置，输出具体的RSSI值。

作为本发明的进一步改进，Q估计网络和目标网络都为卷积神经网络，模型架构包括卷积、全连接和线性输出。

本发明的有益效果为：

1.利用Q学习与神经网络结合，自动探索学习，选择最优RSSI值，建立记忆库自动探索学习并精准定位，避免了异常数据对定位精度的影响，提高了定位模型的质量。

2.训练完毕Q网络定位模型后，当待测目标进入检测区域时，Q网络从记忆库中抽取记忆，对待测目标进行学习，就能获取具体的目标位置。相对于传统的室内定位方法，本方法可以自动学习并定位，精确度更高，并且能在提高精度的前提下降低定位系统的成本。

附图说明

为了更清楚地说明本发明现有技术中的技术方案或实施例，下面将对技术方案或实施例中所需要使用的附图作简单地介绍。

图1.本发明一种基于深度Q网络的室内定位系统及算法的系统结构示意图；

图2.本发明一种基于深度Q网络的室内定位系统及算法的总体框架图；

图3本发明一种基于深度Q网络的室内定位系统及算法的算法流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施例对本发明作进一步详细说明。

实施例：

一个完整的RFID定位系统包括标签，天线，读写器和数据处理终端，通过数据处理终端控制各个读写器识别标签，以获得标签的RSSI值，进而得出标签的具体位置信息。在大型的RFID系统中，有若干个读写器，定位目标多，情况复杂，且标签之间和读写器之间都存在着严重的干扰，如何在复杂的环境中定位出精确的标签位置是亟需解决的问题，本发明基于深度Q网络算法，将强化学习中的Q学习和神经网络相结合用于RFID室内定位当中。深度Q网络主要方法是经验回放和双神经网络：Q估计网络和目标网络，将系统探索环境得到的数据储存在记忆库中，Q估计网络具备最新的参数，目标网络随机抽取记忆库的数据，目标网络和Q估计网络不断的迭代更新，找到最优RSSI值，实现精确定位。

参见图1，为本发明所涉及的定位系统结构示意图，包括N个阅读器天线和M个样本标签，天线发射读写信号给样本标签，样本标签反向散射回数据信息和RSSI值，同时，数据再通过WIFI模块，将接收到的信息传输给计算机，计算机负责处理接收数据和发送控制命令，并建立训练好的深度Q网络模型，然后将待测目标的RSSI值输入模型中，最后输出精确目标位置。

参见图2，为本发明所涉及的总体框架图，深度Q网络的训练方法是基于Q学习算法，Q学习算法中Q值函数的更新规则如下：

样本标签反射信号，得到RSSI值，输入并建立目标网络，Q估计网络获得当前的状态动作值函数，目标网络获得下一个状态动作值函数，每隔一定的步数，将Q估计网络中的参数复制到目标网络中，同时目标网络从记忆库中选择一定大小的数据输入到网络中进行训练，用反向传播的方法对网络进行梯度更新，权重为θ，梯度更新的最小损失函数为：输出每个样本标签对应的具体坐标值，最终获得深度Q网络定位模型。

参见图3，为本发明所涉及的算法流程图，具体步骤为：

步骤1)初始化：根据RFID网络中原始RSSI值，初始化动作a_t，初始化记忆库为D，使用随机权重θ初始化Q估计网络，使之负责与环境交互，同时使用随机权重θ^-初始目标网络，用于时刻更新Q网络，在训练期间，奖励值设置c₂＞c₃＞c₁，R_t对应得到的状态为

步骤2)执行动作：初始化环境，得到初始序列s₁＝{x₁}并预处理序列使产生一个0到1之间的随机数，例如设置ε＝0.8，产生的随机数为0.9，大于贪婪度ε则选择一个随机动作，若产生的随机数为0.75，小于贪婪度ε则选择最大Q值对应的动作，执行动作a₁后，累计奖励值r₁和下一状态s₂，并预处理得到新状态s₂的特征输入表示为在记忆库D中保存经验选择RSSI值，若RSSI2＜RSSI3，则选择RSSI3，并将RSSI值输入训练网络中；

步骤3)取记忆并学习：从记忆库中取出部分随机样本，表示为判断是否为终止状态，若是最终状态，则当前选出的RSSI值为最优RSSI值，则当前的奖励值为R_t＝r_j。若不是终止状态，则继续执行Q学习算法，即将Q估计网络当作标注的样本，目标网络当作标注，通过计算目标网络与Q估计网络输出的误差，再将误差传输回神经元，误差越小，选出RSSI值最优，并将经验存入记忆库；

步骤4)采用梯度下降法训练选出的RSSI值，并通过反向传播法训练出定位模型，并输出样本标签具体位置；

步骤5)每隔每隔C个梯度步数，更新一次目标网络，即令θ^-＝θ；

步骤6)当学习终止时，输出样本标签位置，得到训练好的深度Q网络模型；

步骤7)读取待测目标的RSSI值，并根据深度Q网络配置参数，由于待测目标在读取过程中，存在多路径干扰，无线信号遮挡，温湿度影响和自身信号衰减等情况，Q网络在自身学习时，要不断调整学习参数并估算出坐标；

步骤8)输出待测目标的定位坐标并退出。

综上所述，本发明提出一种基于深度Q网络的RFID室内定位系统及算法，具体为通过检测和收集样本标签的RSSI值作为输入数据，Q网络学习找到最优RSSI值，训练输出样本标签位置，并将经验存入记忆库，同时得到深度Q网络模型；当有待测目标进入检测区域时，网络模型自动抽取相关记忆，预测并得到待测目标具体位置，该方法解决了室内定位进度低及环境噪声影响等问题，且模型简单，定位成本较低。

以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改、等同替换、改进等，都其均应涵盖在本发明的权利要求内。

Claims

1.一种基于深度Q网络的RFID室内定位系统及算法，其特征在于，部署N个读写器，M个样本标签，包括以下步骤：

步骤1)打开读写器，对M个样本标签的RSSI值进行采集；

步骤3)训练神经网络：建立目标网络，利用Q估计网络获得当前的状态动作值函数，目标网络获得下一个状态动作值函数，循环每次事件，每隔C个梯度步数，将Q估计网络中的参数复制到目标网络中，同时，从记忆库中选择一定大小的数据输入到网络中进行训练，输出每个样本标签对应的具体坐标值，最终获得深度Q网络定位模型；

步骤4)精准定位：当携带有RFID标签的待定位目标进入检测区域时，读写器获取标签信息及RSSI值，并通过无线网络传输至计算机，将获取的数据输入到训练好的深度Q网络定位模型中，通过经验回放并训练输出目标标签的具体位置。

2.根据权利要求1所述的一种基于深度Q网络的RFID室内定位系统及算法，其特征在于，所述步骤2)中，Q估计网络学习包括：

c)取记忆并学习：从记忆库D中均匀随机采样一个样本，表示为在j时刻取出的数据根据以下公式计算目标网络并判断是否为终止状态，若不是终止状态，则继续执行Q学习算法，选出最优RSSI值，并将经验存入记忆库：

3.根据权利要求1所述的一种基于深度Q网络的RFID室内定位系统及算法，其特征在于，所述步骤2)中，奖励值可以设置为：若RSSI值为0，则奖励值r₁＝-1，表示得到惩罚值；若RSSI值正常，则r₂＝1，表示得到奖励；若RSSI值异常，r₃＝0，表示得不到奖励；累计的奖励值越大，表示RSSI值越优，Q网络学习定位越精确。

4.根据权利要求1所述的一种基于深度Q网络的RFID室内定位系统及算法，其特征在于，所述步骤3)中，训练神经网络具体包括：把目标网络作为标注，通过计算目标网络与Q估计网络输出的误差，再将误差反向传回神经元，并每隔C个梯度步数使用梯度下降的方法更新目标网络权值，即令θ^-＝θ，梯度下降法公式即损失函数为

5.根据权利要求1所述的一种基于深度Q网络的RFID室内定位算法，其特征在于，所述步骤3)中，训练神经网络时，使用RMSProp优化器，采用epsilon-greedy策略(探索率从1线性降到0.1)，从一开始系统采取完全随机的行动以最大化地探索状态空间，也就是完全随机的选择动作，避免局部范围内最优，随着Q网络不断被训练，得到的奖励值越来越多，网络探索率不断降低，最后得到的奖励值最大，Q网络收敛，再稳定在一个固定的探索率0.1上，以微调网络，使网络最优。

6.根据权利要求1所述的一种基于深度Q网络的RFID室内定位系统及算法，其特征在于，所述的系统包括：多个RFID标签，其随机分布在室内，用于携带数据信息；多个读写器天线，其分布在室内的各个角落，用于发射标签控制信号和接收标签信息及RSSI值；读写器基带控制模块：用于标签和天线驱动，数据的编解码，调制解调数据；无线传输装置(WIFI)：用于传输标签数据到计算机管理系统；计算机管理系统：用于显示标签读取信息，发送标签控制命令，并显示标签位置，输出具体的RSSI值。

7.根据权利要求1所述的一种基于深度Q网络的RFID室内定位系统及算法，其特征在于，Q估计网络和目标网络都为卷积神经网络，模型架构包括卷积、全连接和线性输出。