CN111414775B - 一种rfid标签接入的多阅读器防碰撞方法、装置和设备 - Google Patents
一种rfid标签接入的多阅读器防碰撞方法、装置和设备 Download PDFInfo
- Publication number
- CN111414775B CN111414775B CN202010104508.1A CN202010104508A CN111414775B CN 111414775 B CN111414775 B CN 111414775B CN 202010104508 A CN202010104508 A CN 202010104508A CN 111414775 B CN111414775 B CN 111414775B
- Authority
- CN
- China
- Prior art keywords
- reader
- time slot
- collision
- state
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06K—GRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
- G06K7/00—Methods or arrangements for sensing record carriers, e.g. for reading patterns
- G06K7/10—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
- G06K7/10009—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves
- G06K7/10019—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves resolving collision on the communication channels between simultaneously or concurrently interrogated record carriers.
- G06K7/10029—Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation sensing by radiation using wavelengths larger than 0.1 mm, e.g. radio-waves or microwaves resolving collision on the communication channels between simultaneously or concurrently interrogated record carriers. the collision being resolved in the time domain, e.g. using binary tree search or RFID responses allocated to a random time slot
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- General Health & Medical Sciences (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种RFID标签接入的多阅读器防碰撞方法、装置和设备,方法包括:利用每个阅读器的时隙状态,对预设的Actor‑Critic网络模型进行M轮迭代训练,得到具有最优的阅读器的时隙分配策略的阅读器防碰撞模型后,利用所述阅读器防碰撞模型对每个所述阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入,有效地避免RFID系统标签接入过程中的阅读器碰撞问题。采用本发明的技术方案,能动态地适应RFID系统的变化,降低RFID系统的运维难度,降低阅读器发生碰撞的概率。
Description
技术领域
本发明涉及事件检测技术领域,尤其涉及一种RFID标签接入的多阅读器防碰撞方法、装置和设备。
背景技术
射频识别技术(Radio Frequency Identification,RFID)是一种非接触式的自动识别技术,主要是利用无线射频方式对记录媒体进行读写,从而达到识别目标和数据交换的目的,具有可靠性高、识别速度快、动态实时通信等优点。一个RFID系统主要是由RFID标签、阅读器以及软件系统所组成,由于RFID系统往往需要部署大量的阅读器,因此在RFID系统的通信过程中,极有可能会出现“阅读器-RFID标签”碰撞问题,“阅读器-RFID标签”碰撞指的是多个阅读器的识别区域发生重叠而导致处于重叠区域中的RFID标签不能做出正确的应答。这种碰撞问题的出现对于一个RFID系统来说是致命的,很有可能导致RFID系统无法正常运行,对于这种问题可以使用分配多时隙的思路进行解决。
目前,解决该碰撞问题的具体方法主要有基于调度的方法和基于功率调整的方法两种类型,在基于调度的方法上,以基于分布式的时分多址(Time Division MultipleAccess,TDMA)防碰撞算法——Colorwave算法为代表,该算法是将RFID系统转化为一张简单的平面图,其中顶点集合是阅读器集合,边集中的边代表了阅读器之间的冲突关系,这样就把时隙分配问题转换成了图论中的着色问题,其中每种颜色代表一个时隙。通过尽可能地减小任意两个阅读器节点颜色相同的概率以达到防碰撞的效果。这种方法虽然能够起到一定的放碰撞作用,但是对于阅读器之间的时间同步性要求很高,无法适应RFID系统动态变化。对于基于功率调整的方法,以PPC算法为代表,这种方法是将阅读器的发射功率在不同时隙按某种概率分布进行调整,从而动态地调整阅读器的识别范围,以减少阅读器之间的碰撞次数,但是对于阅读器位置频繁变化或是有新阅读器加入时,概率分布的参数难以设定,这就大大增加了RFID系统的运维难度。
因此,如何实现动态地适应RFID系统的变化,降低RFID系统的运维难度,降低阅读器发生碰撞的概率,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提出一种RFID标签接入的多阅读器防碰撞方法、装置和设备,以实现动态地适应RFID系统的变化,降低RFID系统的运维难度,降低阅读器发生碰撞的概率。
基于上述目的,本发明提供了一种RFID标签接入的多阅读器防碰撞方法,包括:
利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型;其中,所述M为大于1的整数;
利用所述阅读器防碰撞模型对每个所述阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入;
其中,每轮迭代训练过程中执行以下操作:
依次将所述阅读器的相邻两个时隙状态的向量输入至Actor网络,并根据Actor网络的输出选择所要执行的时隙分配动作;
计算执行所述时隙分配动作后所得到的两个奖赏值以及RFID系统反馈所得到的相邻两个时隙状态的状态值;
将所述相邻两个时隙状态和所述两个奖赏值的第一个奖赏值输入Critic网络,得到所述阅读器的时间差分误差;
根据所述相邻两个时隙状态的状态值,确定Critic网络的第一损失函数;
根据所述第一损失函数对所述Critic网络的第一参数进行更新;
根据所述时间差分误差,确定所述Actor网络的第二损失函数;
根据所述第二损失函数对所述Actor网络的第二参数进行更新。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,所述根据Actor网络的输出选择所要执行的时隙分配动作,包括:
根据所述Actor网络输出的每个时隙分配动作的概率集合随机选择所要执行的时隙分配动作。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,所述奖赏值的计算公式为;
其中,r(s,a)为奖赏值,s为所述时隙状态,a为所述时隙分配动作;为阅读器在时隙i中未与其发生碰撞的阅读器数量;为阅读器在时隙i中与其发生碰撞的阅读器数量;c1为未发生碰撞的权重系数,且c1为正值;c2为发生碰撞的权重系数,且c2为负值。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,状态值的计算公式为;
Vπ(s)=Eπ[r+γVπ(s')];
其中,Vπ(s)为所述相邻两个时隙状态的状态值中的第一个状态值,r为所述第一个奖赏值,γ为折扣因子,且为常数;Vπ(s')为所述相邻两个时隙状态的状态值中的第二个状态值。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,所述根据相邻两个时隙状态的状态值,确定Critic网络的第一损失函数,包括:
根据所述第一个状态值和所述第二个状态值,确定状态损失值;
根据所述状态损失值,确定Critic网络的第一损失函数。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,确定所述状态损失值的计算公式为:
e=r+γVπ(s')-Vπ(s);
其中,所述e为所述状态损失值;
确定所述时间差分误差的计算公式均为:
Aπ(s,a)=r+γVπ(s')-Vπ(s);
其中,所述Aπ(s,a)为时间差分误差。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,所述第一损失函数为:
其中,所述LV为Critic网络的总损失值,所述n为时隙数目。
进一步地,上述所述的RFID标签接入的多阅读器防碰撞方法中,所述第二损失函数为:
其中,Lπ为Actor网络的总损失值,s为所述时隙状态,a为所述时隙分配动作。
本发明还提供一种RFID标签接入的多阅读器防碰撞装置,包括:
训练模块,用于利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型;其中,所述M为大于1的整数;
分配模块,用于利用所述阅读器防碰撞模型对每个所述阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入;
其中,所述训练模块在每轮迭代训练过程中具体用于:
依次将所述阅读器的相邻两个时隙状态的向量输入至Actor网络,并根据Actor网络的输出选择所要执行的时隙分配动作;
计算执行所述时隙分配动作后所得到的两个奖赏值以及RFID系统反馈所得到的相邻两个时隙状态的状态值;
将所述相邻两个时隙状态和所述两个奖赏值的第一个奖赏值输入Critic网络,得到所述阅读器的时间差分误差;
根据所述相邻两个时隙状态的状态值,确定Critic网络的第一损失函数;
根据所述第一损失函数对所述Critic网络的第一参数进行更新;
根据所述时间差分误差,确定所述Actor网络的第二损失函数;
根据所述第二损失函数对所述Actor网络的第二参数进行更新。
本发明还提供一种RFID标签接入的多阅读器防碰撞设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。
从上面所述可以看出,本发明提供的RFID标签接入的多阅读器防碰撞方法、装置和设备,利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型后,利用阅读器防碰撞模型对每个阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入,能够有效地避免RFID系统标签接入过程中的阅读器碰撞问题。采用本发明的技术方案,能动态地适应RFID系统的变化,降低RFID系统的运维难度,降低阅读器发生碰撞的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的RFID标签接入的多阅读器防碰撞方法的流程图;
图2为对预设的Actor-Critic网络模型进行单轮迭代训练的流程图;
图3为本发明实施例的RFID标签接入的多阅读器防碰撞装置的结构示意图;
图4为本发明实施例所提供的一种更为具体的RFID标签接入的多阅读器防碰撞设备硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在实际应用过程中,可以将阅读器时隙分配过程可看作一个马尔可夫决策过程(Markov Decision Process,MDP),其马尔可夫决策过程模型定义为四元组(S,A,P,γ,C),S为状态空间,这里可以表示阅读器当前所占用的时隙情况,即阅读器的时隙状态,阅读器在时刻t的状态定义为其中,
A为动作空间,这里可以表示为执行动作a时,中央控制器将某个时隙分配给对应的阅读器。P为状态转移概率,这里表示采取动作a后阅读器状态从st变为s't的概率。γ为折扣因子,这里为一个常数项,用来计算所得到的折扣奖励。C为奖励函数,这里表示在阅读器在状态st下执行动作a转移到状态s't所获得的立即奖赏。
由于选择时隙的过程时一个连续的过程,为了降低学习效率,降低RFID系统的运维难度,可以利用Actor-Critic模型进行学习,其中,Actor-Critic模型中,Actor网络是一个Policy-Based的神经网络,作用是根据当前策略π以决定阅读器在当前状态st下应该选择的时隙i。Critic网络是一个Value-Based的神经网络,用来计算阅读器在当前状态st下的状态值,同时根据均方差误差引导自身的网络参数更新,并返回时间差分误差(TD_error)以引导Actor网络的更新。
基于上述原理,可以将RFID系统的碰撞问题定义为MDP模型,并利用Actor-Critic模型进行训练,从而构建阅读器防碰撞模型。可以设定RFID系统中存在的阅读器个数为N,可用的时隙数量为n,最大学习步数为M(迭代训练轮数),并根据阅读器个数与时隙数,对状态空间S及动作空间A进行初始化后,对Actor-Critic模型进行训练。具体可以参考如下实施例:
图1为本发明实施例的RFID标签接入的多阅读器防碰撞方法的流程图,如图1所示,本实施例的RFID标签接入的多阅读器防碰撞方法具体可以包括如下步骤:
100、利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型;
其中,M为大于1的整数,M优选为1000。本实施例中,在执行步骤100时,在每轮迭代训练过程中可以按照图2所示的流程执行。图2为对预设的Actor-Critic网络模型进行单轮迭代训练的流程图,如图2所示,本实施例的迭代训练过程包括如下步骤:
1001、依次将阅读器的相邻两个时隙状态的向量输入至Actor网络,并根据Actor网络的输出选择所要执行的时隙分配动作;
具体地,阅读器的时隙状态向量输入至Actor网络后,Actor网络会输出每个时隙分配动作的概率集合,这样,依次将阅读器的相邻两个时隙状态的向量输入至Actor网络,就可以根据Actor网络输出的每个时隙分配动作的概率集合随机选择所要执行的时隙分配动作。
1002、计算执行时隙分配动作后所得到的奖赏值以及RFID系统反馈所得到的相邻两个时隙状态的状态值;
在根据Actor网络的输出选择所要执行的时隙分配动作,并执行该时隙分配动作后,可以计算所得到的奖赏值以及RFID系统反馈所得到的状态值。本实施例中,可以计算出两个奖赏值和相邻两个时隙状态的状态值。
本实施例中,可以利用计算公式(1)计算所得到的奖赏值:
其中,r(s,a)为奖赏值,s为时隙状态,s属于S,a为时隙分配动作,a属于A;为阅读器在时隙i中未与其发生碰撞的阅读器数量;为阅读器在时隙i中与其发生碰撞的阅读器数量;c1为未发生碰撞的权重系数,且c1为正值;c2为发生碰撞的权重系数,且c2为负值。
可以利用计算公式(2)计算RFID系统反馈所得到的相邻两个时隙状态的状态值:
Vπ(s)=Eπ[r+γVπ(s')] (2)
其中,Vπ(s)为相邻两个时隙状态的状态值中的第一个状态值,r为第一个奖赏值,γ为折扣因子,且为常数;Vπ(s')为相邻两个时隙状态的状态值中的第二个状态值。即第一个状态值为第二个状态值乘折扣因子后与奖赏值求和后的期望值。其中,在计算时,可以基于迭代规则,进行迭代计算,最终可以得到第一个状态值和第二个状态值。
1003、将相邻两个时隙状态和两个奖赏值的第一个奖赏值输入Critic网络,得到阅读器的时间差分误差;
本实施例中,时间差分误差Aπ(s,a)可以利用计算公式(6)计算:
Aπ(s,a)=r+γVπ(s')-Vπ(s) (3)
这样,将相邻两个时隙状态和两个奖赏值的第一个奖赏值分别代入计算公式(3),即可得到时间差分误差,以便根据时间差分误差确定Actor网络性能的好坏。
1004、根据第一个状态值和第二个状态值,确定Critic网络的第一损失函数;
具体地,可以根据第一个状态值和第二个状态值,确定状态损失值;并根据状态损失值,确定Critic网络的第一损失函数。
本实施例中,可以根据计算公式(4)计算状态损失值e:
e=r+γVπ(s')-Vπ(s) (4)
在确定状态损失值后,可以根据该状态损失值,设定Critic网络的第一损失函数为计算公式(5):
其中,LV为Critic网络的总损失值,n为时隙数目。
1005、根据第一损失函数对Critic网络的第一参数进行更新;
本实施例中,可以根据第一损失函数对Crtic网络的第一参数进行更新,以便在下一次训练时能够得到更准确的数据。其中,第一参数可以包括Crtic网络中神经元的权重值、神经元的偏置值、Crtic网络的学些效率等。
1006、根据时间差分误差,确定Actor网络的第二损失函数;
在返回时间差分误差后,可以根据时间差分误差设定Actor网络的第二损失函数为计算公式(6):
其中,Lπ为Actor网络的总损失值,s为时隙状态,a为时隙分配动作。
1007、根据第二损失函数对Actor网络的第二参数进行更新。
本实施例中,可以根据第二损失函数对Actor网络的第二参数进行更新,以便在下一次训练中,能够精准的确定阅读器的时隙。其中,第二参数可以包括Actor网络中神经元的权重值、神经元的偏置值、Actor网络的学些效率等。
本实施例中预设的Actor-Critic网络模型每经过一次迭代会进行一次计数,当计数值达到M后,迭代训练终止,这样经过M轮迭代训练后,即可得到最优的阅读器的时隙分配策略,并生成一个新的Actor-Critic网络模型,这个新的Actor-Critic网络模型可以定义为阅读器防碰撞模型。
101、利用阅读器防碰撞模型对每个阅读器分配时隙。
本实施例中,阅读器防碰撞模型中的Actor网络由于具有最优的阅读器的时隙分配策略,从而能够动态地适应RFID系统的变化,且在每一个状态下都有一个最佳的动作,也就是说阅读器会知道要选择哪个时隙进行传输,从而实现最佳的时隙分配,以便RFID标签按照每个阅读器分配的时隙接入,从而能够有效地避免RFID系统标签接入过程中的阅读器碰撞问题,降低了频率碰撞率,提高了RFID系统吞吐率。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
本发明实施例的RFID标签接入的多阅读器防碰撞方法,利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型后,利用阅读器防碰撞模型对每个阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入,能够有效地避免RFID系统标签接入过程中的阅读器碰撞问题。采用本发明的技术方案,能动态地适应RFID系统的变化,降低RFID系统的运维难度,降低阅读器发生碰撞的概率。
图3为本发明实施例的RFID标签接入的多阅读器防碰撞装置的结构示意图,如图3所示,本实施例的RFID标签接入的多阅读器防碰撞装置包括训练模块30和分配模块31。
训练模块30,用于利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型;其中,M为大于1的整数;
分配模块31,用于利用阅读器防碰撞模型对每个阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入;
其中,训练模块30在每轮迭代训练过程中具体用于:
依次将所述阅读器的相邻两个时隙状态的向量输入至Actor网络,并根据Actor网络的输出选择所要执行的时隙分配动作;
具体地,可以根据Actor网络输出的每个时隙分配动作的概率集合随机选择所要执行的时隙分配动作。
计算执行所述时隙分配动作后所得到的两个奖赏值以及RFID系统反馈所得到的相邻两个时隙状态的状态值;
其中,奖赏值的计算公式为计算公式(1),RFID系统反馈所得到的态值的计算公式为计算公式(2),详细请参考上述相关记载,在此不再赘述。
将所述相邻两个时隙状态和所述两个奖赏值的第一个奖赏值输入Critic网络,得到所述阅读器的时间差分误差;
其中,时间差分误差的计算公式为计算公式(3),详细请参考上述相关记载,在此不再赘述。
根据相邻两个时隙状态的状态值,确定Critic网络的第一损失函数;
具体地,可以根据第一个状态值和第二个状态值,确定状态损失值;并根据状态损失值,确定Critic网络的第一损失函数。
其中,状态损失值的计算公式为计算公式(4),Critic网络的第一损失函数的计算公式为计算公式(5),详细请参考上述相关记载,在此不再赘述。
根据第一损失函数对Critic网络的第一参数进行更新;
根据时间差分误差,确定Actor网络的第二损失函数;
Actor网络的第二损失函数为计算公式(6),详细请参考上述相关记载,在此不再赘述。
根据第二损失函数对Actor网络的第二参数进行更新。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本发明实施例的RFID标签接入的多阅读器防碰撞装置,利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型后,利用阅读器防碰撞模型对每个阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入,能够有效地避免RFID系统标签接入过程中的阅读器碰撞问题。采用本发明的技术方案,能动态地适应RFID系统的变化,降低RFID系统的运维难度,降低阅读器发生碰撞的概率。
图4为本发明实施例所提供的一种更为具体的RFID标签接入的多阅读器防碰撞设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种RFID标签接入的多阅读器防碰撞方法,其特征在于,包括:
利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型;其中,所述M为大于1的整数;
利用所述阅读器防碰撞模型对每个所述阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入;
其中,每轮迭代训练过程中执行以下操作:
依次将所述阅读器的相邻两个时隙状态的向量输入至Actor网络,并根据Actor网络的输出选择所要执行的时隙分配动作;
计算执行所述时隙分配动作后所得到的两个奖赏值以及RFID系统反馈所得到的相邻两个时隙状态的状态值;
将所述相邻两个时隙状态和所述两个奖赏值的第一个奖赏值输入Critic网络,得到所述阅读器的时间差分误差;
根据所述相邻两个时隙状态的状态值,确定Critic网络的第一损失函数;
根据所述第一损失函数对所述Critic网络的第一参数进行更新;
根据所述时间差分误差,确定所述Actor网络的第二损失函数;
根据所述第二损失函数对所述Actor网络的第二参数进行更新。
2.根据权利要求1所述的RFID标签接入的多阅读器防碰撞方法,其特征在于,所述根据Actor网络的输出选择所要执行的时隙分配动作,包括:
根据所述Actor网络输出的每个时隙分配动作的概率集合随机选择所要执行的时隙分配动作。
4.根据权利要求1所述的RFID标签接入的多阅读器防碰撞方法,其特征在于,状态值的计算公式为;
Vπ(s)=Eπ[r+γVπ(s')];
其中,Vπ(s)为所述相邻两个时隙状态的状态值中的第一个状态值,r为所述第一个奖赏值,γ为折扣因子,且为常数;Vπ(s')为所述相邻两个时隙状态的状态值中的第二个状态值。
5.根据权利要求4所述的RFID标签接入的多阅读器防碰撞方法,其特征在于,所述根据相邻两个时隙状态的状态值,确定Critic网络的第一损失函数,包括:
根据所述第一个状态值和所述第二个状态值,确定状态损失值;
根据所述状态损失值,确定Critic网络的第一损失函数。
6.根据权利要求5所述的RFID标签接入的多阅读器防碰撞方法,其特征在于,确定所述状态损失值的计算公式为:
e=r+γVπ(s')-Vπ(s);
其中,所述e为所述状态损失值;
确定所述时间差分误差的计算公式均为:
Aπ(s,a)=r+γVπ(s')-Vπ(s);
其中,所述Aπ(s,a)为时间差分误差。
9.一种RFID标签接入的多阅读器防碰撞装置,其特征在于,包括:
训练模块,用于利用每个阅读器的时隙状态,对预设的Actor-Critic网络模型进行M轮迭代训练,得到阅读器防碰撞模型;其中,所述M为大于1的整数;
分配模块,用于利用所述阅读器防碰撞模型对每个所述阅读器分配时隙,以便RFID标签按照每个阅读器分配的时隙接入;
其中,所述训练模块在每轮迭代训练过程中具体用于:
依次将所述阅读器的相邻两个时隙状态的向量输入至Actor网络,并根据Actor网络的输出选择所要执行的时隙分配动作;
计算执行所述时隙分配动作后所得到的两个奖赏值以及RFID系统反馈所得到的相邻两个时隙状态的状态值;
将所述相邻两个时隙状态和所述两个奖赏值的第一个奖赏值输入Critic网络,得到所述阅读器的时间差分误差;
根据所述相邻两个时隙状态的状态值,确定Critic网络的第一损失函数;
根据所述第一损失函数对所述Critic网络的第一参数进行更新;
根据所述时间差分误差,确定所述Actor网络的第二损失函数;
根据所述第二损失函数对所述Actor网络的第二参数进行更新。
10.一种RFID标签接入的多阅读器防碰撞设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104508.1A CN111414775B (zh) | 2020-02-20 | 2020-02-20 | 一种rfid标签接入的多阅读器防碰撞方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104508.1A CN111414775B (zh) | 2020-02-20 | 2020-02-20 | 一种rfid标签接入的多阅读器防碰撞方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414775A CN111414775A (zh) | 2020-07-14 |
CN111414775B true CN111414775B (zh) | 2021-10-15 |
Family
ID=71490816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010104508.1A Active CN111414775B (zh) | 2020-02-20 | 2020-02-20 | 一种rfid标签接入的多阅读器防碰撞方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414775B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112020001B (zh) * | 2020-08-30 | 2022-10-28 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 无人机多站多机系统时隙资源分配方法 |
CN113343725B (zh) * | 2021-04-14 | 2022-07-19 | 厦门大学 | Rfid多阅读器的防碰撞方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130088450A (ko) * | 2012-01-31 | 2013-08-08 | 성균관대학교산학협력단 | 상황인식 컴퓨팅을 위한 시간에 치명적인 상황인식 모델링 시스템 및 모델링 방법 |
CN108871332A (zh) * | 2018-04-26 | 2018-11-23 | 广西大学 | 一种基于XGBoost的RFID室内定位系统及方法 |
CN109801100A (zh) * | 2018-12-26 | 2019-05-24 | 北京达佳互联信息技术有限公司 | 广告投放方法、装置和计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577784B (zh) * | 2013-11-25 | 2016-07-06 | 电子科技大学 | 基于多射频模块的有源rfid阅读器防碰撞方法及系统 |
-
2020
- 2020-02-20 CN CN202010104508.1A patent/CN111414775B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130088450A (ko) * | 2012-01-31 | 2013-08-08 | 성균관대학교산학협력단 | 상황인식 컴퓨팅을 위한 시간에 치명적인 상황인식 모델링 시스템 및 모델링 방법 |
CN108871332A (zh) * | 2018-04-26 | 2018-11-23 | 广西大学 | 一种基于XGBoost的RFID室内定位系统及方法 |
CN109801100A (zh) * | 2018-12-26 | 2019-05-24 | 北京达佳互联信息技术有限公司 | 广告投放方法、装置和计算机可读存储介质 |
Non-Patent Citations (6)
Title |
---|
Artificial agent: The fusion of artificial intelligence and a mobile agent for energy-efficient traffic control in wireless sensor networks;Jiayi Lu et al.;《Future Generation Computer Systems》;20181228;全文 * |
Partially Detected IntelliEnvironmental Adaptationgent Traffic Signal Control:Environmental Adaptation;Rusheng Zhang et al.;《2019 18th IEEE International Conference on Machine Learning and Applications (ICMLA)》;20200217;全文 * |
RFID系统多阅读器防碰撞问题研究;李雪 等;《重庆交通大学学报(自然科学版)》;20120630;第31卷(第3期);全文 * |
基于Whittle索引的RFID多阅读器信道资源分配算法;石静 等;《计算机科学》;20190813;第46卷(第10期);全文 * |
基于异步优势动作评价的RFID室内定位算法;李丽 等;《计算机科学》;20200215;第47卷(第2期);全文 * |
基于强化学习的RFID多阅读器防碰撞算法研究;袁源;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111414775A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414775B (zh) | 一种rfid标签接入的多阅读器防碰撞方法、装置和设备 | |
EP3690767A1 (en) | Method and apparatus for determining risk management decision-making critical values | |
CN110378218A (zh) | 一种图像处理方法、装置及终端设备 | |
US9020264B2 (en) | Image management device, image management method, program, recording medium, and integrated circuit | |
CN112232426B (zh) | 目标检测模型的训练方法、装置、设备及可读存储介质 | |
US20160117588A1 (en) | Prediction function creation device, prediction function creation method, and computer-readable storage medium | |
EP3961384A1 (en) | Automatic derivation of software engineering artifact attributes from product or service development concepts | |
CN111160140B (zh) | 一种图像检测方法及装置 | |
US8850368B2 (en) | Double patterning technology (DPT) layout routing | |
US9866440B2 (en) | Recording medium, handling method generation method, and information processing apparatus | |
CN109446869B (zh) | Rfid系统的防碰撞方法、装置、计算机可读存储介质及设备 | |
CN107729848A (zh) | 对象检测方法及装置 | |
US20210406600A1 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
JPWO2006070462A1 (ja) | タグ抽出装置、タグ抽出方法およびタグ抽出プログラム | |
CN110705531A (zh) | 缺失字符检测、缺失字符检测模型的建立方法及装置 | |
US11922578B2 (en) | Method for adjusting point cloud density, electronic device, and storage medium | |
CN106649210B (zh) | 一种数据转换方法及装置 | |
CN110059991A (zh) | 仓库选品方法、系统、电子设备和计算机可读介质 | |
CN112364916A (zh) | 基于迁移学习的图像分类方法、相关设备及存储介质 | |
US11410123B2 (en) | Article placement optimization system and article placement optimization method | |
US20170185506A1 (en) | Data flow programming of computing apparatus with vector estimation-based graph partitioning | |
Ai et al. | Anti‐collision algorithm based on slotted random regressive‐style binary search tree in RFID technology | |
US20150277435A1 (en) | Computing apparatus and computing method | |
CN110909908A (zh) | 一种用于物品拣选时长预测的方法和装置 | |
US10515300B2 (en) | High speed serial links for high volume manufacturing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |