CN102868972B - 基于改进q学习算法的物联网错误传感器节点定位方法 - Google Patents

基于改进q学习算法的物联网错误传感器节点定位方法 Download PDF

Info

Publication number
CN102868972B
CN102868972B CN201210325619.0A CN201210325619A CN102868972B CN 102868972 B CN102868972 B CN 102868972B CN 201210325619 A CN201210325619 A CN 201210325619A CN 102868972 B CN102868972 B CN 102868972B
Authority
CN
China
Prior art keywords
node
value
action
learning
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210325619.0A
Other languages
English (en)
Other versions
CN102868972A (zh
Inventor
范新南
卞辉
史鹏飞
张继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Nanrui Technology Co ltd
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201210325619.0A priority Critical patent/CN102868972B/zh
Publication of CN102868972A publication Critical patent/CN102868972A/zh
Application granted granted Critical
Publication of CN102868972B publication Critical patent/CN102868972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于改进Q学习算法的物联网错误传感器节点定位方法,其是通过对传统Q学习方法进行改进,使计算得到的Q值对传感器节点的剩余能量,路由选择,传输跳数等特征信息自适应变化,通过最大Q值建立路由路径,同时后台服务器计算出网络拓扑结构,当节点受到攻击或产生错误数据时,通过对比下一周期该节点的Q值,设定误差范围,超出范围时我们判定该节点为错误节点,并对其进行定位。本发明不需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,也具有较高的鲁棒性;其具有智能化、能耗少及自适应程度高等优点,不仅可用于传感器节点的路由、定位以及能耗性能评估,还可以对未知错误节点进行准确定位,具有广泛的应用价值。

Description

基于改进Q学习算法的物联网错误传感器节点定位方法
技术领域
本发明属于物联网公共安全领域,具体涉及一种改进的强化学习算法应用到无线传感网络的错误节点定位。
背景技术
物联网(TheInternetofThings)是一种虚拟网络与现实世界实时交互的新型系统,其无处不在的数据感知,以无线为主的信息传输,智能化的信息处理,虽然有利于提高社会效率,但也引起大众对信息安全和隐私保护问题的关注。其中,无线传感器网络(WirelessSensorNetwork,WSN)是物联网重要的组成部分,传感器节点暴露在公开场合中,与有线网络相比,依赖于无线的传感器网络更容易受到各种安全威胁,例如节点受害,路由毁坏,错误信息注入以及周期性的发送攻击脉冲等。
随着物联网的发展,传感器定位技术已开始得到广泛的应用与发展,典型的WSN定位技术有接收信号强度指示(ReceivedSignalStrengthIndicator,RSSI)、基于到达时间(TimeofArrival,TOA)、基于到达时间差(TimeDifferenceonArrival,TDOA)和基于到达角度(AangleofArrival,AOA)等方法.然而基于RSSI的定位结果常不稳定,故应用性受到一定限制.为了解决这一问题,研究者们已提出了众多改进策略和算法.近年来,借助机器学习对定位机制进行建模和算法设计已成为一个研究热点之一.该类方法的实质是将传感器定位过程视为一个机器学习问题,通过深入挖掘可用传感数据所隐含的信息(如网络拓扑结构、数据的非线性关系等),学习并建立一个从信号空间到物理空间的映射,而后运用该映射估计出未知节点的位置坐标,从而实现定位.然而,尽管已经发展出众多定位算法和模型,但多是针对源节点和具有已知特征的目标节点的定位,针对未知特征的错误传感器节点的定位研究还较为罕见,尤其在国内,几乎是空白。
Q学习是一种与模型无关的强化学习算法,其迭代时采用状态-动作对的奖赏和Q(s,a)作为估计函数,通过试错(trialanderror)来与环境进行交互,当Agent的某个动作导致环境正的奖赏时,则Agent以后执行该动作的趋势便会加强;反之Agent产生这个动作的趋势减弱。相对传统的Q学习,一维的状态-动作对只解决了无线传感网络的路由问题,奖赏函数较为单一且固定不变,对错误节点无法进行准确定位,需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,鲁棒性较低。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种基于改进Q学习算法的物联网错误传感器节点定位方法,通过改进Q学习算法方法计算出网络的拓扑结构,综合考量传感器节点的能量信息,路由选择,与目标节点距离等因素,对错误节点进行准确定位,不需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,也具有较高的鲁棒性。
为了实现上述目的,本发明是通过如下的技术方案来实现:
基于改进Q学习算法的物联网错误传感器节点定位方法,其步骤包括如下:
1.将物联网的传感器节点抽象成具有一定属性信息的Agent节点,包括源节点和汇聚节点(sink节点)。各个传感器节点组成系统的感知模块,在控制信息里记录该传感器节点的剩余能量,下一跳的路由选择,与sink节点的距离等属性信息。考虑到这些网络状态的特征信息可以人为定义,那么可以把其定义为一个数值,这样反馈信息传送需要的能量和传输产生的时延可以忽略不计。Sink节点和源节点通过网关网桥连接进入以太网,与后台服务器进行数据传输与计算,服务器具有较好的计算能力。因为在每个周期中对控制信息的Q值计算过程都是通过后台服务器来完成,对传感器节点的能量消耗几乎不产生影响。
2.将Q学习与Agent概念相结合,在离散时间、有限状态、有限动作集合的环境下,使Agent所获得的累积折扣回报最大化。相对于传统的稀疏型奖惩函数,本系统采用密集型的启发式奖赏函数,将目标任务分成不同的子任务(例如能耗最少,路径最优,跳数最少),不同的子任务达到目标时有不同的奖赏值,对各个子任务的奖赏值加权求和,定义强化学习下状态改变的奖惩函数R′。要使得算法中的Q值收敛,定义的奖惩函数必须是有界函数。
3.后台服务器应用改进的Q学习算法,组成系统的定位决策模块。系统采用多汇聚节点传感网,相对于单汇聚节点传感网,多汇聚节点减少了传感节点到Sink节点的平均距离,减少相应的跳数,能更加均衡地消耗能量,并且避免了汇聚节点失效时整个网络无法进行恢复连接的问题。汇聚节点Sinkk以一定的周期向邻居Agent广播学习评估消息,启动路径建立过程。学习评估消息中包含Agent的回报值、Q评估值、能量信息以及路由信息。
4.定义强化学习的状态集S′={S2,S3,...,Sn},动作集A(i)={a1,a2,...,an}。Si表示第i个传感器节点,n为最大传感器个数,动作集表示各传感器节点之间可能进行的传输跳跃;初始化Q学习参数,包括学习速率、折扣因子、Q值等。
5.动作选择策略采用Boltzmann策略,通过执行动作a得到新的状态s',同时从环境得到回报值R′,Boltzmann动作选择策略公式为:
P r ( a | s , Q ) = e Q ( s , a ) / τ Σ a ′ ∈ A e Q ( s , a ) / τ ;
其中,τ是一个正的参数,用它来控制搜索率。大的退火温度参数使得各个行为有着近似相等的概率,小的退火温度参数就使得较大的Q值函数有较大的选择概率。
6、根据Q学习中的Q值公式进行Q值的计算与更新,Q值公式为:
Q ( i , s t , a t ) = Q ( i , s t , a t ) + α ( R ′ + γ max a t + 1 ∈ A ( s t + 1 ) Q ( i , s t + 1 , a t + 1 ) - Q ( i , s t , a t ) ) ;
其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数,i是目标任务的子任务数。,Agent在状态St采用动作at,将会使状态变为St+1,同时收到启发式奖赏函数R。Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。
7、一次学习过程结束,更新Q值后进入下一个学习过程,直到Q值收敛,后台服务器计算出每个传感器节点的最大Q值,根据Q值建立基于能量,路径,跳数平衡的最优路径,绘制相对于源节点位置的网络拓扑图,同时记录下各传感器节点的Q值,剩余能量,路由选择,与汇聚节点间跳数等信息。
8、当传感器节点受到攻击或产生错误数据等情况时,节点的能量状态和路由选择往往发生较大变化,通过对比下一周期计算得到的错误传感器节点的Q值、剩余能量、路由选择等信息,在一定误差范围内,对错误传感器节点准确定位。同时,在强化学习过程中,Agent在一定时间内没有收到邻居节点的环境反馈值时,判断该邻居节点为错误节点。
本发明具有灵活性、适应性、鲁棒性高的优点,通过将物联网传感器节点抽象成具有一定属性的Agent,并利用改进强化学习系统的智能性,建立基于改进Q学习算法的物联网错误传感器节点定位系统,可用于传感器节点的路由、定位以及能耗性能评估,通过该系统可以对错误节点进行准确定位,具有广泛的应用价值。本发明与现有技术相比,其具有如下优点:
(1)、本发明不需要知道无线传感网络的拓扑结构,在强化学习过程中,通过不断试错找到一条最优路径,同时在后台服务器计算得出网络拓扑结构和各个传感器节点相对源节点的位置。当传感器节点移动时,系统的自适应能力强,传感器的初始参数对系统的影响不大;
(2)、通常在强化学习策略选择过程中使用贪心算法,虽然强调了优化选择的“利用性”,但是忽略的了“探索性”,容易陷入局部最优。本发明各个Agent采用Boltzmann策略选择动作,解决了“利用性”与“探索性”两难的问题,并结合模拟退火算法的温度控制分布的随机性和贪心性的折中度;
(3)、相对于传统强化学习中采用稀疏式奖赏函数,本发明采用密集型的启发式奖赏函数,对学习任务进行分层,奖赏函数随着无线传感网络的路由选择,能量状态,传输跳数等特征信息自适应变化,大大提高了系统的智能性;
(4)、对错误节点的定位是后台服务器根据控制信息的参数计算得出的,无需在传感器节点额外安置定位设备。整个强化学习的计算过程都是通过sink节点连接的后台服务器进行的,几乎不影响传感器节点的能量消耗。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明的无线传感网络感知层布局图;
图2为本发明的Q学习的状态-动作Q值选择图;
图3为本发明的Q学习总体结构图;
图4为本发明的工作流程图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
图1为实施本发明的无线传感网络感知层布局,本发明采用多Sink汇聚节点的布局,图中虚线为不稳定的通信链路,假定各传感器节点的位置未知,只知道源节点的坐标位置。当错误节点的能量状态,路由选择发生变化时,如何自适应地计算路由并对该节点进行定位是本发明研究的重点。通过对传统Q学习方法进行改进,使计算得到的Q值对传感器节点的剩余能量,路由选择,传输跳数等特征信息自适应变化,通过最大Q值建立路由路径,同时后台服务器计算出网络拓扑结构,当节点受到攻击或产生错误数据时,通过对比下一周期该节点的Q值,设定误差范围,超出范围时我们判定该节点为错误节点,并对其进行定位。考虑到网络状态的特征信息可以人为定义,那么可以把其定义为一个数值,这样反馈信息传送需要的能量和传输产生的时延可以忽略不计。同时,当无线传感网络拓扑结构发生变化,系统也具有较高的鲁棒性。
本发明应用的改进强化学习算法如图2,图3所示,将无线传感器节点抽象成具有一定属性的Agent,Agent通过与外界环境(节点能量,节点与汇聚节点间跳数,下一跳选择等)交互,获得状态s,执行动作a,并获得回报值函数R′(奖励或惩罚);如果系统某个动作导致环境反馈的奖励值增强,那么系统以后产生这个动作的趋势便会加强;反之系统产生这个动作的趋势便减弱。根据状态s、动作a、回报值R′三个要素即可计算(或更新)Q值,将得到的Q输入决策模块中,使系统做出最优决策。同时,Q值随节点剩余能量,路由选择,传输跳数而自适应变化,当下一周期收到的学习评估信息中Q值产生较大波动时,根据其记录的S状态信息判断错误节点的位置。
为详细说明上述方法,本实施例的基于改进Q学习算法的物联网错误传感器节点定位方法,其具体流程如附图4所示,包括如下步骤:
(a)、将物联网传感器节点抽象成具有一定属性的自治Agent,包括汇聚节点和源节点;使强化学习与Agent概念相结合,令S={s1,s2,...sn,Sink1,Sink2,Sink3}表示无线传感网中所有传感器节点的集合,假设S1为数据传输的源节点,则潜在的目的节点集合S={S2,S3,...,Sn}即作为Q学习中的环境状态集,a是第i个Agent可用的动作集,其中,0≤i≤N,N为最大Agent数.
(b)、源节点与汇聚节点通过有线或者无线的方式与后台服务器相连,后台服务器具有较好的计算能力.汇聚节点Sinkk以一定的周期向邻居Agent(邻居节点)广播学习评估消息,启动路径评估过程;学习评估消息中包含Agent的回报值、Q评估值及能量信息;考虑到这些网络状态的特征信息可以人为定义,那么可以把其定义为一个数值,这样反馈信息传输需要的能量和传输产生的时延可以忽略不计。初始化Q学习算法的参数,包括学习速率、折扣因子、Q值;
(c)、将目标任务进行划分为多个子任务,即能耗最少,路径最优,跳数最少;不同的子任务有不同的奖赏值,通过加权求和定义奖赏函数R′;
(d)、各个Agent通过感知模块获得当前状态s的能量信息,相对源节点的位置信息,路由信息等,并根据动作选择策略选择当前状态s下最优动作;动作选择策略采用Boltzmann动作选择策略,通过策略执行动作到达新的状态s',同时从环境得到反馈回报值R′;Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值。
(e)、根据改进Q学习算法中的Q值计算公式进行Q值的计算与更新;
(f)、汇集节点不断向邻居节点广播学习评估消息,邻节点根据动作选择策略向下一个节点广播学习评估消息直到抵达源节点,一次学习过程结束,更新Q值后进入下一个学习过程,直到Q值收敛,得到最优决策;这样从各个sink节点到源节点的各传感器节点的Q值就逐步的迭代出来,记录最大Q值和最大Q值所对应的最佳动作;Q值随节点剩余能量,路由选择,传输跳数而自适应变化,从而在后台服务器中计算出各传感器节点相对源节点的网络拓扑结构.
(g)、当下一周期计算得到的Q值与当前的Q值出现较大偏差时,对该传感器节点的路由选择,能量消耗等特征信息进行考察,根据Q值和网络拓扑结构对错误传感器节点进行定位;同时,在强化学习过程中,Agent在一定时间内没有收到邻居节点的环境反馈值时,我们判断该邻居节点为错误节点。
本发明基于改进Q学习算法的物联网错误传感器节点定位方法,采用启发式奖赏函数的分层强化Q学习,兼顾了传感器节点能量,跳数,距离等特征问题,优化路径的同时在后台服务器计算出网络拓扑结构。实验表明,当传感器节点受到攻击或产生错误数据等情况时,节点的能量状态和路由选择将产生较大变化,而本发明通过改进Q学习算法方法计算出网络的拓扑结构,综合考量传感器节点的能量信息,路由选择,与目标节点距离等因素,对比一定周期内的节点数据来准确定位错误传感器节点。其不需要额外消耗传感器节点能量,当无线传感网络拓扑结构发生变化时,同时也具有较高的鲁棒性。
基于上述,本发明主要包括感知模块,学习模块,定位决策模块。感知模块记录各个传感器节点的剩余能量,离汇聚节点的传输跳数,路由选择等参数;学习模块将学习任务分为路径最优,能耗最少,跳数最少三个子任务,各个子任务有不同的奖赏值;利用改进Q值公式计算每个学习任务状态动作对的最大报酬值,并使得节点的最大Q值随着节点的剩余能量,路由选择,传输跳数而自适应变化,通过后台服务器计算出网络的拓扑结构和传输路径。定位决策模块根据对下一周期收到的错误节点的能量,路由选择等状态信息进行判断定位。本专利具有智能化、能耗少及自适应程度高等优点,不仅可用于传感器节点的路由、定位以及能耗性能评估,还可以对未知错误节点进行准确定位,具有广泛的应用价值。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.基于改进Q学习算法的物联网错误传感器节点定位方法,其特征在于,其步骤包括:
(a)、将物联网传感器节点抽象成具有一定属性的自治Agent,包括汇聚节点和源节点;使强化学习与Agent概念相结合;
(b)、源节点与汇聚节点通过有线或者无线的方式与具有较好计算能力的后台服务器相连,汇聚节点以一定的周期向邻居节点广播学习评估消息,启动路径评估过程;学习评估消息中包含Agent的回报值、Q评估值及能量信息;初始化Q学习算法的参数包括学习速率、折扣因子、Q值;
(c)、将目标任务进行划分为多个子任务,即能耗最少,路径最优,跳数最少;不同的子任务得到环境不同的奖赏值,通过加权求和定义奖赏函数R′,即环境的回报值;
(d)、各个Agent通过感知模块获得当前状态s的能量信息,并根据动作选择策略选择当前状态s下的最优动作;动作选择策略采用Boltzmann动作选择策略,通过策略执行动作到达新的状态s',同时从环境得到环境的回报值R′;Agent需要反复尝试每个状态动作对以获得每个状态动作对的最优Q值;
(e)、根据改进Q学习算法中的Q值计算公式进行Q值的计算与更新;
(f)、汇集节点不断向邻居节点广播学习评估消息,邻居节点根据动作选择策略向下一个节点广播学习评估消息直到抵达源节点,一次学习过程结束,更新Q值后进入下一个学习过程,直到Q值收敛,得到最优决策;从各个汇聚节点到源节点的各传感器节点的Q值就逐步的迭代出来,记录最大Q值和最大Q值所对应的最佳动作;Q值随节点剩余能量,路由选择,传输跳数而自适应变化,从而在后台服务器中计算出各传感器节点相对源节点的网络拓扑结构;
(g)、当下一周期计算得到的Q值与当前的Q值出现较大偏差时,对该传感器节点的路由选择,能量消耗的特征信息进行考察,根据Q值和网络拓扑结构对错误传感器节点进行定位;同时,在强化学习过程中,Agent在一定时间内没有收到邻居节点的环境反馈值时,判定该邻居节点为错误节点;
在所述步骤(c)中,上述奖赏函数R′计算方式如下:
提取特征值,设能耗特征值为n能耗,路径特征值为n路径,跳数特征值为n跳数,对不同子任务设定不同的权重w能耗,w路径,w跳数,则定义目标任务的奖赏函数为:
R′=w能耗×n能耗+w路径×n路径+w跳数×n跳数(1);
在步骤(d)中,所述Boltzmann动作选择策略公式为:
P r ( a | s , Q ) = e Q ( s , a ) / τ Σ a ∈ A e Q ( s , a ) / τ - - - ( 2 )
其中Q为行为的值函数,根据公式(2)可以看出,行为的选择取决于该状态-行为对的Q值函数和参数τ,其中τ是一个正的参数,称为退火温度参数,用来控制搜索率,a表示动作,Pr为Boltzmann动作选择策略;
在所述步骤(e)中,改进Q学习算法中的Q值计算公式为可迭代计算的Q函数:
Q ( s t , a t ) = Q ( s t , a t ) + α ( r t + 1 max a t + 1 ∈ A ( s t + 1 ) Q ( s t + 1 , a t + 1 ) - Q ( s t , a t ) ) - - - ( 3 )
对公式(3)中的奖赏函数rt+1进行改进,将学习任务分为i个子任务,即能耗,跳数,路由子任务,更新公式(3)得:
Q ( i , s t , a t ) = Q ( i , s t , a t ) + α ( R ′ + γ m a x a t + 1 ∈ A ( s t + 1 ) Q ( i , s t + 1 , a t + 1 ) - Q ( i , s t , a t ) ) - - - ( 4 )
其中α∈(0,1)是学习速率,γ∈(0,1)是折扣系数,A(st+1)是状态st+1对应的动作集;Agent在状态st采用动作at,将会使状态变为st+1,同时收到奖赏函数R′;为了获得每个状态动作对的最优Q值,Agent需要反复尝试每个状态动作对,从而达到能量,路由,跳数之间的最优平衡,A是第i个Agent可用的动作集;
上述公式(2)选择状态S下的最佳动作,得到下一时刻状态,并获得从环境得到的反馈值R′,利用Q值更新公式(4)不断对Q值进行更新,最终得到最优路径,从而在后台服务器计算出相对源节点的网络拓扑图。
2.根据权利要求1所述的基于改进Q学习算法的物联网错误传感器节点定位方法,其特征在于:在所述步骤(a)中,将人工智能领域中的Agent技术应用到无线传感网络中,并将每个Agent赋予一定的属性。
CN201210325619.0A 2012-09-05 2012-09-05 基于改进q学习算法的物联网错误传感器节点定位方法 Active CN102868972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210325619.0A CN102868972B (zh) 2012-09-05 2012-09-05 基于改进q学习算法的物联网错误传感器节点定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210325619.0A CN102868972B (zh) 2012-09-05 2012-09-05 基于改进q学习算法的物联网错误传感器节点定位方法

Publications (2)

Publication Number Publication Date
CN102868972A CN102868972A (zh) 2013-01-09
CN102868972B true CN102868972B (zh) 2016-04-27

Family

ID=47447519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210325619.0A Active CN102868972B (zh) 2012-09-05 2012-09-05 基于改进q学习算法的物联网错误传感器节点定位方法

Country Status (1)

Country Link
CN (1) CN102868972B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914560B (zh) * 2014-04-16 2017-01-18 中国科学院合肥物质科学研究院 一种用于农资电子商务的基于Q学习的多agent主动推荐方法
CN103974366B (zh) * 2014-04-28 2017-08-01 南京邮电大学 一种基于增强学习的无线体域网路由方法
CN105119733B (zh) * 2015-07-06 2019-01-15 百度在线网络技术(北京)有限公司 人工智能系统及其状态跳转方法、服务器、通信系统
US10516738B2 (en) 2015-09-25 2019-12-24 Intel Corporation Sensor lifecycle management system
CN105897585B (zh) * 2016-04-11 2019-07-23 电子科技大学 一种自组织网络基于时延约束的q学习分组传输方法
CN108476084B (zh) * 2016-12-02 2020-05-08 华为技术有限公司 Q学习中调整状态空间边界的方法和装置
CN106843220B (zh) * 2017-02-27 2019-10-18 同济大学 一种多Agent围捕-觅食行为控制方法
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN108387866B (zh) * 2018-01-16 2021-08-31 南京航空航天大学 一种基于强化学习的无人机查找非法广播电台方法
CN108418800B (zh) * 2018-02-01 2020-08-04 国网江苏省电力有限公司苏州供电分公司 基于资格迹和在线更新式的电力信息系统安全策略系统
CN108737266B (zh) * 2018-04-28 2021-02-12 国网江苏省电力有限公司苏州供电分公司 基于双估计器的动态路由选择方法
CN109352648B (zh) * 2018-10-12 2021-03-02 北京地平线机器人技术研发有限公司 机械机构的控制方法、装置和电子设备
CN109547351B (zh) * 2019-01-22 2020-04-14 西安电子科技大学 Ad Hoc网络中基于Q学习和信任模型的路由方法
CN109951392B (zh) * 2019-01-31 2021-07-02 武汉大学 一种基于深度学习的中大型网络智能路由选择方法
CN110337082B (zh) * 2019-04-22 2020-09-01 北京邮电大学 基于环境的家禽饲养监测传感网络的发送速率调整方法
CN110515735A (zh) * 2019-08-29 2019-11-29 哈尔滨理工大学 一种基于改进q学习算法的多目标云资源调度方法
CN110719201B (zh) * 2019-10-12 2022-04-12 西安邮电大学 基于强化学习的分布式自适应稳定拓扑生成方法
CN110753384B (zh) * 2019-10-12 2023-02-03 西安邮电大学 基于自适应边界的分布式强化学习稳定拓扑生成方法
CN110807230B (zh) * 2019-10-29 2024-03-12 天津大学 一种自主学习优化物联网拓扑结构鲁棒性的方法
CN110768906B (zh) * 2019-11-05 2022-08-30 重庆邮电大学 一种面向sdn网络基于q学习的节能路由方法
CN111221731B (zh) * 2020-01-03 2021-10-15 华东师范大学 一种快速获取到达程序指定点测试用例的方法
CN111669286B (zh) * 2020-05-13 2023-04-07 深圳市三旺通信股份有限公司 一种网管系统中拓扑图树形布局生成方法
CN113347104A (zh) * 2021-05-31 2021-09-03 国网山东省电力公司青岛供电公司 基于sdn的配电物联网路由选择方法及系统
CN118449962B (zh) * 2024-07-08 2024-09-20 深圳市迈迪杰电子科技有限公司 一种微型计算机的数据交互方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207928A (zh) * 2011-06-02 2011-10-05 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101329059B1 (ko) * 2009-11-12 2013-11-14 한국전자통신연구원 무선 센서 네트워크에서 패킷 데이터의 전송 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207928A (zh) * 2011-06-02 2011-10-05 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Q学习的无线传感器网络自组织方法研究;章韵等;《传感技术学报》;20101130;第23卷(第11期);第1623-1626页 *

Also Published As

Publication number Publication date
CN102868972A (zh) 2013-01-09

Similar Documents

Publication Publication Date Title
CN102868972B (zh) 基于改进q学习算法的物联网错误传感器节点定位方法
Alam A reliable framework for communication in internet of smart devices using IEEE 802.15. 4
Hao et al. A stable and energy-efficient routing algorithm based on learning automata theory for MANET
Pradhan et al. Connectivity constrained wireless sensor deployment using multiobjective evolutionary algorithms and fuzzy decision making
Zhang et al. A kind of new method of intelligent trust engineering metrics (ITEM) for application of mobile ad hoc network
CN103314543A (zh) 对用于优化无线通信系统的操作的动态环境参数的预测
Ray et al. An energy efficient sensor movement approach using multi-parameter reverse glowworm swarm optimization algorithm in mobile wireless sensor network
Mirza et al. Real-time collaborative tracking for underwater networked systems
Xia et al. Cluster-enabled cooperative scheduling based on reinforcement learning for high-mobility vehicular networks
Kaur et al. Obstacle-aware intelligent fault detection scheme for industrial wireless sensor networks
Qiao et al. Dynamic self-organizing leader-follower control in a swarm mobile robots system under limited communication
Jia et al. A high accuracy localization algorithm with DV-Hop and fruit fly optimization in anisotropic wireless networks
Dubey et al. Optimal path selection using reinforcement learning based ant colony optimization algorithm in IoT-Based wireless sensor networks with 5G technology
Jiao et al. Delay-sensitive energy-efficient routing scheme for the Wireless Sensor Network with path-constrained mobile sink
Chilamkurthy et al. Energy-Efficient and QoS-Aware Data Transfer in Q-Learning-Based Small-World LPWANs
Wang et al. Coverage control optimization algorithm for wireless sensor networks based on combinatorial mathematics
CN110401955A (zh) 一种移动网络恶意节点检测方法及系统
Barshandeh et al. A learning-based metaheuristic administered positioning model for 3D IoT networks
Wakgra et al. Multi-Objective Offloading Optimization in MEC and Vehicular-Fog Systems: A Distributed-TD3 Approach
Mughal et al. An intelligent Hybrid‐Q Learning clustering approach and resource management within heterogeneous cluster networks based on reinforcement learning
Silva et al. Energy-efficient node position identification through payoff matrix and variability analysis
Geraldo Filho et al. An energy-aware system for decision-making in a residential infrastructure using wireless sensors and actuators
Zhang et al. A coverage and obstacle-aware clustering protocol for wireless sensor networks in 3D terrain
Devika et al. AI-WSN: direction of arrival estimation based on Bee swarm optimization for wireless sensor networks
Bouarafa et al. Reduction of energy consumption in WSN using the Generalized Pythagorean Theorem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210312

Address after: 210019 room 1610, building 3, JIAYE international city, 158 Lushan Road, Jianye District, Nanjing City, Jiangsu Province

Patentee after: Jiangsu Nanrui Technology Co.,Ltd.

Address before: 213022, No. 200 Jinling North Road, Jiangsu, Changzhou

Patentee before: CHANGZHOU CAMPUS OF HOHAI University

TR01 Transfer of patent right