CN113225260B

CN113225260B - 一种基于机器学习的混合聚类机会路由实现方法

Info

Publication number: CN113225260B
Application number: CN202110463355.4A
Authority: CN
Inventors: 周军海; 吴海涵; 秦拯
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-11-18
Anticipated expiration: 2041-04-25
Also published as: CN113225260A

Abstract

本发明设计了一种基于机器学习的混合聚类机会路由实现方法。其发明内容主要包括：(1)基于混合聚类算法的热点位置估计模型；(2)基于DBSCAN算法的子社区划分；(3)基于消息状态的冗余副本清除机制；(4)基于节点多社区属性及中心度的消息转发策略。本发明从节点的社会性、规律性等角度出发，构建热点位置估计模型来计算节点的热点位置，并对热点位置进行聚类得到簇，一个节点由于拥有多个热点位置，可能同属于多个簇，即多个社区。在消息传递过程中，本发明充分利用节点的多社区特性以及中心度来决策下一跳路由，同时设定冗余副本清除机制来减少消息的无效传递，避免资源浪费。

Description

一种基于机器学习的混合聚类机会路由实现方法

技术领域

本发明涉及机器学习领域和无线通信技术领域，一种基于机器学习的混合聚类机会路由实现方法。

背景技术

随着无线技术的进步，各种小巧、智能的移动终端设备得以广泛应用，由于机会网络不要求端到端之间建立完整的通信路径，而是利用节点移动带来的通信机会进行消息传递等特点，成为了通信领域的研究热点。但因为节点的频繁移动，拓扑结构动态变化，没有稳定的端到端消息转发路径，如何使消息高效、低迟延地传递至目的节点成为了机会网络研究中的热点问题之一。

车联网是由车和具有短距离通信能力的移动终端设备所组成的网络，属于机会网络的一类。它将传感器技术、短距离移动通信以及信息处理技术结合在一起，其本质是一种无中心的移动自组织网络。在消息传递中，往往不要求源节点与目的节点之间存在完整的通信路径，而是利用节点移动带来的相遇机会来实现消息传递。这种以人为载体的移动网络中，节点往往具有一定的社会性、规律性。具体表现在：

(1)节点因具有相同的兴趣、社会地位等形成相对稳定且相互依赖关系，从而呈现节点社区化现象。在社区中，节点之间联系紧密、相遇频繁、接触时间长，而在社区外，节点相遇概率低；

(2)节点每天大部分时间都会呆在少数几个位置，且按一定时间周期频繁地在这些位置上移动，偶尔访问其他位置，当在这些位置移动时，节点习惯于沿着相同路径移动，且移动模式相同。

基于此，本发明从节点的社会性、规律性等角度出发，提出一种基于机器学习的混合聚类机会路由实现方法。与其他路由算法相比，主要不同在于：

(1)其他路由算法主要考虑节点移动相遇的一小段时长，而本发明考虑的是节点停留接触时间，与其他算法相比，通信更长，更稳定；

(2)其他基于社区的路由算法只考虑节点属于单个社区的场景，而本发明基于热点位置估计模型计算出节点的热点位置，并根据热点位置进行聚类，给节点划分多个社区，更符合现实场景；

(3)在传递消息时，提出基于节点多社区属性以及中心度的数据传输机制，此机制具有较高的传输性能，同时设定冗余副本清除机制来减少消息传输，避免资源浪费，很大程度上降低了网络开销。

发明内容

本发明提出了一种基于机器学习的混合聚类机会路由实现方法，主要包括四大内容：

(1)基于混合聚类算法的热点位置估计模型；

(2)基于DBSCAN算法的子社区划分；

(3)基于消息状态的冗余副本清除机制；

(4)基于节点多社区属性及中心度的消息转发策略。

具体内容如下：

(1)基于混合聚类算法的热点位置估计模型。

用户的移动行为看似具有很强的随机性，乃至研究人员将用户移动模型称为随机游走模型。但研究表明，用户的移动行为并不随机，具有高度规则性，见附图1所示，且大都遵循如下模式：

1.用户每天大部分时间都会呆在少数几个位置，如住址，公司等；

2.大多数用户以天为周期频繁地在这些位置上移动，偶尔访问其他位置；

3.当在这些位置移动时，用户习惯于沿着相同路径移动，且移动模式相同。

用户每天往返的地点相对比较固定，加上用户大部分时间都是静止不动的，这里将这种停留时间较长，访问次数较多的地点称为用户的热点位置，且每个用户都有一个或多个热点位置。

由于不同用户访问时产生的数据集有所差异，根据DBSCAN算法确定的访问地点，无法合理地判断地点的实际大小。为了均一化用户访问地点的大小，本发明利用簇中心点来代表热点位置，而DBSCAN算法无法计算出簇中心点，因此，本发明采用K-means算法来计算中心点。

K-means算法的对象相似性是根据对象间的距离来确定的，通过迭代计算对象与质心间的距离，并更新质心位置，最终得到若干个结果簇。但不足的是，K-means算法需要预先估计k值，k值的不正确可能导致聚类结果的不准确，而k值的确定往往比较困难。

因为DBSCAN算法只需要设置少量参数就可以将数量不够、密度过小的数据点过滤掉，确定聚类块数，可以解决k值难以选取的问题。因此，本发明结合DBSCAN算法与K-means算法的优势，设计一种混合聚类算法来构建热点位置估计模型。首先利用DBSCAN算法确定聚类块数，解决k值设定问题，然后再利用K-means算法准确地计算出每个簇的质心，质心位置就是本发明所求的热点位置。

记用户的GPS轨迹数据集为P(x₁,x₂,…,x_n)，通过热点位置估计模型，将这n个数据划分到k个集合中(k≤n)，使得组内平方和最小，并计算出每个集合的中心点。具体描述如下：

1.输入参数ε，MinPts，通过DBSCAN算法确定聚类块数，即确定k值；

2.随机选取k个轨迹点作为聚类质心点；

3.对于轨迹数据集D中的每个数据，计算其应属于的类：

C_i＝min||x_i-u_j||²

C_i代表轨迹点i与k个类中距离最近的那个类，质心u_j表示对属于同一个类的样本中心点的猜测。

4.更新该类的质心：对该类中所有的轨迹点坐标求平均；

5.判断是否达到收敛条件，即质心不变或者变化很小，否则重复步骤3、4。

定义畸变函数：

J表示每个轨迹点到其质心的距离平方和，需要将J调整到最小。假设当前J没有达到最小值，那么可以固定每个类的质心u_j，调整每个轨迹点的所属类来让J函数减少，同样，也可以固定C_i，调整每个类的质心u_j使J减小。对某个用户的热点位置计算，其热点位置估计模型的聚类效果对比见附图2所示。

(2)基于DBSCAN算法的子社区划分。

每个用户都存在一个或多个热点位置，而不同用户之间可能存在相同的热点位置，或者说两者热点位置相隔较近。基于此，本发明采用聚类算法将热点位置进行聚类，使用户划分为不同的社区。

DBSCAN算法是基于一组邻域来描述样本集紧密程度的，参数(ε，MinPts)用来描述邻域样本的分布紧密程度，可以提取出ε领域内节点个数大于MinPts的簇，符合此应用场景。因此，本发明以DBSCAN算法为核心构建社区划分模型，来对节点的热点位置进行社区划分。

社区划分模型主要步骤：首先设定参数，采用DBSCAN算法对热点位置数据集进行聚类，节点按其热点位置不同，可能同属于多个社区。其次，以节点为目标对象，对聚类结果进行清洗归类，表示成(node_i,(C₁,…C_n))的格式。最后将归类后的数据存储，完成社区划分。其社区划分结果见附图3所示，具体伪码如表1所示。

表3-1社区划分算法

将热点位置数据集进行聚类，得到用户不同的热点位置可能属于不同社区，使一个用户同属于多个社区，更符合实际场景。

(3)基于消息状态的冗余副本清除机制。

由于其他基于社区的路由算法致力于将消息传递至目的节点，却很少考虑清除已投递消息的副本，任其在消息生存周期(TTL)内继续转发传递，这样往往会导致节点缓存被占用以及不必要的资源消耗。

因此，本发明针对消息副本残留问题，设定了冗余副本清除机制来减少不必要的消息传输。给每个节点设置一个消息清除列表ACK(所需要清除消息的摘要信息：消息ID，状态，TTL)。当两节点相遇时，相互交换节点的ACK列表，然后通过一定的策略从缓存中清除对应的消息副本。具体伪码如表2所示。

表2冗余副本清除机制

算法第2～6行表示：当消息成功传递至目的社区时，消息状态设为0，并将该消息加入到ACK中；当消息成功传递至目的节点时，消息状态设为1，并将该消息加入到ACK中。算法第7～14行表示：当任意两个节点相遇时，先互相交换ACK列表信息，然后根据状态将不在目的社区中的消息副本，以及成功投递至目的节点的消息副本清除。算法第15～17表示：当ttl等于0，即ackMessage到期时，为节省ACK列表空间，删除该消息的ackMessage记录。

(4)基于节点多社区属性及中心度的消息转发策略。

由于其他基于社区的路由算法只考虑节点属于单个社区的情况，然后利用相遇节点双方到达目的社区的概率大小进行路由选择，没有考虑现实中节点同属于多个社区的场景，从而缩小了中继节点的选择范围，消息的转发机会受到抑制，对消息投递率和吞吐量有不利影响。当消息到达目的社区时，其他基于社区的路由算法会采用洪泛的方式将消息转发给每个相遇的节点，直到遇到目的节点。这种方式虽然能最大化报文传输的成功率，减少传输延迟，但会使网络中的消息副本数过多，增加网络开销。

为了提高消息投递率，降低网络负载，本发明充分利用节点多社区特性以及节点中心度来决策下一跳路由。

将时间窗口T内，所遇到的不同类型节点数N之和作为节点中心度。节点中心度越大，表示该节点接触面越广，节点越重要。

当两节点移动相遇时，相互交换节点的社区信息com(当前节点所属的社区集合)、节点的中心度信息cen(当前节点的中心度大小)以及消息列表mes(所携带消息的摘要信息：消息ID，目的节点，目的节点所属社区ID)，通过com+cen+mes信息来确定是否向对方转发消息。具体流程图见附图4所示，具体策略如下：

假设节点S的消息列表中存在消息m，其目的节点是D，节点D所属社区信息C_D＝{C₁,C₃,C₅}，当节点相遇邻居节点B，F时：

1.若C_B与C_D互异，即

而C_F与C_D有相同子集，即

则节点S将消息m转发给节点F。

2.若C_B、C_F都与C_D互异，即

且

则根据节点中心度信息来确定消息是否转发。当centrality_S≤MAX(centrality_B，centrality_F)时，节点S将消息m转发给中心度最大的邻居节点；否则，节点S继续移动，不转发消息。

3.若节点B，F都与节点D存在相同兴趣社区，即

且

则同样根据节点中心度信息来确定消息是否转发。

附图说明

图1为用户移动示例图。

图2为热点位置估计模型的聚类效果对比图。

图3为聚类社区划分图。

图4为本发明工作流程图。

具体实施方式

本发明是一种基于机器学习的混合聚类机会路由实现方法，具体步骤如下：

步骤一：热点位置的确定

由于用户的移动轨迹具有很强的规律性，如用户每天大部分时间都会呆在少数几个位置上，并且按照一定的时间周期在这些位置上移动，在移动过程中，用户当前的移动模式往往与过去相似。因此，结合DBSCAN算法与K-means算法的优势构建一个热点位置估计模型，用来确定用户的热点位置。

步骤二：子社区划分

由于每个用户都存在一个或多个热点位置，并且不同用户之间可能存在相同的热点位置，或者说两者热点位置相隔较近。因此，采用DBSCAN算法将热点位置进行聚类，节点因其热点位置不同，可能同属于多个社区。其次，以节点为目标对象，对聚类结果进行清洗归类，表示成(node_i,(C₁,…C_n))的格式。最后将归类后的数据存储，完成社区划分。

步骤三：冗余副本清除

当网络中冗余消息过多时，会导致节点缓存被占用，缓存丢包率增大，大大加重网络负载，影响网络性能。针对消息副本残留问题，给每个节点设置一个消息清除列表ACK。当两节点相遇时，相互交换节点的ACK列表，然后根据消息状态将不在目的社区中的消息副本，以及成功投递至目的节点的消息副本清除。

步骤四：消息传递

考虑到其他社区路由算法只考虑节点属于单个社区、且在社区内采用洪泛方式传递消息的局限性，本发明充分利用节点多社区特性以及节点中心度来决策下一跳路由。当两节点相遇时，根据节点的社区信息先判断邻居节点是否与目的节点同社区，若是，将消息转发，否则，比较两节点的中心点大小。若邻居节点的中心度大于本节点，将消息转发，否则，节点继续移动，不转发消息。

Claims

1.一种基于机器学习的混合聚类机会路由实现方法，其特征包括：

(1)建立基于混合聚类算法的热点位置估计模型；利用DBSCAN算法确定聚类块数k，利用K-means算法计算出每个簇的质心，质心位置为所求的热点位置，记用户的GPS轨迹数据集为P(x₁,x₂,…,x_n)，通过热点位置估计模型，将n个数据划分到k个集合中，k≤n，使得组内平方和最小，并计算出每个集合的中心点，具体步骤如下：

a.通过DBSCAN算法确定聚类块数k；

b.随机选取k个轨迹点作为聚类质心点；

c.对于轨迹数据集D中的每个数据，计算其应属于的类：

C_i＝min||x_i-u_j||²

其中，C_i代表轨迹点i与k个类中距离最近的类，u_j表示属于同一个类的质心；

d.更新该类的质心：对该类中所有的轨迹点坐标求平均；

e.判断是否达到收敛条件，即质心不变或者变化很小，否则重复步骤c、d；定义畸变函数：

其中J表示每个轨迹点到其质心的距离平方和，调整J到最小；

(2)采用DBSCAN算法将热点位置进行聚类，使用户划分为不同的社区；

(3)基于消息状态的冗余副本清除机制；给每个节点设置一个消息清除列表ACK，当两节点相遇时，相互交换节点的ACK列表，根据消息状态将不在目的社区中的消息副本，以及成功投递至目的节点的消息副本清除；

(4)基于节点多社区属性及中心度的消息转发策略；当两节点相遇时，根据节点的社区信息先判断邻居节点是否与目的节点同社区，若是，将消息转发，否则，比较两节点的中心度大小；若邻居节点的中心度大于本节点，将消息转发，否则，节点继续移动，不转发消息。