CN111160753B

CN111160753B - 一种基于知识图谱的路网节点重要性评估的方法

Info

Publication number: CN111160753B
Application number: CN201911357809.9A
Authority: CN
Inventors: 王璐; 齐恒; 申彦明
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2023-05-02
Anticipated expiration: 2039-12-25
Also published as: CN111160753A

Abstract

本发明公开了一种基于知识图谱的路网节点重要性评估的方法，属于图神经网络与城市交通规划技术交叉的领域。通过这一技术可以解决由于路网中的数据不够全面而无法对路网中所有节点进行重要性评估的问题。本发明首先从已有的轨迹数据中挖掘出路网中频繁拥堵的路段及其拥堵传播模式，并根据各路段拥堵传播概率图对各路段进行评分。其次，本发明构建对应区域的交通知识图谱，并在知识图谱上使用基于图神经网络的方法，对已知节点的分数及特征进行传播并利用轨迹数据对节点的重要性进行调整，从而预测出路网中其他节点的重要性。

Description

一种基于知识图谱的路网节点重要性评估的方法

技术领域

本发明属于图神经网络与城市交通规划技术交叉的领域，涉及一种基于图神经网络在交通知识图谱中评估路网中节点重要性的方法。

背景技术

快速发展的交通给人们带来了便利的同时，随之而来的还有许多无法忽略的问题，出行这一民生问题目前已经成为了一个瞩目的社会难题，而引起这些难题的主要则是交通中的拥堵所导致的一系列的问题。拥堵会在导致出行时间的增长，生态环境的恶化等一系列问题的同时，也成为了城市发展的瓶颈。因此，解决拥堵问题已经迫在眉睫。目前虽然已经有很多交通领域的方法用于解决这一问题，但是由于交通系统是一个复杂变化的系统，仅仅凭借专业领域知识去解决是远远不够的。而大数据时代则为我们提供了另一个很好的机会去解决这一问题。通过对交通路网中的过往数据进行学习，可以让我们建立起科学而有效的交通模型从而实现对交通系统的有效统筹。

在交通领域，通常认为交通拥堵是由交通路网的脆弱性所导致的，并且由于交通系统是一个动态的系统，当路网中的某个节点发生拥堵的时候，随着时间的迁移，拥堵的状态拥堵可能会向相邻的路段扩散。而且对于不同的路段，即使他们发生同样程度的拥堵也很可能会导致不同程度的后果，这是因为不同的道路有不同的拥堵传播模式。根据拥堵传播的这一特性，当路网中发生大范围的拥堵时，可以根据路段对周边范围的不同影响程度，来优先疏通影响范围大的路段。因此，要想解决区域拥堵问题，就需要掌握各条道路在路网中的重要性程度，而这个重要性程度则需要用拥堵传播的能力来定义，即，对于那些发生拥堵会对路网产生较大范围影响的路段认为其是路网中相对重要的节点。在评估出路网中不同道路节点重要性之后，当路网中发生拥堵而导致部分节点失效的时候，通过及时对重要程度高的节点采取相应的措施，可以避免路网中出现级联失效。除此之外，在对路网中设施进行升级的时候，同样也可以优先对路网中的重要程度高的节点进行升级。

目前的关键节点评估方法主要来源于复杂网络领域和交通领域。对于复杂网络领域的方法来说，由于没有面向交通网络的特点构建相应的模型，所以导致这些算法开销大、效率低。而对于交通领域知识驱动的方法来说，过于依赖领域知识会导致模型不够灵活，而无法考虑到现实交通场景中一些其他因素的影响，而过往的真实数据则可以反映出各种因素对于交通的直接而不易量化的影响。因此，通过真实的路网数据与交通领域知识结合，可以从数据中学到全面、真实的交通拥堵传播模型的同时与交通领域知识相结合，从而评估出路段中各节点重要程度。这种方法可以从多方面考量到交通的多种影响因素，但是由于本质上为数据驱动的方法，因此依旧受限于数据量这一瓶颈，而当数据量不足的时候数据驱动的方法的效率则会大幅下降。对于交通数据来说，由于传感器失效或者保护隐私等原因很有可能会遇到数据的缺失的情况，在这种情况下，可以通过半监督学习的方法对数据量充足的节点特征进行学习，从而预测出其他节点的重要性程度。同时，在选择半监督学习方法的时候，也应该选择适合交通领域的模型，这样才能更好地学习到交通路网中的特征。

发明内容

为了解决上面提出的问题，本发明提出一个基于知识图谱的路网节点重要性评估的方法。通过这一方法，即使在数据量较少的情况下也可以根据过往出租车轨迹数据计算出部分路网中节点重要性，再通过图神经网络学习路网中节点特征对数据不足的路段的重要性进行预测，从而达到一个数据补全的目标。这一方法的步骤大致分为两个模块，分别为基于拥堵传播概率模型的打分模块和基于图神经网络的路网节点重要性预测模块。第一个模块通过输入出租车轨迹数据找出频繁发生拥堵的路段及其拥堵传播概率图，并根据拥堵传播概率图对这些路段进行打分。第二个模块首先从已有数据中挖掘出道路间的关联，构建出交通知识图谱。再利用第一个模块中已经得到分数的节点，在交通知识图谱中进行分数的传播，预测未知节点的分数，最后再对节点分数进行选择偏好性的调整。第二个模块作为第一个模块的一个补充，可以依据第一个模块获得的结果对数据量不足的路段进行重要性分数的预测。基于交通知识图谱进行预测相对于普通的图来说，可以更好的进行分数的传播。这是因为在图谱中存在多种关系，多种关系使路段节点间以多种方式连接，每一种关系构成的图都可以看做知识图谱的一层，分数以不同的权重在知识图谱的不同关系层中进行更加广泛的传播。图1为本发明的整体模块设计图。

为了达到上述目的，本发明所采用的技术方案如下：

一种基于知识图谱的路网节点重要性评估的方法，步骤如下：

步骤1：从已有的出租车轨迹数据中挖掘出路网中频繁发生拥堵的路段，并构建这些路段的拥堵传播概率模型，根据这些路段的拥堵传播概率模型对路网中的部分节点进行打分；

步骤2：用临接图的形式组织已有路段数据，路段节点间以相邻的关系连接，在此基础上，引入类别实体，从数据中获取实体间的多种关系，构建异构且包含多种关系的知识图谱；

步骤3：对于没有足够数据来判断重要性的路网节点，用图神经网络对交通知识图谱的特征和结构进行学习，并通过轨迹数据对节点分数进行偏好性调整，实现对数量不足的路网节点重要性的预测。

所述步骤1中从已有的出租车轨迹数据中挖掘出路网中频繁发生拥堵的路段，并构建这些路段的拥堵传播概率模型的过程为：

步骤1.1：将轨迹数据匹配与相应区域中的路段对应；

步骤1.2：根据路段的平均车速确定路段发生拥堵时的速度阈值，并找出频繁发生拥堵的路段；

步骤1.3：找出频繁发生拥堵路段每次发生拥堵时的拥堵传播图，并根据多个时刻的拥堵传播图计算出路段每次发生拥堵时的传播概率，即拥堵传播概率模型。

所述步骤1中，根据这些路段的拥堵传播概率模型对路网中的部分节点进行打分的公式为：

S_i,j＝d_i,j×P_i,j

其中：

j为频繁拥堵的源头路段；

i为j在拥堵过程中能够传播到的路段；

d_i,j为路段i与距离j所相隔的路段的个数；

P_i,j为发生在路段i的拥堵传播到路段j的概率；

S_i,j为路段j相对于i的打分；

N(j)为路段j的拥堵能够传播到的所有的路段集合；

所述步骤2中所述的实体包括路段、POI和时间；关系包括路段间关系、POI间关联、路段与POI之间关系和时间与路段间关系；其中：路段包括gps坐标、道路宽度、道路级别、道路名称、所属商圈；POI包括gps坐标、poi类别、所属商圈；时间包括早高峰、中午时段、晚高峰、其他时段；路段间关系包括相邻、属于同一商圈、属于相同的道路类型；POI间关联包括属于同一商圈、距离相近并且类型相同、属于同一种POI类型；路段与POI之间关系包括距离临近、属于同一商圈；时间与路段间关系包括在该时间段内处于拥堵状态。

所述步骤3的具体过程为：

步骤3.1：用TransE的方法对知识图谱进行知识表示获得节点和关系的特征向量；

步骤3.2：将节点的特征向量输入到单层全连接神经网络，即打分层中，对节点特征进行打分，将打分的结果输入到图注意力网络层中；

步骤3.3：在知识图谱中基于图注意力机制传播各个节点的分数，分数传播的权重根据实体和关系的特征向量计算得到；权重的计算公式如下，

其中，α为调整因子，n代表第n层的注意力网络，sⁿ(i)为第i个节点的特征向量，

为需要学习的权重向量，

为节点i和j之间的第m条边，f(·)为边上的关系到向量的映射；

步骤3.4：利用轨迹数据对预测出的节点重要性分数进行偏好性调整，偏好性调整过程：首先通过已经计算出的节点的分数，计算出各条轨迹的分数，轨迹分数的计算方式如下：

s^n'(t₁)＝αsⁿ(t₁)+(1-α)s^n-1(t₁)

其中，n为第n层注意力网络，p(t₁)为轨迹t₁经过的所有路段，

为路段i的分数传播到t₁时的权重，该权重通过对所有节点分数加和再进行归一化得到，sⁿ(i)为路段i的分数。s^n′(t₁)为更新后的轨迹t₁的分数，α为调整因子；获得轨迹分数之后，再将轨迹分数反馈回节点进行节点分数的调整，对节点进行调整的公式如下：

s^n′(i)＝αsⁿ(i)+(1-α)s^n-1(i)

其中，n为第n层注意力网络，N(i)为路段i经过的所有轨迹，α_ij为轨迹t_j的分数传播到路段i时的权重，该权重通过对所有节点分数加和再进行归一化得到，sⁿ(i)为路段i的分数。s^n′(t₁)为更新后的轨迹t₁的分数，β为调整因子。

基于拥堵传播概率模型的打分模块的具体方案为，首先输入出租车轨迹数据，根据路网中拥堵发生时路段的车速的阈值从中识别出路段中频繁发生拥堵的路段并根据轨迹数据构建出这些路段每次发生拥堵时的拥堵传播图，再从多个拥堵传播图构建出路段的拥堵传播概率图。构建好的拥堵传播概率模型能够体现出频繁发生拥堵路段对于周边路边影响的范围及概率。利用得到的拥堵传播概率模型，计算出这些点的重要性分数。本发明同时考虑了数据量充足与不足时的情况，对于数据量充足时，第一个模块就可以完成对路网中路段的重要性评分工作，而数据量不足时，可以使用第二个模块作为补充。基于拥堵传播概率模型的打分模块可以高效率的对路网中轨迹数据充足区域的路段进行重要性的评估，并且可以准确的衡量节点发生拥堵时对周边的影响范围并据此对其进行重要性的打分。面向拥堵影响范围定义的节点重要性，可以在交通中避免路网的级联失效或者在已经发生级联失效时优先对影响范围大的路段进行疏散处理。当数据不足的情况下，在第一个模块获得了部分节点的重要性分数之后，就可以根据已知分数的路段对第二部分的模型进行训练，从而预测出数据量不足路段的重要性分数。基于图神经网络的路网节点重要性预测模块的具体方案为，首先用图的形式组织已有路段数据，路段节点间以相邻的关系连接，在此基础上，引入时间、POI等其他类别实体，从数据中获取实体间的多种关系，构建出异构且包含多种关系的知识图谱。其次，对交通知识图谱进行知识表示获得节点和关系的特征向量并将节点的特征向量输入到打分层进行打分，其中打分层为单层全连接神经网络。因为在交通路网中，一个节点的重要性会受到他周边的节点的影响，也就是说，当一个节点周边的节点都很重要的时候，那么这个节点也可以看作是重要的，而路网的节点特征相对重要性来说收到周边路段的影响相对较小，因此，本发明选择在网络中直接进行重要性分数的传播而不是特征的传播后再计算分数，先计算出各个节点的分数再用图注意力机制在图中进行传播。再次，基于图注意力机制在知识图谱中传播各个节点的分数，其中，分数传播的权重根据实体和关系的特征向量计算得到。这是因为，在交通网络中，节点会对周边的邻居节点产生影响，因此节点的影响力可以通过邻居的节点向周边扩散，并且对于一个节点来说，邻居节点都会对它产生一定的影响，但是根据节点特征和节点本身的影响力不同影响的程度是不相同的。在知识图谱中，两个节点之间连接可能被不同的关系关联在一起，即使是相同的节点，被不同的关系所关联时一个节点对另一个节点影响的权值也是不同。例如，在交通知识图谱中，两个相同路段节点之间分别被相邻、属于同一商圈两种不同关系关联，很明显，在路网中相邻的节点会更容易传播节点的重要性，而属于同一个商圈这种关系相对与相邻的关系来说，在传播分数的过程中就无法起到较强的作用。因此，本发明在传统的GAT的网络上进行改进，在计算节点重要性传播的权重的时候，在考虑两个实体的特征向量的基础上，同时将关系的特征向量考虑进去，这样在进行节点分数的传播时就可以对不同边的不同类型进行感知。通过图注意力网络，已知节点分数以不同的权重传播到邻居节点中。最后，本发明提出一个偏好性调整模块。因为在交通之中，对于那些出现在同一个轨迹之中的节点，它们之间彼此都是可达的，而如果一个路段和另一个重要的路段之间是可达的，那么这个节点的重要性也会有所提升。并且，同一条轨迹中的节点是在同一次出行中同时会被选择的节点，因此它们在被选择时存在一定的关系，虽然这种关系可能是无法量化的。所以，本发明通过轨迹所经过的节点的分数来计算出每条轨迹的分数，轨迹分数再反馈回所经过的节点来调整节点的重要性分数，这样在考虑可达性的同时也可以将轨迹中一些无法量化的影响因素考虑进去。

本方法区别于已有方法的特色在于：

(1)本发明根据路段发生拥堵时对周边的影响定义交通路网节点重要性，可以应用于解决交通的拥堵问题。在发生小规模拥堵时，根据拥堵节点的重要性判断拥堵是否会大规模扩散而导致路段的级联失效，从而采取相应的行动。而且，当路网中已经发生大规模拥堵的时候，同样也可以根据节点的重要性优先疏通更重要的路段。首先，与之前的方法相比，例如通过节点的度来定义节点的重要性，本发明对重要性的定义明显更适合于交通路网节点的重要性评估。其次，通过轨迹数据计算节点重要性，可以在路网本身的基础上，同时考虑到其他因素对于交通的影响，而且相比移除节点这类方法，也大大降低了计算的成本。

(2)本发明首次将基于图注意力网络改进的方法应用于交通领域之中，解决了在数据不足的情况下，利用已知的节点对其他的节点的重要性进行预测。图注意力网络本身就具有良好的性能，在计算的时候，只需要与节点相关联的节点的数据，而无需图中所有的数据。并且图注意力网络可以只通过小部分的数据准确地对图中其他的节点进行预测，由于以不同的权重进行节点分数的传播，模型对于扰动有着更好的鲁棒性。而且，图注意力网络的理念与交通路网中节点的重要性传播思想是相同的，因此，图注意力网络可以很好的应用于预测交通网络中节点重要性。

(3)本发明首次在知识图谱中进行交通路网的节点重要性评估，知识图谱可以充分的展示路段之间的多种关联，对交通网络直观地建模，从而增强图网络学习的能力，在重要性分数预测的时候在多种关系之间传播分数从而实现更准确的预测。与传统的数据集相比，交通知识图谱将离散的数据整合在一起，可以从中挖掘出更多有价值的信息。

(4)本发明在图注意力网络的基础上提出了一个新的利用轨迹数据对节点分数进行偏好性的调整的模块，这一模块可以从可达性和司机的选择偏好性更好的调整节点分数。相比之前的方法，考虑的更加全面。从轨迹中获取节点之间的可达性，相比在交通图中使用两点间可达性算法明显有着更高的效率，并且轨迹数据可以反映出更加真实的可达性，例如由于一些政策或者路段维修的原因，可能两点之间变得不可达，这在路网之中是无法获取的，但是通过轨迹数据可以对这种情况进行感知。而且，从轨迹数据中同样可以获得一些路段间无法量化表征的关联。

与当前的关键节点挖掘方法相比，本发明的有益效果为：

(1)使用拥堵传播概率图来评估路网中节点重要性，在交通的图之中更加有效，计算成本低，可以解决交通中多种拥堵问题。

(2)将图注意力网络应用于交通重要节点挖掘中可以补充数据驱动方法对于数据的依赖性，即使在数据不足的情况下也可以从已知的部分节点推测出未知节点的分数，提高了算法的可用性。并且图网络本身也具有较强的鲁棒性和拓展性。

(3)使用交通知识图谱的形式表示路网，提高了图网络训练的效率，通过感知知识图谱中的多种关系，可以更加准确地进行知识图谱中重要性分数的传播，增强了模型的准确性和鲁棒性。

(4)偏好性调整模块利用轨迹数据考虑节点间可达性的影响和无法量化表征的其他影响因素，在保证计算成本的情况下，高效地对预测出的重要性分数进行调整，进一步提高了模型预测的准确性。

附图说明

图1为本发明的整体模块设计图

具体实施方法

下面对本发明的实施方法进行详细的说明。

一种基于图神经网络的路网节点重要性预测的方法，如图1，该方法主要分为两部分模块，分别为基于拥堵传播模型的打分模块和基于图网络的路网节点重要性评估模块，其中，图网络的结构为，第一层为全连接层，第二层为基于图注意力网络的特征传播层，第三层为路段-轨迹分数调整层。两个模块的实施方法分别为：

(1)基于拥堵传播模型的打分模块

这一模块的主要目标是对路网中数据量充足的路段进行打分。从这一模块中可体现出本发明对于重要节点的定义，并且由于是根据这一模块所获得结果对其他节点进行预测，因此这一模块是整个方法的基础。首先需要将轨迹数据匹配到路网中的各个路段之中，统计出每条路段发生拥堵的次数以及每次发生拥堵的时间。拥堵在发生时会向上游路段传播，因此根据拥堵发生的时间以及路段间的临接关系可以得到每条路段时发生拥堵时的拥堵传播图。再从多次拥堵的拥堵传播图中获得拥堵传播概率图，从而计算出每条路段的重要性分数，计算的公式如下，

S_i,j＝d_i,j×P_i,j

其中，N(j)为节点j临接的节点，t_i,j为取样时间范围内发生在j的拥堵传播到i的次数，T为取样的时间范围，s_i,j为i对j的影响力分数，d_ij为路段j距离i，p_ij为发生在路段i的拥堵传播到j的概率。

(2)基于图网络的路网节点重要性评估模块

这一模块通过上一步中得到的部分节点的重要性分数对路网中数据不足的点进行重要性分数预测，它的模型决定是否能够准确地预测出数据不足的点的分数。首先，以临接图的形式组织已有路段数据，并引入POI、时间等多种实体节点，从数据中挖掘出多种实体之间的关系，构建异构且包含多种关系的知识图谱。再对知识图谱用TransE算法进行知识表示，Trans算法的步骤为，首先对知识图谱三元组的关系向量和实体向量进行初始化和归一化，接下来在每次迭代中进行负采样并通过最大间隔方法最小化损失函数来训练模型的各项参数。其中，TransE算法的损失函数如下，

其中，(h,l,t)分别为头节点、关系、尾节点的特征向量组成的三元组,(h′,l,t′)为负采样得到的负样本，负采样的方法为随机替换三元组的头节点或尾节点，d(·)为两个向量之间的距离函数，通过L1范数进行计算。

其次，将各个节点的特征向量输入到全连接层神经网络之中，根据特征向量对节点进行打分。获得每一个节点的分数之后，用图注意力机制在图中进行分数的传播，每一层注意力网络可以让每个节点感知到周围的一阶邻居，如果想要扩大感知域，可以多叠加几层注意力网络。在分数传播的过程中，根据不同的节点和关系，重要性传播的权重也是不同的，传播权重的计算公式如下，

其中，n代表第n层的注意力网络，sⁿ(i)为第i个节点的特征向量，

为需要学习的权重向量，

为节点i和j之间的第m条边，f(·)为边上的关系到向量的映射。

为了基于轨迹数对节点的重要性进行二次调整，本发明在每一层的注意力网络之后都加上了偏好性调整的模块，通过偏好性的调整，可以将轨迹数据中所体现的路段选择偏好性以及路段间的可达性反映到重要性分数之中。在进行偏好性调整的时候，首先通过已经计算出的节点的分数，计算出各条轨迹的分数，轨迹分数的计算方式如下：

s^n'(t₁)＝αsⁿ(t₁)+(1-α)s^n-1(t₁)

为路段i的分数传播到t₁时的权重，该权重通过对所有节点分数加和再进行归一化得到，sⁿ(i)为路段i的分数。s^n′(t₁)为更新后的轨迹t₁的分数，α为调整因子。获得轨迹分数之后，再将轨迹分数反馈回节点进行节点分数的调整，对节点进行调整的公式如下：

s^n'(i)＝αsⁿ(i)+(1-α)s^n-1(i)

通过基于图网络的路网节点重要性评估模块，节点分数在相邻节点间传播，并通过轨迹的偏好性调整，感知到轨迹中的隐藏偏好以及路段间的可达性，准确地预测数据不足处的节点的重要性分数。这一方法在避免数据驱动方法所导致的数据量瓶颈的同时，两个模块间的低耦合也使得这一方法可以灵活应用到多个场景之中。只要将第一步中对路段重要性评估的方法按照不同的需求替换为其他的方法，第二步无需改动依旧可以对数据不足处的节点进行分数的预测，大大提高了模型的灵活性。

Claims

1.一种基于知识图谱的路网节点重要性评估的方法，其特征在于，步骤如下：

步骤1中从已有的出租车轨迹数据中挖掘出路网中频繁发生拥堵的路段，并构建这些路段的拥堵传播概率模型的过程为：

步骤1.1：将轨迹数据匹配与相应区域中的路段对应；

步骤1.3：找出频繁发生拥堵路段每次发生拥堵时的拥堵传播图，并根据多个时刻的拥堵传播图计算出路段每次发生拥堵时的传播概率，即拥堵传播概率模型；

根据这些路段的拥堵传播概率模型对路网中的部分节点进行打分的公式为：

S_i,j＝d_i,j×P_i,j

其中：

j为频繁拥堵的源头路段；

i为j在拥堵过程中能够传播到的路段；

d_i,j为路段i与距离j所相隔的路段的个数；

P_i,j为发生在路段i的拥堵传播到路段j的概率；

S_i,j为路段j相对于i的打分；

N(j)为路段j的拥堵能够传播到的所有的路段集合；

步骤3：对于没有足够数据来判断重要性的路网节点，用图神经网络对交通知识图谱的特征和结构进行学习，并通过轨迹数据对节点分数进行偏好性调整，实现对数量不足的路网节点重要性的预测；

步骤3的具体过程为：

为需要学习的权重向量，

s^n'(t₁)＝αsⁿ(t₁)+(1-α)sⁿ-¹(t₁)

为路段i的分数传播到t₁时的权重，该权重通过对所有节点分数加和再进行归一化得到，sⁿ(i)为路段i的分数；s^n'(t₁)为更新后的轨迹t₁的分数，α为调整因子；获得轨迹分数之后，再将轨迹分数反馈回节点进行节点分数的调整，对节点进行调整的公式如下：

s^n'(i)＝αsⁿ(i)+(1-α)s^n-1(i)

其中，n为第n层注意力网络，N(i)为路段i经过的所有轨迹，α_ij为轨迹t_j的分数传播到路段i时的权重，该权重通过对所有节点分数加和再进行归一化得到，sⁿ(i)为路段i的分数；s^n'(t₁)为更新后的轨迹t₁的分数，β为调整因子。

2.根据权利要求1所述的一种基于知识图谱的路网节点重要性评估的方法，其特征在于，步骤2中所述的实体包括路段、POI和时间；关系包括路段间关系、POI间关联、路段与POI之间关系和时间与路段间关系；其中：路段包括gps坐标、道路宽度、道路级别、道路名称、所属商圈；POI包括gps坐标、poi类别、所属商圈；时间包括早高峰、中午时段、晚高峰、其他时段；路段间关系包括相邻、属于同一商圈、属于相同的道路类型；POI间关联包括属于同一商圈、距离相近并且类型相同、属于同一种POI类型；路段与POI之间关系包括距离临近、属于同一商圈；时间与路段间关系包括在该时间段内处于拥堵状态。