CN114117064A

CN114117064A - 一种基于多时间粒度的知识动态演化方法及应用

Info

Publication number: CN114117064A
Application number: CN202111337540.5A
Authority: CN
Inventors: 李天瑞; 王德贤; 黄维; 刘佳; 邓萍
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-03-01
Anticipated expiration: 2041-11-09
Also published as: CN114117064B

Abstract

本发明公开了一种基于多时间粒度的知识动态演化方法及应用。知识动态演化方法，首先将构建知识库中的知识四元组，然后将每个知识四元组向量化并拆分为三元组对应向量和时间向量，接着利用卷积网络对三元组对应向量进行初始化表征，并对时间向量进行粒度统一；然后将粒度统一的时间向量嵌入到三元组对应的表征向量中，并将其输入到三元组表征方法中进行表征；最后进行知识四元组挖掘，结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型，预测未来多个时间步的实体，实现知识四元组的动态演化。基于多时间粒度的知识动态演化方法，融合多个时间粒度的知识进行表征，可以提高模型的表征能力，更好地预测未来时刻的实体。

Description

一种基于多时间粒度的知识动态演化方法及应用

技术领域

本发明涉及人工智能和知识图谱技术领域，特别是一种基于多时间粒度的知识动态演化方法及应用。

背景技术

随着5G时代的来临，城市中的数据呈爆炸式增长，将城市中高维、异构、多模态的数据进行收集、清洗和建模分析可为解决城市中痛点、难点问题提供重要的指导意义。例如，利用深度学习算法预测城市中的人流、车流，可更好规划城市中的交通；预测城市中的空气质量和水质量，可更好地进行城市环境管理。城市具有领域广、人员多、地域大等特点，每一时刻都有大量的多源异构数据产生，因此随着时间的迁移会产生海量的城市时序数据。如何将城市中庞大数据有机的组织起来，更好的挖掘出有利于城市发展的有效模式，知识图谱是一个有效的工具。

知识图谱能将特定时间内实体间的关系相互关联，并以知识的方式存储到知识库中。知识图谱快速的知识检索能力和高效的存储机制为城市知识挖掘提供了基础保证。动态预测知识库中实体间的关系变化是城市智能研究中的重要研究问题。

(1)城市知识库构建

参考文献1“Urban multi-source spatio-temporal data analysis awareknowledge graph embedding”(Zhao,L.,Deng,H.,Qiu,L.,Li,S.,Hou,Z.,Sun,H.,&Chen,Y.(2020).Symmetry,12(2),199.)和参考文献2“Follow a guide to solve urbanproblems:the creation and application of urban knowledge graph”(Shan,S.,&Cao,B.(2017).IET Software,11(3),126-134.)介绍了城市知识图谱是解决城市中问题的有效方法，是对城市高维、异构、多源数据进行挖掘的有效工具。研究提出了建立城市知识图谱的方法及框架，阐述了城市知识获取、推理和表达的方法。实例表明，城市知识图谱具有良好的应用前景。但这些方法只挖掘出多源时空数据中的一些浅显事实，对城市更精确的分析，如交通流量分析等，还没有进行深入的研究。

(2)基于时间感知的知识图谱

参考文献3“Hyte:Hyperplane-based temporally aware knowledge graphembedding”(Dasgupta,S.S.,Ray,S.N.,&Talukdar,P.(2018).In Proceedings of the2018 conference on empirical methods in natural language processing(pp.2001-2011).)，参考文献4“Towards time-aware knowledge graph completion”(Jiang,T.,Liu,T.,Ge,T.,Sha,L.,Chang,B.,Li,S.,&Sui,Z.(2016,December).In Proceedings ofCOLING 2016,the 26th International Conference on Computational Linguistics:Technical Papers(pp.1715-1724).)和参考文献5“Diachronic embedding for temporalknowledge graph completion”(Goel,R.,Kazemi,S.M.,Brubaker,M.,&Poupart,P.(2020,April).In Proceedings of the AAAI Conference on Artificial Intelligence(Vol.34,No.04,pp.3988-3995).)都是对具有时间属性的知识四元组进行表征的方法，并通过链接预测来验证模型的表征能力。但这些方法都是基于同一个时间粒度的知识四元组进行表征，它们无法对一个知识库中存在多个时间粒度的知识四元组进行表征，导致了很多重要的信息无法有效地融合到模型中，模型预测未来时刻实体或关系的准确率低，无法准确捕获知识动态演化规律。然而，在现实世界中，构建一个城市相关知识库一般都会存在多种时间粒度的知识，现有技术尚不能对多种时间粒度的知识进行表征。

发明内容

本发明的目的是提供一种基于多时间粒度的知识动态演化方法及应用。

实现本发明目的的技术方案如下：

一种基于多时间粒度的知识动态演化方法，包括：

步骤1、将知识四元组向量化，并拆分为三元组向量和时间向量；

1.1将P_q＝(h_s,r,t_e,τ)向量化为

其中，P_q＝(h_s,r,t_e,τ)为知识库P_All中第q个知识四元组，q∈{1,2,…,n}，n为P_All中知识四元组的总数；h_s为头实体，t_e为尾实体，r为h_s和t_e间的关系，τ为h_s与t_e产生r的时间；τ为多种时间粒度的任意一种；所述多种时间粒度，包括y-m-d、y-m-d-h、y-m-d-h1-h2、y-m-d-h-min和y-m-d-h-min1-min2；其中，y、m、d、h和min分别表示年、月、日、小时和分钟，h1、h2分别表示小时1、小时2，min1、min2分别表示分钟1、分钟2；h_s∈E，t_e∈E，E表示P_All中所有实体的集合；r∈R，R表示P_All中所有实体关系的集合；τ∈Γ，Γ表示P_All中所有时间的集合；

|v|表示向量的长度，

分别对应P_q中的h_s、r、t_e、τ；

1.2将

拆分为三元组向量

和时间向量

其中，

步骤2、对三元组向量进行初始化表征，对时间向量进行约束后融合；

2.1将

输入卷积神经网络，获得三元组向量的初始化表征向量

其中，

2.2将

的每一个分量进行表征：

其中，v_y、v_m、v_d、v_h和v_min分别为

的年、月、日、时和分钟分量，v_h1和v_h2分别为小时1和小时2分量，v_min1和v_min2分别为分钟1和分钟2分量；

2.3分别通过余弦函数cos(·)对表征后的年、月、日、时、分钟、小时1、小时2、分钟1和分钟2分量进行约束；

2.4融合约束后的分量，得到时间表征向量

步骤3、对时间表征向量

进行时间粒度统一，得到统一后的时间表征向量

其中，当

的时间粒度为y-m-d时，将其转化为y-m-d-h1-h2，h1＝0，h2＝24；当

的时间粒度为y-m-d-h时，将其转化为y-m-d-h1-h2，h1＝h2＝h；当

的时间粒度为y-m-d-h-min时，将其转化为y-m-d-h1-h2，h1＝h2＝h+min/60；当

的时间粒度为y-m-d-h-min1-min2时，将其转化为y-m-d-h1-h2，h1＝h+min1/60,h2＝h+min2/60；

步骤4、将统一后的时间表征向量嵌入到三元组向量的初始化表征向量，得到带有时间信息的知识三元组向量

其中，

表示向量的拼接；

步骤5、将知识库P_All中每个知识四元组经步骤1-4处理，得到带有时间信息知识三元组向量集{L₁,L₂,…L_n}，再通过知识三元组表征方法进行表征；

步骤6、将实体表征信息和周期性的历史实体表征信息输入回归模型，预测得到未来时间步的实体，即演化后的知识四元组。

上述技术方案的步骤5中，所述知识三元组表征方法为Trans系列表征、DistMult表征或深度表征。

上述一种基于多时间粒度的知识动态演化方法的应用，所述知识库P_All为城市地铁流量数据的知识四元组P_station＝(h_s,r,t_e,τ)，头实体h_s为地铁站点，尾实体t_e为站点流量；r为站点和流量的关系，包括出站或者入站；τ为对应的时间。

进一步的应用，所述知识库P_All，还包括基于所述城市地铁流量数据的POI知识四元组P_poi＝(h_s,r,t_e,τ)和事件知识四元组P_event＝(h_s,r,t_e,τ)；其中，P_poi＝(h_s,r,t_e,τ)的头实体h_s为地铁站点，尾实体t_e为对应的POI，r为地铁站点周边的POI的数量；P_event＝(h_s,r,t_e,τ)的头实体h_s为地铁站点，尾实体t_e为对应的事件，r为地铁站点周边的事件的数量。

本发明的有益效果在于，

1、基于多时间粒度的知识动态演化方法，融合多个时间粒度的知识进行表征，可以提高模型的表征能力，更好地预测未来时刻的实体，实现知识的动态演化。

2、当基于多时间粒度的知识动态演化方法应用到具有多时间粒度特性的城市地铁流量数据演化时，具有更好的表征质量，能更好地预测未来时刻的地铁流量数据。

附图说明

图1为本发明框架结构示意图。

图2为卷积神经网络结构示意图示意。

图3为多时间粒度统一框架示意图。

图4为DistMult的表征框架示意图。

图5为实体预测框架示意图。

图6为流量(实体)预测结果图。

具体实施方式

本发明提供了一种基于多时间粒度的知识动态演化方法，包括：

步骤1：知识四元组的构建，包括：

令h_s(h_s∈E)为头实体，t_e(t_e∈E)为尾实体，E表示所有实体的集合，r(r∈R)为头实体h_s和尾实体t_e间的关系，R为实体关系的集合，τ(τ∈Γ)为实体间产生关系的时间，τ存在多种时间粒度(如：y-m-d，y-m-d-h,y-m-d-h1-h2,y-m-d-h-min，y-m-d-h-min1-min2。其中，y、m、d、h和min分别表示年、月、日、小时和分钟，h1-h2和min1-min2表示时段)，Γ为所有时间的集合。根据h_s,r,t_e,τ来构建带有时间信息的知识四元组P＝(h_s,r,t_e,τ)，令P_All表示知识库中所有的知识四元组。

步骤2：三元组向量初始化表征及时间向量约束表征，包括：

首先将知识库中的知识四元组P_q＝(h_s,r,t_e,τ)向量化为

h_s,r,t_e,τ分别对应向量

其中，q表示知识四元组中的第q个四元组，|v|表示向量的长度。然后将向量化的四元组拆分为三元组(h_s,r,t_e)对应的向量

和τ对应的时间向量

即为

再分别对I_q和

进行初始化表征和时间向量约束。

将

输入到卷积神经网络，通过卷积神经网络捕获实体间的相关性，获得三元组对应向量的初始化表征

其中

对时间向量

进行约束，以时间格式为y-m-d-h为例，每个时间分量分别采用一个长度为|v|的向量进行表征。将时间信息y-m-d-h的四个分量初始化为

此外，通过余弦函数cos(·)对每个时间分量进行约束，实现时间周期性的表征约束。具体地，首先对y,m,d,h各个时间分量分别采用I_y＝I_y*cos(I_y*year)，I_m＝I_m*cos(I_m*month)，I_d＝I_d*cos(I_d*day)，I_h＝I_h*cos(I_h*hour)进行约束表征，然后融合四个时间分量得到一个长度为|v|的时间表征向量

将知识库中所有的知识四元组都按以上步骤转化为初始化表征向量

和时间向量

其中n为知识库中知识四元组的总数。

步骤3：多时间粒度的统一，包括：

将时间向量

进行统一约束，把知识库中多种时间粒度统一到同一粒度。将

的时间信息转化为y-m-d-h1-h2的粒度来进行时间信息约束。当h1＝h2时，表示为一个时间点，否则，当h1≠h2时，表示为一个时间段(h1小时到h2小时的时段)。具体地，当

的时间粒度为y-m-d时，将其转化为y-m-d-h1-h2，有h1＝0，h2＝24；当

的时间粒度为y-m-d-h时，将其转化为y-m-d-h1-h2，有h1＝h2＝h；当

的时间粒度为y-m-d-h-min1时，将其转化为y-m-d-h1-h2，有h1＝h2＝h+min/60；当

的时间粒度为y-m-d-h-min1-min2时，将其转化为y-m-d-h1-h2，有h1＝h+min1/60,h2＝h+min2/60。将

时间粒度统一为y-m-d-h1-h2，对应的时间向量表示为

由于

因此知识库中所有时间向量都被统一约束为

步骤4：带时间信息的知识三元组的嵌入表征和知识四元组的挖掘，包括：

将步骤3中统一时间粒度的向量

嵌入到步骤2中对应的初始化表征

中，得到带有时间信息的知识三元组对应向量

其中

表示向量的拼接操作。然后将所有带有时间信息的知识三元组对应向量{L₁,L₂,…L_n}输入到知识三元组表征方法(Trans系列表征、DistMult表征、深度表征等方法)进行表征。最后采用链接预测来验证表征性能，并结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型，预测未来多个时间步的实体，实现知识四元组的动态演化。

本发明采用交叉熵构建损失函数，如下所示：

这里t_c表示候选实体，(h_s(τ),r(τ),t_e(τ))表示四元组(h_s,r,t_e,τ)的表征向量。

以下结合附图对本发明进一步说明。

本发明的整体框架结构如图1所示，主要包括4个模块，分别是知识库中知识四元组的构建模块，基于卷积神经网络的知识三元组初始化表征模块，多时间粒度统一模块，带时间信息的知识三元组的嵌入表征和知识四元组挖掘模块。

首先将构建知识库中的知识四元组P＝(h_s,r,t_e,τ)；然后将每个知识四元组向量化并拆分为三元组(h_s,r,t_e)对应向量和τ对应的时间向量，接着利用卷积网络对三元组对应向量进行初始化表征，并采用多时间粒度统一模块对时间向量进行粒度统一；然后将粒度统一的时间向量嵌入到三元组对应的表征向量中，并将其输入到DistMult表征模块中进行表征，最后进行知识四元组挖掘。分别采用链接预测来评价表征质量和结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型，预测未来多个时间步的实体，实现知识四元组的动态演化。

实施例：

一种基于多时间粒度的知识动态演化方法的应用，其步骤如下：

(1)知识四元组构建

令h_s(h_s∈E)为头实体，t_e(t_e∈E)为尾实体，E表示所有实体的集合，r(r∈R)为头实体h_s和尾实体t_e间的关系，R为实体关系的集合，τ(τ∈Γ)为实体间产生关系的时间，τ存在多种时间粒度(如：y-m-d，y-m-d-h,y-m-d-h1-h2,y-m-d-h-min，y-m-d-h-min1-min2。其中y,m,d,h,min分别表示年，月，日，小时和分钟,h1-h2和min1-min2表示时段)，Γ为所有时间的集合。根据h_s,r,t_e,τ来构建带有时间信息的知识四元组P＝(h_s,r,t_e,τ)，令P_All表示知识库中所有的知识四元组。

以构建基于城市地铁流量数据的知识四元组为例，令h_s为头实体，用来表示地铁站点信息，t_e(t_e∈E)为尾实体用来表示出入站流量信息，E为所有实体的集合，r(r∈R)表示头实体h_s和尾实体t_e间的关系(即站点和出入站流量的关系)，R为关系的集合，τ(τ∈Γ)为实体产生关系的时间，Γ为时间的集合。基于城市地铁流量数据构建的知识四元组具有多时间粒度的特性，可利用基于多时间粒度的知识动态演化方法预测未来多个时间步的实体(即地铁流量)，实现知识的动态演化。

当然，t_e(t_e∈E)为尾实体还可以用来表示外部信息(如POI、事件等)，对应关系r(r∈R)表示与外部信息之间的关系，作为表征的辅助信息。

具体地，首先将地铁站点流量信息转化为知识四元组P_station＝(h_s,r,t_e,τ)。h_s为地铁站点，t_e为站点流量，r为站点和流量的关系：出站或者入站，τ为对应的时间；然后，通过站点对应的坐标信息，在高德地图API平台上获取在站点周边2公里之内的辅助信息，重点关注于对地铁流量有影响的POI(如：学校、商场、银行、机场、高等院校等人流影响较大的公共场所)，对不同类别的POI赋予不同时段的时间属性，并将POI信息转化为和站点信息相关的知识四元组P_poi＝(h_s,r,t_e,τ)，其中h_s为地铁站点，t_e为对应的POI(如：学校、商场、银行、机场、高等院校等)，r站点周边2公里内的POI的数量；最后，对地铁周边2公里内的事件信息进行收集，并将其转化为知识四元组P_event＝(h_s,r,t_e,τ)，其中h_s为地铁站点，t_e为对应的事件，r站点周边2公里内的事件的数量。因此，在知识库中有P∈{P_station,P_poi,P_event}＝P_All，其中P＝(h_s,r,t_e,τ)表示一个四元组。

(2)三元组向量初始化表征和时间向量的约束表征

首先将知识库中的知识四元组P_q＝(h_s,r,t_e,τ)向量化为

h_s,r,t_e,τ分别对应向量

其中q表示知识四元组中的第q个四元组，|v|表示向量的长度。然后将向量化的四元组拆分为三元组(h_s,r,t_e)对应的向量

和τ对应的时间向量

即为

再分别对I_q和

进行初始化表征和时间向量约束。

将

其中

对时间向量

进行约束，以时间格式为y-m-d-h(即为：年-月-日-时)为例，每个时间分量分别采用一个长度为|v|的向量进行表征。将时间信息y-m-d-h的四个分量初始化为

和时间向量

其中n为知识库中知识四元组的总数。

(3)多时间粒度统一

为了对知识库中粒度不一致的时间向量

进行统一约束，将

的时间粒度为y-m-d时，将其转化为y-m-d-h1-h2,有h1＝0,h2＝24；当

的时间粒度为y-m-d-h-min1时，将其转化为y-m-d-h1-h2,有h1＝h2＝h+min/60；当

时间粒度统一为y-m-d-h1-h2，对应的时间向量表示为

由于

因此知识库中所有时间向量都被统一转化为

(4)基于DistMult的表征和知识四元组挖掘

将(3)中统一时间粒度的向量

嵌入到(2)中对应的初始化表征

中，得到带有时间信息的知识三元组对应向量

其中

表示向量的拼接操作。然后将所有带有时间信息的知识三元组对应向量{L₁,L₂,…L_n}输入到DistMul中进行表征。最后采用链接预测来验证表征性能，并结合所有实体表征信息和周期性的历史实体表征信息来构建回归模型，预测未来多个时间步的实体，实现知识四元组的动态演化。本发明采用交叉熵构建损失函数，如下所示：

仿真实验，

本实验采用重庆市地铁流量数据，重庆市地铁流量相关的POI数据和事件数据构建城市地铁流量知识图谱来验证本发明的有效性。此外，将本发明和DE-TransE算法和无POI建模的方法进行对比。

实验一

为了评估知识四元组的表征质量，使用链接预测评价实验效果。P＝(h_s,r,t_e,τ)中的头实体和尾实体通过其他头实体和尾实体进行替换，得到伪四元组。并采用hits@5(％),hits@10(％),hits@20(％)来评估进行表征质量，表示实体正确表征的排名平均在前5，10和20名的概率。表1展示了链接预测的结果。

表1不同方法的链接预测结果

方法	hits@5(％)	hits@10(％)	hits@20(％)
				DE-TransE	60.8	67.1	77.1
本发明-无POI	78.6	82.2	86.5
				本发明	80.8	84.9	88.4

从表1可以很明显地看出，本发明的3个指标都明显好于其他算法。本发明-无POI方法结果都低于本发明的结果，证明POI数据对地铁流量有一定影响。

实验二

如图5所示将所有实体表征信息和周期性的历史实体表征信息相结合，构建一个逻辑回归模型来预测未来4个时间步(1小时)的实体(即地铁流量)。从而得到未来时时间步对应的知识四元组，实现知识库中知识的动态演化。采用均方根RMSE来评价预测性能。如图6所示。

如图6的实验结果表明，本发明预测未来时间步对应实体(流量)准确率较高。与本发明-无POI方法相比，表明了地铁站附近POI数据可以提高地铁流量的预测效果。

本发明方法准确的预测了未来多个时间步的地铁流量值，可构建多个未来时间步对应的知识四元组，有效地实现了地铁流量知识库中知识的动态演化。

Claims

1.一种基于多时间粒度的知识动态演化方法，其特征在于，包括：

1.1将P_q＝(h_s,r,t_e,τ)向量化为

|v|表示向量的长度，

分别对应P_q中的h_s、r、t_e、τ；

1.2将

拆分为三元组向量

和时间向量

其中，

2.1将

输入卷积神经网络，获得三元组向量的初始化表征向量

其中，

2.2将

的每一个分量进行表征：

其中，v_y、v_m、v_d、v_h和v_min分别为

2.4融合约束后的分量，得到时间表征向量

步骤3、对时间表征向量

进行时间粒度统一，得到统一后的时间表征向量

其中，当

的时间粒度为y-m-d-h时，将其转化为y-m-d-h1-h2，h1＝h2＝h；当

其中，

表示向量的拼接；

2.如权利要求1所述的一种基于多时间粒度的知识动态演化方法，其特征在于，步骤5中，所述知识三元组表征方法为Trans系列表征、DistMult表征或深度表征。

3.如权利要求1所述的一种基于多时间粒度的知识动态演化方法的应用，其特征在于，所述知识库P_All为城市地铁流量数据的知识四元组P_station＝(h_s,r,t_e,τ)，头实体h_s为地铁站点，尾实体t_e为站点流量；r为站点和流量的关系，包括出站或者入站；τ为对应的时间。

4.如权利要求3所述的一种基于多时间粒度的知识动态演化方法的应用，其特征在于，所述知识库P_All，还包括基于所述城市地铁流量数据的POI知识四元组P_poi＝(h_s,r,t_e,τ)和事件知识四元组P_event＝(h_s,r,t_e,τ)；其中，P_poi＝(h_s,r,t_e,τ)的头实体h_s为地铁站点，尾实体t_e为对应的POI，r为地铁站点周边的POI的数量；P_event＝(h_s,r,t_e,τ)的头实体h_s为地铁站点，尾实体t_e为对应的事件，r为地铁站点周边的事件的数量。