CN115114411B - 基于知识图谱的预测方法、装置和电子设备 - Google Patents

基于知识图谱的预测方法、装置和电子设备 Download PDF

Info

Publication number
CN115114411B
CN115114411B CN202211045030.5A CN202211045030A CN115114411B CN 115114411 B CN115114411 B CN 115114411B CN 202211045030 A CN202211045030 A CN 202211045030A CN 115114411 B CN115114411 B CN 115114411B
Authority
CN
China
Prior art keywords
graph
embedding
knowledge graph
time sequence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211045030.5A
Other languages
English (en)
Other versions
CN115114411A (zh
Inventor
孙正雅
贺胤涵
张文生
刘安安
李文辉
魏志强
聂婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Institute of Automation of Chinese Academy of Science
Qingdao National Laboratory for Marine Science and Technology Development Center
Original Assignee
Tianjin University
Institute of Automation of Chinese Academy of Science
Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, Institute of Automation of Chinese Academy of Science, Qingdao National Laboratory for Marine Science and Technology Development Center filed Critical Tianjin University
Priority to CN202211045030.5A priority Critical patent/CN115114411B/zh
Publication of CN115114411A publication Critical patent/CN115114411A/zh
Application granted granted Critical
Publication of CN115114411B publication Critical patent/CN115114411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于知识图谱的预测方法、装置和电子设备,涉及大数据处理技术领域。该方法包括:获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。本发明从时序知识图谱中提取平滑缓解信息,并通过平滑缓解信息对第一嵌入进行调整,能够避免循环图神经网络层次较多导致的过平滑问题。

Description

基于知识图谱的预测方法、装置和电子设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于知识图谱的预测方法、装置和电子设备。
背景技术
海域态势感知指的是对可能影响安全、经济或环境的与海事领域相关的任何事务的有效理解。海域态势存在演化的实体,如船舶、港口等,可以表示为时序知识图谱的形式。
目前,在时序知识图谱预测任务中,循环神经网络取得了最先进的效果。循环神经网络可以在每个时间戳利用图卷积网络学习实体和关系的嵌入向量,然后利用门控循环组件将各个时间戳串联起来学习动态特征,完成未来时间戳的实体或者关系的预测任务。然而,大多数图卷积网络因过平滑导致网络深度受限,难以捕获远程信息,预测能力难以提升。
发明内容
本发明提供一种基于知识图谱的预测方法、装置和电子设备,用以解决现有技术中模型深度受限的缺陷,提升模型对时序知识图谱的预测能力。
本发明提供一种基于知识图谱的预测方法,包括:
获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;
将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;
从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
根据本发明提供的一种示例性实施方式,所述方法还包括:
将所述时序知识图谱中的事件进行分类,得到同类事件;
通过预先训练的强度函数确定所述同类事件的权重,基于所述权重确定所述时序知识图谱对应的加权向量;
结合所述加权向量与所述第二嵌入,确定所述目标时段的预测数据。
根据本发明提供的一种示例性实施方式,所述循环图神经网络中包括N个依次连接的图卷积网络,N为正整数;所述将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入,包括:
将所述时序知识图谱按照预设时间间隔分割为N个样本集;
将第i个样本集与第i-1个图卷积网络输出的第i-1个隐式信息输入第i个图卷积网络中,获得第i个样本集的第一嵌入,以及第i个隐式信息;其中,1≤i≤N。
根据本发明提供的一种示例性实施方式,所述基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,包括:
将所述平滑缓解信息、第i个样本集与所述第i-1个隐式信息输入所述第i个图卷积网络,得到第i个样本集的第二嵌入。
根据本发明提供的一种示例性实施方式,所述从所述时序知识图谱中提取平滑缓解信息,包括:
根据所述时序知识图谱中的时间,确定所述时序知识图谱的第一权重;
基于所述第一权重对所述时序知识图谱进行复制,将复制后的时序知识图谱中的时间去除,获取静态知识图谱;
基于所述静态知识图谱确定平滑嵌入向量。
根据本发明提供的一种示例性实施方式,所述基于所述时序知识图谱确定平滑缓解信息,包括:
确定所述时序知识图谱中实体之间的相似性;
基于所述相似性对所述实体进行聚类,并基于聚类的结果确定相似实体对;
基于所述相似实体对确定正则化项。
本发明还提供一种基于知识图谱的预测装置,包括:
数据获取模块,用于获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;
信息提取模块,用于将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;
信息调整模块,用于从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于知识图谱的预测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于知识图谱的预测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于知识图谱的预测方法。
本发明提供的基于知识图谱的预测方法、装置和电子设备,将时序知识图谱输入到循环图神经网络,通过循环图神经网络可以得到每个时间戳的动态嵌入。然后再基于时序知识图谱确定平滑缓解信息,通过将平滑缓解信息与动态嵌入一起输入到编码器,从而将原始的信息引入编码器,避免循环图神经网络的过平滑问题,减小循环图神经网络的层数限制,提高预测能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于知识图谱的预测方法的流程示意图之一;
图2是本发明提供的基于知识图谱的预测方法中模型的结构示意图之一;
图3是本发明提供的基于知识图谱的预测方法中模型的结构示意图之二;
图4是本发明提供的基于知识图谱的预测方法中模型的结构示意图之三;
图5是本发明提供的基于知识图谱的预测方法的流程示意图之二;
图6是本发明提供的基于知识图谱的预测方法中模型的结构示意图之四;
图7是本发明提供的基于知识图谱的预测装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“第一”、“第二”、“第三”等仅作为标记使用,不是对其对象的数量或顺序限制。
下面结合附图对本发明实施例提供的基于知识图谱的预测方法、基于知识图谱的预测装置和电子设备进行说明。
图1示出了本实施例中基于知识图谱的预测方法的流程图。如图1所示,该基于知识图谱的预测方法包括以下步骤:
步骤10:获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱。
目标海域的监测数据可以包括雷达、卫星监测到的数据,也可以包括网页中的数 据。示例性的,监测数据具体包括在目标海域中发生的事件,例如t1时刻,散货船A位于12.5 ºN53.8ºE处。海域的监测数据中存在实体,如船舶、港口等,可以被表示为时序知识图谱。时 序知识图谱中的关系会与时间段相关联,在常规知识图谱中存在实体、关系、实体的三元 组,例如(船A,停泊,S港);而时序知识图谱中存在实体(也称为发出实体)、关系、实体(也可 称为接收实体)、时间的四元组,例如(船A,停泊,S港,
Figure 816330DEST_PATH_IMAGE001
)。每个四元组可以作为一个事 件。通过时序知识图谱可以将目标海域发生的事件转化为结构化的信息,便于进行演化发 现其中有价值的信息。
通过获取雷达、卫星等设备在一段时间内的监测数据,通过快照(snapshot)技术可以将监测数据表示为某个具体时间点的三元组的集合,从而得到该段时间内的时序知识图谱。或者,从海洋态势感知知识图谱库中采集目标海域一段时间内的时序知识图谱子图。snapshot指的是对应数据(即监测数据)的副本。时序知识图谱可以理解为多个snapshot的集合。
步骤20:将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入。
循环图神经网络是用于捕获时序知识图谱中信息的模型。示例性的,通过该循环图神经网络可以构建预测模型,用来预测目标海域目标时段的实体或关系。对该预测模型来说,上述时序知识图谱为输入数据。将时序知识图谱输入到预测模型中,由该预测模型中的循环图神经网络根据时序知识图谱中的信息确定对应的第一嵌入。第一嵌入指的是时序知识图谱对应的随时间动态变化的嵌入表示向量。
示例性的,循环图神经网络中可以包括N个依次连接的图卷积网络,N为正整数。先将时序知识图谱按照预设时间间隔分割为N个样本集,即snapshot集合。预设时间间隔指的是分割时间的时间跨度,例如5分钟,则每5分钟为1个时段,按照5分钟的跨度将历史时段分割为n个时段。按照时序知识图谱中事件的时间戳,将事件按照所属的时段划分到N个样本集中,并重新构建事件的时间戳,得到目标海域不同时段的多个样本集。这多个样本集可以按照时间顺序排列,第1个样本集的时间戳在第N个样本集之前。
举例来说,时序知识图谱如:[[船A,接近,船B,
Figure 432994DEST_PATH_IMAGE002
],[船A,停泊,S港,
Figure 970286DEST_PATH_IMAGE003
]…, [船S,遭遇海盗,X海湾,
Figure 640302DEST_PATH_IMAGE004
]]。按照预设时间间隔将上述事件涉及的历史时段,即
Figure 630254DEST_PATH_IMAGE005
Figure 411129DEST_PATH_IMAGE006
的时间区间划分为N个时段,例如第一个时段为
Figure 802927DEST_PATH_IMAGE007
Figure 643844DEST_PATH_IMAGE008
,然后将事件按照时间戳划分 至各个时段,按照划分的时段重新对事件构建时间戳,得到N个时段的样本集。例如,对于事 件:[船A,接近,船B,
Figure 616698DEST_PATH_IMAGE009
],可以划分至第一个时段,即
Figure 201263DEST_PATH_IMAGE007
Figure 306622DEST_PATH_IMAGE010
,然后更新其中的时间 戳,得到第一个时段样本集中的事件:[船A,接近,船B,
Figure 193807DEST_PATH_IMAGE011
]。
接下来,将N个样本集按照时间顺序输入到循环图神经网络,通过循环图神经网络来确定每个时段的样本集的第一嵌入。示例性的,如图2所示,预测模型20中可以包括循环图神经网络21,循环图神经网络21中包括图卷积网络B1、图卷积网络B2、…、图卷积网络BN。该N个图卷积网络分别对应N个时段,将N个时段的样本集按照时间先后顺序分别输入到对应的图卷积网络中。
具体的,将第一个样本集A1输入到图卷积网络B1中,可以得到第1个样本集对应的第一时段的第一嵌入C1,以及隐式信息D1。然后,将图卷积网络B1输出的隐式信息D1与第2个样本集A2输入到第二个图卷积网络B2中,得到样本集A2对应的第二时段的第一嵌入C2和隐式信息D2。依次类推,对于第i个时段知识图谱集合,可以输入到第i个图卷积网络,得到第i个样本集对应的第i个时段的第一嵌入,以及隐式信息。1≤i≤N。第i个隐式信息需要输入到第i+1个图卷积网络中,同样的,第i-1个样本集的第i-1个隐式信息则需要输入到第i个图卷积网络中。对于第N个图卷积网络BN,将第N个样本集AN、第N-1个隐式信息输入到该图卷积网络BN中,得到其输出的第N个时段的第一嵌入CN和第N个隐式信息。第一个图卷积网络B1输入的隐式信息可以为0。也就是说,每个图卷积网络可以根据输入的上一时段的隐式信息以及当前时段的样本集,输出当前时段的样本集的第一嵌入,以及隐式信息。通过隐式信息可以将上一时段的状态传递到下一时段,对下一时段的第一嵌入产生影响,使得模型学习各个时间段的动态特性,从而输出要预测的目标时段的第一嵌入,以便于完成要预测的目标时段的预测任务。目标时段可以是第N+1个时段。
示例性的,上述循环图神经网络21还可以是其他结构,例如长短时记忆网络(LongShort-Term Memory,LSTM)、门控循环单元(Gate Recurrent Unit,GRU)等等,本实施方式对此不作特殊限定。
示例性的,如图2所示,预测模型20还包括解码器22以及输出模块23。通过循环图神经网络21得到目标时段的第一嵌入后,将循环图神经网络输出的目标时段的第一嵌入作为解码器22的输入,通过解码器22确定该第一嵌入对应的预测向量。将预测向量作为输出模块23的输入,确定预测向量对应的概率,从而得到目标时段的预测数据。
接下来,步骤30:从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
循环图神经网络中层数较多时会产生过平滑问题,限制了模型的学习能力。为了避免过平滑问题,本实施方式中,通过初始的时序知识图谱确定平滑缓解信息,将该平滑缓解信息也输入到循环图神经网络中,使其输出的第一嵌入中增加远程信息,避免过平滑的问题。平滑缓解信息是时序知识图谱的低层次信息,也称为浅层信息。
示例性的实施方式中,根据时序知识图谱确定平滑缓解信息的方式包括如下:将时序知识图谱中的时间戳去除,获得静态知识图谱;然后获取该静态知识图谱对应的平滑嵌入向量,将该平滑嵌入向量作为平滑缓解信息。
具体的,将时序知识图谱中每个事件的时间戳去除,相当于去除了事件的时间特 征,得到了跨时序的事件,从而得到由跨时序的事件形成的静态知识图谱。例如,对于时序 知识图谱中事件:[[船A,接近,船B,
Figure 17407DEST_PATH_IMAGE012
],[船A,停泊,S港,
Figure 281029DEST_PATH_IMAGE013
]…,[船S,遭遇海盗,X海 湾,
Figure 506474DEST_PATH_IMAGE014
]],去除其中的时间特征,可以得到跨时序的事件:[[船A,接近,船B],[船A,停 泊,S港]…,[船S,遭遇海盗,X海湾]]。
示例性的实施方式中,通过时序知识图谱确定加权向量的方式还可以包括如下: 根据时序知识图谱中的时间戳,确定时序知识图谱的权重;然后基于权重对时序知识图谱 进行复制,然后将复制后的时序知识图谱中的事件进行整合,得到静态知识图谱。举例来 说,通过膨胀因子可以确定时序知识图谱中每个事件的权重。假设
Figure 564560DEST_PATH_IMAGE015
为预先设定的膨胀因 子,则按照事件中的时间戳确定
Figure 141034DEST_PATH_IMAGE016
,并向下取整,得到该事件的权重,t为事件的时间戳。然 后按照该权重对该事件进行复制,例如,在t=7时出现的事件为[轮船A,遭遇海盗,X海湾], 若有
Figure 706883DEST_PATH_IMAGE017
,那么有
Figure 662200DEST_PATH_IMAGE018
,其中
Figure 281401DEST_PATH_IMAGE019
指的是向下取整,得到的复制事件为[[轮船A,遭遇海 盗,X海湾],[轮船A,遭遇海盗,X海湾],[轮船A,遭遇海盗,X海湾]]。将复制后的事件进行整 合,得到跨时序的静态知识图谱。
将静态知识图谱通过浅层的图卷积神经网络(Graph Convolutional Network,GCN),可以得到对应的平滑嵌入向量。浅层的GCN指的是层数较少的GCN,具体卷数的设置可以根据实际需求确定,本实施方式对此不作特殊限定。
将得到的平滑嵌入向量作为平滑缓解信息,将其与上述时序知识图谱集合共同输入循环图神经网络。如图3所示,平滑缓解信息可以分别输入到图卷积网络B1、图卷积网络B2、…、至图卷积网络BN中,从而与每个时序的第一嵌入进行融合,得到每个时序的第二嵌入。或者平滑缓解信息也可以输入其中一部分图卷积网络,与某个或某些时序的第一嵌入进行融合,例如图卷积网络B1和图卷积网络BN中。将平滑缓解信息输入所有或者一部分图卷积网络中,可以对因过平滑导致的长序遗忘连边进行重连,增强长序信息的表达。
具体的,在循环图神经网络中,通过损失函数拉近平滑嵌入向量与第一嵌入之间 的差距。举例来说,对于时序知识图谱中的实体S,其对应的平滑嵌入向量为
Figure 954958DEST_PATH_IMAGE020
,对应的第一 嵌入是
Figure 153859DEST_PATH_IMAGE021
,通过损失函数
Figure 353896DEST_PATH_IMAGE022
在训练过程中拉近平滑嵌入向量
Figure 19364DEST_PATH_IMAGE023
和第一嵌入
Figure 39272DEST_PATH_IMAGE024
。其中,
Figure 949853DEST_PATH_IMAGE025
是泛模长函数,可以为夹角、二范数等表示向量间差距的函数。
示例性的实施方式中,根据时序知识图谱确定平滑缓解信息的方式还包括如下:确定时序知识图谱中实体之间的相似性,基于该相似性对实体进行聚类,然后基于聚类的结果确定相似实体对;根据相似实体对确定正则化项。
具体的,将时序知识图谱中的实体按照事件关联程度确定相似性,得到实体之间 的相似性矩阵。例如,对于实体轮船A和轮船B,轮船A在历史时段内发生的事件的关系集合 为
Figure 4396DEST_PATH_IMAGE026
,发生事件的相关实体为
Figure 575186DEST_PATH_IMAGE027
。同理对于轮船B可以得到历史时段内的关系集合
Figure 82391DEST_PATH_IMAGE028
和相 关实体集合
Figure 29618DEST_PATH_IMAGE029
,则轮船A与轮船B的相似性为
Figure 938668DEST_PATH_IMAGE030
。按照该方式计算时序知识 图谱中每两个实体之间的相似性,可以得到相似性矩阵。然后利用聚类算法对相似性矩阵 进行聚类,将所有实体划分为多个类。聚类算法可以包括谱聚类、层次聚类等多种方式,本 实施方式不限于此。聚类得到多个类之后,对每个类,查询类内每两个实体各自参与的事件 序列。确定事件序列中的最大共同子层的长度作为两个实体之间事件相似度。例如,对于类 内的实体:轮船A和轮船B,提取时序知识图谱中轮船A和轮船B各自参与的事件序列,分别为
Figure 945939DEST_PATH_IMAGE031
Figure 940440DEST_PATH_IMAGE032
,然后利用字符串匹配算法如KMP算法计算事件序列
Figure 189893DEST_PATH_IMAGE033
和事件序列
Figure 953450DEST_PATH_IMAGE034
之间 的最大共同子串的长度,作为轮船A和轮船B之间的事件相似度。对每个实体来说,将事件相 似度最大的n个实体与该实体构成相似实体对。例如,对轮船A来说,将与轮船A的事件相似 度最大的n个实体,例如轮船B、轮船C等,与该轮船A组成相似实体对。
根据相似实体对对应的嵌入表示向量相似的原理,构建正则化项。将该正则化项 作为平滑缓解信息输入到循环图神经网络中,通过该正则化项对循环图神经网络输出的第 一嵌入进行调整,得到第二嵌入。示例性的,正则化项可以输入到最后一个图卷积网络中, 调整最终输出的第一嵌入。举例来说,相似实体对s1、s2分别对应的第一嵌入为
Figure 990676DEST_PATH_IMAGE035
Figure 613418DEST_PATH_IMAGE036
, 则通过损失函数确定正则化项为
Figure 27082DEST_PATH_IMAGE037
,将该正则化项输入到循环图神经网络中的最后 一个图卷积网络中,如图4所示,将正则化项输入到图卷积网络BN中,对相似实体对的嵌入 表示进行拉近,得到相似的第二嵌入。通过该正则化项可以在训练过程中拉近实体s1和实 体s2之间的距离,从而使得循环图神经网络针对相似实体对输出相近的第二嵌入。
得到当前时段的第二嵌入后,将其作为解码器的输入,得到第二嵌入的预测向量,从而预测目标海域目标时段的预测数据,完成海洋态势感知的任务。预测数据可以包括目标时段的实体,也可以包括两实体之间的关系,根据实际预测任务而定,例如,预测目标海域在目标时段内出现的实体,或者预测目标海域在目标时段两特定的实体之间的关系等,本实施方式对此不作特殊限定。
为了提高预测准确性,通过时序知识图谱可以对第二嵌入对应的预测向量进行加权,通过加权后的预测向量来确定预测数据。示例性的,将时序知识图谱中的事件进行分类,得到同类事件,然后通过预先训练的强度函数确定同类事件的加权向量,结合加权向量与第二嵌入确定目标时段的预测数据。加权后特征输入解码器,生成概率向量。
将时序知识图谱依据其中的发出实体、关系、接收实体对事件进行分类,确定同类 事件。例如,若两个事件的发出实体相同,则这两个事件的相似性加
Figure 786091DEST_PATH_IMAGE038
分;若接收实体相同, 则相似性加
Figure 994218DEST_PATH_IMAGE039
分;若关系相同,则相似性加
Figure 838677DEST_PATH_IMAGE040
分,按照该方式计算每两个事件之间的相似性 得分。按照该方式确定时序知识图谱中的事件两两之间的相似性得分,得到相似矩阵。然后 对该相似矩阵进行聚类,得到多个类。同一个类中的事件则为同类事件。
示例性的,通过自激励点过程如Hawkes等,对每类事件设置强度函数,表达式如下:
Figure 56032DEST_PATH_IMAGE041
其中,
Figure 165152DEST_PATH_IMAGE042
Figure 544181DEST_PATH_IMAGE043
Figure 875937DEST_PATH_IMAGE044
为可学习的参数;t为要预测的时段,
Figure 631403DEST_PATH_IMAGE045
为历史时段。通过训练 数据对上述可学习的参数进行训练,得到训练后的强度函数。然后通过强度函数确定时序 知识图谱中每类事件的权重,得到时序知识图谱的加权向量。将该加权向量也输入到解码 器,与第二嵌入共同进行概率向量的预测。
具体的,将以循环图神经网络为编码器,得到的第二嵌入输入解码器,如TransE解码器中,得到第二嵌入的概率向量。然后再通过上述强度函数确定时序知识图谱对应加权向量,将该加权向量也输入到解码器,与第二嵌入的概率向量结合得到最终的输出向量。例如,要预测在时间t,与实体s之间发生关联r的实体的情况下,通过强度函数计算与实体s在t时间发生关联r的每个实体的概率:
Figure 365004DEST_PATH_IMAGE046
其中,n为实体的个数。计算n个实体的概率后,可以得到加权向量
Figure 180513DEST_PATH_IMAGE047
。 然后可以通过以下算法对上述概率进行正规化:
Figure 733985DEST_PATH_IMAGE048
得到正规化后的加权向量
Figure 27563DEST_PATH_IMAGE049
。或者,再通过softmax函数对 公式(2)中得到的加权向量进行正规化,即:
Figure 740304DEST_PATH_IMAGE050
其中,
Figure 100616DEST_PATH_IMAGE051
是softmax函数。
然后将第二嵌入的概率向量v与上述加权向量r进行加权平均,得到最终的解码向量。即:
Figure 531598DEST_PATH_IMAGE052
其中,v为公式第二嵌入对应的概率向量。
Figure 504233DEST_PATH_IMAGE053
Figure 71480DEST_PATH_IMAGE054
为加权平均的权重系数,可以根 据实际需求设置,且
Figure 838579DEST_PATH_IMAGE055
Figure 491278DEST_PATH_IMAGE056
为解码器输出的解码向量。通过输出模块将该解 码向量映射到0-1之间,得到预测数据。通过该预测数据可以确定与实体s在时间t发送关联 r的实体。
图5示出了本实施方式中预测方法的流程图。如图5所示,该预测方法还可以包括以下步骤:
步骤51:获取目标海域历史时段内的时序知识图谱。步骤52:将时序知识图谱输入循环图神经网络中,得到目标时段的第一嵌入。步骤53:通过时序知识图谱生成静态知识图谱,将该静态知识图谱通过过平滑链接单元输入循环图神经网络中。如图6所示,预测模型20中还包括过平滑链接单元61。过平滑链接单元61是用于确定静态知识图谱对应的平滑嵌入向量的模块,例如浅层的图卷积神经网络。通过过平滑链接单元61可以得到静态知识图谱对应的平滑嵌入向量,然后将其输入到循环图神经网络中。步骤54:将过平滑链接单元生成的信息与第一嵌入进行整合。示例性的,预先训练过的循环图神经网络根据静态知识图谱对应的平滑嵌入向量,可以将第一嵌入进行调整,使调整后输出的第二嵌入与平滑嵌入向量相近。或者,循环图神经网络可以将相似实体对的第一嵌入进行调整,使得调整后输出的第二嵌入相近。预先训练的过程中,可以通过损失函数计算每个实体对应的平滑嵌入向量和第一嵌入之间的距离,通过训练减小该距离,使得实体对应的平滑嵌入向量与调整后的第二嵌入想接近。并且,通过另一损失函数计算相似实体对分别对应的第一嵌入之间的距离,通过训练减小相似实体对嵌入表示之间的距离,得到同样相似的第二嵌入。接下来,在步骤55中,通过过平滑加权单元对长时序信息进行加权。对于第二嵌入来说,初始的时序知识图谱集合即为长时序信息。示例性的,上述预测模型20中还可以包括过平滑加权单元62。过平滑加权单元62通过上述公式(1)至公式(4)的方式确定加权向量。步骤56中,通过解码器生成第二嵌入的概率向量,结合该概率向量和过平滑加权单元输出的加权向量完成预测任务。
本实施方式中,在预测模型中增加了平滑链接单元和平滑加权单元,能够更精确地缓解由于图卷积网络多层叠加造成的过平滑问题,从而保证模型在可迁移性的前提下,提高对海洋态势预测任务的性能。
进一步的,本发明实施例还提供一种基于知识图谱的预测装置,用于执行上述基于知识图谱的预测方法。具体的,如图7所示,基于知识图谱的预测装置70包括:数据获取模块71,用于获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;信息提取模块72,用于将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;信息调整模块73,用于从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
在本发明的一种示例性实施方式中,该装置70还包括:事件分类模块,用于将所述时序知识图谱中的事件进行分类,得到同类事件;强度函数模块,用于通过预先训练的强度函数确定所述同类事件的权重,基于所述权重确定所述时序知识图谱对应的加权向量;加权模块,用于结合所述加权向量与所述第二嵌入,确定所述目标时段的预测数据。
在本发明的一种示例性实施方式中,所述循环图神经网络中包括N个依次连接的图卷积网络,N为正整数;上述信息提取模块具体包括:时序分割模块,用于将所述时序知识图谱按照预设时间间隔分割为N个样本集;信息输入模块,用于将第i个样本集与第i-1个图卷积网络输出的第i-1个隐式信息输入第i个图卷积网络中,获得第i个样本集的第一嵌入,以及第i个隐式信息;其中,1≤i≤N。
在本发明的一种示例性实施方式中,上述信息调整模块具体用于:将所述平滑缓解信息、第i个样本集与所述第i-1个隐式信息输入所述第i个图卷积网络,得到第i个样本集的第二嵌入。
在本发明的一种示例性实施方式中,上述信息调整模块还包括:权重确定模块,用于根据所述时序知识图谱中的时间戳,确定所述时序知识图谱的第一权重;静态图获取模块,用于基于所述第一权重对所述时序知识图谱进行复制,将复制后的时序知识图谱中的时间去除,获取静态知识图谱;向量确定模块,用于基于所述静态知识图谱确定平滑嵌入向量。
在本发明的一种示例性实施方式中,上述信息调整模块还包括:相似确定模块,用于确定所述时序知识图谱中实体之间的相似性;分类模块,用于基于所述相似性对所述实体进行聚类,并基于聚类的结果确定相似实体对;正则确定模块,用于基于所述相似实体对确定正则化项。
本实施例中描述的基于知识图谱的预测装置与上文描述的基于知识图谱的预测方法可相互对应参照,此处不再赘述。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于知识图谱的预测方法,该方法包括:获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于知识图谱的预测方法,该方法包括:获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于知识图谱的预测方法,该方法包括:获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于知识图谱的预测方法,其特征在于,包括:
获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;
将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;
从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据;
其中,从所述时序知识图谱中提取平滑缓解信息的方法包括:
根据所述时序知识图谱中的时间戳,确定所述时序知识图谱的第一权重;
基于所述第一权重对所述时序知识图谱进行复制,将复制后的时序知识图谱中的时间去除,获取静态知识图谱;
基于所述静态知识图谱确定平滑嵌入向量,将所述平滑嵌入向量作为所述平滑缓解信息;
或包括:
确定所述时序知识图谱中实体之间的相似性;
基于所述相似性对所述实体进行聚类,并基于聚类的结果确定相似实体对;
基于所述相似实体对确定正则化项,将所述正则化项作为所述平滑缓解信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述时序知识图谱中的事件进行分类,得到同类事件;
通过预先训练的强度函数确定所述同类事件的权重,基于所述权重确定所述时序知识图谱对应的加权向量;
结合所述加权向量与所述第二嵌入,确定所述目标时段的预测数据。
3.根据权利要求1所述的方法,其特征在于,所述循环图神经网络中包括N个依次连接的图卷积网络,N为正整数;所述将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入,包括:
将所述时序知识图谱按照预设时间间隔分割为N个样本集;
将第i个样本集与第i-1个图卷积网络输出的第i-1个隐式信息输入第i个图卷积网络中,获得第i个样本集的第一嵌入,以及第i个隐式信息;其中,1≤i≤N。
4.根据权利要求3所述的方法,其特征在于,所述基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,包括:
将所述平滑缓解信息、第i个样本集与所述第i-1个隐式信息输入所述第i个图卷积网络,得到第i个样本集的第二嵌入。
5.一种基于知识图谱的预测装置,其特征在于,包括:
数据获取模块,用于获取目标海域历史时段的监测数据,将所述监测数据表示为时序知识图谱;
信息提取模块,用于将所述时序知识图谱输入循环图神经网络,获得所述时序知识图谱的第一嵌入;
信息调整模块,用于从所述时序知识图谱中提取平滑缓解信息,基于所述平滑缓解信息对所述第一嵌入进行调整,获得第二嵌入,根据所述第二嵌入确定所述目标海域目标时段的预测数据;
其中,所述信息调整模块包括:
权重确定模块,用于根据所述时序知识图谱中的时间戳,确定所述时序知识图谱的第一权重;静态图获取模块,用于基于所述第一权重对所述时序知识图谱进行复制,将复制后的时序知识图谱中的时间去除,获取静态知识图谱;向量确定模块,用于基于所述静态知识图谱确定平滑嵌入向量,将所述平滑嵌入向量作为所述平滑缓解信息;
或包括:
相似确定模块,用于确定所述时序知识图谱中实体之间的相似性;分类模块,用于基于所述相似性对所述实体进行聚类,并基于聚类的结果确定相似实体对;正则确定模块,用于基于所述相似实体对确定正则化项,将所述正则化项作为所述平滑缓解信息。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于知识图谱的预测方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于知识图谱的预测方法。
CN202211045030.5A 2022-08-30 2022-08-30 基于知识图谱的预测方法、装置和电子设备 Active CN115114411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045030.5A CN115114411B (zh) 2022-08-30 2022-08-30 基于知识图谱的预测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045030.5A CN115114411B (zh) 2022-08-30 2022-08-30 基于知识图谱的预测方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN115114411A CN115114411A (zh) 2022-09-27
CN115114411B true CN115114411B (zh) 2022-12-30

Family

ID=83335625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045030.5A Active CN115114411B (zh) 2022-08-30 2022-08-30 基于知识图谱的预测方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN115114411B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065668A1 (en) * 2018-08-27 2020-02-27 NEC Laboratories Europe GmbH Method and system for learning sequence encoders for temporal knowledge graph completion
CN112395423B (zh) * 2020-09-09 2022-08-26 北京邮电大学 递归的时序知识图谱补全方法和装置
CN112800237B (zh) * 2021-01-19 2023-08-11 中国再保险(集团)股份有限公司 基于知识图谱嵌入表示的预测方法、装置和计算机设备
CN113869404B (zh) * 2021-09-27 2024-05-28 北京工业大学 面向论文网络数据的自适应图卷积聚类方法
CN114896416A (zh) * 2022-05-16 2022-08-12 四川省人工智能研究院(宜宾) 面向流场景的时序知识图谱嵌入与预测方法

Also Published As

Publication number Publication date
CN115114411A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
Lipton et al. Detecting and correcting for label shift with black box predictors
US11481585B2 (en) Segmentation of data
Aakur et al. A perceptual prediction framework for self supervised event segmentation
EP3355547A1 (en) Method and system for learning representations of network flow traffic
Lou et al. Predicting network controllability robustness: A convolutional neural network approach
CN111652290B (zh) 一种对抗样本的检测方法及装置
KR102011788B1 (ko) 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
CN111881722B (zh) 一种跨年龄人脸识别方法、系统、装置及存储介质
CN112016097A (zh) 一种预测网络安全漏洞被利用时间的方法
CN112668698A (zh) 一种神经网络的训练方法及系统
CN111125186B (zh) 一种基于调查问卷的数据处理方法及系统
Collier et al. Transfer and marginalize: Explaining away label noise with privileged information
CN112613032B (zh) 基于系统调用序列的主机入侵检测方法及装置
Liu et al. Revisiting pseudo-label for single-positive multi-label learning
Yong et al. Do autoencoders need a bottleneck for anomaly detection?
Tanaka et al. Symplectic spectrum Gaussian processes: learning Hamiltonians from noisy and sparse data
CN114373224A (zh) 基于自监督学习的模糊3d骨架动作识别方法及装置
Moskalenko et al. Improving the effectiveness of training the on-board object detection system for a compact unmanned aerial vehicle
Pandhiani et al. Time series forecasting by using hybrid models for monthly streamflow data
CN117727043A (zh) 信息重构模型的训练、图像检索方法、装置及设备
CN115114411B (zh) 基于知识图谱的预测方法、装置和电子设备
CN113918936A (zh) Sql注入攻击检测的方法以及装置
CN116681623A (zh) 基于多级拉普拉斯金字塔去噪的sar图像目标检测方法
CN115565548A (zh) 异常声音检测方法、装置、存储介质及电子设备
Chien et al. Stochastic convolutional recurrent networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant