CN116737943A

CN116737943A - 面向新闻领域的时序知识图谱链路预测方法

Info

Publication number: CN116737943A
Application number: CN202310421320.3A
Authority: CN
Inventors: 冯思玲; 吉训漾; 黄梦醒; 刘倩; 刘慧舟; 毋媛媛
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-09-12

Abstract

本发明公开面向新闻领域的时序知识图谱链路预测方法，包括步骤：将预处理后的新闻数据集转换为静态知识图谱；为静态知识图谱的每个实体节点和关系边添加时间戳信息，并通过滑动时间窗口裁剪为若干个时间子图，形成时序知识图谱；对时序知识图谱进行编码，获得时序编码向量；采用时间向量生成器生成周期性和非周期性时间向量，将周期性和非周期性时间向量与时序编码向量结合组成嵌入矩阵；构建Time‑ConvKB模型，将嵌入矩阵嵌入Time‑ConvKB模型中，获得预测结果。本发明能够解决传统知识图谱在新闻领域上的数据稀疏性，提高了模型的预测准确性，更好的反应新闻数据的时效性，提高预测的实用性。

Description

面向新闻领域的时序知识图谱链路预测方法

技术领域

本发明涉及新闻领域技术领域，尤其涉及面向新闻领域的时序知识图谱链路预测方法。

背景技术

知识图谱是人工智能的重要组成部分，以结构化的方法描述客观世界中的概念、实体及其之间的关系。面向新闻数据的知识图谱链路预测是一项研究任务，旨在预测知识图谱中尚未出现的实体节点之间的关系。

目前面向新闻数据的知识图谱链路预测所采用的技术主要基于图神经网络、时间序列分解、深度强化学习或多任务学习所展开，其存在以下缺陷：1.数据稀疏性：由于新闻数据的不确定性和时效性，导致新闻知识图谱中的实体和关系信息非常稀疏，这给链路预测任务带来了挑战；2.数据不平衡性：新闻数据中的实体和关系往往存在不同的类别和数量分布，导致样本不平衡问题，这会对链路预测的准确性和稳定性造成影响；3.缺乏标注数据：对于新闻领域的知识图谱，缺乏大规模的标注数据，这给训练和评估链路预测模型带来了一定的困难；4.多样性和变化性：新闻数据的特点在于多样性和变化性，例如在不同时间点，同一个实体的属性和关系可能会发生变化，这要求链路预测模型能够适应这种变化和多样性；5.模型可解释性：新闻数据的知识图谱链路预测模型需要具有一定的可解释性，即模型的预测结果需要能够被人类理解和解释，这对于应用于新闻领域的知识推理和决策至关重要。

发明内容

为了解决上述技术问题，本发明提出面向新闻领域的时序知识图谱链路预测方法。在该方法中，能够解决传统知识图谱在新闻领域上的数据稀疏性，提高了模型的预测准确性，更好的反应新闻数据的时效性，提高预测的实用性。

为了达到上述目的，本发明的技术方案如下：

面向新闻领域的时序知识图谱链路预测方法，包括如下步骤：

获取新闻数据集并预处理，将预处理后的新闻数据集转换为静态知识图谱；

为所述静态知识图谱的每个实体节点和关系边添加时间戳信息，并通过滑动时间窗口裁剪为若干个时间子图，形成时序知识图谱；

利用引入注意力机制的CNN-LSTM模型对所述时序知识图谱进行编码，获得时序编码向量；

采用时间向量生成器生成周期性和非周期性时间向量，将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵；

构建基于ConvKB的Time-ConvKB模型，将所述嵌入矩阵嵌入Time-ConvKB模型中，获得预测结果。

优选地，所述新闻数据集是基于分布式的爬虫框架并行爬取多个新闻网站的新闻数据获得。

优选地，所述对时序知识图谱进行编码，获得时序编码向量，具体包括如下步骤：

将时序知识图谱中的实体节点和关系边表示为节点特征矩阵和邻接矩阵；

采用CNN模块对时间子图中节点特征矩阵进行卷积操作，提取局部特征，同时注意力模块对时间子图的节点特征矩阵进行加权平均，获得注意力特征；

将对应CNN模块输出局部特征和对应注意力模块的输出结果注意力特征逐元素相乘得到节点特征向量；

将所有时间子图的节点特征向量按照时间顺序依次输入至LSTM网络，对时间序列信息进行编码，生成时序编码向量。

优选地，所述构建基于ConvKB的Time-ConvKB模型，将嵌入矩阵嵌入Time-ConvKB模型中，获得预测结果，包括如下步骤：

设编码过后的主体实体向量为客观实体向量为/>关系向量为r_t，周期性和非周期性时间向量为/>和/>则四元组定义为k×5的嵌入矩阵/>

将嵌入矩阵通过一个k×5的滤波器来提取嵌入矩阵相同维度项之间的全局关系，生成不同的特征映射；

得到映射之后，Time-ConvKB的预测向量P如下所示：

其中Ω和w为共享参数，*表示卷积算子，concat表示连接操作符，损失函数的公式如下所示：

其中，F′_t是F_t有效四元组中进行损坏生成的无效四元组的集合，将预测向量P通过sigmoid函数转换为概率值，获得预测结果。

基于上述技术方案，本发明的有益效果是：获取新闻数据集并预处理，将预处理后的新闻数据集转换为静态知识图谱；为所述静态知识图谱的每个实体节点和关系边添加时间戳信息，并通过滑动时间窗口裁剪为若干个时间子图，形成时序知识图谱；利用引入注意力机制的CNN-LSTM模型对所述时序知识图谱进行编码，获得时序编码向量；采用时间向量生成器生成周期性和非周期性时间向量，将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵；构建基于ConvKB的Time-ConvKB模型，将所述嵌入矩阵嵌入Time-ConvKB模型中，获得预测结果。本发明能够解决传统知识图谱在新闻领域上的数据稀疏性，提高了模型的预测准确性，更好的反应新闻数据的时效性，提高预测的实用性。

附图说明

图1是一个实施例中面向新闻领域的时序知识图谱链路预测方法流程图；

图2是一个实施例中面向新闻领域的时序知识图谱链路预测方法中形成时序编码向量的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

参见图1，提供一种面向新闻领域的时序知识图谱链路预测方法流程图，具体包括如下步骤：

步骤101，获取新闻数据集并预处理，将预处理后的新闻数据集转换为静态知识图谱。

本实施例中，基于分布式的爬虫框架并行爬取多个新闻网站的新闻数据，形成新闻数据集，其爬虫框架包括Scrapy、PySpider等。

对新闻数据集进行数据预处理，基于处理后的新闻数据集转换为静态知识图谱，静态知识图谱中所有的实体节点对应于数据集中的实体集合E，静态知识图谱中所有的关系边对应于数据集中的关系集合R。将静态知识图谱存储在Neo4j图数据库中。

步骤102，为静态知识图谱的每个实体节点和关系边添加时间戳信息，并通过滑动时间窗口裁剪为若干个时间子图，形成时序知识图谱。

本实施例中，先为静态知识图谱的每个实体节点和关系边添加时间戳信息。通过在静态知识图谱中加入时间戳信息，可以生成一个更加稠密的时序知识图谱，使得缺失数据得以填充，从而提高模型的精度。然后使用基于滑动时间窗口方法，将一段时间内的新闻数据看作一个时间窗口，将这段时间内发生新闻事件组成时间子图，在通过滑动窗口的方式，不断向后滑动时间窗口，构建出具有一个个时间子图的面向新闻数据的时序知识图谱。传统的基于图结构的预测模型难以处理实体节点和关系边的动态演化，而使用时序知识图谱可以将实体节点和关系边的时间序列信息编码到模型中，从而提高模型的预测准确性。使用时序知识图谱可以捕捉实体节点和关系边的时间演化趋势，可以更好地反映新闻数据的时效性，从而提高预测的实用性。

步骤103，利用引入注意力机制的CNN-LSTM模型对时序知识图谱进行编码，获得时序编码向量。

参见图2，提供形成时序编码向量的流程图。对于每个时间步，将时序知识图谱中的节点和边表示为节点特征矩阵和邻接矩阵，然后使用CNN模块对每个时间子图的节点特征矩阵进行卷积操作，提取局部特征W_CNN，同时对每个时间子图的节点特征矩阵使用Attention机制进行加权平均，再将对应CNN模块输出的结果W_CNN和对应注意力模块的输出结果注意力特征W_attention逐元素相乘得到节点特征向量W(i，c)。之后，将所有时间子图的节点特征向量W(i，c)按照时间顺序输入进LSTM网络，对时间序列信息进行编码，生成时序编码向量。

步骤104，采用时间向量生成器生成周期性和非周期性时间向量，将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵。

步骤105，构建基于ConvKB的Time-ConvKB模型，将嵌入矩阵嵌入Time-ConvKB模型中，获得预测结果。

具体来说，对于一个需要进行链路预测的新闻四元组(s，？，o，t)，s表示主体实体，o表示客观实体，t为当前时间。将一个时序知识图谱G定义为一个时间子图序列，即G＝{G₁，G₂，...，G_t}。时间子图G_t在时间t上是一个有向多关系图，E是实体集，R是关系集，F_t是时间t上的事实集，F_t中的一个事实可以被形式化为一个四元组(s，r，o，t)，其中s，o∈E，r∈R。

首先，对于(s，？，o，t)中的？部分，通过负采样的方式生成一组候选关系r＝[r₁，r₂，...，r_k]生成k个负样本四元组(s，r₁，o，t)，...，(s，r_k，o，t)。假设编码过后的主体实体向量为客观实体向量为/>关系向量为r_t，周期性和非周期性时间向量为/>和/>则嵌入矩阵/>通过一个k×5的滤波器w，研究嵌入模型之间的整体关系，生成特征映射v＝[v₁,v₂,...,v_k]，则

v_i＝g(w·A_i+b)

其中，A_i表示嵌入矩阵A的第i行，b∈R是一个偏差项，g是激活函数。

得到映射之后，采用基于ConvKB的Time-ConvKB模型来返回一个分数进行评分，其Time-ConvKB模型的预测向量P，公式如下所示：

其中，Ω和w为共享参数，*表示卷积算子；concat表示连接操作符。

损失函数的公式如下所示：

其中，F′_t是F_t有效四元组中进行损坏生成的无效四元组的集合。

最后，将预测向量P通过sigmoid函数转换为概率值，获得预测结果。

以上所述仅为本发明所公开的面向新闻领域的时序知识图谱链路预测方法的优选实施方式，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

Claims

1.面向新闻领域的时序知识图谱链路预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面向新闻领域的时序知识图谱链路预测方法，其特征在于，所述新闻数据集是基于分布式的爬虫框架并行爬取多个新闻网站的新闻数据获得。

3.根据权利要求1所述的面向新闻领域的时序知识图谱链路预测方法，其特征在于，所述对时序知识图谱进行编码，获得时序编码向量，具体包括如下步骤：

4.根据权利要求1所述的面向新闻领域的时序知识图谱链路预测方法，其特征在于，所述构建基于ConvKB的Time-ConvKB模型，将嵌入矩阵嵌入Time-ConvKB模型中，获得预测结果，包括如下步骤：

设编码过后的主体实体向量为客观实体向量为/>关系向量为r_t，

周期性和非周期性时间向量为和/>则四元组定义为k×5的嵌入矩阵

得到映射之后，Time-ConvKB的预测向量P如下所示：

其中，F'_t是F_t有效四元组中进行损坏生成的无效四元组的集合，将预测向量P通过sigmoid函数转换为概率值，获得预测结果。