CN116737943A - 面向新闻领域的时序知识图谱链路预测方法 - Google Patents
面向新闻领域的时序知识图谱链路预测方法 Download PDFInfo
- Publication number
- CN116737943A CN116737943A CN202310421320.3A CN202310421320A CN116737943A CN 116737943 A CN116737943 A CN 116737943A CN 202310421320 A CN202310421320 A CN 202310421320A CN 116737943 A CN116737943 A CN 116737943A
- Authority
- CN
- China
- Prior art keywords
- time
- knowledge graph
- time sequence
- vector
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 25
- 230000003068 static effect Effects 0.000 claims abstract description 21
- 230000000737 periodic effect Effects 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开面向新闻领域的时序知识图谱链路预测方法,包括步骤:将预处理后的新闻数据集转换为静态知识图谱;为静态知识图谱的每个实体节点和关系边添加时间戳信息,并通过滑动时间窗口裁剪为若干个时间子图,形成时序知识图谱;对时序知识图谱进行编码,获得时序编码向量;采用时间向量生成器生成周期性和非周期性时间向量,将周期性和非周期性时间向量与时序编码向量结合组成嵌入矩阵;构建Time‑ConvKB模型,将嵌入矩阵嵌入Time‑ConvKB模型中,获得预测结果。本发明能够解决传统知识图谱在新闻领域上的数据稀疏性,提高了模型的预测准确性,更好的反应新闻数据的时效性,提高预测的实用性。
Description
技术领域
本发明涉及新闻领域技术领域,尤其涉及面向新闻领域的时序知识图谱链路预测方法。
背景技术
知识图谱是人工智能的重要组成部分,以结构化的方法描述客观世界中的概念、实体及其之间的关系。面向新闻数据的知识图谱链路预测是一项研究任务,旨在预测知识图谱中尚未出现的实体节点之间的关系。
目前面向新闻数据的知识图谱链路预测所采用的技术主要基于图神经网络、时间序列分解、深度强化学习或多任务学习所展开,其存在以下缺陷:1.数据稀疏性:由于新闻数据的不确定性和时效性,导致新闻知识图谱中的实体和关系信息非常稀疏,这给链路预测任务带来了挑战;2.数据不平衡性:新闻数据中的实体和关系往往存在不同的类别和数量分布,导致样本不平衡问题,这会对链路预测的准确性和稳定性造成影响;3.缺乏标注数据:对于新闻领域的知识图谱,缺乏大规模的标注数据,这给训练和评估链路预测模型带来了一定的困难;4.多样性和变化性:新闻数据的特点在于多样性和变化性,例如在不同时间点,同一个实体的属性和关系可能会发生变化,这要求链路预测模型能够适应这种变化和多样性;5.模型可解释性:新闻数据的知识图谱链路预测模型需要具有一定的可解释性,即模型的预测结果需要能够被人类理解和解释,这对于应用于新闻领域的知识推理和决策至关重要。
发明内容
为了解决上述技术问题,本发明提出面向新闻领域的时序知识图谱链路预测方法。在该方法中,能够解决传统知识图谱在新闻领域上的数据稀疏性,提高了模型的预测准确性,更好的反应新闻数据的时效性,提高预测的实用性。
为了达到上述目的,本发明的技术方案如下:
面向新闻领域的时序知识图谱链路预测方法,包括如下步骤:
获取新闻数据集并预处理,将预处理后的新闻数据集转换为静态知识图谱;
为所述静态知识图谱的每个实体节点和关系边添加时间戳信息,并通过滑动时间窗口裁剪为若干个时间子图,形成时序知识图谱;
利用引入注意力机制的CNN-LSTM模型对所述时序知识图谱进行编码,获得时序编码向量;
采用时间向量生成器生成周期性和非周期性时间向量,将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵;
构建基于ConvKB的Time-ConvKB模型,将所述嵌入矩阵嵌入Time-ConvKB模型中,获得预测结果。
优选地,所述新闻数据集是基于分布式的爬虫框架并行爬取多个新闻网站的新闻数据获得。
优选地,所述对时序知识图谱进行编码,获得时序编码向量,具体包括如下步骤:
将时序知识图谱中的实体节点和关系边表示为节点特征矩阵和邻接矩阵;
采用CNN模块对时间子图中节点特征矩阵进行卷积操作,提取局部特征,同时注意力模块对时间子图的节点特征矩阵进行加权平均,获得注意力特征;
将对应CNN模块输出局部特征和对应注意力模块的输出结果注意力特征逐元素相乘得到节点特征向量;
将所有时间子图的节点特征向量按照时间顺序依次输入至LSTM网络,对时间序列信息进行编码,生成时序编码向量。
优选地,所述构建基于ConvKB的Time-ConvKB模型,将嵌入矩阵嵌入Time-ConvKB模型中,获得预测结果,包括如下步骤:
设编码过后的主体实体向量为客观实体向量为/>关系向量为rt,周期性和非周期性时间向量为/>和/>则四元组定义为k×5的嵌入矩阵/>
将嵌入矩阵通过一个k×5的滤波器来提取嵌入矩阵相同维度项之间的全局关系,生成不同的特征映射;
得到映射之后,Time-ConvKB的预测向量P如下所示:
其中Ω和w为共享参数,*表示卷积算子,concat表示连接操作符,损失函数的公式如下所示:
其中,F′t是Ft有效四元组中进行损坏生成的无效四元组的集合,将预测向量P通过sigmoid函数转换为概率值,获得预测结果。
基于上述技术方案,本发明的有益效果是:获取新闻数据集并预处理,将预处理后的新闻数据集转换为静态知识图谱;为所述静态知识图谱的每个实体节点和关系边添加时间戳信息,并通过滑动时间窗口裁剪为若干个时间子图,形成时序知识图谱;利用引入注意力机制的CNN-LSTM模型对所述时序知识图谱进行编码,获得时序编码向量;采用时间向量生成器生成周期性和非周期性时间向量,将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵;构建基于ConvKB的Time-ConvKB模型,将所述嵌入矩阵嵌入Time-ConvKB模型中,获得预测结果。本发明能够解决传统知识图谱在新闻领域上的数据稀疏性,提高了模型的预测准确性,更好的反应新闻数据的时效性,提高预测的实用性。
附图说明
图1是一个实施例中面向新闻领域的时序知识图谱链路预测方法流程图;
图2是一个实施例中面向新闻领域的时序知识图谱链路预测方法中形成时序编码向量的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参见图1,提供一种面向新闻领域的时序知识图谱链路预测方法流程图,具体包括如下步骤:
步骤101,获取新闻数据集并预处理,将预处理后的新闻数据集转换为静态知识图谱。
本实施例中,基于分布式的爬虫框架并行爬取多个新闻网站的新闻数据,形成新闻数据集,其爬虫框架包括Scrapy、PySpider等。
对新闻数据集进行数据预处理,基于处理后的新闻数据集转换为静态知识图谱,静态知识图谱中所有的实体节点对应于数据集中的实体集合E,静态知识图谱中所有的关系边对应于数据集中的关系集合R。将静态知识图谱存储在Neo4j图数据库中。
步骤102,为静态知识图谱的每个实体节点和关系边添加时间戳信息,并通过滑动时间窗口裁剪为若干个时间子图,形成时序知识图谱。
本实施例中,先为静态知识图谱的每个实体节点和关系边添加时间戳信息。通过在静态知识图谱中加入时间戳信息,可以生成一个更加稠密的时序知识图谱,使得缺失数据得以填充,从而提高模型的精度。然后使用基于滑动时间窗口方法,将一段时间内的新闻数据看作一个时间窗口,将这段时间内发生新闻事件组成时间子图,在通过滑动窗口的方式,不断向后滑动时间窗口,构建出具有一个个时间子图的面向新闻数据的时序知识图谱。传统的基于图结构的预测模型难以处理实体节点和关系边的动态演化,而使用时序知识图谱可以将实体节点和关系边的时间序列信息编码到模型中,从而提高模型的预测准确性。使用时序知识图谱可以捕捉实体节点和关系边的时间演化趋势,可以更好地反映新闻数据的时效性,从而提高预测的实用性。
步骤103,利用引入注意力机制的CNN-LSTM模型对时序知识图谱进行编码,获得时序编码向量。
参见图2,提供形成时序编码向量的流程图。对于每个时间步,将时序知识图谱中的节点和边表示为节点特征矩阵和邻接矩阵,然后使用CNN模块对每个时间子图的节点特征矩阵进行卷积操作,提取局部特征WCNN,同时对每个时间子图的节点特征矩阵使用Attention机制进行加权平均,再将对应CNN模块输出的结果WCNN和对应注意力模块的输出结果注意力特征Wattention逐元素相乘得到节点特征向量W(i,c)。之后,将所有时间子图的节点特征向量W(i,c)按照时间顺序输入进LSTM网络,对时间序列信息进行编码,生成时序编码向量。
步骤104,采用时间向量生成器生成周期性和非周期性时间向量,将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵。
步骤105,构建基于ConvKB的Time-ConvKB模型,将嵌入矩阵嵌入Time-ConvKB模型中,获得预测结果。
具体来说,对于一个需要进行链路预测的新闻四元组(s,?,o,t),s表示主体实体,o表示客观实体,t为当前时间。将一个时序知识图谱G定义为一个时间子图序列,即G={G1,G2,...,Gt}。时间子图Gt在时间t上是一个有向多关系图,E是实体集,R是关系集,Ft是时间t上的事实集,Ft中的一个事实可以被形式化为一个四元组(s,r,o,t),其中s,o∈E,r∈R。
首先,对于(s,?,o,t)中的?部分,通过负采样的方式生成一组候选关系r=[r1,r2,...,rk]生成k个负样本四元组(s,r1,o,t),...,(s,rk,o,t)。假设编码过后的主体实体向量为客观实体向量为/>关系向量为rt,周期性和非周期性时间向量为/>和/>则嵌入矩阵/>通过一个k×5的滤波器w,研究嵌入模型之间的整体关系,生成特征映射v=[v1,v2,...,vk],则
vi=g(w·Ai+b)
其中,Ai表示嵌入矩阵A的第i行,b∈R是一个偏差项,g是激活函数。
得到映射之后,采用基于ConvKB的Time-ConvKB模型来返回一个分数进行评分,其Time-ConvKB模型的预测向量P,公式如下所示:
其中,Ω和w为共享参数,*表示卷积算子;concat表示连接操作符。
损失函数的公式如下所示:
其中,F′t是Ft有效四元组中进行损坏生成的无效四元组的集合。
最后,将预测向量P通过sigmoid函数转换为概率值,获得预测结果。
以上所述仅为本发明所公开的面向新闻领域的时序知识图谱链路预测方法的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。
Claims (4)
1.面向新闻领域的时序知识图谱链路预测方法,其特征在于,包括如下步骤:
获取新闻数据集并预处理,将预处理后的新闻数据集转换为静态知识图谱;
为所述静态知识图谱的每个实体节点和关系边添加时间戳信息,并通过滑动时间窗口裁剪为若干个时间子图,形成时序知识图谱;
利用引入注意力机制的CNN-LSTM模型对所述时序知识图谱进行编码,获得时序编码向量;
采用时间向量生成器生成周期性和非周期性时间向量,将周期性和非周期性时间向量与所述时序编码向量结合组成嵌入矩阵;
构建基于ConvKB的Time-ConvKB模型,将所述嵌入矩阵嵌入Time-ConvKB模型中,获得预测结果。
2.根据权利要求1所述的面向新闻领域的时序知识图谱链路预测方法,其特征在于,所述新闻数据集是基于分布式的爬虫框架并行爬取多个新闻网站的新闻数据获得。
3.根据权利要求1所述的面向新闻领域的时序知识图谱链路预测方法,其特征在于,所述对时序知识图谱进行编码,获得时序编码向量,具体包括如下步骤:
将时序知识图谱中的实体节点和关系边表示为节点特征矩阵和邻接矩阵;
采用CNN模块对时间子图中节点特征矩阵进行卷积操作,提取局部特征,同时注意力模块对时间子图的节点特征矩阵进行加权平均,获得注意力特征;
将对应CNN模块输出局部特征和对应注意力模块的输出结果注意力特征逐元素相乘得到节点特征向量;
将所有时间子图的节点特征向量按照时间顺序依次输入至LSTM网络,对时间序列信息进行编码,生成时序编码向量。
4.根据权利要求1所述的面向新闻领域的时序知识图谱链路预测方法,其特征在于,所述构建基于ConvKB的Time-ConvKB模型,将嵌入矩阵嵌入Time-ConvKB模型中,获得预测结果,包括如下步骤:
设编码过后的主体实体向量为客观实体向量为/>关系向量为rt,
周期性和非周期性时间向量为和/>则四元组定义为k×5的嵌入矩阵
将嵌入矩阵通过一个k×5的滤波器来提取嵌入矩阵相同维度项之间的全局关系,生成不同的特征映射;
得到映射之后,Time-ConvKB的预测向量P如下所示:
其中Ω和w为共享参数,*表示卷积算子,concat表示连接操作符,损失函数的公式如下所示:
其中,F't是Ft有效四元组中进行损坏生成的无效四元组的集合,将预测向量P通过sigmoid函数转换为概率值,获得预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310421320.3A CN116737943A (zh) | 2023-04-19 | 2023-04-19 | 面向新闻领域的时序知识图谱链路预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310421320.3A CN116737943A (zh) | 2023-04-19 | 2023-04-19 | 面向新闻领域的时序知识图谱链路预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737943A true CN116737943A (zh) | 2023-09-12 |
Family
ID=87914038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310421320.3A Pending CN116737943A (zh) | 2023-04-19 | 2023-04-19 | 面向新闻领域的时序知识图谱链路预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737943A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633328A (zh) * | 2024-01-25 | 2024-03-01 | 武汉博特智能科技有限公司 | 基于数据挖掘的新媒体内容监测方法及系统 |
-
2023
- 2023-04-19 CN CN202310421320.3A patent/CN116737943A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633328A (zh) * | 2024-01-25 | 2024-03-01 | 武汉博特智能科技有限公司 | 基于数据挖掘的新媒体内容监测方法及系统 |
CN117633328B (zh) * | 2024-01-25 | 2024-04-12 | 武汉博特智能科技有限公司 | 基于数据挖掘的新媒体内容监测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110212528B (zh) | 一种配电网量测数据缺失重构方法 | |
CN112766078B (zh) | 基于emd-svr-mlr与注意力机制的gru-nn的电力负荷层次预测方法 | |
CN113688869B (zh) | 一种基于生成对抗网络的光伏数据缺失重构方法 | |
CN106529721A (zh) | 一种深度特征提取的广告点击率预测系统及其预测方法 | |
CN115688579A (zh) | 一种基于生成对抗网络的流域多点水位预测预警方法 | |
CN112163106B (zh) | 二阶相似感知的图像哈希码提取模型建立方法及其应用 | |
CN113420868A (zh) | 一种基于深度强化学习的旅行商问题求解方法及求解系统 | |
CN114898121A (zh) | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 | |
CN114841072A (zh) | 一种基于差分融合Transformer的时序预测方法 | |
CN116737943A (zh) | 面向新闻领域的时序知识图谱链路预测方法 | |
CN116843083A (zh) | 基于混合神经网络模型的碳排放预测系统及方法 | |
Li et al. | Fault identification in power network based on deep reinforcement learning | |
CN116307211A (zh) | 一种风电消纳能力预测及优化方法及系统 | |
CN115964258A (zh) | 基于多时序分析的物联网卡异常行为分级监测方法及系统 | |
CN114723003A (zh) | 一种基于时序卷积和关系建模的事件序列预测方法 | |
CN113298131B (zh) | 一种基于注意力机制的时序数据缺失值插补方法 | |
CN114694379A (zh) | 一种基于自适应动态图卷积的交通流预测方法及系统 | |
CN117175588B (zh) | 基于时空相关性的用电负荷预测方法及装置 | |
CN114821337B (zh) | 基于时相一致性伪标签的半监督sar图像建筑区提取方法 | |
CN116166642A (zh) | 基于引导信息的时空数据填补方法、系统、设备及介质 | |
Chakrabarti et al. | Diagnosis using a first-order stochastic language that learns | |
CN117454762B (zh) | Markov-神经网络的穿煤隧道掌子面瓦斯浓度预测方法 | |
Pearson et al. | Predicting ecological outcomes using fuzzy interaction webs | |
Chakrabarti et al. | A First-Order Stochastic Prognostic System for the Diagnosis of Helicopter Rotor Systems for the US Navy. | |
CN117556052A (zh) | 一种基于轻量级预训练模型的云运维知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |