CN116049427A - 一种基于广度优先搜索的少样本知识图谱协同编辑方法 - Google Patents
一种基于广度优先搜索的少样本知识图谱协同编辑方法 Download PDFInfo
- Publication number
- CN116049427A CN116049427A CN202211640171.1A CN202211640171A CN116049427A CN 116049427 A CN116049427 A CN 116049427A CN 202211640171 A CN202211640171 A CN 202211640171A CN 116049427 A CN116049427 A CN 116049427A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- graph
- editing method
- breadth
- collaborative editing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012512 characterization method Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于广度优先搜索的知识图谱协同编辑方法。在本方法中,有两个主要的技术贡献,首先,为了弥合语义上的差距,通过学习知识图谱的表征(由图神经网络编码)和基于预训练语言模型的实体表征之间的对应关系来加强表征的一致性。其次,为了将知识图谱输入到预训练语言模型,提出了一个基于关系的广度优先搜索策略,将知识图谱线性化为一个良好的实体序列。本发明可以以文本输入的形式编辑知识图谱,以及可用于其他有关知识图谱和文本之间的对应关系的相关任务。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种基于广度优先搜索的少样本知识图谱协同编辑方法。
背景技术
随着互联网、物联网、云计算等信息技术的不断发展,数据的快速增长已经成为许多行业共同面对的严峻挑战和宝贵机遇,整个社会已经迈入了大数据时代。为了更好地利用知识,谷歌于2012年,在语义研究热潮中提出知识图谱的概念。与普通的关系数据库相比,知识图谱是一种描述真实世界客观存在的实体、概念及它们之间的关联关系的语义网络,用于以符号形式描述物理世界中的实体、概念及其相互关系。这些结构化的知识促进了人和计算机对知识的理解和利用,是人工智能应用实现的知识基础。
近年来,在众包平台和信息提取系统的帮助下,大规模的标签化的知识图谱及其描述性文本对已经被创建。大型数据集的出现使得数据驱动的模型已经显示出令人印象深刻的能力,可以为给定的知识图谱产生信息丰富和流畅的文本。然而,由于注释过程的巨大开支,在实践中为各种领域生成大规模的标记数据集并不总是可行的。受此启发,有必要基于少样本的知识图谱编辑任务,目的是在仅有少数标记实例的情况下使得知识图谱产生令人满意的编辑效果。
为了完成这项任务,需要充分理解来自不同领域的实体之间复杂的语义关系,这在有限的标记数据下是具有挑战性的。受到了预训练语言模型在语言理解和生成任务上出色能力的启发:在大规模语料库上进行预训练后,预训练语言模型将大量的世界知识编码到它们的参数中,这对理解和描述任务中的知识图谱中的事实(facts)有潜在好处。
然而,将预训练语言模型应用于知识图谱的编辑任务仍然面临两个挑战。首先,预训练语言模型通常在自然语言文本上进行预训练,而任务中的知识图谱的输入是结构化的图。这种语义上的差距使得我们很难有效地将知识图谱的表征注入预训练语言模型,特别是在有限的标记实例中。其次,知识图谱的编辑任务需要基于对知识图谱中事实的理解的基础上进行生成。它需要在输入的知识图谱和输出的文本之间学习准确的语义对应关系,这在少样本学习的设置中会比较困难。
发明内容
为了解决上述问题,本发明提出了一种基于广度优先搜索的知识图谱协同编辑方法。在本方法中,有两个主要的技术贡献。首先,为了弥合语义上的差距,通过学习知识图谱的表征(由图神经网络编码)和基于预训练语言模型的实体表征之间的对应关系来加强表征的一致性。其次,为了将知识图谱输入到预训练语言模型,我们提出了一个基于关系的广度优先搜索策略,将知识图谱线性化为一个良好的实体序列。
为了达到上述目的,本发明提供的技术方案是:一种基于广度优先搜索的知识图谱协同编辑方法,包括如下步骤:
步骤一,获取输入文本和给定的知识图谱,并且对给定的知识图谱进行预处理,提取知识图谱上每个节点的所有三元组;
步骤二,对于输入文本,利用预训练语言模型进行文本表征处理;
步骤三,构造一个基于图神经网络的知识图谱编码器,通过利用知识图谱中的多关系信息来生成实体编码或向量;
步骤四,通过最小化基于图神经网络的实体向量和基于预训练语言模型的文本在之间在语义空间中的欧几里得距离来建立对齐损失;
步骤五,通过基于关系的广度优先搜索策略,将知识图谱遍历并线性化为实体序列αe;
步骤六,将αe输入到语言模型的解码器,得到文本序列,并将解码器中的文本序列的隐向量输入到知识图谱中,进行关系预测,得到重建损失;
步骤七,通过联合对齐损失和预测损失,采用Adam优化算法进行模型训练,更新语言模型和图神经网络的网络参数;
步骤八,重复T次步骤二至步骤七;
步骤九,在测试阶段,将任意文本输入,得到编辑后的知识图谱。
进一步的,步骤二中,文本表征处理的实现过程如下;
进一步的,步骤三中生成实体编码的实现过程如下;
在这里,ve表示知识图谱中的某个实体e的编码或向量,由知识图谱预处理得到,即由步骤一中的提取知识图谱上每个节点的所有三元组得到;类似地,ve′是知识图谱中除了实体e之外的某个实体e′的编码或向量,由知识图谱预处理得到;σ(·)表示图神经网络;上标(l)和(l+1)分别表示该网络的第l层和l+1层;r为知识图谱中与e和e′相关的关系,整个知识图谱的关系构成的集合为R;为在r的条件下,知识图谱中的邻居集;和是第l层的可训练学习矩阵;最终,实体编码将记作其中L表示图神经网络的层数。
进一步的,对齐损失的计算公式如下;
进一步的,步骤五中实体序列的计算公式如下;
在这里,αe为线性化的实体序列。
进一步的,步骤六的具体实现方式如下;
Te=ρ-1(αe)⑸
p(r|e,e′)=softmax(WsoftTE)⑹
在这里,Te为生成的文本,ρ-1(·)为预训练语言模型的解码器,其隐向量表示为TE,Wsoft是可学习的参数;
在此过程中,重建损失为:
进一步的,步骤七中联合对齐损失和预测损失的表达式为:
在这里,超参数λ1和λ2控制两个不同的目标项的权重。
进一步的,步骤二中采用BERT语言模型。
进一步的,步骤三中采用RGCN图神经网络。
与现有技术相比,本发明的优点和有益效果:基于广度优先搜索的知识图谱协同编辑方法弥合了知识图谱编码和预训练语言模型之间的语义差异,并建立基于关系的知识图谱线性化,从而可以利用输入文本来编辑知识图谱,该编辑方法可用于其他有关知识图谱和文本之间的对应关系的相关任务。
附图说明
图1为本发明实施例中的知识图谱协同编辑过程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
本申请提供一种基于广度优先搜索的知识图谱协同编辑方法,包括:
步骤一获取输入:获取输入文本和给定的知识图谱,并且对给定的知识图谱进行预处理,提取知识图谱上每个节点的所有三元组;
步骤二预训练语言模型的预训练,以及文本预处理:对于输入文本,我们进行文本表征处理:
步骤三知识图谱编码:我们构造一个基于图神经网络的知识图谱编码器。我们通过利用知识图谱中的多关系信息来生成实体编码:
在这里,ve表示知识图谱中的某个实体e的编码/向量(由知识图谱预处理得到,即由步骤一中的提取知识图谱上每个节点的所有三元组得到);类似地,ve′是知识图谱中除了实体e之外的某个实体e′的编码/向量(由知识图谱预处理得到,即由步骤一中的提取知识图谱上每个节点的所有三元组得到);σ(·)表示图神经网络;上标(l)和(l+1)分别表示该网络的第l层和l+1层;r为知识图谱中与e和e′相关的关系,整个知识图谱的关系构成的集合为R;为在r的条件下,知识图谱中的邻居集(the set of neighbors of entity);和是第l层的可训练学习矩阵(trainablematrices)。
步骤四文本-图谱语义对齐:为了缩小模型语义差距,我们通过最小化基于图神经网络的实体向量和基于预训练语言模型的文本在之间在语义空间中的欧几里得距离来建立对齐损失
在这里,||·||2表示2-范数。
步骤五知识图谱编码线性化:我们提出了一种基于关系的广度优先搜索策略,将知识图谱遍历并线性化为实体序列:
在这里,αe为线性化的实体序列,其他变量可以参考公式(2)的说明。
步骤六知识图谱重建:我们将αe输入到语言模型的解码器,得到文本序列;并将解码器中的文本序列的隐向量输入到知识图谱中,进行关系预测:
Te=ρ-1(αe) ⑸
p(r|e,e′)=softmax(WsoftTE) ⑹
在这里,Te为生成的文本,ρ-1(·)为预训练语言模型的解码器,其隐向量表示为TE,Wsoft是可学习的参数,softmax表示softmax函数。
在此过程中,重建损失为:
步骤七网络优化参数调整:通过联合损失函数,采用Adam优化算法进行模型训练,更新语言模型和图神经网络的网络参数:
在这里,超参数λ1和λ2控制两个不同的目标项的权重。
步骤八重复T次步骤二至步骤七;
步骤九在测试阶段,将任意文本输入,得到编辑后的知识图谱。
本发明提供一种基于生成对抗网络的目标域导向的无监督图像转换方法,所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。
下面我们以中文BERT[1]为语言模型为例,以RGCN[2]为图神经网络为例,说明本发明过程,具体包括以下步骤:
1.获取输入:如图1所示,假定输入的文本是“周雷来自武汉理工大学”;给定的知识图谱是中文高中地理知识图谱(CKGG[3])。对于地理图谱进行预处理,提取知识图谱上每个节点的所有三元组。
2.预训练语言模型的预训练,以及文本预处理:
预训练:语言模型将原始的数据样本(文本以及图谱信息)进行分字(tokenize)处理;根据分字后的结果构造一个字典,其次,根据字典将分字后的文本序列转换为表征(token)序列,同时在表征序列的首尾分别加上和符号,并进行填充(padding),最后,根据处理后的结果生成对应的文本向量。
文本预处理:利用语言模型的编码器,执行公式(1),得到文本表征。
3.知识图谱编码:构建12层的图神经网络(L=12),每一层执行公式(2),最后得到知识图谱编码。
4.文本-图谱语义对齐:利用公式(3)使得模型强制执行,缩小模型语义差距,以进一步规范知识图谱的协同编辑任务。
5.知识图谱编码线性化:运用12层图神经网络,执行公式(4),得到线性化实体序列。
6.知识图谱重建:利用语言模型的解码器,执行公式(5),并把其结果,执行公式(6),进行重建;重建过程损失执行公式(7)。
7.网络优化参数调整:我们通过联合损失函数(即公式(8)),使用Adam优化器用于训练,设置批次大小为20,设置学习率为0.00001,设置动量为0.5和0.999。在所有的实验中,设置的超参数如下:λ1=0.5和λ2=0.5。
8.重复T次步骤2至步骤7;
9.在测试阶段,在测试阶段,将任意文本输入,得到编辑后的知识图谱。
本发明的有益效果:基于广度优先搜索的知识图谱协同编辑方法弥合了知识图谱编码和预训练语言模型之间的语义差异,并建立基于关系的知识图谱线性化,从而使得本发明可以以文本输入的形式编辑知识图谱,以及可用于其他有关知识图谱和文本之间的对应关系的相关任务。
相关参考文献如下:
[1]Cui Y,Che W,Liu T,et al.Pre-training with whole word masking forChinese BERT[J].IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,2021,29:3504-3514.
[2]Schlichtkrull M,Kipf T N,Bloem P,et al.Modeling relational datawith graph convolutional networks[C]//European semantic webconference.Springer,Cham,2018:593-607.
[3]开源地址:http://www.openkg.cn/dataset/groups/ckgg.
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种基于广度优先搜索的知识图谱协同编辑方法,其特征在于,包括如下步骤:
步骤一,获取输入文本和给定的知识图谱,并且对给定的知识图谱进行预处理,提取知识图谱上每个节点的所有三元组;
步骤二,对于输入文本,利用预训练语言模型进行文本表征处理;
步骤三,构造一个基于图神经网络的知识图谱编码器,通过利用知识图谱中的多关系信息来生成实体编码或向量;
步骤四,通过最小化基于图神经网络的实体向量和基于预训练语言模型的文本在之间在语义空间中的欧几里得距离来建立对齐损失;
步骤五,通过基于关系的广度优先搜索策略,将知识图谱遍历并线性化为实体序列αe;
步骤六,将αe输入到语言模型的解码器,得到文本序列,并将解码器中的文本序列的隐向量输入到知识图谱中,进行关系预测,得到重建损失;
步骤七,通过联合对齐损失和预测损失,采用Adam优化算法进行模型训练,更新语言模型和图神经网络的网络参数;
步骤八,重复T次步骤二至步骤七;
步骤九,在测试阶段,将任意文本输入,得到编辑后的知识图谱。
3.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法,其特征在于:步骤三中生成实体编码或向量的实现过程如下;
8.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法,其特征在于:步骤二中采用BERT语言模型。
9.如权利要求1所述的一种基于广度优先搜索的知识图谱协同编辑方法,其特征在于:步骤三中采用RGCN图神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211640171.1A CN116049427A (zh) | 2022-12-20 | 2022-12-20 | 一种基于广度优先搜索的少样本知识图谱协同编辑方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211640171.1A CN116049427A (zh) | 2022-12-20 | 2022-12-20 | 一种基于广度优先搜索的少样本知识图谱协同编辑方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116049427A true CN116049427A (zh) | 2023-05-02 |
Family
ID=86121340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211640171.1A Pending CN116049427A (zh) | 2022-12-20 | 2022-12-20 | 一种基于广度优先搜索的少样本知识图谱协同编辑方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049427A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040926A (zh) * | 2023-10-08 | 2023-11-10 | 北京网藤科技有限公司 | 应用知识图谱的工控网络安全特征分析方法和系统 |
-
2022
- 2022-12-20 CN CN202211640171.1A patent/CN116049427A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040926A (zh) * | 2023-10-08 | 2023-11-10 | 北京网藤科技有限公司 | 应用知识图谱的工控网络安全特征分析方法和系统 |
CN117040926B (zh) * | 2023-10-08 | 2024-01-26 | 北京网藤科技有限公司 | 应用知识图谱的工控网络安全特征分析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Commit message generation for source code changes | |
CN116738994A (zh) | 基于上下文增强的提示微调的关系抽取方法 | |
CN110765264A (zh) | 一种增强语义相关性的文本摘要生成方法 | |
CN116643989A (zh) | 一种采用图结构进行深层语义理解的缺陷预测方法 | |
CN114840688A (zh) | 一种计算机构建的嵌入式对齐方法 | |
CN116049427A (zh) | 一种基于广度优先搜索的少样本知识图谱协同编辑方法 | |
CN113435192A (zh) | 一种基于改变神经网络通道基数的中文文本情感分析方法 | |
Chen et al. | Data augmentation for environmental sound classification using diffusion probabilistic model with top-k selection discriminator | |
Du et al. | Prompt template construction by Average Gradient Search with External Knowledge for aspect sentimental analysis | |
CN113342343A (zh) | 基于多跳推理机制的代码摘要生成方法及系统 | |
Feng et al. | Prototypical networks relation classification model based on entity convolution | |
CN112560487A (zh) | 一种基于国产设备的实体关系抽取方法及系统 | |
Gupta | A review of generative AI from historical perspectives | |
Wang et al. | Gated hierarchical LSTMs for target-based sentiment analysis | |
Liu et al. | Improving Code Completion by Sequence Features and Structural Features | |
Li et al. | Improved non-autoregressive dialog state tracking model | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
CN112100371B (zh) | 一种基于XLNet和BLS的弹幕情感分类方法 | |
Pang | Multi-round dialogue state tracking by object-entity alignment in visual dialog | |
Chen et al. | Harmonizing Stable Diffusion and GPT-4 for Mural Expansion with ArtExtend | |
CN111079416B (zh) | 基于共享控制门结构的中文文本校正方法 | |
Zhang et al. | Enhanced Semi-supervised Relation Extraction Based on Label Confusion Learning and Multisource Semantic Aggregation | |
Guo et al. | Deep Knowledge Tracking Method Based on DKVTMN-DTCN Model | |
Chang et al. | LDMol: Text-Conditioned Molecule Diffusion Model Leveraging Chemically Informative Latent Space | |
Bhowmick et al. | Memorizing and retrieving of text using recurrent neural network—a case study on Gitanjali dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |