CN114399048A - 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统 - Google Patents

基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统 Download PDF

Info

Publication number
CN114399048A
CN114399048A CN202210044138.6A CN202210044138A CN114399048A CN 114399048 A CN114399048 A CN 114399048A CN 202210044138 A CN202210044138 A CN 202210044138A CN 114399048 A CN114399048 A CN 114399048A
Authority
CN
China
Prior art keywords
entity
vector
relation
triple
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210044138.6A
Other languages
English (en)
Inventor
韩道军
肖琦
李秋月
许涛
贾培艳
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202210044138.6A priority Critical patent/CN114399048A/zh
Publication of CN114399048A publication Critical patent/CN114399048A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统,包括:利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;将三元组集合输入至TransE模型中,对三元组集合中实体和关系进行向量表示;将三元组集合输入至三元组实体类型编码器中,对三元组集合中实体的类型进行向量表示;通过实体类型向量优化实体向量和关系向量;将优化后的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的向量表示,通过最终更新后的向量表示对关联知识点进行链接预测。本发明可以对关联知识点进行链接预测,有助于得出教育领域不同知识点之间的关联性。

Description

基于图卷积神经网络与类型嵌入的教育领域联合知识点预测 方法及系统
技术领域
本发明属于课程知识图谱构建技术领域,尤其涉及一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统。
背景技术
知识图谱表示学习旨在通过学习图谱中的语义特征,在保留原有的图结构以及语义信息的同时,将知识图谱中的实体和关系映射到低维连续的向量空间中,从而使实体和关系能够直接进行数值化计算,提高计算效率。
现有的知识图谱表示学习模型包括翻译模型、语义匹配模型和神经网络模型。翻译模型的主要思想是将三元组(h,r,t)中的关系r解释为头实体h到尾实体t的翻译过程。语义匹配模型是使用基于语义相似度的得分函数,通过语义相似度的匹配来衡量事实的合理性。神经网络模型主要是通过深度神经网络来学习知识图谱的嵌入表示。
上述这些模型大都只考虑了知识图谱的三元组结构信息,对知识图谱中富含语义关系的图结构信息使用不完全。
但是近期基于图卷积神经网络上的研究取得了令人瞩目的成果,图卷积网络是一种能够对图结构信息高效利用的深度学习模型,通过结合中心节点与邻居节点的信息,以此更准确的表示中心节点的特征信息。
然而图卷积网络受到原始输入的限制,原始输入的不准确会影响模型最后学习的结果。
就目前的知识领域学习平台而言,采用随机初始化的向量作为GCN模型的初始输入,无法充分的运用知识点之间原本存在的语义关系,在构建知识点之间的表示向量时,会导致知识点之间的联系是模糊的,学习者无法了解知识点之间的联系。
发明内容
本发明针对目前的知识领域学习平台存在的采用随机初始化的向量作为GCN模型的初始输入,无法充分的运用知识点之间原本存在的语义关系,在构建知识点之间的表示向量时,会导致知识点之间的联系是模糊的,学习者无法了解知识点之间的联系的问题,提出一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统,能够同时对教育领域知识点的结构信息和关系语义进行学习,并采用类型嵌入优化教育领域知识点表示学习的结果,并基于知识点的向量表示,对每一个知识点进行分析,推理出知识点之间是否存在关联关系,以此预测教育领域知识图谱中尚未发现的知识点三元组,构建更加完备的教育领域知识图谱。
为了实现上述目的,本发明采用以下技术方案:
本发明一方面提出一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,包括:
步骤1:利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;
步骤2:采用TransE模型作为三元组编码器,将构建的教育领域课程知识点三元组集合输入至TransE模型中,通过TransE模型对所述三元组集合中实体和关系进行向量表示,得到三元组集合对应的实体向量和关系向量;
步骤3:将构建的教育领域课程知识点三元组集合输入至三元组实体类型编码器中,通过三元组实体类型编码器对所述三元组集合中实体的类型进行向量表示,得到实体类型向量;
步骤4:通过实体类型向量优化TransE模型得到的实体向量和关系向量;
步骤5:将步骤4获得的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的课程知识点三元组对应的实体向量和关系向量;
步骤6:通过步骤5得出的实体向量和关系向量对关联知识点进行链接预测。
进一步地,所述步骤1包括:
步骤1.1:收集教育领域语料;
步骤1.2:对收集的语料进行切词,得到词语集合,构建教育领域语料库;
步骤1.3:统计所述语料库中词语的分布,并基于分布结果从所述词语集合中选取词语,生成自定义词典,构建知识点三元组;
步骤1.4:根据构建的教育领域语料库中的文本划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储起来,用于后续步骤。
进一步地,所述步骤2包括:
步骤2.1:随机生成三元组头实体、关系、尾实体的向量表示,将三元组表示为(h,r,t),其中h为头实体、t为尾实体、关系r看作从头实体到尾实体的一种转化操作;
步骤2.2:使用下式随机生成负样本数据(h′,r′,t′):
T′={(h′,r′,t′)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}
其中,E、R分别表示知识图谱的实体集合与关系集合;T为正样本三元组集合;T′为负样本三元组集合,通过随机替换正样本三元组的头实体、尾实体或者关系得到;
步骤2.3:获得三元组能量函数值E1(h,r,t),用于后续构建损失函数进行实体向量和关系向量的优化:
E1(h,r,t)=||eh+er-et||
其中,eh,er,et分别代表头实体、关系、尾实体的向量表示。
进一步地,所述步骤3包括:
步骤3.1:三元组实体类型编码器中,按照如下类型特征函数对实体类型进行表示学习:
fat(v,r)=Mryv
其中,yv表示实体v在d维连续向量空间中的类型表示,Mr为关系r的线性转换矩阵;
通过类型特征函数,三元组能量函数E2(h,r,t)定义为如下公式:
yh,r=fat(h,r),yt,r=fat(t,r)
E2(h,r,t)=||yh,r+yr-yt,r||
其中yh,r、yt,r分别表示头实体h与尾实体t通过关系r表示的实体向量;yr为三元组中关系的向量表示;且yh,r+yr=yt,r
步骤3.2:通过相似度对类型向量进行约束;
对于拥有相同关系的两个三元组,应该满足以下公式:
yh1,r=yh2,r,yt1,r=yt2,r
E2(h1,r,t1)=E2(h2,r,t2)
其中yh1,r和yh2,r分别是在关系r下的两个三元组头实体的类型向量表示,yt1,r和yt2,r分别是在关系r下的两个三元组尾实体的类型向量表示。
进一步地,所述步骤4中,优化方式如下:
Figure BDA0003471467190000041
Figure BDA0003471467190000042
L2=max(γ2+E2(h,r,t)-E2(h′,r′,t′),0)
最后产生结果为eh、et、er,分别代表头实体、尾实体、关系在d维连续向量空间中的表示;γ,γ12为超参数,取值范围在(0,1)之间。
进一步地,所述步骤5包括:
步骤5.1:将步骤4产生的实体向量和关系向量作为图卷积神经网络模型的初始输入;设计图卷积神经网络;同时学习中心实体的直接邻接实体的信息,以及中心实体与邻接实体相连的边信息,利用该图卷积神经网络学习知识图谱的结构信息;
步骤5.2:利用如下公式,将步骤4产生的实体向量和关系向量融合到图卷积神经网络模型中,以充分使用知识图谱包含的语义信息:
eh=et-er
其中eh、et、er分别表示头实体、尾实体、关系在d维连续空间中的向量表示;
步骤5.3:利用步骤4得到的实体向量、关系向量,以及步骤3得到的实体类型向量,通过图卷积神经网络GCN更新相关的实体和关系的向量表示,得到最终的知识点预测结果。
本发明另一方面提出一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统,包括:
三元组构建模块,用于利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;
第一向量化模块,用于采用TransE模型作为三元组编码器,将构建的教育领域课程知识点三元组集合输入至TransE模型中,通过TransE模型对所述三元组集合中实体和关系进行向量表示,得到三元组集合对应的实体向量和关系向量;
第二向量化模块,用于将构建的教育领域课程知识点三元组集合输入至三元组实体类型编码器中,通过三元组实体类型编码器对所述三元组集合中实体的类型进行向量表示,得到实体类型向量;
优化模块,用于通过实体类型向量优化TransE模型得到的实体向量和关系向量;
更新模块,用于将优化模块获得的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的课程知识点三元组对应的实体向量和关系向量;
知识点链接预测模块,用于通过步更新模块得出的实体向量和关系向量对关联知识点进行链接预测。
进一步地,所述三元组构建模块具体用于:
收集教育领域语料;
对收集的语料进行切词,得到词语集合,构建教育领域语料库;
统计所述语料库中词语的分布,并基于分布结果从所述词语集合中选取词语,生成自定义词典,构建知识点三元组;
根据构建的教育领域语料库中的文本划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储起来,用于后续步骤。
进一步地,所述第一向量化模块具体用于:
随机生成三元组头实体、关系、尾实体的向量表示,将三元组表示为(h,r,t),其中h为头实体、t为尾实体、关系r看作从头实体到尾实体的一种转化操作;
使用下式随机生成负样本数据(h′,r′,t′):
T′={(h′,r′,t′)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}
其中,E、R分别表示知识图谱的实体集合与关系集合;T为正样本三元组集合;T′为负样本三元组集合,通过随机替换正样本三元组的头实体、尾实体或者关系得到;
获得三元组能量函数值E1(h,r,t),用于后续构建损失函数进行实体向量和关系向量的优化:
E1(h,r,t)=||eh+er-et||
其中,eh,er,et分别代表头实体、关系、尾实体的向量表示。
进一步地,所述第二向量化模块具体用于:
三元组实体类型编码器中,按照如下类型特征函数对实体类型进行表示学习:
fat(v,r)=Mryv
其中,yv表示实体v在d维连续向量空间中的类型表示,Mr为关系r的线性转换矩阵;
通过类型特征函数,三元组能量函数E2(h,r,t)定义为如下公式:
yh,r=fat(h,r),yt,r=fat(t,r)
E2(h,r,t)=||yh,r+yr-yt,r||
其中yh,r、yt,r分别表示头实体h与尾实体t通过关系r表示的实体向量;yr为三元组中关系的向量表示;且yh,r+yr=yt,r
通过相似度对类型向量进行约束;
对于拥有相同关系的两个三元组,应该满足以下公式:
yh1,r=yh2,r,yt1,r=yt2,r
E2(g1,r,t1)=E2(h2,r,t2)
其中yh1,r和yh2,r分别是在关系r下的两个三元组头实体的类型向量表示,yt1,r和yt2,r分别是在关系r下的两个三元组尾实体的类型向量表示;
所述优化模块中,优化方式如下:
Figure BDA0003471467190000061
Figure BDA0003471467190000062
L2=max(γ2+E2(h,r,t)-E2(h′,r′,t′),0)
最后产生结果为eh、et、er,分别代表头实体、尾实体、关系在d维连续向量空间中的表示;γ,γ12为超参数,取值范围在(0,1)之间;
所述预测模块具体用于:
将优化模块产生的实体向量和关系向量作为图卷积神经网络模型的初始输入;设计图卷积神经网络;同时学习中心实体的直接邻接实体的信息,以及中心实体与邻接实体相连的边信息,利用该图卷积神经网络学习知识图谱的结构信息;
利用如下公式,将优化模块产生的实体向量和关系向量融合到图卷积神经网络模型中,以充分使用知识图谱包含的语义信息:
eh=et-er
其中eh、et、er分别表示头实体、尾实体、关系在d维连续空间中的向量表示;
利用优化模块得到的实体向量、关系向量,以及第二向量化模块得到的实体类型向量,通过图卷积神经网络GCN更新相关的实体和关系的向量表示,得到最终的知识点预测结果。
与现有技术相比,本发明具有的有益效果:
本发明通过利用图谱中存在的实体类型信息,依托于知识图谱本身的结构信息,对教育领域中知识点进行向量表示,在一定程度上提高了知识图谱的嵌入表示学习性能,在基于连续数值向量空间上计算的教育领域知识应用上有更好的表现。
通过表示出来的知识点向量(即最终更新后的实体向量和关系向量),可以对关联知识点进行链接预测,有助于得出教育领域不同知识点之间的关联性,通过向量表示分析知识点的关联,对最开始构建的教育领域知识图谱知识点进行补充,预测知识图谱中尚未包含的知识点三元组,建立完善的教育领域知识图谱。
附图说明
图1为本发明实施例一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法的基本流程图;
图2为本发明实施例一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统架构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,包括:
步骤S101:利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;
步骤S102:采用TransE模型作为三元组编码器,将构建的教育领域课程知识点三元组集合输入至TransE模型中(即将实体和关系嵌入到d维的连续向量空间中),通过TransE模型对所述三元组集合中实体和关系进行向量表示,得到三元组集合对应的实体向量和关系向量;
步骤S103:将构建的教育领域课程知识点三元组集合输入至三元组实体类型编码器中,通过三元组实体类型编码器对所述三元组集合中实体的类型进行向量表示,得到实体类型向量;
步骤S104:通过实体类型向量优化TransE模型得到的实体向量和关系向量;
步骤S105:将步骤S104获得的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的课程知识点三元组对应的实体向量和关系向量;
步骤S106:通过步骤S105得出的实体向量和关系向量对关联知识点进行链接预测。
本发明先对实体和关系进行向量表示,后通过实体类型优化实体和关系向量,并将二者作为图卷积神经网络的原始输入进行表示学习,得到最后的实体向量和关系向量,相比于以往图卷积神经网络随机初始化原始输入的方式,模型不是从零开始,而是基于已知的信息学习,这有利于最后的表示结果更加准确。
进一步地,所述步骤S101包括:
S101.1:收集教育领域语料;
S101.2:对收集的语料进行切词,得到词语集合,构建教育领域语料库;
S101.3:统计语料库中词语的分布,并基于分布结果从所述词语集合中选取词语,生成自定义词典,构建知识点三元组;
S101.4:根据构建的教育领域语料库中的文本划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储起来,用于后续步骤。
进一步地,所述步骤S102包括:
知识图谱以三元组的形式存储,为了转换成计算机可以理解的形式进行后续的优化。需要对实体和关系进行表示学习,在学习之前,对实体和关系进行向量初始化。
步骤S102.1:随机生成三元组头实体、关系、尾实体的向量表示;将三元组表示为(h,r,t),h为头实体、t为尾实体、关系r看作从头实体到尾实体的一种转化操作。
步骤S102.2:依据关系是头实体与尾实体之间的转换操作这一思想,使用下式随机生成负样本数据(h′,r′,t′):
T′={(h′,r′,t′)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E};
其中,E、R分别表示知识图谱的实体集合与关系集合;T为正样本三元组集合;T′为负样本三元组集合,通过随机替换正样本三元组地头实体或者尾实体或者关系得到。
步骤S102.3:获得三元组能量函数值E1(h,r,t),用于后续构建损失函数进行实体向量和关系向量的优化:
E1(h,r,t)=||eh+er-et||;
其中,eh,er,et分别代表头实体、关系、尾实体的向量表示。
进一步地,所述步骤S103包括:
步骤S103.1:在已经给定的三元组中,实体e和它相关联的关系r,学习类型和关系的向量表示,从而得到类型表示的重要信息。三元组实体类型编码器中,学习的类型特征函数表示如下:
fat(v,r)=Mryv
其中,yv表示实体v(v可为头实体,也可为尾实体)在d维连续向量空间中的类型表示;Mr为关系r的线性转换矩阵,该矩阵最初随机生成参数,通过迭代更新参数,该矩阵可以选择与关联关系最相关的每种嵌入类型的潜在信息。
通过上述公式,三元组能量函数定义为如下公式:
yh,r=fat(h,r),yt,r=fat(t,r)
E2(h,r,t)=||yh,r+yr-yt,r||
其中yh,r、yt,r分别表示头实体h与尾实体t通过关系r表示的实体向量;yr为类型三元组中关系的向量表示;对于yh,r、yt,r、yr,所预期的结果应该满足以下等式:
yh,r+yr=yt,r
步骤S103.2:通过相似度对类型向量(嵌入)进行约束;
通过步骤S103学习的类型表示,应该受限于实体类型的相似度约束,以此来对实体类型进行限制,使实体类型表示更准确。因而,拥有相同关系的实体之间应该拥有更加相近的嵌入表示。因此,对于拥有相同关系的两个三元组,应该满足以下公式:
yh1,r=yh2,r,yt1,r=yt2,r
其中yh1,r和yh2,r分别是在关系r下的两个三元组头实体的类型向量表示,yt1,r和yt2,r分别是在关系r下的两个三元组尾实体的类型向量表示。
进而继续考虑这两个三元组应满足E2(h1,r,t1)=E2(h2,r,t2)。
因二者三元组关系相同,则上述公式的值应该为0或接近0。
具体地,所述步骤S104包括:
通过优化上述产生的三元组实体向量、关系向量和实体类型向量,获得图卷积神经网络原始输入的特征向量,优化方式如下:
Figure BDA0003471467190000101
Figure BDA0003471467190000102
L2=max(γ2+E2(h,r,t)-E2(h′,r′,t′),0)
最后产生结果为eh、et、er,分别代表头实体、尾实体、关系在d维连续向量空间中的表示;γ,γ12为超参数,取值范围在(0,1)之间。
具体地,所述步骤S105包括:
步骤S105.1:输入图卷积神经网络的初始特征向量
将步骤S104产生的实体向量和关系向量作为图卷积神经网络模型的初始输入。设计图卷积神经网络,包括一个输入层和两个隐藏层,隐藏层同时学习中心实体v的直接邻接实体的信息,以及中心实体与邻接实体相连的边信息,利用该图卷积神经网络学习知识图谱的结构信息;
步骤S105.2:传统的图卷积神经网络只考虑图中节点的信息,忽略了图中边的信息,为了充分利用图中边的信息,利用如下公式,将步骤S104产生的实体向量和关系向量融合到图卷积神经网络模型中,以充分使用知识图谱包含的语义信息:
eh=et-er
其中eh、et、er分别表示头实体、尾实体、关系在连续空间中的向量(嵌入)表示。
步骤S105.3:利用步骤S104得到的实体向量、关系向量,以及步骤S103产生的类型表示向量,通过GCN更新相关的实体和关系的向量表示,得到最终的知识点预测结果;
在GCN第一层网络中进行更新头实体表示向量的公式如下:
Figure BDA0003471467190000111
在GCN第二层网络中更新尾实体表示向量的公式如下:
Figure BDA0003471467190000112
其中N(h)是头实体h的邻接实体集合;N(t)是尾实体t的邻接实体集合;eh,et,er为步骤S104产生的结果;通过执行步骤S105.2的操作,Wλ(r)为图卷积神经网络的权重矩阵,λ(r)表明该权重矩阵是关于关系r的,对中心实体、邻接实体,以及二者相连的关系进行减法运算,以此使得图卷积网络可以利用图谱中的边信息;eh是节点h得更新过后得实体向量。
因此,经过上述转化,可以得到最终的关系向量表示,公式如下:
Figure BDA0003471467190000113
Mr是线性转换矩阵,将所有的关系映射在同一个连续的向量空间中,并将表示向量在GCN下一层中使用;er是步骤S103产生的初始关系向量。
对于第二层GCN网络,神经网络层可以采用如下公式对头实体h进行更新:
Figure BDA0003471467190000114
尾实体更新公式如下:
Figure BDA0003471467190000115
第二层的GCN网络采用相同的关系向量表示如下:
Figure BDA0003471467190000116
通过第二层图卷积神经网络后生成的实体与关系的向量为最终三元组头实体、尾实体、关系的表示向量
Figure BDA0003471467190000117
进一步地,所述步骤S106包括:通过向量表示分析知识点的关联,对最开始构建的教育领域知识图谱知识点进行补充,预测知识图谱中尚未包含的知识点三元组,建立完善的教育领域知识图谱。
在上述实施例的基础上,如图2所示,本发明还提出一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统,包括:
三元组构建模块201,用于利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;
第一向量化模块202,用于采用TransE模型作为三元组编码器,将构建的教育领域课程知识点三元组集合输入至TransE模型中,通过TransE模型对所述三元组集合中实体和关系进行向量表示,得到三元组集合对应的实体向量和关系向量;
第二向量化模块203,用于将构建的教育领域课程知识点三元组集合输入至三元组实体类型编码器中,通过三元组实体类型编码器对所述三元组集合中实体的类型进行向量表示,得到实体类型向量;
优化模块204,用于通过实体类型向量优化TransE模型得到的实体向量和关系向量;
更新模块205,用于将优化模块204获得的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的课程知识点三元组对应的实体向量和关系向量;
知识点链接预测模块206,用于通过步更新模块205得出的实体向量和关系向量对关联知识点进行链接预测。
进一步地,所述三元组构建模块201具体用于:
收集教育领域语料;
对收集的语料进行切词,得到词语集合,构建教育领域语料库;
统计所述语料库中词语的分布,并基于分布结果从所述词语集合中选取词语,生成自定义词典,构建知识点三元组;
根据构建的教育领域语料库中的文本划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储起来,用于后续步骤。
进一步地,所述第一向量化模块202具体用于:
随机生成三元组头实体、关系、尾实体的向量表示,将三元组表示为(h,r,t),其中h为头实体、t为尾实体、关系r看作从头实体到尾实体的一种转化操作;
使用下式随机生成负样本数据(h′,r′,t′):
T′={(h′,r′,t′)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}
其中,E、R分别表示知识图谱的实体集合与关系集合;T为正样本三元组集合;T′为负样本三元组集合,通过随机替换正样本三元组的头实体、尾实体或者关系得到;
获得三元组能量函数值E1(h,r,t),用于后续构建损失函数进行实体向量和关系向量的优化:
E1(h,r,t)=||eh+er-et||
其中,eh,er,et分别代表头实体、关系、尾实体的向量表示。
进一步地,所述第二向量化模块203具体用于:
三元组实体类型编码器中,按照如下类型特征函数对实体类型进行表示学习:
fat(v,r)=Mryv
其中,yv表示实体v在d维连续向量空间中的类型表示,Mr为关系r的线性转换矩阵;
通过类型特征函数,三元组能量函数E2(h,r,t)定义为如下公式:
yh,r=fat(h,r),yt,r=fat(t,r)
E2(h,r,t)=||yh,r+yr-yt,r||
其中yh,r、yt,r分别表示头实体h与尾实体t通过关系r表示的实体向量;yr为三元组中关系的向量表示;且yh,r+yr=yt,r
通过相似度对类型向量进行约束;
对于拥有相同关系的两个三元组,应该满足以下公式:
yh1,r=yh2,r,yt1,r=yt2,r
E2(h1,r,t1)=E2(h2,r,t2)
其中yh1,r和yh2,r分别是在关系r下的两个三元组头实体的类型向量表示,yt1,r和yt2,r分别是在关系r下的两个三元组尾实体的类型向量表示。
进一步地,所述优化模块204中,优化方式如下:
Figure BDA0003471467190000131
Figure BDA0003471467190000132
L2=max(γ2+E2(h,r,t)-E2(h′,r′,t′),0)
最后产生结果为eh、et、er,分别代表头实体、尾实体、关系在d维连续向量空间中的表示;γ,γ12为超参数,取值范围在(0,1)之间。
进一步地,所述预测模块205具体用于:
将优化模块204产生的实体向量和关系向量作为图卷积神经网络模型的初始输入;设计图卷积神经网络;同时学习中心实体的直接邻接实体的信息,以及中心实体与邻接实体相连的边信息,利用该图卷积神经网络学习知识图谱的结构信息;
利用如下公式,将优化模块204产生的实体向量和关系向量融合到图卷积神经网络模型中,以充分使用知识图谱包含的语义信息:
eh=et-er
其中eh、et、er分别表示头实体、尾实体、关系在d维连续空间中的向量表示;
利用优化模块204得到的实体向量、关系向量,以及第二向量化模块203得到的实体类型向量,通过图卷积神经网络GCN更新相关的实体和关系的向量表示,得到最终的知识点预测结果。
进一步地,所述知识点链接预测模块206具体用于:通过向量表示分析知识点的关联,对最开始构建的教育领域知识图谱知识点进行补充,预测知识图谱中尚未包含的知识点三元组,建立完善的教育领域知识图谱。
综上,本发明通过利用图谱中存在的实体类型信息,依托于知识图谱本身的结构信息,对教育领域中知识点进行向量表示,在一定程度上提高了知识图谱的嵌入表示学习性能,在基于连续数值向量空间上计算的教育领域知识应用上有更好的表现。
通过表示出来的知识点向量(即最终更新后的实体向量和关系向量),可以对关联知识点进行链接预测,有助于得出教育领域不同知识点之间的关联性,通过向量表示分析知识点的关联,对最开始构建的教育领域知识图谱知识点进行补充,预测知识图谱中尚未包含的知识点三元组,建立完善的教育领域知识图谱。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,其特征在于,包括:
步骤1:利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;
步骤2:采用TransE模型作为三元组编码器,将构建的教育领域课程知识点三元组集合输入至TransE模型中,通过TransE模型对所述三元组集合中实体和关系进行向量表示,得到三元组集合对应的实体向量和关系向量;
步骤3:将构建的教育领域课程知识点三元组集合输入至三元组实体类型编码器中,通过三元组实体类型编码器对所述三元组集合中实体的类型进行向量表示,得到实体类型向量;
步骤4:通过实体类型向量优化TransE模型得到的实体向量和关系向量;
步骤5:将步骤4获得的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的课程知识点三元组对应的实体向量和关系向量;
步骤6:通过步骤5得出的实体向量和关系向量对关联知识点进行链接预测。
2.根据权利要求1所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,其特征在于,所述步骤1包括:
步骤1.1:收集教育领域语料;
步骤1.2:对收集的语料进行切词,得到词语集合,构建教育领域语料库;
步骤1.3:统计所述语料库中词语的分布,并基于分布结果从所述词语集合中选取词语,生成自定义词典,构建知识点三元组;
步骤1.4:根据构建的教育领域语料库中的文本划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储起来,用于后续步骤。
3.根据权利要求1所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,其特征在于,所述步骤2包括:
步骤2.1:随机生成三元组头实体、关系、尾实体的向量表示,将三元组表示为(h,r,t),其中h为头实体、t为尾实体、关系r看作从头实体到尾实体的一种转化操作;
步骤2.2:使用下式随机生成负样本数据(h′,r′,t′):
T′={(h′,r′,t′)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}
其中,E、R分别表示知识图谱的实体集合与关系集合;T为正样本三元组集合;T′为负样本三元组集合,通过随机替换正样本三元组的头实体、尾实体或者关系得到;
步骤2.3:获得三元组能量函数值E1(h,r,t),用于后续构建损失函数进行实体向量和关系向量的优化:
E1(h,r,t)=||eh+er-et||
其中,eh,er,et分别代表头实体、关系、尾实体的向量表示。
4.根据权利要求3所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,其特征在于,所述步骤3包括:
步骤3.1:三元组实体类型编码器中,按照如下类型特征函数对实体类型进行表示学习:
fat(v,r)=Mryv
其中,yv表示实体v在d维连续向量空间中的类型表示,Mr为关系r的线性转换矩阵;
通过类型特征函数,三元组能量函数E2(h,r,t)定义为如下公式:
yh,r=fat(h,r),yt,r=fat(t,r)
E2(h,r,t)=||yh,r+yr-yt,r||
其中yh,r、yt,r分别表示头实体h与尾实体t通过关系r表示的实体向量;yr为三元组中关系的向量表示;且yh,r+yr=yt,r
步骤3.2:通过相似度对类型向量进行约束;
对于拥有相同关系的两个三元组,应该满足以下公式:
yh1,r=yh2,r,yt1,r=yt2,r
E2(h1,r,t1)=E2(h2,r,t2)
其中yh1,r和yh2,r分别是在关系r下的两个三元组头实体的类型向量表示,yt1,r和yt2,r分别是在关系r下的两个三元组尾实体的类型向量表示。
5.根据权利要求4所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,其特征在于,所述步骤4中,优化方式如下:
Figure FDA0003471467180000021
Figure FDA0003471467180000031
L2=max(γ2+E2(h,r,t)-E2(h′,r′,t′),0)
最后产生结果为eh、et、er,分别代表头实体、尾实体、关系在d维连续向量空间中的表示;γ,γ1,γ2为超参数,取值范围在(0,1)之间。
6.根据权利要求1所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法,其特征在于,所述步骤5包括:
步骤5.1:将步骤4产生的实体向量和关系向量作为图卷积神经网络模型的初始输入;设计图卷积神经网络;同时学习中心实体的直接邻接实体的信息,以及中心实体与邻接实体相连的边信息,利用该图卷积神经网络学习知识图谱的结构信息;
步骤5.2:利用如下公式,将步骤4产生的实体向量和关系向量融合到图卷积神经网络模型中,以充分使用知识图谱包含的语义信息:
eh=et-er
其中eh、et、er分别表示头实体、尾实体、关系在d维连续空间中的向量表示;
步骤5.3:利用步骤4得到的实体向量、关系向量,以及步骤3得到的实体类型向量,通过图卷积神经网络GCN更新相关的实体和关系的向量表示,得到最终的知识点预测结果。
7.一种基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统,其特征在于,包括:
三元组构建模块,用于利用BERT模型构建教育领域课程知识点语料库,构建教育领域课程知识点三元组集合;
第一向量化模块,用于采用TransE模型作为三元组编码器,将构建的教育领域课程知识点三元组集合输入至TransE模型中,通过TransE模型对所述三元组集合中实体和关系进行向量表示,得到三元组集合对应的实体向量和关系向量;
第二向量化模块,用于将构建的教育领域课程知识点三元组集合输入至三元组实体类型编码器中,通过三元组实体类型编码器对所述三元组集合中实体的类型进行向量表示,得到实体类型向量;
优化模块,用于通过实体类型向量优化TransE模型得到的实体向量和关系向量;
更新模块,用于将优化模块获得的实体向量和关系向量输入至图卷积神经网络中进行表示学习,得到最终更新后的课程知识点三元组对应的实体向量和关系向量;
知识点链接预测模块,用于通过步更新模块得出的实体向量和关系向量对关联知识点进行链接预测。
8.根据权利要求7所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统,其特征在于,所述三元组构建模块具体用于:
收集教育领域语料;
对收集的语料进行切词,得到词语集合,构建教育领域语料库;
统计所述语料库中词语的分布,并基于分布结果从所述词语集合中选取词语,生成自定义词典,构建知识点三元组;
根据构建的教育领域语料库中的文本划分实体,提取实体间的对应关系,并以三元组的形式将定义好的数据存储起来,用于后续步骤。
9.根据权利要求8所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统,其特征在于,所述第一向量化模块具体用于:
随机生成三元组头实体、关系、尾实体的向量表示,将三元组表示为(h,r,t),其中h为头实体、t为尾实体、关系r看作从头实体到尾实体的一种转化操作;
使用下式随机生成负样本数据(h′,r′,t′):
T′={(h′,r′,t′)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}
其中,E、R分别表示知识图谱的实体集合与关系集合;T为正样本三元组集合;T′为负样本三元组集合,通过随机替换正样本三元组的头实体、尾实体或者关系得到;
获得三元组能量函数值E1(h,r,t),用于后续构建损失函数进行实体向量和关系向量的优化:
E1(h,r,t)=||eh+er-et||
其中,eh,er,et分别代表头实体、关系、尾实体的向量表示。
10.根据权利要求9所述的基于图卷积神经网络与类型嵌入的教育领域联合知识点预测系统,其特征在于,所述第二向量化模块具体用于:
三元组实体类型编码器中,按照如下类型特征函数对实体类型进行表示学习:
fat(v,r)=Mryv
其中,yv表示实体v在d维连续向量空间中的类型表示,Mr为关系r的线性转换矩阵;
通过类型特征函数,三元组能量函数E2(h,r,t)定义为如下公式:
yh,r=fat(h,r),yt,r=fat(t,r)
E2(h,r,t)=||yh,r+yr-yt,r||
其中yh,r、yt,r分别表示头实体h与尾实体t通过关系r表示的实体向量;yr为三元组中关系的向量表示;且yh,r+yr=yt,r
通过相似度对类型向量进行约束;
对于拥有相同关系的两个三元组,应该满足以下公式:
yh1,r=yh2,r,yt1,r=yt2,r
E2(h1,r,t1)=E2(h2,r,t2)
其中yh1,r和yh2,r分别是在关系r下的两个三元组头实体的类型向量表示,yt1,r和yt2,r分别是在关系r下的两个三元组尾实体的类型向量表示;
所述优化模块中,优化方式如下:
Figure FDA0003471467180000051
Figure FDA0003471467180000052
L2=max(γ2+E2(h,r,t)-E2(h′,r′,t′),0)
最后产生结果为eh、et、er,分别代表头实体、尾实体、关系在d维连续向量空间中的表示;γ,γ1,γ2为超参数,取值范围在(0,1)之间;
所述预测模块具体用于:
将优化模块产生的实体向量和关系向量作为图卷积神经网络模型的初始输入;设计图卷积神经网络;同时学习中心实体的直接邻接实体的信息,以及中心实体与邻接实体相连的边信息,利用该图卷积神经网络学习知识图谱的结构信息;
利用如下公式,将优化模块产生的实体向量和关系向量融合到图卷积神经网络模型中,以充分使用知识图谱包含的语义信息:
eh=et-er
其中eh、et、er分别表示头实体、尾实体、关系在d维连续空间中的向量表示;
利用优化模块得到的实体向量、关系向量,以及第二向量化模块得到的实体类型向量,通过图卷积神经网络GCN更新相关的实体和关系的向量表示,得到最终的知识点预测结果。
CN202210044138.6A 2022-01-14 2022-01-14 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统 Pending CN114399048A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210044138.6A CN114399048A (zh) 2022-01-14 2022-01-14 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210044138.6A CN114399048A (zh) 2022-01-14 2022-01-14 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统

Publications (1)

Publication Number Publication Date
CN114399048A true CN114399048A (zh) 2022-04-26

Family

ID=81230099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210044138.6A Pending CN114399048A (zh) 2022-01-14 2022-01-14 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统

Country Status (1)

Country Link
CN (1) CN114399048A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168599A (zh) * 2022-06-20 2022-10-11 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品

Similar Documents

Publication Publication Date Title
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN112487143B (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN112380435B (zh) 基于异构图神经网络的文献推荐方法及推荐系统
CN110209770B (zh) 一种基于策略价值网络和树搜索增强的命名实体识别方法
CN112561064B (zh) 基于owkbc模型的知识库补全方法
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN113535904B (zh) 一种基于图神经网络的方面级情感分析方法
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN113780002A (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
CN112949929B (zh) 一种基于协同嵌入增强题目表示的知识追踪方法及系统
CN114969367B (zh) 基于多方面子任务交互的跨语言实体对齐方法
CN112380835A (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
CN112148891A (zh) 一种基于图感知张量分解的知识图谱补全方法
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
CN115391563A (zh) 一种基于多源异构数据融合的知识图谱链路预测方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN115376317A (zh) 一种基于动态图卷积和时序卷积网络的交通流预测方法
CN115080795A (zh) 一种多充电站协同负荷预测方法及装置
CN114399048A (zh) 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN114818682B (zh) 基于自适应实体路径感知的文档级实体关系抽取方法
CN110020379B (zh) 一种基于深度动态网络嵌入表示模型的链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination