CN116150404A

CN116150404A - 一种基于联合学习的教育资源多模态知识图谱构建方法

Info

Publication number: CN116150404A
Application number: CN202310197649.6A
Authority: CN
Inventors: 唐雪峰; 梁梅群; 陈科; 胡茂秋
Original assignee: Chengdu Comsys Information Technology Co ltd
Current assignee: Chengdu Comsys Information Technology Co ltd
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-05-23

Abstract

本发明公开了一种基于联合学习的教育资源多模态知识图谱构建方法，首先对系统中最新的教育资源数据进行分类预处理，构造多模态类别初始表及分类数据组，然后获取实体背景知识，整理分类预处理中的过程数据作为资源实体的描述信息，将分类的数据组输入到联合学习的实体关系抽取网络，并结合实体背景知识进行多模态知识识别与抽取，最后基于多模态类别初始表中相关实体的链接关系进行合并，获得当前系统中教育资源领域最新多模态知识图谱。本发明的方法采用自底向上构建知识图谱方法，从采集到的数据中提取出资源模式，避免从其他网站获取知识加入到知识库带来的信息安全问题，通过引用多模态资源，提升教育信息挖掘的准确程度，加快资源知识融合。

Description

一种基于联合学习的教育资源多模态知识图谱构建方法

技术领域

本发明属于人工智能知识图谱技术领域，具体涉及一种基于联合学习的教育资源多模态知识图谱构建方法。

背景技术

随着人工智能技术的不断发展，知识图谱作为人工智能领域的知识支柱，以其强大的知识表示和推理能力受到了广泛的关注。近年来，知识图谱在搜索、知识管理等领域都受到较多的应用，因为知识图谱以语义分析技术为基础，以模型为核心，基于数据，利用深度神经网络、NLP框架等AI智能处理技术对输入的字、词、篇章进行信息分析，然后对数据进行实体抽取、关系抽取和属性抽取等算法服务接口能力，从而服务众多应用场景。知识图谱构建技术主要分为自顶向下和自底向上。前者是借助百科类网站等结构化数据源，从高质量数据中提取本体和模式信息，加入到知识库里，后者则是借助AI技术，从已有数据中提取出资源模式。

此外，随着教育部对于教育信息化发展的重视，如何对开放的资源数据进行友好管理和使用，为资源数据的应用层提供数据层支持成为了教育数据敏捷管理的关键问题。

但是目前教育知识图谱的数据来源通常是文本数据或者是结构化数据，对于教学资源中的大量视频、图像文件等非结构化数据并没有办法在传统知识图谱中得到应用。这是由于各课程教学内容各不相同，知识结构存在差异，内容上的知识没有得到很好的关联。此外，为应对大量的教育数据，基于深度学习方法对教育资源的知识实体关系进行抽取方法包括有监督、无监督、半监督和远程监督。但是有监督、半监督深度学习方法需要准确率极高的标签数据集，否则对学习结果影响极大，而无监督深度学习虽然不需要标签数据集，但是其召回率和准确率较低。

发明内容

为解决上述技术问题，本发明提出了一种基于联合学习的教育资源多模态知识图谱构建方法，根据已收集到的教育资源数据，包括课程数据、书籍文本数据、师生用户数据等数据，利用文本、视频预分类模型结合远程监督联合学习模型对数据进行知识实体关系的抽取，构建多模态的教育资源知识图谱，形成教育大数据AI知识库，对组织架构、全业务流程、应用场景的分形成AI动态业务场景元知识库，维护资源数据，为教育大数据敏捷治理及数据开放循环生态平台提供基础数据层支持。

本发明采用的技术方案为：一种基于联合学习的教育资源多模态知识图谱构建方法，具体步骤如下：

S1、对系统中最新的教育资源数据进行分类预处理，构建可能性科目类型信息表，构造多模态类别初始表及分类数据组；

S2、获取实体背景知识，整理分类预处理中的过程数据作为资源实体的描述信息；

S3、将分类的数据组输入到联合学习的实体关系抽取网络，并结合实体背景知识进行多模态知识识别与抽取；

S4、基于多模态类别初始表中相关实体的链接关系进行合并，获得当前系统中教育资源领域最新多模态知识图谱；

进一步地，所述步骤S1具体如下：

所述对系统中最新的教育资源数据进行分类预处理涉及非结构化数据，非结构化数据包括教育资源中的图像数据、视频数据、电子文档等非结构化文本。

所述分类预处理方法设计中使用了两种分类模型，分别是针对非结构化数据文本预分类的DPCNN模型，以及针对非结构化数据的图像预分类模型所选取的二维CNN网络AlexNet。

其中，预分类模型数据准备具体如下：

对于文本类型数据，进行分词处理，减少特征获取时的干扰；

对于视频类数据，先对视频源进行预处理，将视频的每一帧进行切片处理，视作为一张图像，每个独立视频存储为一组数据集；

训练集数据根据实际需求选用文本分类数据集；

所述多模态类别初始表为当前文本数据及图像视频数据所涵盖的可能性科目类型信息表中的类型，根据分类结果对所有源数据进行分类存放，得到分类数据组。

其中，分类数据组获取的设计方法具体如下：

在源数据文本添加一列ID，作为索引值，ID值唯一不重复，通过ID值，从测试数据完成后所生成的结果表中进行排序，重新拼接成完整的源数据文本。

进一步地，所述步骤S2具体如下：

S21、文本类数据的背景知识获取；

在步骤S1中通过预分类网络的处理，已获得文本的分类结果，基于已有的分类信息及实体信息，借助残差网络ResNet从Fressbase知识库中抽取实体特征，特征信息结果记为当前预测实体的背景知识，组合形成该实体的描述信息，实体及描述表示方法如下：

D＝{(e_i，d_i)|＝1，··.，|D|}

其中，D表示经过绑定ID值及获取背景知识后的实体描述信息；e_i表示为当前实体；d_i表示ResNet提取出的实体特征信息；i表示步骤S1数据预处理中绑定的ID值。

S22、图像视频类数据的背景知识获取；

选用BiLSTM+VGGNet作为视频数据实体提取与背景知识提取网络的编码器部分，利用BiLSTM捕捉双向语义依赖来编码视频中的文本，VGGNet进行图像处理，从而编码构建出图像视频数据多模态空间实体信息和背景知识，并组合成图像视频的实体及描述。

进一步地，所述步骤S3中，采用的联合学习模型进行实体关系抽取的处理流程具体如下：

(1)通过PCNN模块提取文本数据和图像中包含的句子特征，此时每个实体对对应一个包，用句子级别注意力机制给包中的每个句子分配一个权重；

(2)对输入的实体中逐一检查是否绑定有背景知识，若可从中获得背景知识，则使用一个卷积层和一个最大池化层从实体描述中提取特征，为注意力机制模块的学习提供辅助表示，从而提取实体描述信息；

(3)使用用交叉熵最小化目标函数，目标函数由句子级别注意力机制和实体信息共同决定，完成特征融合。

其中，在远程监督进行知识实体关系抽取模型训练中选用NYT-FB数据集作为训练数据，该数据集由Fressbase知识库整理而得，包括五十多万条训练语句且百分之八十的句子带有标签。

进一步地，所述步骤S4具体如下：

基于步骤S1-S3得到多模态类别初始表、联合学习获得的实体抽取和关系对及当前资源数据中所有实体间的链接关系，每个独立处理的数据信息关系链接为一个子图谱，以此类推将所有子图谱进行合并构建出初始化的多模态知识图谱。

本发明的有益效果：本发明的方法首先对系统中最新的教育资源数据进行分类预处理，构造多模态类别初始表及分类数据组，然后获取实体背景知识，整理分类预处理中的过程数据作为资源实体的描述信息，将分类的数据组输入到联合学习的实体关系抽取网络，并结合实体背景知识进行多模态知识识别与抽取，最后基于多模态类别初始表中相关实体的链接关系进行合并，获得当前系统中教育资源领域最新多模态知识图谱。本发明的方法采用自底向上构建知识图谱方法，从采集到的数据中提取出资源模式，避免从其他网站获取知识加入到知识库带来的信息安全问题，通过引用多模态资源，提升教育信息挖掘的准确程度，加快资源知识融合。

附图说明

图1为本发明的一种基于联合学习的教育资源多模态知识图谱构建方法的流程图。

图2为本发明实施例中一种基于联合学习的教育资源多模态知识图谱构建方法的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1所示，本发明的一种基于联合学习的教育资源多模态知识图谱构建方法流程图，为实施例1，具体步骤如下：

在本实施例中，所述步骤S1具体如下：

本实施例在进行资源实体关系抽取任务前先进行了资源数据的预分类，通过预分类，获取资源类别初始信息，构建可能性科目类型信息表，并筛选资源数据分组，为后续的抽取任务提供较为干净的数据源，降低不同类别信息之间相互产生噪声影响问题，从而增加实体关系抽取的准确性。

其中，预分类模型数据准备具体如下：

对于文本类型数据，进行分词处理，如通过规则筛选去除“你”、“我”、“他”等可能不具备代表意义的词汇，减少特征获取时的干扰；

训练集数据根据实际需求选用文本分类数据集；

其中，分类数据组获取的设计方法具体如下：

由于进行文本预分类时，输入模型的数据是经过向量化后的文本数据，语句顺序与源数据不一致，为解决分类后得到分类数据组，本实施例在源数据文本添加一列ID，作为索引值，ID值唯一不重复，通过ID值，从测试数据完成后所生成的结果表中进行排序，重新拼接成完整的源数据文本。

在本实施例中，所述步骤S2具体如下：

S21、文本类数据的背景知识获取；

D＝{(e_i，d_i)|＝1，···，|D|}

S22、图像视频类数据的背景知识获取；

图像视频数据与文本类数据不同，图像视频的文本信息表现于图像之中。本实施例中选用BiLSTM+VGGNet作为视频数据实体提取与背景知识提取网络的编码器部分，利用BiLSTM捕捉双向语义依赖来编码视频中的文本，VGGNet进行图像处理，VGGNet在图像处理上也有突出的表现，从而编码构建出图像视频数据多模态空间实体信息和背景知识，并组合成图像视频的实体及描述，表示方法如步骤S21中实体及描述表示方法一致。

在本实施例中，所述步骤S3中，采用的联合学习模型进行实体关系抽取的处理流程具体如下：

本实施例在实体关系抽取模型设计上选用远程监督的联合学习，由于系统中输入的教育资源较多，有监督的关系抽取方法消耗大量人力，且若仅使用现有的深度学习网络进行特征提取，会由于NLP工具进行数据集标注而导致网络中大量传播误差问题，从而产生错误标签。

其中，本实施例在远程监督进行知识实体关系抽取模型训练中选用NYT-FB数据集作为训练数据，该数据集由Fressbase知识库整理而得，包括五十多万条训练语句且百分之八十的句子带有标签，且实体链接和关系对齐等都被标注过信息，较为适合本实施例的模型训练。

在本实施例中，所述步骤S4具体如下：

本发明还提供了实施例2对本发明方法做进一步说明。

如图2所示，角色包括：文本数据T，图像数据集I，视频图像集V1、V2，文本预分类模型DPCNN，文本背景知识获取模型RestNet，图像预分类模型AlexNet，图像视频背景知识获取模型BiLSTM+VGGNet，联合学习知识实体关系抽取模型PA。具体步骤如下：

(1)先对视频图像集V1、V2进行切片分组，形成分组V1：{V11，V12，V13…},，V2：{V21，V22，V23…}，然后对T、I、V1、V2进行ID值绑定，形成{T，IDT}，{I，IDI}，[{V11，ID11}，{V12，ID12}，{V13，ID13}…]，[{V21，ID21}，{V22，ID22}，{V23，ID23}…]；

(2)将{T，IDT}输入DPCNN网络获得T类别ST；

(3)将{I，IDI}输入AlexNet网络获得I类别SI；

(4)将[{V11，ID11}，{V12，ID12}，{V13，ID13}…][{V21，ID21}，{V22，ID22}，{V23，ID23}…]输入AlexNet网络获得V1、V2类别(SV11，SV12…)，(SV11，SV12…)；

(5)将{T，IDT，ST}输入RestNet网络获得T的背景知识BT；

(6)将{I，IDI，SI}输入BiLSTM+VGGNet网络获得I的背景知识BI；

(7)[{V11，ID11，SV11}，{V12，ID12，SV12}，{V13，ID13，SV12}…][{V21，ID21，SV21}，{V22，ID22，SV22}，{V23，ID23，SV23}…]输入网络获得BiLSTM+VGGNet网络获得V1、V2分组的背景知识BV1，BV2分组；

(8)将步骤(1)-(4)类别组合形成初始类别组；

(9)分别将{T，IDT，ST，BT}，{I，IDI，SI，BI}，[V1{BV1}，V2{BV2}]输入到联合学习知识实体关系抽取模型PA，分别抽取获得对应数据的实体对和关系对；

(10)通过多模态类别初始表及联合学习获得的实体抽取和关系对，拥有当前资源数据中所有实体间的链接关系，如实体1-类别A-实体2。其中，每个独立处理的数据信息关系链接为一个子图谱，以此类推将所有子图谱进行合并构建出初始化的多模态知识图谱。

综上，考虑本系统中教育数据资源的安全性和敏感性，本发明的方法采用自底向上构建知识图谱的方法，即借助AI技术，借助基于联合学习多模态知识图谱实体关系抽取模型，从已收集的数据中提取出资源模式，搭建数据层。这种远程监督关系抽取方法可以将大量无标签的语料信息与已有的知识库进行自我学习对齐，快速的建立海量的标签语料数据。通过引用多模态资源，提升教育信息挖掘的准确程度，加快资源知识的融合。

本领域的普通技术人员将会意识到，上述实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于联合学习的教育资源多模态知识图谱构建方法，具体步骤如下：

S4、基于多模态类别初始表中相关实体的链接关系进行合并，获得当前系统中教育资源领域最新多模态知识图谱。

2.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法，其特征在于，所述步骤S1具体如下：

所述对系统中最新的教育资源数据进行分类预处理涉及非结构化数据，非结构化数据包括教育资源中的图像数据、视频数据、电子文档等非结构化文本；

所述分类预处理方法设计中使用了两种分类模型，分别是针对非结构化数据文本预分类的DPCNN模型，以及针对非结构化数据的图像预分类模型所选取的二维CNN网络AlexNet；

其中，预分类模型数据准备具体如下：

训练集数据根据实际需求选用文本分类数据集；

所述多模态类别初始表为当前文本数据及图像视频数据所涵盖的可能性科目类型信息表中的类型，根据分类结果对所有源数据进行分类存放，得到分类数据组；

其中，分类数据组获取的设计方法具体如下：

3.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法，其特征在于，所述步骤S2具体如下：

S21、文本类数据的背景知识获取；

D＝((e_i，d_i)|＝1，…，|D|}

其中，D表示经过绑定ID值及获取背景知识后的实体描述信息；e_i表示为当前实体；d_i表示ResNet提取出的实体特征信息；i表示步骤S1数据预处理中绑定的ID值；

S22、图像视频类数据的背景知识获取；

4.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法，其特征在于，所述步骤S3中，采用的联合学习模型进行实体关系抽取的处理流程具体如下：

(3)使用用交叉熵最小化目标函数，目标函数由句子级别注意力机制和实体信息共同决定，完成特征融合；

5.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法，其特征在于，所述步骤S4具体如下：