CN116150404A - 一种基于联合学习的教育资源多模态知识图谱构建方法 - Google Patents
一种基于联合学习的教育资源多模态知识图谱构建方法 Download PDFInfo
- Publication number
- CN116150404A CN116150404A CN202310197649.6A CN202310197649A CN116150404A CN 116150404 A CN116150404 A CN 116150404A CN 202310197649 A CN202310197649 A CN 202310197649A CN 116150404 A CN116150404 A CN 116150404A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- knowledge
- classification
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000013145 classification model Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Educational Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Educational Administration (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于联合学习的教育资源多模态知识图谱构建方法,首先对系统中最新的教育资源数据进行分类预处理,构造多模态类别初始表及分类数据组,然后获取实体背景知识,整理分类预处理中的过程数据作为资源实体的描述信息,将分类的数据组输入到联合学习的实体关系抽取网络,并结合实体背景知识进行多模态知识识别与抽取,最后基于多模态类别初始表中相关实体的链接关系进行合并,获得当前系统中教育资源领域最新多模态知识图谱。本发明的方法采用自底向上构建知识图谱方法,从采集到的数据中提取出资源模式,避免从其他网站获取知识加入到知识库带来的信息安全问题,通过引用多模态资源,提升教育信息挖掘的准确程度,加快资源知识融合。
Description
技术领域
本发明属于人工智能知识图谱技术领域,具体涉及一种基于联合学习的教育资源多模态知识图谱构建方法。
背景技术
随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到了广泛的关注。近年来,知识图谱在搜索、知识管理等领域都受到较多的应用,因为知识图谱以语义分析技术为基础,以模型为核心,基于数据,利用深度神经网络、NLP框架等AI智能处理技术对输入的字、词、篇章进行信息分析,然后对数据进行实体抽取、关系抽取和属性抽取等算法服务接口能力,从而服务众多应用场景。知识图谱构建技术主要分为自顶向下和自底向上。前者是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里,后者则是借助AI技术,从已有数据中提取出资源模式。
此外,随着教育部对于教育信息化发展的重视,如何对开放的资源数据进行友好管理和使用,为资源数据的应用层提供数据层支持成为了教育数据敏捷管理的关键问题。
但是目前教育知识图谱的数据来源通常是文本数据或者是结构化数据,对于教学资源中的大量视频、图像文件等非结构化数据并没有办法在传统知识图谱中得到应用。这是由于各课程教学内容各不相同,知识结构存在差异,内容上的知识没有得到很好的关联。此外,为应对大量的教育数据,基于深度学习方法对教育资源的知识实体关系进行抽取方法包括有监督、无监督、半监督和远程监督。但是有监督、半监督深度学习方法需要准确率极高的标签数据集,否则对学习结果影响极大,而无监督深度学习虽然不需要标签数据集,但是其召回率和准确率较低。
发明内容
为解决上述技术问题,本发明提出了一种基于联合学习的教育资源多模态知识图谱构建方法,根据已收集到的教育资源数据,包括课程数据、书籍文本数据、师生用户数据等数据,利用文本、视频预分类模型结合远程监督联合学习模型对数据进行知识实体关系的抽取,构建多模态的教育资源知识图谱,形成教育大数据AI知识库,对组织架构、全业务流程、应用场景的分形成AI动态业务场景元知识库,维护资源数据,为教育大数据敏捷治理及数据开放循环生态平台提供基础数据层支持。
本发明采用的技术方案为:一种基于联合学习的教育资源多模态知识图谱构建方法,具体步骤如下:
S1、对系统中最新的教育资源数据进行分类预处理,构建可能性科目类型信息表,构造多模态类别初始表及分类数据组;
S2、获取实体背景知识,整理分类预处理中的过程数据作为资源实体的描述信息;
S3、将分类的数据组输入到联合学习的实体关系抽取网络,并结合实体背景知识进行多模态知识识别与抽取;
S4、基于多模态类别初始表中相关实体的链接关系进行合并,获得当前系统中教育资源领域最新多模态知识图谱;
进一步地,所述步骤S1具体如下:
所述对系统中最新的教育资源数据进行分类预处理涉及非结构化数据,非结构化数据包括教育资源中的图像数据、视频数据、电子文档等非结构化文本。
所述分类预处理方法设计中使用了两种分类模型,分别是针对非结构化数据文本预分类的DPCNN模型,以及针对非结构化数据的图像预分类模型所选取的二维CNN网络AlexNet。
其中,预分类模型数据准备具体如下:
对于文本类型数据,进行分词处理,减少特征获取时的干扰;
对于视频类数据,先对视频源进行预处理,将视频的每一帧进行切片处理,视作为一张图像,每个独立视频存储为一组数据集;
训练集数据根据实际需求选用文本分类数据集;
所述多模态类别初始表为当前文本数据及图像视频数据所涵盖的可能性科目类型信息表中的类型,根据分类结果对所有源数据进行分类存放,得到分类数据组。
其中,分类数据组获取的设计方法具体如下:
在源数据文本添加一列ID,作为索引值,ID值唯一不重复,通过ID值,从测试数据完成后所生成的结果表中进行排序,重新拼接成完整的源数据文本。
进一步地,所述步骤S2具体如下:
S21、文本类数据的背景知识获取;
在步骤S1中通过预分类网络的处理,已获得文本的分类结果,基于已有的分类信息及实体信息,借助残差网络ResNet从Fressbase知识库中抽取实体特征,特征信息结果记为当前预测实体的背景知识,组合形成该实体的描述信息,实体及描述表示方法如下:
D={(ei,di)|=1,··.,|D|}
其中,D表示经过绑定ID值及获取背景知识后的实体描述信息;ei表示为当前实体;di表示ResNet提取出的实体特征信息;i表示步骤S1数据预处理中绑定的ID值。
S22、图像视频类数据的背景知识获取;
选用BiLSTM+VGGNet作为视频数据实体提取与背景知识提取网络的编码器部分,利用BiLSTM捕捉双向语义依赖来编码视频中的文本,VGGNet进行图像处理,从而编码构建出图像视频数据多模态空间实体信息和背景知识,并组合成图像视频的实体及描述。
进一步地,所述步骤S3中,采用的联合学习模型进行实体关系抽取的处理流程具体如下:
(1)通过PCNN模块提取文本数据和图像中包含的句子特征,此时每个实体对对应一个包,用句子级别注意力机制给包中的每个句子分配一个权重;
(2)对输入的实体中逐一检查是否绑定有背景知识,若可从中获得背景知识,则使用一个卷积层和一个最大池化层从实体描述中提取特征,为注意力机制模块的学习提供辅助表示,从而提取实体描述信息;
(3)使用用交叉熵最小化目标函数,目标函数由句子级别注意力机制和实体信息共同决定,完成特征融合。
其中,在远程监督进行知识实体关系抽取模型训练中选用NYT-FB数据集作为训练数据,该数据集由Fressbase知识库整理而得,包括五十多万条训练语句且百分之八十的句子带有标签。
进一步地,所述步骤S4具体如下:
基于步骤S1-S3得到多模态类别初始表、联合学习获得的实体抽取和关系对及当前资源数据中所有实体间的链接关系,每个独立处理的数据信息关系链接为一个子图谱,以此类推将所有子图谱进行合并构建出初始化的多模态知识图谱。
本发明的有益效果:本发明的方法首先对系统中最新的教育资源数据进行分类预处理,构造多模态类别初始表及分类数据组,然后获取实体背景知识,整理分类预处理中的过程数据作为资源实体的描述信息,将分类的数据组输入到联合学习的实体关系抽取网络,并结合实体背景知识进行多模态知识识别与抽取,最后基于多模态类别初始表中相关实体的链接关系进行合并,获得当前系统中教育资源领域最新多模态知识图谱。本发明的方法采用自底向上构建知识图谱方法,从采集到的数据中提取出资源模式,避免从其他网站获取知识加入到知识库带来的信息安全问题,通过引用多模态资源,提升教育信息挖掘的准确程度,加快资源知识融合。
附图说明
图1为本发明的一种基于联合学习的教育资源多模态知识图谱构建方法的流程图。
图2为本发明实施例中一种基于联合学习的教育资源多模态知识图谱构建方法的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图1所示,本发明的一种基于联合学习的教育资源多模态知识图谱构建方法流程图,为实施例1,具体步骤如下:
S1、对系统中最新的教育资源数据进行分类预处理,构建可能性科目类型信息表,构造多模态类别初始表及分类数据组;
S2、获取实体背景知识,整理分类预处理中的过程数据作为资源实体的描述信息;
S3、将分类的数据组输入到联合学习的实体关系抽取网络,并结合实体背景知识进行多模态知识识别与抽取;
S4、基于多模态类别初始表中相关实体的链接关系进行合并,获得当前系统中教育资源领域最新多模态知识图谱;
在本实施例中,所述步骤S1具体如下:
本实施例在进行资源实体关系抽取任务前先进行了资源数据的预分类,通过预分类,获取资源类别初始信息,构建可能性科目类型信息表,并筛选资源数据分组,为后续的抽取任务提供较为干净的数据源,降低不同类别信息之间相互产生噪声影响问题,从而增加实体关系抽取的准确性。
所述对系统中最新的教育资源数据进行分类预处理涉及非结构化数据,非结构化数据包括教育资源中的图像数据、视频数据、电子文档等非结构化文本。
所述分类预处理方法设计中使用了两种分类模型,分别是针对非结构化数据文本预分类的DPCNN模型,以及针对非结构化数据的图像预分类模型所选取的二维CNN网络AlexNet。
其中,预分类模型数据准备具体如下:
对于文本类型数据,进行分词处理,如通过规则筛选去除“你”、“我”、“他”等可能不具备代表意义的词汇,减少特征获取时的干扰;
对于视频类数据,先对视频源进行预处理,将视频的每一帧进行切片处理,视作为一张图像,每个独立视频存储为一组数据集;
训练集数据根据实际需求选用文本分类数据集;
所述多模态类别初始表为当前文本数据及图像视频数据所涵盖的可能性科目类型信息表中的类型,根据分类结果对所有源数据进行分类存放,得到分类数据组。
其中,分类数据组获取的设计方法具体如下:
由于进行文本预分类时,输入模型的数据是经过向量化后的文本数据,语句顺序与源数据不一致,为解决分类后得到分类数据组,本实施例在源数据文本添加一列ID,作为索引值,ID值唯一不重复,通过ID值,从测试数据完成后所生成的结果表中进行排序,重新拼接成完整的源数据文本。
在本实施例中,所述步骤S2具体如下:
S21、文本类数据的背景知识获取;
在步骤S1中通过预分类网络的处理,已获得文本的分类结果,基于已有的分类信息及实体信息,借助残差网络ResNet从Fressbase知识库中抽取实体特征,特征信息结果记为当前预测实体的背景知识,组合形成该实体的描述信息,实体及描述表示方法如下:
D={(ei,di)|=1,···,|D|}
其中,D表示经过绑定ID值及获取背景知识后的实体描述信息;ei表示为当前实体;di表示ResNet提取出的实体特征信息;i表示步骤S1数据预处理中绑定的ID值。
S22、图像视频类数据的背景知识获取;
图像视频数据与文本类数据不同,图像视频的文本信息表现于图像之中。本实施例中选用BiLSTM+VGGNet作为视频数据实体提取与背景知识提取网络的编码器部分,利用BiLSTM捕捉双向语义依赖来编码视频中的文本,VGGNet进行图像处理,VGGNet在图像处理上也有突出的表现,从而编码构建出图像视频数据多模态空间实体信息和背景知识,并组合成图像视频的实体及描述,表示方法如步骤S21中实体及描述表示方法一致。
在本实施例中,所述步骤S3中,采用的联合学习模型进行实体关系抽取的处理流程具体如下:
(1)通过PCNN模块提取文本数据和图像中包含的句子特征,此时每个实体对对应一个包,用句子级别注意力机制给包中的每个句子分配一个权重;
(2)对输入的实体中逐一检查是否绑定有背景知识,若可从中获得背景知识,则使用一个卷积层和一个最大池化层从实体描述中提取特征,为注意力机制模块的学习提供辅助表示,从而提取实体描述信息;
(3)使用用交叉熵最小化目标函数,目标函数由句子级别注意力机制和实体信息共同决定,完成特征融合。
本实施例在实体关系抽取模型设计上选用远程监督的联合学习,由于系统中输入的教育资源较多,有监督的关系抽取方法消耗大量人力,且若仅使用现有的深度学习网络进行特征提取,会由于NLP工具进行数据集标注而导致网络中大量传播误差问题,从而产生错误标签。
其中,本实施例在远程监督进行知识实体关系抽取模型训练中选用NYT-FB数据集作为训练数据,该数据集由Fressbase知识库整理而得,包括五十多万条训练语句且百分之八十的句子带有标签,且实体链接和关系对齐等都被标注过信息,较为适合本实施例的模型训练。
在本实施例中,所述步骤S4具体如下:
基于步骤S1-S3得到多模态类别初始表、联合学习获得的实体抽取和关系对及当前资源数据中所有实体间的链接关系,每个独立处理的数据信息关系链接为一个子图谱,以此类推将所有子图谱进行合并构建出初始化的多模态知识图谱。
本发明还提供了实施例2对本发明方法做进一步说明。
如图2所示,角色包括:文本数据T,图像数据集I,视频图像集V1、V2,文本预分类模型DPCNN,文本背景知识获取模型RestNet,图像预分类模型AlexNet,图像视频背景知识获取模型BiLSTM+VGGNet,联合学习知识实体关系抽取模型PA。具体步骤如下:
(1)先对视频图像集V1、V2进行切片分组,形成分组V1:{V11,V12,V13…},,V2:{V21,V22,V23…},然后对T、I、V1、V2进行ID值绑定,形成{T,IDT},{I,IDI},[{V11,ID11},{V12,ID12},{V13,ID13}…],[{V21,ID21},{V22,ID22},{V23,ID23}…];
(2)将{T,IDT}输入DPCNN网络获得T类别ST;
(3)将{I,IDI}输入AlexNet网络获得I类别SI;
(4)将[{V11,ID11},{V12,ID12},{V13,ID13}…][{V21,ID21},{V22,ID22},{V23,ID23}…]输入AlexNet网络获得V1、V2类别(SV11,SV12…),(SV11,SV12…);
(5)将{T,IDT,ST}输入RestNet网络获得T的背景知识BT;
(6)将{I,IDI,SI}输入BiLSTM+VGGNet网络获得I的背景知识BI;
(7)[{V11,ID11,SV11},{V12,ID12,SV12},{V13,ID13,SV12}…][{V21,ID21,SV21},{V22,ID22,SV22},{V23,ID23,SV23}…]输入网络获得BiLSTM+VGGNet网络获得V1、V2分组的背景知识BV1,BV2分组;
(8)将步骤(1)-(4)类别组合形成初始类别组;
(9)分别将{T,IDT,ST,BT},{I,IDI,SI,BI},[V1{BV1},V2{BV2}]输入到联合学习知识实体关系抽取模型PA,分别抽取获得对应数据的实体对和关系对;
(10)通过多模态类别初始表及联合学习获得的实体抽取和关系对,拥有当前资源数据中所有实体间的链接关系,如实体1-类别A-实体2。其中,每个独立处理的数据信息关系链接为一个子图谱,以此类推将所有子图谱进行合并构建出初始化的多模态知识图谱。
综上,考虑本系统中教育数据资源的安全性和敏感性,本发明的方法采用自底向上构建知识图谱的方法,即借助AI技术,借助基于联合学习多模态知识图谱实体关系抽取模型,从已收集的数据中提取出资源模式,搭建数据层。这种远程监督关系抽取方法可以将大量无标签的语料信息与已有的知识库进行自我学习对齐,快速的建立海量的标签语料数据。通过引用多模态资源,提升教育信息挖掘的准确程度,加快资源知识的融合。
本领域的普通技术人员将会意识到,上述实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (5)
1.一种基于联合学习的教育资源多模态知识图谱构建方法,具体步骤如下:
S1、对系统中最新的教育资源数据进行分类预处理,构建可能性科目类型信息表,构造多模态类别初始表及分类数据组;
S2、获取实体背景知识,整理分类预处理中的过程数据作为资源实体的描述信息;
S3、将分类的数据组输入到联合学习的实体关系抽取网络,并结合实体背景知识进行多模态知识识别与抽取;
S4、基于多模态类别初始表中相关实体的链接关系进行合并,获得当前系统中教育资源领域最新多模态知识图谱。
2.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法,其特征在于,所述步骤S1具体如下:
所述对系统中最新的教育资源数据进行分类预处理涉及非结构化数据,非结构化数据包括教育资源中的图像数据、视频数据、电子文档等非结构化文本;
所述分类预处理方法设计中使用了两种分类模型,分别是针对非结构化数据文本预分类的DPCNN模型,以及针对非结构化数据的图像预分类模型所选取的二维CNN网络AlexNet;
其中,预分类模型数据准备具体如下:
对于文本类型数据,进行分词处理,减少特征获取时的干扰;
对于视频类数据,先对视频源进行预处理,将视频的每一帧进行切片处理,视作为一张图像,每个独立视频存储为一组数据集;
训练集数据根据实际需求选用文本分类数据集;
所述多模态类别初始表为当前文本数据及图像视频数据所涵盖的可能性科目类型信息表中的类型,根据分类结果对所有源数据进行分类存放,得到分类数据组;
其中,分类数据组获取的设计方法具体如下:
在源数据文本添加一列ID,作为索引值,ID值唯一不重复,通过ID值,从测试数据完成后所生成的结果表中进行排序,重新拼接成完整的源数据文本。
3.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法,其特征在于,所述步骤S2具体如下:
S21、文本类数据的背景知识获取;
在步骤S1中通过预分类网络的处理,已获得文本的分类结果,基于已有的分类信息及实体信息,借助残差网络ResNet从Fressbase知识库中抽取实体特征,特征信息结果记为当前预测实体的背景知识,组合形成该实体的描述信息,实体及描述表示方法如下:
D=((ei,di)|=1,…,|D|}
其中,D表示经过绑定ID值及获取背景知识后的实体描述信息;ei表示为当前实体;di表示ResNet提取出的实体特征信息;i表示步骤S1数据预处理中绑定的ID值;
S22、图像视频类数据的背景知识获取;
选用BiLSTM+VGGNet作为视频数据实体提取与背景知识提取网络的编码器部分,利用BiLSTM捕捉双向语义依赖来编码视频中的文本,VGGNet进行图像处理,从而编码构建出图像视频数据多模态空间实体信息和背景知识,并组合成图像视频的实体及描述。
4.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法,其特征在于,所述步骤S3中,采用的联合学习模型进行实体关系抽取的处理流程具体如下:
(1)通过PCNN模块提取文本数据和图像中包含的句子特征,此时每个实体对对应一个包,用句子级别注意力机制给包中的每个句子分配一个权重;
(2)对输入的实体中逐一检查是否绑定有背景知识,若可从中获得背景知识,则使用一个卷积层和一个最大池化层从实体描述中提取特征,为注意力机制模块的学习提供辅助表示,从而提取实体描述信息;
(3)使用用交叉熵最小化目标函数,目标函数由句子级别注意力机制和实体信息共同决定,完成特征融合;
其中,在远程监督进行知识实体关系抽取模型训练中选用NYT-FB数据集作为训练数据,该数据集由Fressbase知识库整理而得,包括五十多万条训练语句且百分之八十的句子带有标签。
5.根据权利要求1所述的一种基于联合学习的教育资源多模态知识图谱构建方法,其特征在于,所述步骤S4具体如下:
基于步骤S1-S3得到多模态类别初始表、联合学习获得的实体抽取和关系对及当前资源数据中所有实体间的链接关系,每个独立处理的数据信息关系链接为一个子图谱,以此类推将所有子图谱进行合并构建出初始化的多模态知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310197649.6A CN116150404A (zh) | 2023-03-03 | 2023-03-03 | 一种基于联合学习的教育资源多模态知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310197649.6A CN116150404A (zh) | 2023-03-03 | 2023-03-03 | 一种基于联合学习的教育资源多模态知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116150404A true CN116150404A (zh) | 2023-05-23 |
Family
ID=86338953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310197649.6A Pending CN116150404A (zh) | 2023-03-03 | 2023-03-03 | 一种基于联合学习的教育资源多模态知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150404A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720124A (zh) * | 2023-08-11 | 2023-09-08 | 之江实验室 | 一种教育文本分类方法、装置、存储介质及电子设备 |
CN117235187A (zh) * | 2023-11-14 | 2023-12-15 | 深圳市联特微电脑信息技术开发有限公司 | 一种基于网络教学资源的数据存储方法及系统 |
-
2023
- 2023-03-03 CN CN202310197649.6A patent/CN116150404A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720124A (zh) * | 2023-08-11 | 2023-09-08 | 之江实验室 | 一种教育文本分类方法、装置、存储介质及电子设备 |
CN117235187A (zh) * | 2023-11-14 | 2023-12-15 | 深圳市联特微电脑信息技术开发有限公司 | 一种基于网络教学资源的数据存储方法及系统 |
CN117235187B (zh) * | 2023-11-14 | 2024-03-22 | 深圳市联特微电脑信息技术开发有限公司 | 一种基于网络教学资源的数据存储方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
CN112035669B (zh) | 基于传播异质图建模的社交媒体多模态谣言检测方法 | |
CN113177124B (zh) | 一种垂直领域知识图谱构建方法及系统 | |
CN116150404A (zh) | 一种基于联合学习的教育资源多模态知识图谱构建方法 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN111931061B (zh) | 标签映射方法、装置、计算机设备及存储介质 | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN113961685A (zh) | 信息抽取方法及装置 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN113392651A (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
Cardellino et al. | Legal NERC with ontologies, Wikipedia and curriculum learning | |
CN110991149A (zh) | 一种多模态实体链接方法和实体链接系统 | |
CN106227836B (zh) | 基于图像与文字的无监督联合视觉概念学习系统及方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Walton et al. | Landscape analysis for the specimen data refinery | |
Teruel et al. | Legal text processing within the MIREL project | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113705159A (zh) | 商户名称的标注方法、装置、设备及存储介质 | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
CN112632948A (zh) | 案件文书排序方法及相关设备 | |
CN115544212A (zh) | 文档级事件要素抽取方法、设备及介质 | |
CN117011745A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
CN110889289B (zh) | 信息明确度评估方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |