CN110162591A

CN110162591A - 一种面向数字教育资源的实体对齐方法及系统

Info

Publication number: CN110162591A
Application number: CN201910431436.9A
Authority: CN
Inventors: 季一木; 刘艳兰; 刘强; 刘尚东; 尧海昌; 李奎; 许正阳
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-23
Anticipated expiration: 2039-05-22
Also published as: CN110162591B

Abstract

本发明公开了一种面向数字教育资源的实体对齐方法及系统，首先通过学科主题树对已有教育资源库进行学科分块，并在每个教育资源块内构建分区索引体系；然后SKE算法提取待对齐数字教育资源的知识点标签，通过索引筛选出实体对齐候选集；接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度；最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树，判定其对齐结果。采用本方法进行数字教育资源的实体对齐，能够大幅度降低实体对齐计算复杂度，提高对齐效率；提升数字教育资源的文本相似度计算精度，从而提高实体对齐准确率。

Description

一种面向数字教育资源的实体对齐方法及系统

技术领域

本发明涉及一种数字教育资源实体对齐的方法及系统，属于数字教育资源领域。

背景技术

随着当今技术的发展，基于网络的数字教育资源变得愈加丰富，人们可以通过网络不受地域限制得方便获取大量符合自身需求的优质教育资源，极大得提高了自身的主观能动性。如今，个性化的数字教育资源服务已成为传统教育模式的有力补充，成为一种不可忽视的有效教育渠道。

然而随着数据量的增长，现有的数字化教育资源服务暴露出一些缺点：1)可获取的资源总量过多，导致学生可能需要消耗大量时间进行信息筛选，无法快速获取有效资源；2)网络数字教育资源有着标准不统一、结构不一致，内容分散片面等问题，导致资源分发用户体验不佳。因此，加强数字教育资源整合力度，提高信息资源的融合水平，构建高质量的数字教育资源库，从而进一步提高知用户体验是数字教育资源服务中亟待解决的重要问题之一。

实体对齐是知识融合的关键技术支撑。实体对齐相关问题从数据库诞生之日起就被人们所重视，从20世纪六七十年代提出到现在，实体匹配技术也经历了一系列的发展变化。知识库实体对齐是实体匹配发展到Web3.0后，在不同知识库的链接过程中提出的一种问题，这个问题可以通过将经典的实体匹配技术应用到知识库领域，结合知识库的特点进行实体匹配来解决。

实体对齐算法可以分为成对实体对齐和集体实体对齐。成对实体对齐方法，即将实体对齐问题看作是根据属性相似性评分判断待匹配实体对匹配与否的分类问题，Fellegi和Sunter在1969年就提出了该类实体对齐分类方法的概率模型。后来，Winkler等人在此基础上进行大量研究，构建出一种实体对齐概率模型，在实体对齐中取得较好匹配效果。该模型使用属性值的近似比较代替相等与否的二值比较，将待匹配属性值出现的频率代入到属性值相等概率的计算中，并结合贝叶斯网络对属性的相关性建模，并使用最大估计算法对参数进行估计。随着基于Fellegi-Sunter模型的概率实体对齐方法取得的大量的研究成果，机器学习及统计学习的快速发展，很多机器学习方法也应用到实体对齐领域，并取得了巨大的进展，但仍属于成对实体对齐。集体实体对齐，是在成对实体对齐基础上将实体间关系考虑在内，计算实体对间的结构相似性，综合考虑属性相似性与结构相似性来匹配实体对。Suchanek等人提出了一种新型的基于概率的全局算法，PARIS算法。该算法在不需要任何参数调节的条件下不仅能够有效对齐实体还对齐了实体的类别、属性和关系。常规实体对齐做法需要遍历两个知识库中所有实体对，计算复杂度随着知识库规模二次增长，因此，现有知识库实体对齐研究中存在知识库实体量大，实体对齐复杂度高的挑战。当前提高对齐效率的主要方法是引入数据库中分区技术构建知识库实体的分区索引体系，有效加快实体对齐速度，提高效率。

在语义万维网发展的推动下，针对多源知识库实体对齐国内外开展了很多相关工作，但是大多适用于英文知识库，对于中文知识库的研究较少。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种面向数字教育资源的实体对齐方法及系统，首先通过学科主题树对已有教育资源库进行学科分块，并在每个教育资源块内构建分区索引体系；然后SKE算法提取待对齐数字教育资源的知识点标签，通过索引筛选出实体对齐候选集；接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度；最后通过将计算得到的实体对相似性数据作为特征值输入构建好的决策树，判定其对齐结果。采用本方法进行数字教育资源的实体对齐，能够大幅度降低实体对齐计算复杂度，提高对齐效率；提升数字教育资源的文本相似度计算精度，从而提高实体对齐准确率。本发明实体对齐方法准确高效，对海量的网络数字教育资源进行有效融合，解决了数字教育资源重复冗余、分布散乱等问题，提高数字教育资源服务质量。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种面向数字教育资源的实体对齐方法，包括以下步骤：

步骤1，对数字化教育资源进行分块。

步骤2，构建分区索引体系，采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。

步骤3，提取待对齐数字教育资源的知识点标签，对待融合的教育资源数据进行简单清洗，只保留文本数据，并使用jieba分词工具对其进行分词、词性标注并去除停用词，得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度，并选出关健度高的前5位作为该教育资源的知识点标签。

步骤4，筛选候选实体对，根据步骤3中得到的教育资源的知识点标签，分别在步骤2中构建的hash索引中进行搜索，若有该知识点，则获取该知识点所关联的数字化教育资源ID，即局部实体对齐候选集，将局部E_i:{e₁,e₂…e_j}。最后将局部候选集合并，去掉重复资源，得到最终实体对齐候选集E＝E₁∪E₂∪E₃∪E₄∪E₅＝{e₁,e₂…e_n}，则候选实体对集记为{e₀_e₁,e₀_e₂…e₀_e_n}。若E＝{}，则将该资源直接加入资源库。

步骤5，计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性：

其中，A表示实体e1的知识点集合，B表示实体e2的知识点集合，J(A,B)则表示两知识点集合的交集与并集的比值，记为Sam(table)。

步骤6，计算实体对属性值相似度。依次取出候选实体集E中的资源与待对齐资源进行对比，先根据映射规则匹配两个资源的属性名，当指向同一属性时，再根据编辑距离计算属性值相似度，最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。

步骤7，计算实体对中文本资源相似度。获取教育资源简介信息，先对信息文本进行分词、去除停用词的处理，使用构建好的LDA主题模型计算两个文本的主题分布概率，并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度，则art₁＝(TM₁₁,TM₁₂…TM_1k),art₂＝(TM₂₁,TM₂₂…TM_2k)，其中art代表文本，TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度，Sam(art₁，art₂)＝Cos(art₁，art₂)。

步骤8，构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art₁，art₂)，人工标记对齐情况，获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art₁，art₂)及相应取值作为实体对的特征与特征值输入，通过训练构建判定实体对是否对齐的决策树。

步骤9，判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e₀_e₁,e₀_e₂…e₀_e_n}中实体对是否对齐。若有对齐实体对，则生成新的对齐实体，加入数字教育资源库中。若无对齐实体对，则将待对齐实体作为独立实体加入数字教育资源库中，并将其与相应知识标签做好链接。

优选的：步骤1中参照高质量知识库中的学科分类体系，构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签，按照学科主题树中的学科分类将数字教育资源进行聚簇。

优选的：步骤2中以资源实体的知识点标签为索引键值，构建关于知识点标签的hash函数，将具有相同索引键值的资源实体分配到同一桶内。

一种采用面向数字教育资源的实体对齐方法制成的系统，包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。

本发明相比现有技术，具有以下有益效果：

本发明所提出的基于教育资源的实体对齐方法，能够有效解决数字教育资源重复冗余、分布散乱等问题。通过对海量数字教育资源进行学科分块，采用hash索引构建分区索引体系，能够有效提高实体对齐速度，降低实体对齐复杂度；使用LDA主题模型与余弦相似度计算公式计算两个文本间相似度，提高语义相似度计算精度；结合决策树判定实体对是否对齐，充分考虑实体对间不同特征值对实体对相似性影响权重不同，能够提高实体对齐准确性。

附图说明

图1数字教育资源实体对齐方法流程图

图2知识点标签抽取方法流程图

图3候选实体对集筛选流程图

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种面向数字教育资源的实体对齐方法，首先对已有教育资源库进行分块并构建分区索引体系；然后提取待对齐数字教育资源的知识点标签，通过索引筛选实体对齐候选集；接着计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度；最后通过决策树判定实体对对齐结果，如图1-3所示，具体包括以下步骤：

步骤1.对海量的数字化教育资源进行分块。参照高质量知识库中的学科分类体系，构建一个粗分类的学科主题树。然后根据数字教育资源库中资源的学科标签，按照学科主题树中的学科分类将数字教育资源进行聚簇，减少不必要实体对候选集的产生。

将步骤1中的方法进行封装，得到对海量的数字化教育资源进行分块模块，用来运行步骤1中的方法。

步骤2.构建分区索引体系。在步骤1基础上，采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系。在本专利中以资源实体的知识点标签为索引键值，构建一个关于知识点标签的hash函数，将具有相同索引键值的资源实体分配到同一桶内，有效提高知识点标签匹配速度。并且实体对齐工作只在该桶内进行，大幅度降低实体对齐复杂度。

将步骤2中的方法进行封装，得到构建分区索引体系模块，用来运行步骤2中的方法。

步骤3.提取待对齐数字教育资源的知识点标签。对待融合的教育资源数据进行简单清洗，只保留文本数据，并使用jieba分词工具对其进行分词、词性标注并去除停用词，得到词语集。然后使用SKE算法计算词语集中每个词汇的关健度，并选出关健度高的前5位作为该教育资源的知识点标签。

将步骤3中的方法进行封装，得到提取待对齐数字教育资源的知识点标签模块，用来运行步骤3中的方法。

步骤4.筛选候选实体对。根据第三步中得到的教育资源的知识点标签，分别在第二步中构建的hash索引中进行搜索，若有该知识点，则获取该知识点所关联的数字化教育资源ID，即局部实体对齐候选集，将局部E_i:{e₁,e₂…e_j}。最后将局部候选集合并，去掉重复资源，得到最终实体对齐候选集E＝E₁∪E₂∪E₃∪E₄∪E₅＝{e₁,e₂…e_n}，则候选实体对集记为{e₀_e₁,e₀_e₂…e₀_e_n}。若E＝{}，则将该资源直接加入资源库。

将步骤4中的方法进行封装，得到筛选候选实体对模块，用来运行步骤4中的方法。

步骤5.计算实体对知识点标签相似性。使用Jaccard相似系数来计算两实体间知识点相似性。

A表示实体e1的知识点集合,B表示实体e2的知识点集合,J(A,B)则表示两知识点集合的交集与并集的比值，记为Sam(table)。

将步骤5中的方法进行封装，得到计算实体对知识点标签相似性模块，用来运行步骤5中的方法。

步骤6.计算实体对属性值相似度。不同于通用知识库，在教育资源领域实体属性较为简单，可以通过人工编订映射规则。依次取出候选实体集E中的资源与待对齐资源进行对比，先根据映射规则匹配两个资源的属性名，当指向同一属性时，再根据编辑距离(Jaro距离)计算属性值相似度，最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)。

将步骤6中的方法进行封装，得到计算实体对属性值相似度模块，用来运行步骤6中的方法。

步骤7.计算实体对中文本资源相似度。获取教育资源简介信息，先对信息文本进行分词、去除停用词的处理，使用构建好的LDA主题模型计算两个文本的主题分布概率，并依次作为该文本的向量表示。可选定合适的主题数k作为向量维度，则art₁＝(TM₁₁,TM₁₂…TM_1k),art₂＝(TM₂₁,TM₂₂…TM_2k)，其中art代表文本，TM代表某一主题词在文本中出现的概率值。最后使用余弦相似度计算两个文本间相似度，Sam(art₁，art₂)＝Cos(art_1，art₂)。

将步骤7中的方法进行封装，得到计算实体对中文本资源相似度模块，用来运行步骤7中的方法。

步骤8.构建判断实体对齐的决策树。前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art₁，art₂)，人工标记对齐情况，获取一定数量的训练集。以Sam(table)、Sam(attribute)、Sam(art₁，art₂)及相应取值作为实体对的特征与特征值输入，通过训练构建判定实体对是否对齐的决策树。

将步骤8中的方法进行封装，得到构建判断实体对齐的决策树模块，用来运行步骤8中的方法。

步骤9.判定候选实体对是否匹配。通过步骤8构建好的决策树判定候选实体对集记{e₀_e₁,e₀_e₂…e₀_e_n}中实体对是否对齐。若有对齐实体对，则生成新的对齐实体，加入数字教育资源库中；若无对齐实体对，则将待对齐实体作为独立实体加入数字教育资源库中，并将其与相应知识标签做好链接。

将步骤9中的方法进行封装，得到判定候选实体对是否匹配模块，用来运行步骤9中的方法。

一种面向数字教育资源的实体对齐系统，包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。

数字教育资源实体对齐过程具体步骤如下所示：

1.按照学科类别将数字教育资源进行聚簇，对海量的数字化教育资源进行分块。

2.在每个资源块内以数字教育资源的知识点标签为键值构建hash索引。

3.利用SKE算法提取待对齐数字教育资源的知识点标签。

4.根据第四步中得到的知识点标签在对应资源块中进行hash索引搜索，筛选得到实体对候选集。

5.依次计算候选集中实体对的知识点标签相似性、属性值相似度和文本资源相似度。

6.将计算得到的知识点标签相似性、属性值相似度和文本资源相似度作为实体对的特征值输入，通过构建好的决策树自动判定对齐结果，并依据结果对待对齐资源做相应处理。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向数字教育资源的实体对齐方法，其特征在于，包括以下步骤：

步骤1，对数字化教育资源进行分块；

步骤2，构建分区索引体系，采用hash索引对每一个学科类别下的数字教育资源的知识点标签分别构建相应索引体系；

步骤3，提取待对齐数字教育资源的知识点标签，对待融合的教育资源数据进行简单清洗，只保留文本数据，并使用jieba分词工具对其进行分词、词性标注并去除停用词，得到词语集；然后使用SKE算法计算词语集中每个词汇的关健度，并选出关健度高的前5位作为该教育资源的知识点标签；

步骤4，筛选候选实体对，根据步骤3中得到的教育资源的知识点标签，分别在步骤2中构建的hash索引中进行搜索，若有该知识点，则获取该知识点所关联的数字化教育资源ID，即局部实体对齐候选集，将局部E_i:{e₁,e₂…e_j}；最后将局部候选集合并，去掉重复资源，得到最终实体对齐候选集E＝E₁∪E₂∪E₃∪E₄∪E₅＝{e₁,e₂…e_n}，则候选实体对集记为{e₀_e₁,e₀_e₂…e₀_e_n}；若E＝{}，则将该资源直接加入资源库；

步骤5，计算实体对知识点标签相似性；使用Jaccard相似系数来计算两实体间知识点相似性：

其中，A表示实体e1的知识点集合，B表示实体e2的知识点集合，J(A,B)则表示两知识点集合的交集与并集的比值，记为Sam(table)；

步骤6，计算实体对属性值相似度；依次取出候选实体集E中的资源与待对齐资源进行对比，先根据映射规则匹配两个资源的属性名，当指向同一属性时，再根据编辑距离计算属性值相似度，最后累加所有属性相似度得到两个教育资源实体之间的属性相似度Sam(attribute)；

步骤7，计算实体对中文本资源相似度；获取教育资源简介信息，先对信息文本进行分词、去除停用词的处理，使用构建好的LDA主题模型计算两个文本的主题分布概率，并依次作为该文本的向量表示；可选定合适的主题数k作为向量维度，则art₁＝(TM₁₁,TM₁₂…TM_1k),art₂＝(TM₂₁,TM₂₂…TM_2k)，其中art代表文本，TM代表某一主题词在文本中出现的概率值；最后使用余弦相似度计算两个文本间相似度，Sam(art₁，art₂)＝Cos(art₁，art₂)；

步骤8，构建判断实体对齐的决策树；前期通过计算实体对间标签相似度Sam(table)、属性相似度Sam(attribute)、文本相似度Sam(art₁，art₂)，人工标记对齐情况，获取一定数量的训练集；以Sam(table)、Sam(attribute)、Sam(art₁，art₂)及相应取值作为实体对的特征与特征值输入，通过训练构建判定实体对是否对齐的决策树；

步骤9，判定候选实体对是否匹配；通过步骤8构建好的决策树判定候选实体对集记{e₀_e₁,e₀_e₂…e₀_e_n}中实体对是否对齐；若有对齐实体对，则生成新的对齐实体，加入数字教育资源库中；若无对齐实体对，则将待对齐实体作为独立实体加入数字教育资源库中，并将其与相应知识标签做好链接。

2.根据权利要求1所述面向数字教育资源的实体对齐方法，其特征在于：步骤1中参照高质量知识库中的学科分类体系，构建一个粗分类的学科主题树；然后根据数字教育资源库中资源的学科标签，按照学科主题树中的学科分类将数字教育资源进行聚簇。

3.根据权利要求2所述面向数字教育资源的实体对齐方法，其特征在于：步骤2中以资源实体的知识点标签为索引键值，构建关于知识点标签的hash函数，将具有相同索引键值的资源实体分配到同一桶内。

4.一种采用权利要求3所述面向数字教育资源的实体对齐方法制成的系统，其特征在于：包括对数字化教育资源进行分块模块、构建分区索引体系模块、提取待对齐数字教育资源的知识点标签模块、筛选候选实体对模块、计算实体对知识点标签相似性模块、计算实体对属性值相似度模块、计算实体对中文本资源相似度模块、构建判断实体对齐的决策树模块、判定候选实体对是否匹配模块。