CN115687650A

CN115687650A - 一种基于树结构的多文本信息的知识图谱构建方法

Info

Publication number: CN115687650A
Application number: CN202211377033.9A
Authority: CN
Inventors: 王晖; 苗旭东
Original assignee: SHANGHAI ZHUOYUE RUIXIN DIGITAL TECHNOLOGY CO LTD
Current assignee: SHANGHAI ZHUOYUE RUIXIN DIGITAL TECHNOLOGY CO LTD
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-02-03

Abstract

本发明涉及智能教学技术领域，尤其涉及一种基于树结构的多文本信息的知识图谱构建方法。包括：S1.针对构建的目标领域，获取多文本信息；构建出各所述文本信息的树结构；S2.将构建出的各所述树结构进行嫁接融合；S3.对嫁接融合后的树结构进行剪枝操作；S4.重构树结构知识图谱。本发明通过先嫁接融合，再进行剪枝合并，最后进行重构梳理的手段，有效实现了多电子书/多课程视频的树结构的知识图谱构建，使得最终的知识图谱适用性广、普适性强、能广泛地共享在各个高校的智能教学平台上，可有效用于实现知识共享。

Description

一种基于树结构的多文本信息的知识图谱构建方法

技术领域

本发明涉及智能教学技术领域，尤其涉及一种基于树结构的多文本信息的知识图谱构建方法。

背景技术

目前教育场景中的知识图谱的构建一般是基于实体识别和三元组关系的抽取来构建知识图谱，这种图谱一般是网状的知识图谱。无论是基于实体识别或者是三元组关系去构建知识图谱，其都存在着人工成本巨大、准确性无法保证的问题。

在实际应用场景中，教育教学中的开始阶段是构建树结构图谱，主节点对应的是章节目录、子节点对应的是学习的知识点。这种现有的构建方法，仅仅是针对一本书，或者是一个课程视频的。

而对于一门课程或者一门学科而言，其知识图谱的构建仅仅是依赖一本书或者一个课程视频显然是不够的，因此，构建多本书和多课程视频的树状知识图谱在对于智能教学场景中的各门课程而言显得尤为重要。

然而，现有的树状知识图谱的构建也仅存在于单一书本和一个课程视频中，目前并不存在相关的现有技术资料，用于专门针对多本书/多个课程视频，构建某一课程的综合性树知识图谱，主要原因在于多本书/多课程的树结构很难划分，简单的合并又过分臃肿复杂。

因此，为了从多本书/多个课程视频中构建某一课程的综合性树知识图谱，我们提出了本发明的一种基于树结构的多文本信息的知识图谱构建方法。

发明内容

本发明的目的是提供一种基于树结构的多文本信息的知识图谱构建方法，用于针对多本书的树结构融合难等问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于树结构的多文本信息的知识图谱构建方法，包括以下步骤：

S1.针对构建的目标领域，获取多文本信息；

构建出各所述文本信息的树结构；

S2.将构建出的各所述树结构进行嫁接融合；

S3.对嫁接融合后的树结构进行剪枝操作；

S4.重构树结构知识图谱。

进一步地，所述多文本信息至少包括：文本信息名称、目录、目录下的文本内容。

进一步地，所述多文本信息包括多个电子书的文本信息，和/或，多个课程视频的文本信息。

进一步地，所述构建出各所述文本信息的树结构，包括：

提取所述文本信息的目录信息，并根据目录信息作为根节点建立出树结构；

提取出各目录下的文本内容所包括的知识点。

进一步地，将构建出的各所述树结构进行嫁接融合，包括：

确定出各文本信息的共同上位，作为基节点；

将所述各文本信息嫁接在所述基节点上，所述文本信息名称记为根节点。

进一步地，所述对嫁接融合后的树结构进行剪枝操作，包括：

S31.对比各根节点的相似度，设置第一相似度阈值，对于所有相似度大于或等于所述第一相似度阈值的根节点进行合并；

S32.对所有进行合并的根节点的目录级节点进行比对，设置第二相似度阈值，对于所有相似度大于或等于所述第二相似度阈值的目录级节点进行合并。

进一步地，所述对于所有相似度大于或等于所述第一相似度阈值的根节点进行合并，合并后的根节点名称为各合并的根节点中字数最少的根节点名称，如果字数最少的根节点大于一个，则任选一个字数最少的根节点作为合并后的根节点名称。

进一步地，所述对于所有相似度大于或等于所述第二相似度阈值的目录级节点进行合并，进行合并时，选择节点级数最大的目录级节点作为基枝干，如果需要节点级最大的目录级节点大于一个，则任选一个节点级最大的目录级节点作为基枝干；

将其他的各目录级节点填充到所述基枝干。

进一步地，所述重构树结构知识图谱，包括：

S41.对所有的根节点和目录级节点进行修正；

S42.对于合并后的基枝干下的知识点，再次确定是否是基枝干的相关知识点；

S43.对尾结点进行清洗；

S44.再次进行去重操作。

进一步地，所述对于合并后的基枝干下的知识点，再次确定是否是基枝干的相关知识点，还包括：

如果合并后的基枝干下的知识点不是基枝干的必要知识点，则清除；反之，则保留。

本发明至少具备以下有益效果：

本发明通过先嫁接融合，再进行剪枝合并，最后进行重构梳理的手段，有效实现了多电子书/多课程视频的树结构的知识图谱构建；

本发明通过“先加法-再剪枝-后重构”的思想，把复杂的树结构知识图谱“修剪”的精干明了；采用简单的相似度对比方法，逐一比对树的节点进行剪枝和合并，并对其进行多项的重构修正，使得最终的知识图谱适用性广、普适性强、能广泛地共享在各个高校的智能教学平台上，可有效用于实现知识共享，打破了高校间课程和知识点学习的独立性壁垒。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为单一书本/视频进行构建单独的树结构知识图谱的示意图；

图2为嫁接结果的某一实施例示意图；

图3为树结构知识图谱的多余枝干并剪枝步骤示意图；

图4为树结构知识图谱重构后结果的某一实施例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的主要目的是针对多余的知识点枝干进行修剪和重构，使得多本书构建的复杂树结构知识地图可以更广泛的共享和应用。

构建一个多书本或课程可用的知识地图的流程为：

S1.构建一本书或一个课程视频的树结构知识地图：

要想构建“一颗”复杂的“参天大树”，首先要生长出一支“小树苗”，因此构建出一支树结构的知识地图尤为重要，构建一支树结构的知识地图的流程请参阅图1，具体为：

S11.获取电子书的文本信息或者课程视频的文本信息；

在此所述文本信息至少包括有目录信息以及各目录下的文本内容。

S12.提取所述文本信息的目录信息和目录结构，并作为树结构的根节点；

S13.提取出各所述目录下的文本内容所包括的知识点。

关于如何根据文本内容进行知识点的提取，这一技术是较为成熟的现有技术，具体请参阅如下现有文献：

CN108334493B所公开的一种基于神经网络的题目知识点自动提取方法；CN104820724B所公开的文本类教育资源知识点预测模型获得方法及模型应用方法。本发明创新并不针对具体的知识点的提取的相关技术，在具体实施本发明时，可以择一选用现有的知识点提取方法。

S2.多知识地图按照根节点直接嫁接成复杂的树结构知识地图：

针对多本书/多课程的情况下，本发明首先将所有的书本分别构建出各单独的树知识地图(构建过程参阅如上所述S1)，然后进行简单嫁接融合。

在进行嫁接时，需要确定各多本书/多课程的共同上位特征，记为基节点。

请参阅图2，为一种简单嫁接融合的实施例示意图。在图示中关于高等数学的多本书籍中，包括有类似《线性代数》、《微积分》、《离散函数》、……、《线性代数第二版》等等书，这些多本书分别进行了如S1所述的构建方法构建而出的树结构；将这些树结构通通嫁接在高等数学上。其中，高等数学，即为基节点，《线性代数》、《微积分》、《离散函数》、……、《线性代数第二版》等均为根节点(第一级节点)。

S3.寻找多余的枝干并剪枝；

针对上述多本书/多课程融合的知识地图，其不同版本的课程、不同细分领域的课程存在或多或少的交叉知识点，不同的知识点在不同版本中的重要性程度也不同，因此找出每一支子树枝干的相同点和不同点以及冗余枝干显得尤为重要，本发明设计了一种根节点和子节点比对、不同根节点之间进行比对的思想进行查重，具体流程参阅图3，如下：

S31.首先利用自然语言处理技术对比各根节点(第一级节点)的相似度,设置第一相似度阈值，对于所有相似度大于或等于所述第一相似度阈值的根节点进行合并。

例如：将《线性代数》和《线性代数第二版》进行合并处理。

合并后的根节点名称可以为各合并根节点中字数最少的根节点。例如将《线性代数》、《线性代数第二版》、《线性代数第三版》进行合并，合并后的名称为《线性代数》。

须知，利用自然语言处理技术对比文本的相似度，也是一种较为成熟的现有技术，具体可以参阅：CN106776559B公开的一种文本语义相似度计算的方法；CN106776503B公开的一种文本语义相似度的确定方法；CN107562824B公开的一种文本相似度检测方法；等等。本发明创新并不针对本文相似度对比的相关技术，在具体实施本发明时，可以择一选用现有技术即可。

另外，关于第一相似度阈值的设定，本领域技术人员也可以在具体实施时，根据精度要求进行适当的调整，本申请并不对其进行具体限定，也需知，该相似度阈值的任一范围，都应在本发明的保护范围之内。

S32.对需要进行合并的各根节点(第一级节点)的所有目录级节点(包括所有的第二级节点、第三级节点至最后一级节点)进行比对，并设置第二相似度阈值，对于所有相似度大于或等于所述第二相似度阈值的目录级节点，进行合并。

在此，进行合并时，选择分支和深度最高(节点级最大)的目录级节点作为基枝干，将其他的各目录级节点填充到所述基枝干内。如果需要合并的节点级最大的目录级节点存在两个及以上，则可以任选一个，作为基枝干。

S4.树结构知识图谱重构。

经过上述S3的合并分支操作之后，有用的分支被合并到相关联的基枝干，冗余的分支已经被剪枝掉了，基本的知识地图修建完成。

但是目录节点等表述，以及末梢节点的知识点需要清洗重构通用的名称才可以用到实际业务中，因此最后的重构节点是至关重要的一步，主要工作如下：

S41.对所有目录名或者小节名的节点(即目录级节点)，使用中文文本处理技术清洗、修正。即按照章、节等顺序，重新按照顺序对其进行命名。

例如：【第一章】、【第二章】、……；

【第一节】、【第二节】、……；

【原理】、【概述】等；

S42.对新合并的知识点，再次确定是否是基枝干的相关知识点，如果不是，则清除，如果是，则保留。

比如：【矩阵】枝干下的【线性方程组】是非必要知识点，清除；

S43.对树结构图谱的尾结点进行清洗。

比如：【线性方程组的求解】修正为【线性方程组】

S44.修正过的树结构，再一次去重操作。

比如：【IP数据报】、【IP多播】、【IP】修正为【IP】

由此，经过上述步骤之后多本书融合的树结构知识地图基本修建完成，满足了完整、清晰、简洁、泛化等优点，可以供不同的区域、学生等共享资源和学习。

具体完成后的某一实施例中，其最终效果如图4所示。

结合上述可知：

在教育教学资源共享领域一本书构建的树结构知识地图往往过于简单且适用面不广，多本书和视频资源融合构建的树结构知识地图又过于复杂，不方便实际场景中的应用，而本发明巧妙了避开了构建地图阶段融合的思想，转而采用了一种“先加法-再剪枝-后重构”的思想，把复杂的树结构知识图谱“修剪”的精干明了，同时采用简单的自然语言处理技术(相似度对比的方法)，逐一比对树的节点进行剪枝和合并，并对其进行多项的重构修正，最终的知识图谱适用性广、知识点普适性强能广泛的共享在各个高校的智能教学平台上，实现了真正的知识共享，打破了高校间课程和知识点学习的独立性壁垒，真正做到了“知识共享”。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，包括以下步骤：

S1.针对构建的目标领域，获取多文本信息；

构建出各所述文本信息的树结构；

S2.将构建出的各所述树结构进行嫁接融合；

S3.对嫁接融合后的树结构进行剪枝操作；

S4.重构树结构知识图谱。

2.根据权利要求1所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述多文本信息至少包括：文本信息名称、目录、目录下的文本内容。

3.根据权利要求1所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述多文本信息包括多个电子书的文本信息，和/或，多个课程视频的文本信息。

4.根据权利要求1所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述构建出各所述文本信息的树结构，包括：

提取出各目录下的文本内容所包括的知识点。

5.根据权利要求1所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，将构建出的各所述树结构进行嫁接融合，包括：

确定出各文本信息的共同上位，作为基节点；

6.根据权利要求1所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述对嫁接融合后的树结构进行剪枝操作，包括：

7.根据权利要求6所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述对于所有相似度大于或等于所述第一相似度阈值的根节点进行合并，合并后的根节点名称为各合并的根节点中字数最少的根节点名称，如果字数最少的根节点大于一个，则任选一个字数最少的根节点作为合并后的根节点名称。

8.根据权利要求6所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述对于所有相似度大于或等于所述第二相似度阈值的目录级节点进行合并，进行合并时，选择节点级数最大的目录级节点作为基枝干，如果需要节点级最大的目录级节点大于一个，则任选一个节点级最大的目录级节点作为基枝干；

将其他的各目录级节点填充到所述基枝干。

9.根据权利要求1所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述重构树结构知识图谱，包括：

S41.对所有的根节点和目录级节点进行修正；

S43.对尾结点进行清洗；

S44.再次进行去重操作。

10.根据权利要求9所述的一种基于树结构的多文本信息的知识图谱构建方法，其特征在于，所述对于合并后的基枝干下的知识点，再次确定是否是基枝干的相关知识点，还包括：