CN108427767A

CN108427767A - 一种知识主题和资源文件的关联方法

Info

Publication number: CN108427767A
Application number: CN201810265568.4A
Authority: CN
Inventors: 黄海晖; 任光杰; 张锐; 韩后; 林振潮; 许骏
Original assignee: Guangzhou Innovation Internet Education Research Institute
Current assignee: Guangdong Chuang Er Xin Education Technology Co.,Ltd.
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-08-21
Anticipated expiration: 2038-03-28
Also published as: CN108427767B

Abstract

本发明公开了一种知识主题和资源文件的关联方法，首先检索指定格式资源文件；针对于各资源文件删除路径信息以及后缀名后的文件名称提取关键词，得到关键词集合；通各关键词与各资源文件的文件名称之间字符匹配算法建立关键词文件索引；当前获取到知识主题时，计算知识主题与关键词集合中各关键词的相似度以及计算作为节点的关键词与关键词集合中其他各关键词的相似度，根据相似度大小建立树形结构。在建立树形结构后，根据关键词文件索引以及相似度的计算，将各资源文件对应关联到树形结构的节点上。本发明方法能够帮助用户在不同知识主题下快速获取相关的教学资源信息，该方式可以大大提高用户对教学资源的检索效率，并减少资源文件的重复存储。

Description

一种知识主题和资源文件的关联方法

技术领域

本发明涉及一种信息化教育技术领域，特别涉及一种知识主题和资源文件的关联方法及装置。

背景技术

数字教学资源内容包括电子版的教材、课件、教案、试卷、参考书籍及其他多媒体辅助素材，其格式包括文本、视频、音频等文件。

数字教学资源按照用户习惯以不同分类进行存储，如按时间分类、按类型分类，按知识主题分类等等。如按照知识主题分类，一般将知识主题设为文件系统的目录名，该知识主题下面的子知识主题设为子目录名，形成一个树状目录结构。

每一个教学资源都与相关知识主题对应，一个知识主题包括多个教学资源，一个教学资源也可能对应多个知识主题。因此，同一专业领域的不同知识主题可以参考的教学资源集合之间包含的相同内容占有较大的比例。

由于不同知识主题相关的教学资源可能重合，当知识主题彼此相近或相似，又或者在知识图谱上具有层次关系，它们相关的教学资源重合度也较大。如按照其他方式进行分类，用户较难定位主题对应的教学资源；如按照知识主题分类，需要将一份教学资源复制到多个目录，那么会包含大量的冗余信息，而且当涉及多主题的教学资源文件日益增加，频繁的复制操作繁琐且易忘。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种知识主题和资源文件的关联方法，该方法帮助用户在不同知识主题下快速获取相关的教学资源信息，该方式可以大大提高用户对教学资源的检索效率，并减少资源文件的重复存储。

本发明的目的通过下述技术方案实现：一种知识主题和资源文件的关联方法，步骤如下：

步骤S1、检索存储设备中指定格式的资源文件，获取检索到的各资源文件的全路径名称，同时为检索到的各资源文件赋予唯一编号；

步骤S2、针对于步骤S1检索到的每一资源文件，去除该资源文件全路径名称中的路径信息以及后缀名，以获取到该资源文件的文件名称，然后提取出该资源文件的文件名称中的关键词；所有资源文件的文件名称的关键词并集后得到关键词集合；

步骤S3、针对于关键词集合中的每个关键词，将该关键词分别与各资源文件的文件名称执行字符匹配算法，然后将其中命中的各资源文件的编号索引到该关键词上，从而建立关键词文件索引；

步骤S4、当获取知识主题名称时，以知识主题名称为根节点建立树形结构，具体过程如下：

步骤S4-1、首先以知识主题名称为根节点，计算知识主题名称与关键词集合中各关键词的相似度，将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点，由根节点的各子节点形成了树形结构的第二层；进入步骤S4-2；

步骤S4-2、针对于新建立的树形结构当前层中的每一节点，以该节点为父节点，计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度，将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点，从而形成树形结构的下一层；

步骤S4-3、在树形结构下一层建立完成后，将该层作为新建立的树形结构当前层，然后重复执行步骤S4-2，直到新建立的树形结构当前层中的每一节点均满足以下条件：该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值则该节点为叶子节点，将新建立的树形结构当前层作为树形结构最后一层；

步骤S5、针对于步骤S4中获取到的树形结构中的每个节点，根据步骤S3中得到的关键词文件索引，获取该节点关键词所对应的资源文件集合，然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度，并且将计算得到的该节点关键词与上述各关键词的相似度进行相加，作为该节点关键词与资源文件集合中资源文件的相似度，按照与该节点关键词的相似度从高到低的排序将对应资源文件关联到该节点上。

优选的，所述步骤S1中，指定格式的资源文件包括图片、文档、视频和音频格式的文件；

所述步骤S1中，通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索，包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间；

所述步骤S1中，对存储设备中资源文件进行检索的方式包括全检索和增量检索。

优选的，所述步骤S2中，针对于资源文件的文件名称，采用结巴分词的方式提取出其中的关键词。

优选的，所述步骤S3中，建立一个关键词文件矩阵，其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。

优选的，所述步骤S4中，在步骤S4-3后还包括对树形结构进行如下的重构步骤，具体为：

步骤S4-4、设定第二阈值，从树形结构上层到下层的顺序，针对于步骤S4-3中得到的树形结构的每个节点，获取树形结构中得到该节点的树枝，然后获取到树枝上在该节点上层的所有节点，同时获取到上述所有节点中各节点作为父节点时与树枝上的其子节点之间的相似度；将上述获取到的所有相似度进行相乘，最后将相乘后得到的值与第二阈值进行比较，若小于第二阈值，则重构树形结构时，该节点及该节点下方由该节点延伸得到的其他所有节点均不布置在重构的树形结构中；

所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-4重构到的树形结构。

更进一步的，所述第一阈值为0.6，所述第二阈值为0.1。

步骤S4-5、设定第三阈值a，获取树形结构第二层中各节点与根节点的相似度，从中选择一个最大的相似度a1，然后从树形结构第二层开始，为每一层划分相似度范围值，其中第二层相似度范围为[a1,a1-a)，第三层相似度范围为[a1-a,a1-2a)，依次类推，第n层相似度范围为[a1-(n-2)a,a1-(n-1)a)；

步骤S4-6、针对于树形结构的每一层中的每一节点，判断该层中该节点与根节点的相似度是否在该层相似度范围内，若否，则找到该节点与根节点的相似度所在的某层相似度范围，当重构树形结构时，将该层中该节点作为某层的节点；其中重构的树形结构每层从左到右的节点符合以下关系：各节点与根节点的相似度为从大到小；每个节点作为父节点时带规定数量的子节点，或者每个节点作为父节点时，根据子节点和父节点的个数自适应安排每个父节点带相应个数的子节点；

所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-6重构到的树形结构。

更进一步的，所述第一阈值为0.6，第三阈值为0.1。

优选的，还包括如下步骤：针对于步骤S4中获取到的树形结构中的每个节点，根据步骤S3中得到的关键词文件索引，获取该节点关键词所对应的资源文件集合，针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合，针对于最终资源文件集合中的每一资源文件，计算该资源文件的文件名称中各关键词与根节点的相似度，然后相加后作为该资源文件与根节点的相似度，然后根据与根节点相似度从大到小的顺序，将每个资源文件依次关联到根节点上。

优选的，采用word2vec计算相似度。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明一种知识主题和资源文件的关联方法，首先检索存储设备中指定格式的资源文件；针对于各资源文件删除路径信息以及后缀名后的文件名称提取关键词，所有资源文件的文件名称中提取的关键词并集后得到关键词集合；通过关键词集合中各关键词与各资源文件的文件名称之间的字符匹配算法，将对应资源文件的编号索引到该关键词上，从而建立关键词文件索引；当前获取到知识主题名称时，计算知识主题与关键词集合中各关键词的相似度以及计算作为节点的关键词与关键词集合中其他各关键词的相似度，根据相似度大小建立树形结构。在建立树形结构后，根据关键词文件索引以及相似度的计算，将各资源文件对应关联到树形结构的节点上；当用户点击树形结构上的某节点时，就能查找到该节点所关联到的资源文件。本发明方法能够帮助用户在不同知识主题下快速获取相关的资源信息，该方式可以大大提高用户对资源的检索效率，并减少资源文件的重复存储。

(2)本发明知识主题和资源文件的关联方法中，包括对已建立树形结构重构的过程，在原树形结构建立后，针对获取到某节点的树枝，将树枝上位于该节点上部的所有节点中各父节点与子节点的相似度进行相乘，若相乘得到的积小于一定值，则重构树形结构时，将这个节点以及这个节点延伸所得到的所有节点均不布置在重构的树形结构中，这样可以将与根节点之间相差较远的文件排除掉，进一步提高资源文件检索的准确率。

(3)本发明知识主题和资源文件的关联方法中，树形结构的重构的方式还可以是分层重构，在原树形结构建立后，根据节点中与根节点最大的相似度值以及阈值设定每层节点的相似度范围，然后计算原树形结构每层节点与根节点的相似度，若某节点与根节点的相似度不属于该节点所在层的相似度范围，而属于其他某层的相似度范围，那么在重构树形结构时，将该节点重构到某层中，作为某层的节点。本发明通过上述方法重构的树形结构能够将知识主题的概念和资源文件按等级分层推荐，能够为用户提供知识主题的概念脉络网。

(4)本发明知识主题和资源文件的关联方法中，针对于获取到的树形结构中的每个节点，根据关键词文件索引，获取该节点关键词所对应的资源文件集合，针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合，针对于最终资源文件集合中的每一资源文件，计算该资源文件的文件名称中各关键词与根节点的相似度，然后相加后作为该资源文件与根节点的相似度，然后根据与根节点相似度从大到小的顺序，将每个资源文件依次关联到根节点上。本发明通过上述将资源文件关联到根节点的方式可以直接向用户推荐相应资源文件。

(5)本发明知识主题和资源文件的关联方法中，采用矩阵方式构建关键词文件索引，关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号，本发明这种倒排索引做法大大提高是关键词到文件的索引效率。

附图说明

图1是本发明方法流程图。

图2是本发明方法建立的树形结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例公开了一种知识主题和资源文件的关联方法，如图1所示，步骤如下：

步骤S1、检索存储设备中指定格式的资源文件，获取检索到的各资源文件的全路径名称，同时为检索到的各资源文件赋予唯一编号；将各资源文件的全路径名称以及唯一编号均存储在本地。

在本实施例中，指定格式的资源文件包括图片、文档、视频和音频格式的文件；

在本实施例中，可以通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索，包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间；

在本实施例中，对存储设备中资源文件进行检索的方式包括全检索和增量检索。当使用增量检索时，则可对照存储的资源文件，如未发生变化，则无需重复搜索，如发生变化，则只需根据时间排序搜索新增加的目录和目录下新增加的资源文件。

步骤S2、针对于步骤S1检索到的每一资源文件，去除该资源文件全路径名称中的路径信息以及后缀名，以获取到该资源文件的文件名称，然后提取出该资源文件的文件名称中的关键词；所有资源文件的文件名称的关键词并集后得到关键词集合。

在本实施例中，针对于资源文件的文件名称，采用结巴分词的方式提取出其中的关键词。

在本实施例中，建立一个关键词文件矩阵，其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。

步骤S4-3、在树形结构下一层建立完成后，将该层作为新建立的树形结构当前层，然后重复执行步骤S4-2，直到新建立的树形结构当前层中的每一节点均满足以下条件：该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值，则该节点为叶子节点，将新建立的树形结构当前层作为树形结构最后一层；

在本实施例中，第一阈值可以设置为0.6，建立的树形结构如图2中所示，其中第一层的各节点为关键词1、关键词2和关键词3，第二层的各节点为关键词4、关键词5、关键词6、关键词7和关键词8；第三层的各节点为关键词9、关键词10、关键词11、关键词12、关键词13和关键词14；第四层的各节点为关键词15、关键词16、关键词17、关键词18、关键词19和关键词20；第五层的各节点为关键词21、关键词22、关键词23和关键词24；第六层的各节点为关键词25和关键词26；第七层的各节点为关键词27和关键词28。其中树形结构第二层中各节点即关键词1、关键词2到关键词3与根节点之间的相似度均大于等于0.6，第三层中由关键词1作为父节点得到的子节点关键词4、关键词5与关键词1之间的相似度均大于等于0.6的，以此类推，树形结构得到的每层节点中，各节点与父节点的相似度均是大于等于0.6的。而当第七层作为关键词27和关键词28分别作为父节点时，该节点与关键词集合中除已经在树形结构节点的关键词(即关键词1至关键词28)以外的其他各关键词的相似度均小于0.6，因此关键词27和关键词28均为叶子节点，第七层即为树形结构最后一层。

步骤S5、针对于步骤S4中获取到的树形结构中的每个节点，根据步骤S3中得到的关键词文件索引，获取该节点关键词所对应的资源文件集合，然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度，并且将计算得到的该节点关键词与上述各关键词的相似度进行相加，作为该节点关键词与资源文件集合中资源文件的相似度，按照与该节点关键词

本实施例上述步骤S4中，在步骤S4-3后还包括对树形结构进行如下的重构步骤，具体为：

步骤S4-4、设定第二阈值，从树形结构上层到下层的顺序，针对于步骤S4-3中得到的树形结构的每个节点，获取树形结构中得到该节点的树枝，然后获取到树枝上在该节点上层的所有节点，同时获取到上述所有节点中各节点作为父节点时与上述获取到的树枝上的其子节点之间的相似度；将上述获取到的所有相似度进行相乘，最后将相乘后得到的值与第二阈值进行比较，若小于第二阈值，则重构树形结构时，该节点及该节点下方由该节点延伸得到的其他所有节点均不布置在重构的树形结构中；

本实施例上述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-4重构到的树形结构。

在本实施例中第二阈值为0.1，例如针对于图2中树形结构第六层第1个节点关键词21，获取到树形结构中得到该节点的树枝，树枝上在该节点上层的所有节点包括关键词15、关键词9、关键词4、关键词1以及根节点，此时以关键词15、关键词9、关键词4、关键词1以及根节点分别作为父节点，得到关键词15与关键词21的相似度记为第一相似度，得到关键词9与关键词15的相似度记为第二相似度，得到关键词4与关键词9的相似度记为第三相似度，得到关键词1与关键词4的相似度记为第四相似度，得到根节点与关键词1的相似度记为第五相似度，若第一相似度、第二相似度、第三相似度、第四相似度和第五相似度的乘积小于第二阈值，则重构树形结构时，关键词21及其后面延伸得到的关键词25、关键词26、关键词27以及关键词28的节点将不布置在重构的树形结构中。

另外，本实施例中上述步骤S4中，在步骤S4-3后还包括对树形结构后，还可以对树形结构进行如下的重构步骤，具体为：

步骤S4-6、针对于树形结构的每一层中的每一节点，判断该层中该节点与根节点的相似度是否在该层相似度范围内，若否，则找到该节点与根节点的相似度所在的某层相似度范围，当重构树形结构时，将该层中该节点作为某层的节点；其中重构的树形结构每层从左到右的节点符合以下关系；各节点与根节点的相似度为从大到小；另外每个节点作为父节点时带规定数量的子节点，或者每个节点作为父节点时，根据子节点和父节点的个数自适应安排每个父节点带相应个数的子节点。

其中步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-6重构到的树形结构。

在本实施例中，第三阈值a为0.1，若获取到树形结构第二层中各节点与根节点的相似度中最大的一个相似度为0.82，即a1为0.82，那么如图2所示的树形结构第二层相似度范围为[0.82,0.72)，第三层相似度范围为[0.72,0.62)，第四层相似度范围为[0.62,0.52)，第五层相似度范围为[0.52,0.42)，第六层相似度范围为[0.42,0.32)，第七层相似度范围为[0.32,0.22)。若树形结构第2层中关键词3和根节点的相似度为0.60，那么重构树形结构时，关键词3将被布置到第四层。其中在本实施例中，可以人为规定重构树形结构时，每个父节点最多只能带规定数量的子节点，比如3个，此时当有4个节点要重构到该父节点下层时，则从该父节点所在层中第一个节点开始，先将3个字节点重构为该父节点所在层中第一个节点的子节点，将第4个节点重构为该父节点所在层中第二个节点的子节点。另外本实施例中也可以根据子节点和父节点的个数自适应安排相应个数的子节点到父节点上，当子节点个数a多过父节点个数b时，则将a除以b，若得到商为m，余数为n时，则表示前面n个父节点带m+1个字节点，第n+1个父节点之后的父节点则各带m个子节点，比如3个父节点，8个子节点，8除以3，得商m＝2，余数n＝2，那么第1个父节点带3个子节点，第2个父节点带3个子节点，第3个父节点2个子节点。若父节点个数多过子节点个数时，则每个父节点依次带一个，带完为止。若相等，则一个父节点带一个子节点。

针对于步骤S4中获取到的树形结构中的每个节点，根据步骤S3中得到的关键词文件索引，获取该节点关键词所对应的资源文件集合，针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合，针对于最终资源文件集合中的每一资源文件，计算该资源文件的文件名称中各关键词与根节点的相似度，然后相加后作为该资源文件与根节点的相似度，然后根据与根节点相似度从大到小的顺序，将每个资源文件依次关联到根节点上。

在本实施例中，上述相似度的计算均word2vec来计算。在本实施例中word2vec获取各大教育网站的文本，或使用知识图谱实体集合，对word2vec进行基础训练，可大大提高word2vec对词语相似度识别的准确率。也可以直接将本实施例步骤S2中得到的关键词集合加入到word2vec训练集中，以对word2vec进行训练。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种知识主题和资源文件的关联方法，其特征在于，步骤如下：

2.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，所述步骤S1中，指定格式的资源文件包括图片、文档、视频和音频格式的文件；

3.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，

所述步骤S2中，针对于资源文件的文件名称，采用结巴分词的方式提取出其中的关键词。

4.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，所述步骤S3中，建立一个关键词文件矩阵，其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。

5.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，所述步骤S4中，在步骤S4-3后还包括对树形结构进行如下的重构步骤，具体为：

6.根据权利要求5所述的知识主题和资源文件的关联方法，其特征在于，所述第一阈值为0.6，所述第二阈值为0.1。

7.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，所述步骤S4中，在步骤S4-3后还包括对树形结构进行如下的重构步骤，具体为：

8.根据权利要求7所述的知识主题和资源文件的关联方法，其特征在于，所述第一阈值为0.6，第三阈值为0.1。

9.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，还包括如下步骤：针对于步骤S4中获取到的树形结构中的每个节点，根据步骤S3中得到的关键词文件索引，获取该节点关键词所对应的资源文件集合，针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合，针对于最终资源文件集合中的每一资源文件，计算该资源文件的文件名称中各关键词与根节点的相似度，然后相加后作为该资源文件与根节点的相似度，然后根据与根节点相似度从大到小的顺序，将每个资源文件依次关联到根节点上。

10.根据权利要求1所述的知识主题和资源文件的关联方法，其特征在于，采用word2vec计算相似度。