CN108427767A - 一种知识主题和资源文件的关联方法 - Google Patents

一种知识主题和资源文件的关联方法 Download PDF

Info

Publication number
CN108427767A
CN108427767A CN201810265568.4A CN201810265568A CN108427767A CN 108427767 A CN108427767 A CN 108427767A CN 201810265568 A CN201810265568 A CN 201810265568A CN 108427767 A CN108427767 A CN 108427767A
Authority
CN
China
Prior art keywords
node
keyword
resource file
similarity
tree structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810265568.4A
Other languages
English (en)
Other versions
CN108427767B (zh
Inventor
黄海晖
任光杰
张锐
韩后
林振潮
许骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Chuang Er Xin Education Technology Co.,Ltd.
Original Assignee
Guangzhou Innovation Internet Education Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Innovation Internet Education Research Institute filed Critical Guangzhou Innovation Internet Education Research Institute
Priority to CN201810265568.4A priority Critical patent/CN108427767B/zh
Publication of CN108427767A publication Critical patent/CN108427767A/zh
Application granted granted Critical
Publication of CN108427767B publication Critical patent/CN108427767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种知识主题和资源文件的关联方法,首先检索指定格式资源文件;针对于各资源文件删除路径信息以及后缀名后的文件名称提取关键词,得到关键词集合;通各关键词与各资源文件的文件名称之间字符匹配算法建立关键词文件索引;当前获取到知识主题时,计算知识主题与关键词集合中各关键词的相似度以及计算作为节点的关键词与关键词集合中其他各关键词的相似度,根据相似度大小建立树形结构。在建立树形结构后,根据关键词文件索引以及相似度的计算,将各资源文件对应关联到树形结构的节点上。本发明方法能够帮助用户在不同知识主题下快速获取相关的教学资源信息,该方式可以大大提高用户对教学资源的检索效率,并减少资源文件的重复存储。

Description

一种知识主题和资源文件的关联方法
技术领域
本发明涉及一种信息化教育技术领域,特别涉及一种知识主题和资源文件的关联方法及装置。
背景技术
数字教学资源内容包括电子版的教材、课件、教案、试卷、参考书籍及其他多媒体辅助素材,其格式包括文本、视频、音频等文件。
数字教学资源按照用户习惯以不同分类进行存储,如按时间分类、按类型分类,按知识主题分类等等。如按照知识主题分类,一般将知识主题设为文件系统的目录名,该知识主题下面的子知识主题设为子目录名,形成一个树状目录结构。
每一个教学资源都与相关知识主题对应,一个知识主题包括多个教学资源,一个教学资源也可能对应多个知识主题。因此,同一专业领域的不同知识主题可以参考的教学资源集合之间包含的相同内容占有较大的比例。
由于不同知识主题相关的教学资源可能重合,当知识主题彼此相近或相似,又或者在知识图谱上具有层次关系,它们相关的教学资源重合度也较大。如按照其他方式进行分类,用户较难定位主题对应的教学资源;如按照知识主题分类,需要将一份教学资源复制到多个目录,那么会包含大量的冗余信息,而且当涉及多主题的教学资源文件日益增加,频繁的复制操作繁琐且易忘。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种知识主题和资源文件的关联方法,该方法帮助用户在不同知识主题下快速获取相关的教学资源信息,该方式可以大大提高用户对教学资源的检索效率,并减少资源文件的重复存储。
本发明的目的通过下述技术方案实现:一种知识主题和资源文件的关联方法,步骤如下:
步骤S1、检索存储设备中指定格式的资源文件,获取检索到的各资源文件的全路径名称,同时为检索到的各资源文件赋予唯一编号;
步骤S2、针对于步骤S1检索到的每一资源文件,去除该资源文件全路径名称中的路径信息以及后缀名,以获取到该资源文件的文件名称,然后提取出该资源文件的文件名称中的关键词;所有资源文件的文件名称的关键词并集后得到关键词集合;
步骤S3、针对于关键词集合中的每个关键词,将该关键词分别与各资源文件的文件名称执行字符匹配算法,然后将其中命中的各资源文件的编号索引到该关键词上,从而建立关键词文件索引;
步骤S4、当获取知识主题名称时,以知识主题名称为根节点建立树形结构,具体过程如下:
步骤S4-1、首先以知识主题名称为根节点,计算知识主题名称与关键词集合中各关键词的相似度,将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点,由根节点的各子节点形成了树形结构的第二层;进入步骤S4-2;
步骤S4-2、针对于新建立的树形结构当前层中的每一节点,以该节点为父节点,计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度,将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点,从而形成树形结构的下一层;
步骤S4-3、在树形结构下一层建立完成后,将该层作为新建立的树形结构当前层,然后重复执行步骤S4-2,直到新建立的树形结构当前层中的每一节点均满足以下条件:该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值则该节点为叶子节点,将新建立的树形结构当前层作为树形结构最后一层;
步骤S5、针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度,并且将计算得到的该节点关键词与上述各关键词的相似度进行相加,作为该节点关键词与资源文件集合中资源文件的相似度,按照与该节点关键词的相似度从高到低的排序将对应资源文件关联到该节点上。
优选的,所述步骤S1中,指定格式的资源文件包括图片、文档、视频和音频格式的文件;
所述步骤S1中,通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索,包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间;
所述步骤S1中,对存储设备中资源文件进行检索的方式包括全检索和增量检索。
优选的,所述步骤S2中,针对于资源文件的文件名称,采用结巴分词的方式提取出其中的关键词。
优选的,所述步骤S3中,建立一个关键词文件矩阵,其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。
优选的,所述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:
步骤S4-4、设定第二阈值,从树形结构上层到下层的顺序,针对于步骤S4-3中得到的树形结构的每个节点,获取树形结构中得到该节点的树枝,然后获取到树枝上在该节点上层的所有节点,同时获取到上述所有节点中各节点作为父节点时与树枝上的其子节点之间的相似度;将上述获取到的所有相似度进行相乘,最后将相乘后得到的值与第二阈值进行比较,若小于第二阈值,则重构树形结构时,该节点及该节点下方由该节点延伸得到的其他所有节点均不布置在重构的树形结构中;
所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-4重构到的树形结构。
更进一步的,所述第一阈值为0.6,所述第二阈值为0.1。
优选的,所述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:
步骤S4-5、设定第三阈值a,获取树形结构第二层中各节点与根节点的相似度,从中选择一个最大的相似度a1,然后从树形结构第二层开始,为每一层划分相似度范围值,其中第二层相似度范围为[a1,a1-a),第三层相似度范围为[a1-a,a1-2a),依次类推,第n层相似度范围为[a1-(n-2)a,a1-(n-1)a);
步骤S4-6、针对于树形结构的每一层中的每一节点,判断该层中该节点与根节点的相似度是否在该层相似度范围内,若否,则找到该节点与根节点的相似度所在的某层相似度范围,当重构树形结构时,将该层中该节点作为某层的节点;其中重构的树形结构每层从左到右的节点符合以下关系:各节点与根节点的相似度为从大到小;每个节点作为父节点时带规定数量的子节点,或者每个节点作为父节点时,根据子节点和父节点的个数自适应安排每个父节点带相应个数的子节点;
所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-6重构到的树形结构。
更进一步的,所述第一阈值为0.6,第三阈值为0.1。
优选的,还包括如下步骤:针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合,针对于最终资源文件集合中的每一资源文件,计算该资源文件的文件名称中各关键词与根节点的相似度,然后相加后作为该资源文件与根节点的相似度,然后根据与根节点相似度从大到小的顺序,将每个资源文件依次关联到根节点上。
优选的,采用word2vec计算相似度。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明一种知识主题和资源文件的关联方法,首先检索存储设备中指定格式的资源文件;针对于各资源文件删除路径信息以及后缀名后的文件名称提取关键词,所有资源文件的文件名称中提取的关键词并集后得到关键词集合;通过关键词集合中各关键词与各资源文件的文件名称之间的字符匹配算法,将对应资源文件的编号索引到该关键词上,从而建立关键词文件索引;当前获取到知识主题名称时,计算知识主题与关键词集合中各关键词的相似度以及计算作为节点的关键词与关键词集合中其他各关键词的相似度,根据相似度大小建立树形结构。在建立树形结构后,根据关键词文件索引以及相似度的计算,将各资源文件对应关联到树形结构的节点上;当用户点击树形结构上的某节点时,就能查找到该节点所关联到的资源文件。本发明方法能够帮助用户在不同知识主题下快速获取相关的资源信息,该方式可以大大提高用户对资源的检索效率,并减少资源文件的重复存储。
(2)本发明知识主题和资源文件的关联方法中,包括对已建立树形结构重构的过程,在原树形结构建立后,针对获取到某节点的树枝,将树枝上位于该节点上部的所有节点中各父节点与子节点的相似度进行相乘,若相乘得到的积小于一定值,则重构树形结构时,将这个节点以及这个节点延伸所得到的所有节点均不布置在重构的树形结构中,这样可以将与根节点之间相差较远的文件排除掉,进一步提高资源文件检索的准确率。
(3)本发明知识主题和资源文件的关联方法中,树形结构的重构的方式还可以是分层重构,在原树形结构建立后,根据节点中与根节点最大的相似度值以及阈值设定每层节点的相似度范围,然后计算原树形结构每层节点与根节点的相似度,若某节点与根节点的相似度不属于该节点所在层的相似度范围,而属于其他某层的相似度范围,那么在重构树形结构时,将该节点重构到某层中,作为某层的节点。本发明通过上述方法重构的树形结构能够将知识主题的概念和资源文件按等级分层推荐,能够为用户提供知识主题的概念脉络网。
(4)本发明知识主题和资源文件的关联方法中,针对于获取到的树形结构中的每个节点,根据关键词文件索引,获取该节点关键词所对应的资源文件集合,针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合,针对于最终资源文件集合中的每一资源文件,计算该资源文件的文件名称中各关键词与根节点的相似度,然后相加后作为该资源文件与根节点的相似度,然后根据与根节点相似度从大到小的顺序,将每个资源文件依次关联到根节点上。本发明通过上述将资源文件关联到根节点的方式可以直接向用户推荐相应资源文件。
(5)本发明知识主题和资源文件的关联方法中,采用矩阵方式构建关键词文件索引,关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号,本发明这种倒排索引做法大大提高是关键词到文件的索引效率。
附图说明
图1是本发明方法流程图。
图2是本发明方法建立的树形结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种知识主题和资源文件的关联方法,如图1所示,步骤如下:
步骤S1、检索存储设备中指定格式的资源文件,获取检索到的各资源文件的全路径名称,同时为检索到的各资源文件赋予唯一编号;将各资源文件的全路径名称以及唯一编号均存储在本地。
在本实施例中,指定格式的资源文件包括图片、文档、视频和音频格式的文件;
在本实施例中,可以通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索,包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间;
在本实施例中,对存储设备中资源文件进行检索的方式包括全检索和增量检索。当使用增量检索时,则可对照存储的资源文件,如未发生变化,则无需重复搜索,如发生变化,则只需根据时间排序搜索新增加的目录和目录下新增加的资源文件。
步骤S2、针对于步骤S1检索到的每一资源文件,去除该资源文件全路径名称中的路径信息以及后缀名,以获取到该资源文件的文件名称,然后提取出该资源文件的文件名称中的关键词;所有资源文件的文件名称的关键词并集后得到关键词集合。
在本实施例中,针对于资源文件的文件名称,采用结巴分词的方式提取出其中的关键词。
步骤S3、针对于关键词集合中的每个关键词,将该关键词分别与各资源文件的文件名称执行字符匹配算法,然后将其中命中的各资源文件的编号索引到该关键词上,从而建立关键词文件索引;
在本实施例中,建立一个关键词文件矩阵,其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。
步骤S4、当获取知识主题名称时,以知识主题名称为根节点建立树形结构,具体过程如下:
步骤S4-1、首先以知识主题名称为根节点,计算知识主题名称与关键词集合中各关键词的相似度,将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点,由根节点的各子节点形成了树形结构的第二层;进入步骤S4-2;
步骤S4-2、针对于新建立的树形结构当前层中的每一节点,以该节点为父节点,计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度,将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点,从而形成树形结构的下一层;
步骤S4-3、在树形结构下一层建立完成后,将该层作为新建立的树形结构当前层,然后重复执行步骤S4-2,直到新建立的树形结构当前层中的每一节点均满足以下条件:该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值,则该节点为叶子节点,将新建立的树形结构当前层作为树形结构最后一层;
在本实施例中,第一阈值可以设置为0.6,建立的树形结构如图2中所示,其中第一层的各节点为关键词1、关键词2和关键词3,第二层的各节点为关键词4、关键词5、关键词6、关键词7和关键词8;第三层的各节点为关键词9、关键词10、关键词11、关键词12、关键词13和关键词14;第四层的各节点为关键词15、关键词16、关键词17、关键词18、关键词19和关键词20;第五层的各节点为关键词21、关键词22、关键词23和关键词24;第六层的各节点为关键词25和关键词26;第七层的各节点为关键词27和关键词28。其中树形结构第二层中各节点即关键词1、关键词2到关键词3与根节点之间的相似度均大于等于0.6,第三层中由关键词1作为父节点得到的子节点关键词4、关键词5与关键词1之间的相似度均大于等于0.6的,以此类推,树形结构得到的每层节点中,各节点与父节点的相似度均是大于等于0.6的。而当第七层作为关键词27和关键词28分别作为父节点时,该节点与关键词集合中除已经在树形结构节点的关键词(即关键词1至关键词28)以外的其他各关键词的相似度均小于0.6,因此关键词27和关键词28均为叶子节点,第七层即为树形结构最后一层。
步骤S5、针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度,并且将计算得到的该节点关键词与上述各关键词的相似度进行相加,作为该节点关键词与资源文件集合中资源文件的相似度,按照与该节点关键词
本实施例上述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:
步骤S4-4、设定第二阈值,从树形结构上层到下层的顺序,针对于步骤S4-3中得到的树形结构的每个节点,获取树形结构中得到该节点的树枝,然后获取到树枝上在该节点上层的所有节点,同时获取到上述所有节点中各节点作为父节点时与上述获取到的树枝上的其子节点之间的相似度;将上述获取到的所有相似度进行相乘,最后将相乘后得到的值与第二阈值进行比较,若小于第二阈值,则重构树形结构时,该节点及该节点下方由该节点延伸得到的其他所有节点均不布置在重构的树形结构中;
本实施例上述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-4重构到的树形结构。
在本实施例中第二阈值为0.1,例如针对于图2中树形结构第六层第1个节点关键词21,获取到树形结构中得到该节点的树枝,树枝上在该节点上层的所有节点包括关键词15、关键词9、关键词4、关键词1以及根节点,此时以关键词15、关键词9、关键词4、关键词1以及根节点分别作为父节点,得到关键词15与关键词21的相似度记为第一相似度,得到关键词9与关键词15的相似度记为第二相似度,得到关键词4与关键词9的相似度记为第三相似度,得到关键词1与关键词4的相似度记为第四相似度,得到根节点与关键词1的相似度记为第五相似度,若第一相似度、第二相似度、第三相似度、第四相似度和第五相似度的乘积小于第二阈值,则重构树形结构时,关键词21及其后面延伸得到的关键词25、关键词26、关键词27以及关键词28的节点将不布置在重构的树形结构中。
另外,本实施例中上述步骤S4中,在步骤S4-3后还包括对树形结构后,还可以对树形结构进行如下的重构步骤,具体为:
步骤S4-5、设定第三阈值a,获取树形结构第二层中各节点与根节点的相似度,从中选择一个最大的相似度a1,然后从树形结构第二层开始,为每一层划分相似度范围值,其中第二层相似度范围为[a1,a1-a),第三层相似度范围为[a1-a,a1-2a),依次类推,第n层相似度范围为[a1-(n-2)a,a1-(n-1)a);
步骤S4-6、针对于树形结构的每一层中的每一节点,判断该层中该节点与根节点的相似度是否在该层相似度范围内,若否,则找到该节点与根节点的相似度所在的某层相似度范围,当重构树形结构时,将该层中该节点作为某层的节点;其中重构的树形结构每层从左到右的节点符合以下关系;各节点与根节点的相似度为从大到小;另外每个节点作为父节点时带规定数量的子节点,或者每个节点作为父节点时,根据子节点和父节点的个数自适应安排每个父节点带相应个数的子节点。
其中步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-6重构到的树形结构。
在本实施例中,第三阈值a为0.1,若获取到树形结构第二层中各节点与根节点的相似度中最大的一个相似度为0.82,即a1为0.82,那么如图2所示的树形结构第二层相似度范围为[0.82,0.72),第三层相似度范围为[0.72,0.62),第四层相似度范围为[0.62,0.52),第五层相似度范围为[0.52,0.42),第六层相似度范围为[0.42,0.32),第七层相似度范围为[0.32,0.22)。若树形结构第2层中关键词3和根节点的相似度为0.60,那么重构树形结构时,关键词3将被布置到第四层。其中在本实施例中,可以人为规定重构树形结构时,每个父节点最多只能带规定数量的子节点,比如3个,此时当有4个节点要重构到该父节点下层时,则从该父节点所在层中第一个节点开始,先将3个字节点重构为该父节点所在层中第一个节点的子节点,将第4个节点重构为该父节点所在层中第二个节点的子节点。另外本实施例中也可以根据子节点和父节点的个数自适应安排相应个数的子节点到父节点上,当子节点个数a多过父节点个数b时,则将a除以b,若得到商为m,余数为n时,则表示前面n个父节点带m+1个字节点,第n+1个父节点之后的父节点则各带m个子节点,比如3个父节点,8个子节点,8除以3,得商m=2,余数n=2,那么第1个父节点带3个子节点,第2个父节点带3个子节点,第3个父节点2个子节点。若父节点个数多过子节点个数时,则每个父节点依次带一个,带完为止。若相等,则一个父节点带一个子节点。
针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合,针对于最终资源文件集合中的每一资源文件,计算该资源文件的文件名称中各关键词与根节点的相似度,然后相加后作为该资源文件与根节点的相似度,然后根据与根节点相似度从大到小的顺序,将每个资源文件依次关联到根节点上。
在本实施例中,上述相似度的计算均word2vec来计算。在本实施例中word2vec获取各大教育网站的文本,或使用知识图谱实体集合,对word2vec进行基础训练,可大大提高word2vec对词语相似度识别的准确率。也可以直接将本实施例步骤S2中得到的关键词集合加入到word2vec训练集中,以对word2vec进行训练。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种知识主题和资源文件的关联方法,其特征在于,步骤如下:
步骤S1、检索存储设备中指定格式的资源文件,获取检索到的各资源文件的全路径名称,同时为检索到的各资源文件赋予唯一编号;
步骤S2、针对于步骤S1检索到的每一资源文件,去除该资源文件全路径名称中的路径信息以及后缀名,以获取到该资源文件的文件名称,然后提取出该资源文件的文件名称中的关键词;所有资源文件的文件名称的关键词并集后得到关键词集合;
步骤S3、针对于关键词集合中的每个关键词,将该关键词分别与各资源文件的文件名称执行字符匹配算法,然后将其中命中的各资源文件的编号索引到该关键词上,从而建立关键词文件索引;
步骤S4、当获取知识主题名称时,以知识主题名称为根节点建立树形结构,具体过程如下:
步骤S4-1、首先以知识主题名称为根节点,计算知识主题名称与关键词集合中各关键词的相似度,将与知识主题名称相似度超过第一阈值的各关键词作为根节点的子节点,由根节点的各子节点形成了树形结构的第二层;进入步骤S4-2;
步骤S4-2、针对于新建立的树形结构当前层中的每一节点,以该节点为父节点,计算该节点与关键词集合中除已经在树形结构节点的关键词以外的其他各关键词的相似度,将与该节点相似度大于等于第一阈值的各关键词作为该节点的子节点,从而形成树形结构的下一层;
步骤S4-3、在树形结构下一层建立完成后,将该层作为新建立的树形结构当前层,然后重复执行步骤S4-2,直到新建立的树形结构当前层中的每一节点均满足以下条件:该节点与关键词集合中除已经在树形结构节点的关键词之外的其他各关键词的相似度均小于第一阈值,则该节点为叶子节点,将新建立的树形结构当前层作为树形结构最后一层;
步骤S5、针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,然后分别计算该节点关键词与资源文件集合中每一资源文件的文件名称中各关键词之间的相似度,并且将计算得到的该节点关键词与上述各关键词的相似度进行相加,作为该节点关键词与资源文件集合中资源文件的相似度,按照与该节点关键词的相似度从高到低的排序将对应资源文件关联到该节点上。
2.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S1中,指定格式的资源文件包括图片、文档、视频和音频格式的文件;
所述步骤S1中,通过对存储设备进行遍历搜索的方式对存储设备中资源文件进行检索,包括搜索资源文件相关目录个数、目录下文件的个数以及目录和资源文件的修改时间;
所述步骤S1中,对存储设备中资源文件进行检索的方式包括全检索和增量检索。
3.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,
所述步骤S2中,针对于资源文件的文件名称,采用结巴分词的方式提取出其中的关键词。
4.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S3中,建立一个关键词文件矩阵,其中关键词文件矩阵中每一行的各元素分别对应为关键词集合中每个关键词所索引的各资源文件的编号。
5.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:
步骤S4-4、设定第二阈值,从树形结构上层到下层的顺序,针对于步骤S4-3中得到的树形结构的每个节点,获取树形结构中得到该节点的树枝,然后获取到树枝上在该节点上层的所有节点,同时获取到上述所有节点中各节点作为父节点时与树枝上的其子节点之间的相似度;将上述获取到的所有相似度进行相乘,最后将相乘后得到的值与第二阈值进行比较,若小于第二阈值,则重构树形结构时,该节点及该节点下方由该节点延伸得到的其他所有节点均不布置在重构的树形结构中;
所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-4重构到的树形结构。
6.根据权利要求5所述的知识主题和资源文件的关联方法,其特征在于,所述第一阈值为0.6,所述第二阈值为0.1。
7.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,所述步骤S4中,在步骤S4-3后还包括对树形结构进行如下的重构步骤,具体为:
步骤S4-5、设定第三阈值a,获取树形结构第二层中各节点与根节点的相似度,从中选择一个最大的相似度a1,然后从树形结构第二层开始,为每一层划分相似度范围值,其中第二层相似度范围为[a1,a1-a),第三层相似度范围为[a1-a,a1-2a),依次类推,第n层相似度范围为[a1-(n-2)a,a1-(n-1)a);
步骤S4-6、针对于树形结构的每一层中的每一节点,判断该层中该节点与根节点的相似度是否在该层相似度范围内,若否,则找到该节点与根节点的相似度所在的某层相似度范围,当重构树形结构时,将该层中该节点作为某层的节点;其中重构的树形结构每层从左到右的节点符合以下关系:各节点与根节点的相似度为从大到小;每个节点作为父节点时带规定数量的子节点,或者每个节点作为父节点时,根据子节点和父节点的个数自适应安排每个父节点带相应个数的子节点;
所述步骤S5中所使用的树形结构为步骤S4-3得到的树形结构或步骤S4-6重构到的树形结构。
8.根据权利要求7所述的知识主题和资源文件的关联方法,其特征在于,所述第一阈值为0.6,第三阈值为0.1。
9.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,还包括如下步骤:针对于步骤S4中获取到的树形结构中的每个节点,根据步骤S3中得到的关键词文件索引,获取该节点关键词所对应的资源文件集合,针对于树形结构所有节点所获取到的资源文件集合进行并集得到最终资源文件集合,针对于最终资源文件集合中的每一资源文件,计算该资源文件的文件名称中各关键词与根节点的相似度,然后相加后作为该资源文件与根节点的相似度,然后根据与根节点相似度从大到小的顺序,将每个资源文件依次关联到根节点上。
10.根据权利要求1所述的知识主题和资源文件的关联方法,其特征在于,采用word2vec计算相似度。
CN201810265568.4A 2018-03-28 2018-03-28 一种知识主题和资源文件的关联方法 Active CN108427767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810265568.4A CN108427767B (zh) 2018-03-28 2018-03-28 一种知识主题和资源文件的关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810265568.4A CN108427767B (zh) 2018-03-28 2018-03-28 一种知识主题和资源文件的关联方法

Publications (2)

Publication Number Publication Date
CN108427767A true CN108427767A (zh) 2018-08-21
CN108427767B CN108427767B (zh) 2020-09-29

Family

ID=63159503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810265568.4A Active CN108427767B (zh) 2018-03-28 2018-03-28 一种知识主题和资源文件的关联方法

Country Status (1)

Country Link
CN (1) CN108427767B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508557A (zh) * 2018-10-22 2019-03-22 中国科学院信息工程研究所 一种关联用户隐私的文件路径关键词识别方法
CN109582575A (zh) * 2018-11-27 2019-04-05 网易(杭州)网络有限公司 游戏测试方法及装置
CN109766433A (zh) * 2018-12-06 2019-05-17 湖南科创信息技术股份有限公司 自动编目方法及系统、计算机可读存储介质
CN113836317A (zh) * 2021-09-26 2021-12-24 中国农业银行股份有限公司 知识视图的生成方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536509A (zh) * 2003-04-11 2004-10-13 �Ҵ���˾ 倒排索引存储方法、倒排索引机制以及在线更新的方法
CN103034656A (zh) * 2011-09-29 2013-04-10 日立(中国)研究开发有限公司 章节内容分层方法和装置、文章内容分层方法和装置
CN103077199A (zh) * 2012-12-26 2013-05-01 北京思特奇信息技术股份有限公司 一种文件资源查找定位方法及装置
CN104504069A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种文档索引的建立方法和装置
CN104657385A (zh) * 2013-11-22 2015-05-27 乐视网信息技术(北京)股份有限公司 一种节点的查找方法及装置
CN104778276A (zh) * 2015-04-29 2015-07-15 北京航空航天大学 一种基于改进tf-idf的多索引合并排序算法
CN105005619A (zh) * 2015-07-22 2015-10-28 国家计算机网络与信息安全管理中心 一种海量网站基础信息的快速检索方法和系统
US20150347477A1 (en) * 2014-05-30 2015-12-03 John Esmet Streaming File System
CN106682219A (zh) * 2017-01-03 2017-05-17 腾讯科技(深圳)有限公司 关联文档获取方法及装置
CN103605758B (zh) * 2013-11-22 2017-09-08 中国科学院深圳先进技术研究院 一种移动终端文件查找的方法及装置
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536509A (zh) * 2003-04-11 2004-10-13 �Ҵ���˾ 倒排索引存储方法、倒排索引机制以及在线更新的方法
CN103034656A (zh) * 2011-09-29 2013-04-10 日立(中国)研究开发有限公司 章节内容分层方法和装置、文章内容分层方法和装置
CN103077199A (zh) * 2012-12-26 2013-05-01 北京思特奇信息技术股份有限公司 一种文件资源查找定位方法及装置
CN104657385A (zh) * 2013-11-22 2015-05-27 乐视网信息技术(北京)股份有限公司 一种节点的查找方法及装置
CN103605758B (zh) * 2013-11-22 2017-09-08 中国科学院深圳先进技术研究院 一种移动终端文件查找的方法及装置
US20150347477A1 (en) * 2014-05-30 2015-12-03 John Esmet Streaming File System
CN104504069A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种文档索引的建立方法和装置
CN104778276A (zh) * 2015-04-29 2015-07-15 北京航空航天大学 一种基于改进tf-idf的多索引合并排序算法
CN105005619A (zh) * 2015-07-22 2015-10-28 国家计算机网络与信息安全管理中心 一种海量网站基础信息的快速检索方法和系统
CN106682219A (zh) * 2017-01-03 2017-05-17 腾讯科技(深圳)有限公司 关联文档获取方法及装置
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张华等: "基于B+树的文本信息检索技术", 《皖西学院学报》 *
武建鑫: "《世界一流大学研究的主题演进与前沿探讨——基于CNKI数据库关键词共现知识图谱的分析》", 《湖南师范大学教育科学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508557A (zh) * 2018-10-22 2019-03-22 中国科学院信息工程研究所 一种关联用户隐私的文件路径关键词识别方法
CN109582575A (zh) * 2018-11-27 2019-04-05 网易(杭州)网络有限公司 游戏测试方法及装置
CN109582575B (zh) * 2018-11-27 2022-03-22 网易(杭州)网络有限公司 游戏测试方法及装置
CN109766433A (zh) * 2018-12-06 2019-05-17 湖南科创信息技术股份有限公司 自动编目方法及系统、计算机可读存储介质
CN109766433B (zh) * 2018-12-06 2023-05-09 湖南科创信息技术股份有限公司 自动编目方法及系统、计算机可读存储介质
CN113836317A (zh) * 2021-09-26 2021-12-24 中国农业银行股份有限公司 知识视图的生成方法及系统

Also Published As

Publication number Publication date
CN108427767B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN108427767A (zh) 一种知识主题和资源文件的关联方法
CN104933164B (zh) 互联网海量数据中命名实体间关系提取方法及其系统
Logan et al. Semantic analysis of song lyrics
CN100405371C (zh) 一种提取新词的方法和系统
CN110097085A (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
Sordo et al. The quest for musical genres: Do the experts and the wisdom of crowds agree?
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
Liu et al. Finding media illustrating events
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
JP5066963B2 (ja) データベース構築装置
WO2008124536A1 (en) Discovering and scoring relationships extracted from human generated lists
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
WO2008055120A2 (en) System and method for summarizing search results
US20100217742A1 (en) Generating A Domain Corpus And A Dictionary For An Automated Ontology
CN101299217A (zh) 一种地图信息处理的方法、装置和系统
CN101877711A (zh) 社会网络建立方法及装置、以及社区发现方法及装置
EP2224360A1 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
CN102053979A (zh) 一种信息收集方法和系统
CN110970112A (zh) 一种面向营养健康的知识图谱构建方法和系统
CN117973540A (zh) 基于知识图谱的检索增强生成系统与方法
Ferragina et al. The anatomy of a hierarchical clustering engine for web-page, news and book snippets
EP1531405B1 (en) Information search apparatus, information search method, and information recording medium on which information search program is recorded
CN109471951A (zh) 基于神经网络的歌词生成方法、装置、设备和存储介质
Oramas et al. Flabase: Towards the creation of a flamenco music knowledge base
Ng Research paper recommendation based on content similarity, peer reviews, authority, and popularity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210624

Address after: 510000 room 602d, No.7 caipin Road, Science City, Luogang District, Guangzhou City, Guangdong Province

Patentee after: Guangdong Chuang Er Xin Education Technology Co.,Ltd.

Address before: 602b, No.7 caipin Road, Science City, Guangzhou Development Zone, Guangdong 510000

Patentee before: GUANGZHOU INSTITUTE OF INNOVATION INTERNET EDUCATIONAL RESEARCH