CN117194743A - 渐进式学习资源推荐方法、装置、存储介质及计算机设备 - Google Patents
渐进式学习资源推荐方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN117194743A CN117194743A CN202311041088.7A CN202311041088A CN117194743A CN 117194743 A CN117194743 A CN 117194743A CN 202311041088 A CN202311041088 A CN 202311041088A CN 117194743 A CN117194743 A CN 117194743A
- Authority
- CN
- China
- Prior art keywords
- topic
- clustering
- target
- different
- learning resources
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000750 progressive effect Effects 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims description 88
- 239000013598 vector Substances 0.000 claims description 70
- 230000009467 reduction Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 description 29
- 238000013135 deep learning Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 206010012689 Diabetic retinopathy Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 208000017520 skin disease Diseases 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 208000010412 Glaucoma Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 210000002249 digestive system Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种渐进式学习资源推荐方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高学习资源的推荐效率和推荐准确度。其中方法包括:获取学习资源和用户输入的检索信息;对学习资源进行聚类,得到不同聚类主题下的学习资源;基于不同聚类主题下的学习资源,确定不同聚类主题对应的主题特征词;基于检索信息和主题特征词,在不同聚类主题中确定向用户推荐的第一目标聚类主题,并响应于用户在第一目标聚类主题选择的第二目标聚类主题;确定第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱;接收用户针对上述三种图选择的目标主题特征词,并根据目标主题特征词,向用户推荐对应的学习资源。
Description
技术领域
本发明涉及信息技术领域,尤其是涉及一种渐进式学习资源推荐方法、装置、存储介质及计算机设备。
背景技术
学习资源推荐是以用户需求为基础,通过资源推荐的形式达到辅助用户学习阅读的目的。
目前,通常通过构建用户画像来进行相关资源推送。然而,用户画像构建是一个不断挖掘用户信息的过程,并且需要不断迭代更新用户信息,导致学习资源推荐的效率较低,与此同时,若构建用户画像的信息较少,或者没有用户行为信息的情况下,则无法准确为用户进行学习资源推荐。
发明内容
本发明提供了一种渐进式学习资源推荐方法、装置、存储介质及计算机设备,主要在于能够提高学习资源的推荐效率和推荐准确度。
根据本发明的第一个方面,提供一种渐进式学习资源推荐方法,包括:
响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;
基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;
基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;
基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;
确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;
接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
根据本发明的第二个方面,提供一种渐进式学习资源推荐装置,包括:
获取单元,用于响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;
聚类单元,用于基于所述不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;
特征词确定单元,用于基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;
主题确定单元,用于基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;
发送单元,用于确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;
推荐单元,用于接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上渐进式学习资源推荐方法。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现渐进式学习资源推荐方法。
根据本发明提供的一种渐进式学习资源推荐方法、装置、存储介质及计算机设备,与目前通过构建用户画像来进行相关资源推送的方式相比,本发明通过响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;并基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;与此同时,基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;并基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;之后确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;最终接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。由此通过对不同学习资源进行聚类,得到不同聚类主题下的学习资源,并确定不同聚类主题对应的主题特征词,根据用户输入的检索信息和主题特征词,在不同聚类主题中确定第一目标聚类主题,并第一次向用户推荐第一目标聚类主题,用户会在第一目标聚类主题中选择第二目标聚类主题,之后第二次向用户展示第二目标聚类主题的主题热度图、主题分布图和特征共现图谱,用户会根据主题热度图、主题分布图和特征共现图谱,在第二目标聚类主题对应的主题特征词中选择目标主题特征词,最终根据目标主题特征词,向用户展示推荐的学习资源,本发明在学习资源推荐的过程中,根据用户的检索信息引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源,避免用户在不了解数据知识结构的前提下被动接受学习文献,从而提高了学习资源的推荐准确度,提升用户体验感,同时本发明在进行学习资源推荐时,无需预先获取用户的特征信息,从而能够提高学习资源的推荐效率,并且本发明在没有用户历史行为信息或用户信息缺失严重的情况下,也能准确向用户推荐学习资源。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种渐进式学习资源推荐方法流程图;
图2示出了本发明实施例提供的一种主题热度图;
图3示出了本发明实施例提供的一种主题分布图;
图4示出了本发明实施例提供的一种特征共现图谱;
图5示出了本发明实施例提供的另一种渐进式学习资源推荐方法流程图;
图6示出了本发明实施例提供的一种渐进式学习资源推荐装置的结构示意图;
图7示出了本发明实施例提供的另一种渐进式学习资源推荐装置的结构示意图;
图8示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,通过构建用户画像来进行相关资源推送的方式,导致学习资源推荐的效率较低,与此同时,若构建用户画像的信息较少,或者没有用户行为信息的情况下,则无法准确为用户进行学习资源推荐。
为了解决上述问题,本发明实施例提供了一种渐进式学习资源推荐方法,如图1所示,所述方法包括:
101、响应于目标用户的检索信号,获取目标用户输入的检索信息,并获取多种学习资源。
其中,检索信息是用户的检索需求,如,人工智能、眼等,学习资源可以是文献、文章、小说、论文等。
具体地,目标用户是需要获取学习资源的用户,目标用户若想在学习资源检索系统中进行某方面学习资源的检索,首先需要在学习资源检索系统输入检索信息,之后学习资源检索系统基于用户输入的检索需求进行渐进式检索。本发明实施例主要应用于对学习资源进行渐进式检索的场景,本发明实施例的执行主体为能够对学习资源进行渐进式检索的装置或者设备,具体可以设置在客户端或者服务器一侧。
102、基于不同学习资源中的资源特征词,对不同学习资源进行聚类,得到不同聚类主题下的学习资源。
其中,资源特征词是与学习资源有关的词语,包括学习资源的ID、标题、摘要、资源中的关键词、来源(期刊名、专利、博客等等)、类型、作者、发文机构、发文时间、下载频次、引用频次、转发数、赞同数、所属话题等。不同聚类主题如:生物类聚类主题、史学类聚类主题、化学类聚类主题等。
对于本发明实施例,为了向用户推荐合适的学习资源,首先需要对不同种学习资源进行聚类,具体可以根据不同学习资源的资源关键词、资源类型、标题信息等资源关键词对不同学习资源进行聚类,将各种学习资源划分到不同聚类主题下,之后根据不同聚类主题下的学习资源,向用户进行学习资源推荐,从而通过对学习资源进行聚类,能够便于根据用户的检索信息进行学习资源的推荐。
103、基于不同聚类主题下的学习资源,确定不同聚类主题对应的主题特征词。
其中,主题特征词用于描述不同聚类类别下各个学习资源共同对应的类别特征。
对于本发明实施例,在确定不同聚类主题下的学习资源后,根据不同聚类主题下的各个学习资源中的关键词,确定不同聚类主题对应的主题特征词,例如,某个聚类主题下的各个学习资源中均包括“人工智能”,且人工智能是各个学习资源中的关键词,则最终可以将“人工智能”确定为该聚类主题下的主题特征词。
104、基于检索信息和主题特征词,在不同聚类主题中确定向目标用户推荐的第一目标聚类主题,并响应于目标用户在第一目标聚类主题中选择的第二目标聚类主题。
其中,第一目标聚类主题的数量小于或等于不同聚类主题总数量,第二目标聚类主题的数量小于或等于第二目标聚类主题数量。
对于本发明实施例,在确定不同聚类主题及其对应的主题特征词后,将检索信息与不同聚类主题下的主题特征词进行匹配,在不同聚类主题对应的主题特征词中找到与检索信息相匹配的目标主题特征词,最终将目标主题特征词对应的聚类主题确定为第一目标聚类主题,之后将第一目标聚类主题及其对应的主题关键词展示给用户,用户根据展示的信息,在第一目标聚类主题中选择需要的第二目标聚类主题,之后系统会为用户初选的第二目标聚类主题确定主题描述信息,之后将主题描述信息再次展示给用户,用户根据系统再次展示的主题描述信息,进行最终的主题特征词的选择,系统最后根据用户选择的主题特征词,进行相应学习资源的推荐,由此通过在学习资源推荐的过程中,根据用户的预设检索信息引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源,避免用户在不了解数据知识结构的前提下被动接受学习文献的缺陷,从而本发明实施例能够提高学习资源的推荐效率。
105、确定第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据第二目标聚类主题对应的主题特征词、主题热度图、主题分布图和特征共现图谱,生成主题描述信息,将主题描述信息发送至目标用户端。
106、接收目标用户端针对主题描述信息,在第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据目标主题特征词,向目标用户推荐对应的学习资源。
其中,如图2所示,主题热度图用户描述第二目标聚类主题所包含学习资源的数量,学习资源数量越大,其对应的主题热度越大;如图3所示,主题分布图包括新兴主题图和潜力主题图,新兴主题是指主题下的资源分布在近1-2年内,则为新兴主题,潜力主题是指主题下的资源呈现持续年增长趋势,且收录期刊处于稳定或上升趋势;如图4所示,特征共现图谱用于描述主题下存在哪些细分的潜在的主题特征词。
例如,某学生想找一些关于“人工智能”和“眼”相学的习资料。检索资源的系统使用流程如下:
1.学生输入了检索信息:“人工智能”和“眼”;
2.系统根据检索信息和不同聚类主题对应的主题特征词推荐主题:
系统推荐结果(第一目标聚类主题)为T=[“T.490_人工智能;深度学习;卷积神经网络;青光眼;大数据;内窥镜检查消化系统;伦理问题;糖尿病视网膜病变;计算机辅助诊断;健康管理”,“T.4706_糖尿病视网膜病变;卷积神经网络;深度学习;眼底图像;迁移学习;人工智能;计算机辅助诊断;计算机视觉;目标检测;深度特征”,“T.4485_卷积神经网络;皮肤镜图像;皮肤病诊断;深度学习;稠密卷积网络;图像处理;人工智能;辅助诊断;色素性皮肤病;神经网络(计算机)”,......];
3.学生预选择:学生选择了T.490和T.4706两个主题作为初选主题集合(第二目标聚类主题);
4.系统分析:基于学生选的两个主题,系统分析了主题热度、主题文献分布以及主题特征共现图谱;
5.学生数据集合选择:根据系统分析的结果,学生选择了初选主题集合中的潜在子主题T_new_人工智能;糖尿病视网膜病;
6.系统多维分析展示主题数据集合:针对学生选择的潜在子主题T_new,系统从学科分布、作者规模、机构分布、期刊分布、资金分布等维度对T_new对应文献做分析,并以不同的排序方式展示数据信息,排序方式包括:按文献类型展示、按发文时间排序、按下载频次排序、按作者的G指数排序、按期刊影响因子排序。
对于本发明实施例,在确定第二目标聚类主题后,根据第二目标聚类主题中包含的各个学习资源的资源信息和主题特征词,绘制第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,之后根据主题热度图、主题分布图、特征共现图谱和主题特征词,生成第二目标聚类主题对应的主题描述信息,并把主题描述信息展示给用户,用户根据主题描述信息,选择需要进行检索的主题特征词,最终系统根据用户选择的主题特征词,进行最终学习资源的检索,由此本发明实施例在学习资源推荐的过程中,根据用户的检索信息引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源,避免用户在不了解数据知识结构的前提下被动接受学习文献,从而提高了学习资源的推荐准确度,提升用户体验感,同时本发明在进行学习资源推荐时,无需预先获取用户的特征信息,从而能够提高学习资源的推荐效率,并且本发明在没有用户历史行为信息或用户信息缺失严重的情况下,也能准确向用户推荐学习资源。
根据本发明提供的一种渐进式学习资源推荐方法,与目前通过构建用户画像来进行相关资源推送的方式相比,本发明通过响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;并基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;与此同时,基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;并基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;之后确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;最终接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。由此通过对不同学习资源进行聚类,得到不同聚类主题下的学习资源,并确定不同聚类主题对应的主题特征词,根据用户输入的检索信息和主题特征词,在不同聚类主题中确定第一目标聚类主题,并第一次向用户推荐第一目标聚类主题,用户会在第一目标聚类主题中选择第二目标聚类主题,之后第二次向用户展示第二目标聚类主题的主题热度图、主题分布图和特征共现图谱,用户会根据主题热度图、主题分布图和特征共现图谱,在第二目标聚类主题对应的主题特征词中选择目标主题特征词,最终根据目标主题特征词,向用户展示推荐的学习资源,本发明在学习资源推荐的过程中,根据用户的检索信息引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源,避免用户在不了解数据知识结构的前提下被动接受学习文献,从而提高了学习资源的推荐准确度,提升用户体验感,同时本发明在进行学习资源推荐时,无需预先获取用户的特征信息,从而能够提高学习资源的推荐效率,并且本发明在没有用户历史行为信息或用户信息缺失严重的情况下,也能准确向用户推荐学习资源。
进一步的,为了更好的说明上述对学习资源进行渐进式推荐的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种渐进式学习资源推荐方法,如图5所示,所述方法包括:
201、响应于目标用户的检索信号,获取目标用户输入的检索信息,并获取多种学习资源。
具体地,用户在学习资源检索系统的检索框中输入检索信息,学习资源检索系统根据检索信息,引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源。
202、将不同学习资源中的不同资源特征词进行拼接,得到不同学习资源对应的资源描述信息。
203、将不同资源描述信息输入至预设语义信息提取模型中进行语义提取,得到不同学习资源对应的语义信息向量。
204、利用预设降维算法对语义信息向量进行降维处理,得到不同学习资源对应的降维后的语义信息向量。
其中,预设语义信息提取模型具体可以为sBert模型。sBert模型包括注意力层和前馈神经网络层;预设降维算法具体可以为统一流形逼近和降维投影算法。
对于本发明实施例,首先对不同学习资源中的不同资源特征词进行数据预处理,具体预处理包括剔除数据格式错误、数据重要字段缺失及影响因子低的数据等,之后对预处理后的学习资源中的资源ID、标题、摘要、关键词、等资源特征词按顺序拼接成为一个句子,作为不同学习资源对应的资源描述信息,并将不同学习资源对应的资源描述信息输入至sBert模型中进行语义提取,sBert模型是使用siamese(孪生神经网络)和triplet(三胞胎神经网路)网络架构来生成可以使用余弦相似度进行比较的有语义信息的句嵌入表示(语义信息向量),有语义的句嵌入表示意味着语义上相似的句子在向量空间上也是靠近的。sBert在Bert/RoBerta的输出上增加了一个池化(pooling)操作,从而来生成固定大小的语义信息向量。有三种池化操作策略:使用[CLS]标记的输出、计算所有输出向量的均值(均值策略)、计算输出向量的最大值(最大策略),其中,均值策略是效果最好的。
进一步地,通过sBert模型输出的语义信息向量是384维的向量,为了加快计算速度,降低算力消耗,还需要利用统一流形逼近和降维投影算法(umap算法,n_neighbors=x,n_components=y)把384维的向量降维为一个5维的向量,其中n_neighbors和n_components参数可根据用户群体需求进行设置,最终根据将维后的语义信息向量,对不同学习资源进行聚类处理。
205、基于降维后的语义信息向量,对不同学习资源进行聚类,得到不同聚类主题下的学习资源,其中,所述不同聚类主题构成主题集合。
对于本发明实施例,为了向用户渐进式推荐学习资源,首先需要对不同学习资源进行聚类,基于此,步骤205具体包括:基于所述降维后的语义信息向量,计算不同学习资源之间的距离;基于所述不同学习资源之间的距离,构建加权距离图,其中,将所述不同学习资源作为加权距离图中的顶点,将所述不同学习资源之间的连线作为加权距离图中的边,将所述不同学习资源之间的距离作为加权距离图中边的权重;确定所述加权距离图对应的最小生成树;依据所述距离将所述最小生成树中的边由小到大进行排序,并为各条排序后的边创建新的子簇,构建子簇层次结构;在所述新的子簇中确定最小子簇,并利用所述最小子簇的大小对所述子簇层次结构进行压缩处理,生成压缩后的生成树;基于所述压缩后的生成树,确定不同聚类主题下的学习资源。
具体地,可以利用层次密度的噪声应用空间聚类算法(hdbscan算法,min_cluster_size=x,min_samples=y,cluster_selection_method='eom')对不同学习资源进行聚类,其中,min_cluster_size和min_samples参数可根据用户群体需求进行设置,利用该算法对不同学习资源进行聚类的具体过程为:两两计算不同学习资源之间的可达距离,将不同学习资源作为顶点,不同学习资源之间的连线作为边,将所述不同学习资源之间的距离作为边的权重,构建加权距离图,并计算加权距离图的最小生成树,按距离对树的边进行递增顺序排序,并为排序后的生成树中的每个边创建一个新的子簇,构建子簇层次结构,之后根据最小子簇大小压缩子簇层次结构,遍历层次结构,从最小生成树中按边权重递减的顺序删除所有的边,每次删除边造成拆分子簇,并判断由删除边创建的新连通分量中的学习资源是否比最小子簇中的更少,若是则将新连通分量声明为虚假的连通分量,将虚假的分量标记为噪声,并进行子簇调整;如果子簇删除边后生成的所有分量都是虚假的,那么删除该子簇,如果子簇删除边后生成的分量中同时存在虚假分量和真实分量,则保留其原始子簇标签,即保留移除边之前的子簇,如果子簇删除边后生成的分量都不是虚假的,则为每个分量分配新的子簇标签,即将原始子簇成功拆分成为新的子簇,最终以反向拓扑排序顺序对树进行遍历,判断每个子簇的父子簇的稳定性是否大于其子簇的总和,若是则将子簇声明为选定子簇,遍历到达根节点后,得到所有的选定子簇,并将最终选定的子簇及其包含的学习资源,确定为不同聚类主题下的学习资源。
在本发明又一实施例中,还可以通过K均值算法来对不同学习资源进行聚类,基于此,步骤205具体还包括:初始化不同团簇对应的质心向量;计算所述降维后的语义信息向量与所述不同团簇对应的质心向量之间的距离,并基于所述不同团簇对应的距离,将所述不同学习资源划分到所述不同团簇中;基于所述不同团簇中学习资源对应的降维后的语义信息向量,确定所述不同团簇对应的更新后的质心向量;基于所述更新后的质心向量,重新将所述学习资源划分到所述不同团簇中,直至所述更新后的质心向量不发生变化,将最终划分到所述不同团簇中的学习资源,确定为所述不同聚类主题下的学习资源。
具体地,选择K个团簇分别对应的初始质心对应的质心向量,针对不同学习资源分别对应的语义信息向量,计算各个语义信息向量到K个质心向量的距离,并将各个语义信息向量分配到距离最近的质心向量所对应的团簇中,之后针对每个团簇,重新计算每个团簇的质心及其对应的质心向量,并重新将不同学习资源划分到不同的团簇中,以此不断地对不同学习资源进行划分,直到质心的位置不发生变化,即质心向量不发生变化,最终将划分到不同团簇中的学习资源,确定为不同聚类主题下的学习资源。
206、基于不同聚类主题下的学习资源,确定不同聚类主题对应的主题特征词。
对于本发明实施例,为了向用户推荐学习资源,首先还需要确定不同聚类主题对应的主题特征词,基于此,步骤206具体包括:对所述不同聚类主题中任意聚类主题下的学习资源关键词进行分词处理,得到所述任意聚类主题下的学习资源中包含的各个分词;确定所述各个分词中任意分词在对应学习资源中的词频;在所述任意聚类主题下的学习资源中确定包含所述任意分词的学习资源的资源数量;根据所述任意聚类主题下的学习资源的总数量和所述资源数量,计算所述任意分词对应的逆文档频率;将所述词频与所述逆文档频率相乘,得到所述任意分词对应的权重系数;在各个分词对应的权重系数中确定大于预设权重阈值的目标权重系数,并将所述目标权重系数对应的分词确定为所述任意聚类主题对应的主题特征词。
其中,预设权重系数是根据实际需求设定的。具体地,以不同聚类主题中的聚类主题A为例,首先对A中不同学习资源关键词(其中,学习资源关键词是可以是整个学习资源,也可以是学习资源中的关键语句)进行分词处理,得到各个分词,之后按照如下公式计算各个分词对应的权重系数:
其中,y表示学习资源中任意分词对应的权重系数,TF表示任意分词对应的词频,IDF表示任意分词对应的逆文档频率,b表示任意分词在对应学习资源中出现的次数,z表示对应学习资源中分词总数,e表示某个聚类主题下学习资源总数量,f表示某个聚类主题下包含任意分词的学习资源数量,由此按照上述公式能够计算出任意分词对应的权重系数,之后在各个权重系数中确定大于预设权重系数的权重系数对应的分词,并将该分词确定为相应聚类主题对应的主题特征词。
207、基于检索信息和主题特征词,在不同聚类主题中确定向目标用户推荐的第一目标聚类主题,并响应于目标用户在第一目标聚类主题中选择的第二目标聚类主题。
对于本发明实施例,在确定不同聚类主题对应的主题特征词后,还需要根据检索信息和主题特征词,在不同聚类主题中确定首轮向用户推荐的第一目标聚类主题,基于此,步骤207具体包括:对所述不同聚类主题对应的主题特征词进行全切处理,得到所述不同聚类主题对应的各个主题全切分词,以及对所述检索信息进行全切处理,得到所述检索信息对应的各个检索全切分词,并将所述各个检索全切分词按照切词长度由大到小排序,得到排序后的各个检索全切分词;在所述各个主题全切分词中确定所述各个检索全切分词命中的目标主题全切分词,并确定所述目标主题全切分词所属的第三目标聚类主题;计算各所述目标主题全切分词在对应第三目标聚类主题下的切分词权重;基于所述第三目标聚类主题下的切分词权重和所述排序后的各个检索全切分词的顺序,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题。其中,计算各个目标主题全切分词在对应第三目标聚类主题下的切分词权重的方法包括:确定各所述目标主题全切分词中任意主题全切分词对应的分词长度,以及所述任意主题全切分词所属的主题特征词的特征词长度;确定所述任意主题全切分词所属的主题特征词在对应第三目标聚类主题下的特征词权重;将所述特征词长度与所述特征词权重相乘,得到所述任意主题全切分词对应的权重评价值;将所述分词长度与所述权重评价值相除,得到所述任意主题全切分词在对应第三目标聚类主题下的切分词权重。
具体地,对不同聚类主题对应的主题特征词进行全切处理,例如,若两个聚类主题及其对应的主题特征词为:主题1_人工智能、深度学习;主题2_卷积神经网络、皮肤镜图像、人工智能,对主题主题1中各个主题特征词进行全切处理,如对“人工智能”进行全切处理,得到各个主题全切分词为:“人工智能、人工、智能”,对“深度学习”进行全切处理,得到各个主题全切分词为:“深度学习、深度、学习”,按照上述方式,对主题主题2中的各个主题特征词也进行全切处理,若检索信息为“人工智能”,则其对应的检索全切分词按照切词长度进行排序后为:“人工智能、人工、智能”,检索全切分词“人工智能”命中主题主题1中的目标主题全切分词“人工智能”,同时还命中主题主题2中目标主题全切分词“人工智能”,检索全切分词“人工”命中主题主题1中的目标主题全切分词“人工”,同时还命中主题主题2中目标主题全切分词“人工”,检索全切分词“智能”命中主题主题1中的目标主题全切分词“智能”,同时还命中主题主题2中目标主题全切分词“智能”,之后计算各个目标主题全切分词对应的切分词权重,具体可以按照如下公式计算:
其中,h表示切分词权重,Lj表示目标主题全切分词中任意主题全切分词对应的分词长度、Lz表示任意主题全切分词所属的主题特征词的特征词长度,α表示特征词权重,其中,特征词权重是根据主题特征词在对应主题中的位置排名赋值,从1.0开始以0.005的间隔递减,例如,若主题T.4485_卷积神经网络、皮肤镜图像、人工智能,其中,主题特征词“卷积神经网络”对应的特征词权重为1,主题特征词“皮肤镜图像”对应的特征词权重为0.995,主题特征词“人工智能”对应的特征词权重为0.99,通过上述公式能够计算各个目标主题全切分词对应的且分词权重。
进一步地,根据在确定第三目标聚类主题下的切分词权重之后,还需要根据切分词权重和排序后的各个检索全切分词的顺序,在不同聚类主题中确定向目标用户推荐的第一目标聚类主题,具体确定第一目标聚类主题的方法为:例如,若检索全切分词为“人工智能领域”,其对应的按照切词长度由大到小排列后的检索全切分词为:“人工智能领域”、“人工智能”、“智能”、“领域”,若“人工智能领域”命中的第三目标聚类主题T.50中的目标主题全切分词对应的切分词权重为1,简写为:T.50-1,以上述简写为例,“人工智能领域”命中的主题和切分词权重结果为:T50:1.0,T291:0.995,“人工智能”命中的主题和切分词权重结果:T50:0.667,T241:1.0,T291:0.663;“人工”命中的主题和切分词权重结果:T50:0.333,T143:1.0,T241:0.5,T291:0.331;“智能”命中的主题和切分词权重结果:T50:0.333,T238:1.0,T241:0.5,T291:0.331。之后采用求取最大切分词权重方式,得到T50:1.0,T291:0.995,T241:1.0,T143:1.0,T238:1.0,之后按照排序后的各个检索全切分词的顺序,取前n个主题作为第一目标聚类主题,若n为3,则最终确定的第一目标聚类主题为T50,T291,T241。之后将各个第一目标聚类主题发送给目标用户,目标用户在各个第一目标聚类主题中选择至少一个聚类主题作为第二目标聚类主题。
在本发明的又一实施例中,还可以根据语义信息向量来确定向目标用户推荐的第一目标聚类主题,基于此,步骤207具体还可以包括:确定所述检索信息对应的检索语义信息向量,以及确定所述主题特征词对应的主题语义信息向量;基于所述检索语义信息向量和所述主题语义信息向量,计算所述检索信息与所述主题特征词之间的余弦相似度;根据所述余弦相似度,确定所述主题特征词中的相似主题特征词;确定所述相似主题特征词在对应聚类主题中的相似主题特征词权重;根据所述相似主题特征词权重,确定所述相似主题特征词中的推荐主题特征词,并将所述推荐主题特征词所属的聚类主题确定为向所述目标用户推荐的第一目标聚类主题。
具体地,具体可以利用bert模型分别确定检索信息对应的检索语义信息向量和主题特征词对应的主题语义信息向量,之后根据检索语义信息向量和主题语义信息向量,计算检索信息与主题特征词之间的余弦相似度,之后将各个余弦相似度按照从大到小的顺序排序,并将排名在前n名的相似度对应的主题特征词确定为相似主题特征词,之后确定相似主题特征词在对应主题中的相似主题特征词权重,其中,相似主题特征词权重根据对应主题中该相似主题特征词权重的位置排名赋值,从1.0开始以0.005的间隔递减,例如,相似主题特征词为“皮肤镜图像”,对应主题为T.4485_卷积神经网络;皮肤镜图像;皮肤病诊断;深度学习,则“皮肤镜图像”对应的相似主题特征词权重为0.995,由此能够计算得到各个相似主题特征词对应的相似主题特征词权重,之后按照权重由大到小对各个相似主题特征词进行排序,并将排名在前x名的相似主题特征词确定为推荐主题特征词,并将推荐主题特征词所属的聚类主题确定为向目标用户推荐的第一目标聚类主题。
208、确定第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据第二目标聚类主题对应的主题特征词、主题热度图、主题分布图和特征共现图谱,生成主题描述信息,将主题描述信息发送至目标用户端。
对于本发明实施例,当系统接收到目标用户选择的第二目标聚类主题后,系统会自动确定第二目标主题的主题热度图、主题分布图,并且还需要确定第二目标主题的特征共现图谱,具体确定特征共现图谱的方法包括:确定所述第二目标聚类主题中包含的各个主题特征词,以及在所述第二目标聚类主题中确定包含各个主题特征词中任意主题特征词的学习资源总数量;确定各个主题特征词中任意两个主题特征词之间的特征关系,以及确定所述任意两个主题特征词出现在同一个学习资源中的共现频次;基于所述各个主题特征词、所述学习资源总数量、所述特征关系和所述共现频次,确定所述第二目标聚类主题对应的特征共现图谱,其中,所述各个主题特征词构成所述特征共现图谱中的各个节点,学习资源总数量构成所述特征共现图谱中各个节点的节点值,所述特征关系构成所述特征共现图谱中各个节点之间的边,所述共现频次为所述特征共现图谱中各个边的边值。
具体地,将第二目标聚类主题中包含的各个主题特征词作为特征共现图谱中的各个节点,在第二目标聚类主题中确定包含各个主题特征词中任意主题特征词的学习资源总数量,并将学习资源总数量作为特征共现图谱中各个节点的节点值,各个主题特征词之间的特征关系作为特征共现图谱中各个节点之间的边,任意两个主题特征词出现在同一个学习资源中的共现频次作为特征共现图谱中各个边的边值,按照上述要素构建特征共现图谱,并将特征共现图谱展示给用户,用户可以基于特征共现图谱中潜在主题特征词,选择进行学习资源检索的目标主题特征词。由此通过将主题热度图、主题分布图和特征共现图谱展示给用户,能够使用户在检索过程中能够获知数据全貌,从而能够提高用户选择检索词的准确度,进而能够提高学习资源的检索准确度。
进一步地,在绘制第二目标聚类主题对应的特征共现图谱后,为了使用户便于了解特征共现图谱,需要对特征共现图谱进行修整,具体修整方法包括:在所述特征共现图谱的各个节点值中确定最大节点值和最小节点值;将所述各个节点中任意节点对应的节点值与所述最小节点值相减,得到节点差值,并将所述最大节点值与所述最小节点值相减,得到节点距离值;基于所述节点差值、所述节点距离值、预设最大节点阈值和预设最小节点阈值,计算所述任意节点对应的归一化后的节点值,并利用所述归一化后的节点值替换所述特征共现图谱中所述任意节点对应的节点值;在所述特征共现图谱的各个边值中确定最大边值和最小边值;将所述各个边中任意边对应的边值与所述最小边值相减,得到边差值,并将所述最大边值与所述最小边值相减,得到边距离值;基于所述边差值、所述边距离值、预设最大边阈值和预设最小边阈值,计算所述任意边对应的归一化后的边值,并利用所述归一化后的边值替换所述特征共现图谱中所述任意边对应的边值。
具体地,可以按照如下公式计算任意节点对应的归一化后的节点值:
其中,c表示任意节点对应的归一化后的节点值,n表示任意节点对应的节点值,nmin表示最小节点值,nmax表示最大节点值,Nmax表示预设最大节点阈值,Nmin表示预设最小节点阈值,n-nmin表示节点差值,nmax-nmin表示节点距离值,由此按照上述公式能够计算得到各个节点对应的归一化后的节点值,之后利用归一化后的节点值替换特征共现图谱中任意节点对应的节点值。
进一步地,可以按照如下公式计算任意边对应的归一化后的边值:
其中,d表示任意边对应的归一化后的边值,e表示任意边对应的边值,emin表示最小边值,emax表示最大边值,Emax表示预设最大边阈值,Emin表示预设最小边阈值,e-emin表示边差值,emax-emin表示边距离值,由此按照上述公式能够计算得到各条边对应的归一化后的边值,之后利用归一化后的边值替换特征共现图谱中任意边对应的边值。
209、接收目标用户端针对主题描述信息,在第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据目标主题特征词,向目标用户推荐对应的学习资源。
对于本发明实施例,将第二目标聚类主题对应的主题热度图、主题分布图、特征共现图谱和主题特征词发送给目标用户后,目标用户根据上述图和特征词,选择了目标主题特征词,系统根据目标主题特征词进行学习资源检索,得到多个目标主题学习资源,之后需要向用户展示多种学习资源,基于此,步骤209具体包括:基于所述目标主题特征词,确定多种目标学习资源;确定不同目标学习资源对应的展示维度,其中,所述展示维度包括时间分布维度、学科分布维度、作者分布维度、出版机构分布维度、所属期刊分布维度、出版费用分布维度中至少一种;确定所述不同目标学习资源对应的展示顺序,其中,所述展示顺序包括发文时间顺序、下载频次顺序、所属作者的作者热度顺序、资源影响因子顺序中至少一种;将所述不同目标学习资源及其对应的展示维度按照所述展示顺序进行展示。
其中,作者热度是指作者所用户文章平均引用数量不少于G篇,资源影响因子是资源影响大小的一项定量指标。
具体地,在时间分布维度、学科分布维度、作者分布维度、出版机构分布维度、所属期刊分布维度、出版费用分布维度中确定至少一种展示维度,与此同时,在发文时间顺序、下载频次顺序、所属作者的作者热度顺序、资源影响因子顺序中确定至少一种展示顺序,之后将不同目标学习资源及其对应的展示维度按照展示顺序进行展示。由此将学习资源和对应的展示维度按照不同展示顺序进行展示,能够提升用户体验感,有助于用户根据不同维度和顺序进行资源选择,节省用户选择资源的时间。
根据本发明提供的另一种渐进式学习资源推荐方法,与目前通过构建用户画像来进行相关资源推送的方式相比,本发明通过响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;并将所述不同学习资源中的不同资源特征词进行拼接,得到所述不同学习资源对应的资源描述信息;与此同时将不同资源描述信息输入至预设语义信息提取模型中进行语义提取,得到所述不同学习资源对应的语义信息向量;并利用预设降维算法对所述语义信息向量进行降维处理,得到所述不同学习资源对应的降维后的语义信息向量;之后基于所述降维后的语义信息向量,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;与此同时,基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;并基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;之后确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;最终接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。由此根据语义信息向量对不同学习资源进行聚类,得到不同聚类主题下的学习资源,能够提高学习资源的聚类准确度,并确定不同聚类主题对应的主题特征词,根据用户输入的检索信息和主题特征词,在不同聚类主题中确定第一目标聚类主题,并第一次向用户推荐第一目标聚类主题,用户会在第一目标聚类主题中选择第二目标聚类主题,之后第二次向用户展示第二目标聚类主题的主题热度图、主题分布图和特征共现图谱,用户会根据主题热度图、主题分布图和特征共现图谱,在第二目标聚类主题对应的主题特征词中选择目标主题特征词,最终根据目标主题特征词,向用户展示推荐的学习资源,本发明在学习资源推荐的过程中,根据用户的检索信息引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源,避免用户在不了解数据知识结构的前提下被动接受学习文献,从而提高了学习资源的推荐准确度,提升用户体验感,同时本发明在进行学习资源推荐时,无需预先获取用户的特征信息,从而能够提高学习资源的推荐效率,并且本发明在没有用户历史行为信息或用户信息缺失严重的情况下,也能准确向用户推荐学习资源。
进一步地,作为图1的具体实现,本发明实施例提供了一种渐进式学习资源推荐装置,如图6所示,所述装置包括:获取单元31、聚类单元32、特征词确定单元33、主题确定单元34、发送单元35和推荐单元36。
所述获取单元31,可以用于响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源。
所述聚类单元32,可以用于基于所述不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源。
所述特征词确定单元33,可以用于基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词。
所述主题确定单元34,可以用于基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题。
所述发送单元35,可以用于确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端。
所述推荐单元36,可以用于接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
在具体应用场景中,为了对不同学习资源进行聚类,如图7所示,所述聚类单元32,包括拼接模块321、语义提取模块322、降维模块323、聚类模块324。
所述拼接模块321、可以用于将所述不同学习资源中的不同资源特征词进行拼接,得到所述不同学习资源对应的资源描述信息。
所述语义提取模块322,可以用于将不同资源描述信息输入至预设语义信息提取模型中进行语义提取,得到所述不同学习资源对应的语义信息向量。
所述降维模块323,可以用于利用预设降维算法对所述语义信息向量进行降维处理,得到所述不同学习资源对应的降维后的语义信息向量。
所述聚类模块324,可以用于基于所述降维后的语义信息向量,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源,其中,所述不同聚类主题构成主题集合。
在具体应用场景中,为了对不同学习资源进行聚类,所述聚类模块324,包括计算子模块、构建子模块、第一确定子模块、排序子模块、压缩子模块。
所述计算子模块,可以用于基于所述降维后的语义信息向量,计算不同学习资源之间的距离。
所述构建子模块,可以用于基于所述不同学习资源之间的距离,构建加权距离图,其中,将所述不同学习资源作为加权距离图中的顶点,将所述不同学习资源之间的连线作为加权距离图中的边,将所述不同学习资源之间的距离作为加权距离图中边的权重。
所述第一确定子模块,可以用于确定所述加权距离图对应的最小生成树。
所述排序子模块,可以用于依据所述距离将所述最小生成树中的边由小到大进行排序,并为各条排序后的边创建新的子簇,构建子簇层次结构。
所述压缩子模块,可以用于在所述新的子簇中确定最小子簇,并利用所述最小子簇的大小对所述子簇层次结构进行压缩处理,生成压缩后的生成树。
所述第一确定子模块,还可以用于基于所述压缩后的生成树,确定不同聚类主题下的学习资源。
在具体应用场景中,为了对不同学习资源进行聚类,所述聚类模块324,还包括:初始化子模块、划分子模块。
所述初始化子模块,可以用于初始化不同团簇对应的质心向量。
所述计算子模块,还可以用于计算所述降维后的语义信息向量与所述不同团簇对应的质心向量之间的距离,并基于所述不同团簇对应的距离,将所述不同学习资源划分到所述不同团簇中。
所述第一确定子模块,还可以用于基于所述不同团簇中学习资源对应的降维后的语义信息向量,确定所述不同团簇对应的更新后的质心向量。
所述划分子模块,可以用于基于所述更新后的质心向量,重新将所述学习资源划分到所述不同团簇中,直至所述更新后的质心向量不发生变化,将最终划分到所述不同团簇中的学习资源,确定为所述不同聚类主题下的学习资源。
在具体应用场景中,为了确定不同聚类主题对应的主题特征词,所述特征词确定单元33,包括分词模块331、第一确定模块332、第一计算模块333、相乘模块334。
所述分词模块331,可以用于对所述不同聚类主题中任意聚类主题下的学习资源关键词进行分词处理,得到所述任意聚类主题下的学习资源中包含的各个分词。
所述第一确定模块332,可以用于确定所述各个分词中任意分词在对应学习资源中的词频。
所述确定模块333,还可以用于在所述任意聚类主题下的学习资源中确定包含所述任意分词的学习资源的资源数量。
所述第一计算模块333,可以用于根据所述任意聚类主题下的学习资源的总数量和所述资源数量,计算所述任意分词对应的逆文档频率。
所述相乘模块334,可以用于将所述词频与所述逆文档频率相乘,得到所述任意分词对应的权重系数。
所述确定模块333,具体可以用于在各个分词对应的权重系数中确定大于预设权重阈值的目标权重系数,并将所述目标权重系数对应的分词确定为所述任意聚类主题对应的主题特征词。
在具体应用场景中,为了早不同聚类主题中确定向目标用户推荐的第一目标聚类主题,所述主题确定单元34,包括全切模块341、第二确定模块342、第二计算模块343。
所述全切模块341,可以用于对所述不同聚类主题对应的主题特征词进行全切处理,得到所述不同聚类主题对应的各个主题全切分词,以及对所述检索信息进行全切处理,得到所述检索信息对应的各个检索全切分词,并将所述各个检索全切分词按照切词长度由大到小排序,得到排序后的各个检索全切分词。
所述第二确定模块342,可以用于在所述各个主题全切分词中确定所述各个检索全切分词命中的目标主题全切分词,并确定所述目标主题全切分词所属的第三目标聚类主题。
所述第二计算模块343,可以用于计算各所述目标主题全切分词在对应第三目标聚类主题下的切分词权重。
所述第二确定模块342,具体可以用于基于所述第三目标聚类主题下的切分词权重和所述排序后的各个检索全切分词的顺序,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题。
在具体应用场景中,为了计算各个目标主题全切分词在对应第三目标聚类主题下的切分词权重,所述第二计算模块343,包括第二确定子模块、相乘子模块、相除子模块。
所述第二确定子模块,可以用于确定各所述目标主题全切分词中任意主题全切分词对应的分词长度,以及所述任意主题全切分词所属的主题特征词的特征词长度。
所述第二确定子模块,还可以用于确定所述任意主题全切分词所属的主题特征词在对应第三目标聚类主题下的特征词权重。
所述相乘子模块,可以用于将所述特征词长度与所述特征词权重相乘,得到所述任意主题全切分词对应的权重评价值。
所述相除子模块,可以用于将所述分词长度与所述权重评价值相除,得到所述任意主题全切分词在对应第三目标聚类主题下的切分词权重。
在具体应用场景中,为了在不同聚类主题中确定向目标用户推荐的第一目标聚类主题,所述第二确定模块342,还可以用于确定所述检索信息对应的检索语义信息向量,以及确定所述主题特征词对应的主题语义信息向量。
所述第二计算模块343,还可以用于基于所述检索语义信息向量和所述主题语义信息向量,计算所述检索信息与所述主题特征词之间的余弦相似度。
所述第二确定模块342,具体可以用于根据所述余弦相似度,确定所述主题特征词中的相似主题特征词。
所述第二确定模块342,具体可以用于确定所述相似主题特征词在对应聚类主题中的相似主题特征词权重。
所述第二确定模块342,具体可以用于根据所述相似主题特征词权重,确定所述相似主题特征词中的推荐主题特征词,并将所述推荐主题特征词所属的聚类主题确定为向所述目标用户推荐的第一目标聚类主题。
在具体应用场景中,为了确定第二目标聚类主题对应的特征共现图谱,所述发送单元35,具体可以用于确定所述第二目标聚类主题中包含的各个主题特征词,以及在所述第二目标聚类主题中确定包含各个主题特征词中任意主题特征词的学习资源总数量;确定各个主题特征词中任意两个主题特征词之间的特征关系,以及确定所述任意两个主题特征词出现在同一个学习资源中的共现频次;基于所述各个主题特征词、所述学习资源总数量、所述特征关系和所述共现频次,确定所述第二目标聚类主题对应的特征共现图谱,其中,所述各个主题特征词构成所述特征共现图谱中的各个节点,学习资源总数量构成所述特征共现图谱中各个节点的节点值,所述特征关系构成所述特征共现图谱中各个节点之间的边,所述共现频次为所述特征共现图谱中各个边的边值。
在具体应用场景中,为了对特征共现图谱进行优化,所述装置还包括:节点值确定单元37、相减单元38、计算单元39。
所述节点值确定单元37,可以用于在所述特征共现图谱的各个节点值中确定最大节点值和最小节点值。
所述相减单元38,可以用于将所述各个节点中任意节点对应的节点值与所述最小节点值相减,得到节点差值,并将所述最大节点值与所述最小节点值相减,得到节点距离值。
所述计算单元39,可以用于基于所述节点差值、所述节点距离值、预设最大节点阈值和预设最小节点阈值,计算所述任意节点对应的归一化后的节点值,并利用所述归一化后的节点值替换所述特征共现图谱中所述任意节点对应的节点值。
所述节点值确定单元37,还可以用于在所述特征共现图谱的各个边值中确定最大边值和最小边值。
所述相减单元38,还可以用于将所述各个边中任意边对应的边值与所述最小边值相减,得到边差值,并将所述最大边值与所述最小边值相减,得到边距离值。
所述计算单元39,还可以用于基于所述边差值、所述边距离值、预设最大边阈值和预设最小边阈值,计算所述任意边对应的归一化后的边值,并利用所述归一化后的边值替换所述特征共现图谱中所述任意边对应的边值。
在具体应用场景中,为了向用户推荐对应的学习资源,所述推荐单元36,包括第三确定模块361、展示模块362。
所述第三确定模块361,可以用于基于所述目标主题特征词,确定多种目标学习资源。
所述第三确定模块361,具体可以用于确定不同目标学习资源对应的展示维度,其中,所述展示维度包括时间分布维度、学科分布维度、作者分布维度、出版机构分布维度、所属期刊分布维度、出版费用分布维度中至少一种。
所述第三确定模块361,具体还可以用于确定所述不同目标学习资源对应的展示顺序,其中,所述展示顺序包括发文时间顺序、下载频次顺序、所属作者的作者热度顺序、资源影响因子顺序中至少一种。
所述展示模块362,可以用于将所述不同目标学习资源及其对应的展示维度按照所述展示顺序进行展示。
需要说明的是,本发明实施例提供的一种渐进式学习资源推荐装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
基于上述如图1所示方法和如图6所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图8所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
通过本发明的技术方案,本发明通过响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;并基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;与此同时,基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;并基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;之后确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;最终接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。由此通过对不同学习资源进行聚类,得到不同聚类主题下的学习资源,并确定不同聚类主题对应的主题特征词,根据用户输入的检索信息和主题特征词,在不同聚类主题中确定第一目标聚类主题,并第一次向用户推荐第一目标聚类主题,用户会在第一目标聚类主题中选择第二目标聚类主题,之后第二次向用户展示第二目标聚类主题的主题热度图、主题分布图和特征共现图谱,用户会根据主题热度图、主题分布图和特征共现图谱,在第二目标聚类主题对应的主题特征词中选择目标主题特征词,最终根据目标主题特征词,向用户展示推荐的学习资源,本发明在学习资源推荐的过程中,根据用户的检索信息引导用户在了解数据全貌的前提下一步步选择感兴趣或所需的细粒度学习资源,避免用户在不了解数据知识结构的前提下被动接受学习文献,从而提高了学习资源的推荐准确度,提升用户体验感,同时本发明在进行学习资源推荐时,无需预先获取用户的特征信息,从而能够提高学习资源的推荐效率,并且本发明在没有用户历史行为信息或用户信息缺失严重的情况下,也能准确向用户推荐学习资源。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种渐进式学习资源推荐方法,其特征在于,包括:
响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;
基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;
基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;
基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;
确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;
接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
2.根据权利要求1所述的方法,其特征在于,所述基于不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源,包括:
将所述不同学习资源中的不同资源特征词进行拼接,得到所述不同学习资源对应的资源描述信息;
将不同资源描述信息输入至预设语义信息提取模型中进行语义提取,得到所述不同学习资源对应的语义信息向量;
利用预设降维算法对所述语义信息向量进行降维处理,得到所述不同学习资源对应的降维后的语义信息向量;
基于所述降维后的语义信息向量,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源,其中,所述不同聚类主题构成主题集合。
3.根据权利要求2所述的方法,其特征在于,所述基于所述降维后的语义信息向量,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源,包括:
基于所述降维后的语义信息向量,计算不同学习资源之间的距离;
基于所述不同学习资源之间的距离,构建加权距离图,其中,将所述不同学习资源作为加权距离图中的顶点,将所述不同学习资源之间的连线作为加权距离图中的边,将所述不同学习资源之间的距离作为加权距离图中边的权重;
确定所述加权距离图对应的最小生成树;
依据所述距离将所述最小生成树中的边由小到大进行排序,并为各条排序后的边创建新的子簇,构建子簇层次结构;
在所述新的子簇中确定最小子簇,并利用所述最小子簇的大小对所述子簇层次结构进行压缩处理,生成压缩后的生成树;
基于所述压缩后的生成树,确定不同聚类主题下的学习资源。
4.根据权利要求1所述的方法,其特征在于,所述基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词,包括:
对所述不同聚类主题中任意聚类主题下的学习资源关键词进行分词处理,得到所述任意聚类主题下的学习资源中包含的各个分词;
确定所述各个分词中任意分词在对应学习资源中的词频;
在所述任意聚类主题下的学习资源中确定包含所述任意分词的学习资源的资源数量;
根据所述任意聚类主题下的学习资源的总数量和所述资源数量,计算所述任意分词对应的逆文档频率;
将所述词频与所述逆文档频率相乘,得到所述任意分词对应的权重系数;
在各个分词对应的权重系数中确定大于预设权重阈值的目标权重系数,并将所述目标权重系数对应的分词确定为所述任意聚类主题对应的主题特征词。
5.根据权利要求1所述的方法,其特征在于,所述基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,包括:
对所述不同聚类主题对应的主题特征词进行全切处理,得到所述不同聚类主题对应的各个主题全切分词,以及对所述检索信息进行全切处理,得到所述检索信息对应的各个检索全切分词,并将所述各个检索全切分词按照切词长度由大到小排序,得到排序后的各个检索全切分词;
在所述各个主题全切分词中确定所述各个检索全切分词命中的目标主题全切分词,并确定所述目标主题全切分词所属的第三目标聚类主题;
计算各所述目标主题全切分词在对应第三目标聚类主题下的切分词权重;
基于所述第三目标聚类主题下的切分词权重和所述排序后的各个检索全切分词的顺序,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题。
6.根据权利要求1所述的方法,其特征在于,所述基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,包括:
确定所述检索信息对应的检索语义信息向量,以及确定所述主题特征词对应的主题语义信息向量;
基于所述检索语义信息向量和所述主题语义信息向量,计算所述检索信息与所述主题特征词之间的余弦相似度;
根据所述余弦相似度,确定所述主题特征词中的相似主题特征词;
确定所述相似主题特征词在对应聚类主题中的相似主题特征词权重;
根据所述相似主题特征词权重,确定所述相似主题特征词中的推荐主题特征词,并将所述推荐主题特征词所属的聚类主题确定为向所述目标用户推荐的第一目标聚类主题。
7.根据权利要求1所述的方法,其特征在于,确定所述第二目标聚类主题对应的特征共现图谱,包括:
确定所述第二目标聚类主题中包含的各个主题特征词,以及在所述第二目标聚类主题中确定包含各个主题特征词中任意主题特征词的学习资源总数量;
确定各个主题特征词中任意两个主题特征词之间的特征关系,以及确定所述任意两个主题特征词出现在同一个学习资源中的共现频次;
基于所述各个主题特征词、所述学习资源总数量、所述特征关系和所述共现频次,确定所述第二目标聚类主题对应的特征共现图谱,其中,所述各个主题特征词构成所述特征共现图谱中的各个节点,学习资源总数量构成所述特征共现图谱中各个节点的节点值,所述特征关系构成所述特征共现图谱中各个节点之间的边,所述共现频次为所述特征共现图谱中各个边的边值。
8.一种渐进式学习资源推荐装置,其特征在于,包括:
获取单元,用于响应于目标用户的检索信号,获取所述目标用户输入的检索信息,并获取多种学习资源;
聚类单元,用于基于所述不同学习资源中的资源特征词,对所述不同学习资源进行聚类,得到不同聚类主题下的学习资源;
特征词确定单元,用于基于所述不同聚类主题下的学习资源,确定所述不同聚类主题对应的主题特征词;
主题确定单元,用于基于所述检索信息和所述主题特征词,在所述不同聚类主题中确定向所述目标用户推荐的第一目标聚类主题,并响应于所述目标用户在所述第一目标聚类主题中选择的第二目标聚类主题;
发送单元,用于确定所述第二目标聚类主题对应的主题热度图、主题分布图和特征共现图谱,并根据所述第二目标聚类主题对应的主题特征词、所述主题热度图、所述主题分布图和所述特征共现图谱,生成主题描述信息,将所述主题描述信息发送至目标用户端;
推荐单元,用于接收所述目标用户端针对所述主题描述信息,在所述第二目标聚类主题对应的主题特征词中选择的目标主题特征词,并根据所述目标主题特征词,向所述目标用户推荐对应的学习资源。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311041088.7A CN117194743A (zh) | 2023-08-17 | 2023-08-17 | 渐进式学习资源推荐方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311041088.7A CN117194743A (zh) | 2023-08-17 | 2023-08-17 | 渐进式学习资源推荐方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117194743A true CN117194743A (zh) | 2023-12-08 |
Family
ID=88986035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311041088.7A Pending CN117194743A (zh) | 2023-08-17 | 2023-08-17 | 渐进式学习资源推荐方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117194743A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454018A (zh) * | 2023-12-22 | 2024-01-26 | 深圳市康莱米电子股份有限公司 | 一种基于平板电脑的教育平台实现方法及系统 |
-
2023
- 2023-08-17 CN CN202311041088.7A patent/CN117194743A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117454018A (zh) * | 2023-12-22 | 2024-01-26 | 深圳市康莱米电子股份有限公司 | 一种基于平板电脑的教育平台实现方法及系统 |
CN117454018B (zh) * | 2023-12-22 | 2024-03-08 | 深圳市康莱米电子股份有限公司 | 一种基于平板电脑的教育平台实现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2387004C2 (ru) | Способ и система для вычисления значения важности блока в дисплейной странице | |
US20080215541A1 (en) | Techniques for searching web forums | |
CN106940726B (zh) | 一种基于知识网络的创意自动生成方法与终端 | |
JP2003114906A (ja) | ユーザ定義可能なパーソナリティを備えたメタ文書管理システム | |
US11023503B2 (en) | Suggesting text in an electronic document | |
CN111125422A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
AU2007221017A1 (en) | Propagating relevance from labeled documents to unlabeled documents | |
Benavent et al. | Multimedia information retrieval based on late semantic fusion approaches: Experiments on a wikipedia image collection | |
US20120158716A1 (en) | Image object retrieval based on aggregation of visual annotations | |
US11182540B2 (en) | Passively suggesting text in an electronic document | |
CN110990670B (zh) | 一种成长激励型图书推荐方法及推荐系统 | |
CN112231554B (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
CN117194743A (zh) | 渐进式学习资源推荐方法、装置、存储介质及计算机设备 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN117056575B (zh) | 一种基于智能图书推荐系统数据采集的方法 | |
Feldman | The answer machine | |
CN116578729B (zh) | 内容搜索方法、装置、电子设备、存储介质和程序产品 | |
CN112084312A (zh) | 一种基于知识图构建的智能客服系统 | |
CN116975346A (zh) | 标签图数据的生成方法、装置、设备、介质和程序产品 | |
Ahamed et al. | Deduce user search progression with feedback session | |
KR102454261B1 (ko) | 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법 | |
CN114637855A (zh) | 基于知识图谱的搜索方法、装置、计算机设备及存储介质 | |
CN112434174A (zh) | 多媒体信息的发布账号的识别方法、装置、设备及介质 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
Srivastava et al. | Redundancy and coverage aware enriched dragonfly-FL single document summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |