CN114139056A - 一种基于在线学习课程的智能化搜索推荐方法及系统 - Google Patents

一种基于在线学习课程的智能化搜索推荐方法及系统 Download PDF

Info

Publication number
CN114139056A
CN114139056A CN202111451841.0A CN202111451841A CN114139056A CN 114139056 A CN114139056 A CN 114139056A CN 202111451841 A CN202111451841 A CN 202111451841A CN 114139056 A CN114139056 A CN 114139056A
Authority
CN
China
Prior art keywords
course
student
label
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111451841.0A
Other languages
English (en)
Inventor
率为朋
张睿智
王东伟
翟盛龙
甘延朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202111451841.0A priority Critical patent/CN114139056A/zh
Publication of CN114139056A publication Critical patent/CN114139056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • G06Q50/2053Education institution selection, admissions, or financial aid

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种基于在线学习课程的智能化搜索推荐方法及系统。该基于在线学习课程的智能化搜索推荐方法及系统,先为课程打标签,建立课程标签集合;然后分析日志,构建学员画像,建立学员标签集合,计算每个课程对于当前学员的推荐值C,将推荐值C最高的课程集合返回给web端;根据输入的检索关键词扩展关键词集合,构造矩阵计算每个课程的相似值,计算各个因素的权值,并按照降序排列各个因素,返回检索结果集合。该基于在线学习课程的智能化搜索推荐方法及系统,能够快速构建学员画像,定位学员需求,在没有根据特定关键词搜索的情况下,也能实现精准推送课程;通过关键词搜索时利用扩展相似度算法实现了精准搜索、精准定位。

Description

一种基于在线学习课程的智能化搜索推荐方法及系统
技术领域
本发明涉及智能搜索技术领域,特别涉及一种基于在线学习课程的智能化搜索推荐方法及系统。
背景技术
随着数字时代的到来,”互联网+“概念愈发火热,互联网+教育领域更是如火如荼。如今,社会竞争日益激烈,人们自主学习的意识变得更加强烈,但是网络上的课程繁杂,质量也良莠不齐。在这种背景下,若要在浩瀚无边的网络海洋中寻找对自己有用的课程,势必如同大海捞针一般困难,搜索引擎成了人们不可或缺的信息检索工具。但一般的搜索引擎返回的课程数量往往很大,如何让用户在大量的返回结果中迅速找到最符合自己需求的信息,则显得尤为重要。而根据学员需求个性化检索的方法,就能够决定学员是否能在排序靠前的结果集中找到想要学习的课程,因此检索方式直接影响网站搜索引擎的使用体验,决定了该在线学习网站可靠性和实用性。
面对海量的课程资源,如何灵活地根据个性化需求自动推送,准确返回满足自身需求、且高标准高质量的课程列表,是目前亟待解决的问题。
基于此,本发明提出了一种基于在线学习课程的智能化搜索推荐方法及系统。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于在线学习课程的智能化搜索推荐方法及系统。
本发明是通过如下技术方案实现的:
一种基于在线学习课程的智能化搜索推荐方法,其特征在于:包括以下步骤:
1)、为课程打标签,建立课程标签集合
创建与上传课程视频时输入课程关键信息,包括课程章节,课程子课时,课时名称,章节目录名称,课程名称和课程简介;根据课程关键信息为课程打上标签,得到课程标签向量;
2)、分析日志,并根据关键词统计频次构建学员画像
通过kafka消息中间件传输关键行为操作日志,并利用关键行为操作日志分析服务对学员行为进行分析;采用spark JavaSDK编写分析程序,对日志进行数据清洗和分析,计算关键词频次,计算课程浏览和学习人数,构建学员需求画像,建立学员标签集合;
3)、智能推荐
通过学员标签集合计算每个标签与当前学员的相关性,通过学员标签集合与课程标签集合向量空间计算出每个课程对于当前学员的推荐值C,并将资源库中的课程按照推荐值 C从大到小降序排列,将推荐值C最高的课程集合返回给web端;
4)、智能检索
根据学员输入的检索关键词进行分词、同义词转义处理,扩展关键词集合,分词词库和同义词词库支持自定义词库;
利用关键词集合和课程标签集合构造矩阵计算每个课程的相似值;根据权重配比计算相似课程的权值,并按照权值大小降序排列相似课程,返回检索结果集合。
为了保证课程标签的强关联性和可靠性,所述步骤1)中,包括自动打标签和手动打标签两种标签方式;
所述自动打标签是指当课程上传或修改时,通过IK分词器对课程关键信息字段进行分词,并将生成的分词结果集与标签词库进行匹配,标签词库自动化为课程打上标签,得到课程标签向量。
所述标签词库支持自定义扩展和更新,课程标签向量cTags={s1,s2,s3,…,sn}。
所述步骤2)中,通过大数据计算引擎spark对学员操作日志进行分析,具体实现流程如下:
S1.学员在操作网站的过程中将操作日志通过kafka消息中间件实时发送至分析服务;
S2.分析服务进行日志数据清洗,去掉无用日志,挖掘具有特征性的操作日志;
S3.通过大数据计算引擎spark统计用户的浏览行为的关键操作,包括访问、浏览、搜索和点击,提炼出有效关键词,并进行词频计算,然后根据学员id进行合并,构建学员关键词画像;
S4.通过日志分析挖掘课程实时浏览量数据,并按照实时浏览数据设置课程权重,实时浏览数据越高,课程权重越高;
热门课程库存储结构为:UUID(识别码),学员id,时间戳,课程id。
学员关键词画像:SF=[{tag,frequency,latestTime}]。
所述词频统计公式如下:
Figure BDA0003385467430000031
其中,w指单个词语,c指某个课程(cource),WF(w,c)表示课程c中出现词w的频次,DF(w)表示包含词w的课程总数;
WF-IDF(w,c)用以评估词w对课程c的重要程度,WF表示词w在所有课程中出现的次数占课程总词数的比率,IDF(w,c)为逆文档频率,IDF(w,c)=lg(总课程数 /出现词w的课程数)。
所述步骤3)中,定义课程标签属性{s1,s2,s3,…,sn},如果当前课程c具有标签属性si,则令si=1,若不具备属性si,则令si=0,课程C的推荐值为:
Figure BDA0003385467430000032
其中,si表示课程资源标签,pi为课程标签si的权重,是步骤2)中构建学员画像SF所得:
Figure BDA0003385467430000033
所述步骤4)中,构造课程标签与扩充后的关键词集矩阵,对课程聚类,计算相似值,然后使用Elasticsearch搜索引擎提供的SDK(Software Development Kit,软件开发工具包) 设置权重配比,最后将课程检索结果集合返回;具体实现流程如下:
S1.在搜索框中输入检索关键词,进行检索时,采用Elasticsearch搜索引擎集成的IK 分词器对检索关键词进行分词,得到分词集keywords1={w1,w2,w3,…,wn};
S2.通过Elasticsearch搜索引擎对分词集keywords1进行同义词转换拓展,同义词词库支持自定义扩展,得到拓展后的关键词集keywords2={w1,s1,w2,s2,…,wn,sn};
S3.通过课程的学习数量和评分计算得到课程i的最终评分scorei;
S4.通过关键词集keywords2与课程资源库中的标签集合构造向量矩阵:
Figure BDA0003385467430000041
S5、利用改善后的余弦相似性算法,融合关键的课程评分字段计算与关键词集作为匹配的课程集合,将课程标签作为n维课程空间上的向量,得到课程与关键词数据集合的相似值Ws;
S6、通过Elasticsearch搜索引擎的聚合查询和嵌套查询功能,计算相似课程的权值W,公式如下:
W=Ws*scorei
S7、根据课程权值排序,通过Elasticsearch搜索引擎对检索结果集合高亮,流式分页返回检索结果。
所述步骤S3中,课程i的最终评分scorei计算公式为:
Figure BDA0003385467430000042
其中,Su,i为课程的学习数量,Ru,i为学员对课程的直接评分,评分范围设置在[0~ 10]。
所述步骤S5中,课程与关键词数据集合的相似值Ws通过两个向量之间的夹角余弦值进行计算,公式为:
Figure BDA0003385467430000043
用于实现本发明基于在线学习课程的智能化搜索推荐方法的系统,包括课程标签模块,日志分析模块,智能推荐模块和智能检索模块;
所述课程标签模块用于创建与上传课程视频时输入课程关键信息,并根据课程关键信息为课程打上标签,得到课程标签向量;
所述日志分析模块通过kafka消息中间件传输关键行为操作日志,并利用关键行为操作日志分析服务对学员行为进行分析;采用spark JavaSDK编写分析程序,对日志进行数据清洗和分析,计算关键词频次,计算课程浏览和学习人数,构建学员需求画像,建立学员标签集合;
所述智能推荐模块通过学员标签集合计算每个标签与当前学员的相关性,通过学员标签集合与课程标签集合向量空间计算出每个课程对于当前学员的推荐值C,并将资源库中的课程按照推荐值C从大到小降序排列,将推荐值C最高的课程集合返回给web端;
所述智能检索模块根据学员输入的检索关键词进行分词、同义词转义处理,扩展关键词集合;并利用关键词集合和课程标签集合构造矩阵计算每个课程的相似值,根据权重配比计算各个因素的权值,并按照权值大小降序排列各个因素,返回检索结果集合。
本发明的有益效果是:该基于在线学习课程的智能化搜索推荐方法及系统,能够快速构建学员画像,定位学员需求,在学员没有根据特定关键词搜索的情况下,也能实现精准推送课程;同时采用预处理的方式,学员通过关键词搜索时,能够更快的返回课程检索结果集合,通过课程及课时集(增子集)综合情况、学员画像、关键词相关度,并扩展相似度算法,实现了精准搜索、精准定位。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明基于在线学习课程的智能化搜索推荐方法示意图。
附图2为本发明学员操作日志分析方法示意图。
附图3为本发明智能检索方法示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该基于在线学习课程的智能化搜索推荐方法,包括以下步骤:
1)、为课程打标签,建立课程标签集合
创建与上传课程视频时输入课程关键信息,包括课程章节,课程子课时,课时名称,章节目录名称,课程名称和课程简介;根据课程关键信息为课程打上标签,得到课程标签向量;
2)、分析日志,并根据关键词统计频次构建学员画像
通过kafka消息中间件传输关键行为操作日志,并利用关键行为操作日志分析服务对学员行为进行分析;采用spark JavaSDK编写分析程序,对日志进行数据清洗和分析,计算关键词频次,计算课程浏览和学习人数,构建学员需求画像,建立学员标签集合;
3)、智能推荐
通过学员标签集合计算每个标签与当前学员的相关性,通过学员标签集合与课程标签集合向量空间计算出每个课程对于当前学员的推荐值C,并将资源库中的课程按照推荐值 C从大到小降序排列,将推荐值C最高的课程集合返回给web端;
4)、智能检索
根据学员输入的检索关键词进行分词、同义词转义处理,扩展关键词集合,分词词库和同义词词库支持自定义词库;
利用关键词集合和课程标签集合构造矩阵计算每个课程的相似值;根据权重配比计算相似课程的权值,并按照权值大小降序排列相似课程,返回检索结果集合。
为了保证课程标签的强关联性和可靠性,所述步骤1)中,包括自动打标签和手动打标签两种标签方式;
所述自动打标签是指当课程上传或修改时,通过IK分词器对课程关键信息字段进行分词,并将生成的分词结果集与标签词库进行匹配,标签词库自动化为课程打上标签,得到课程标签向量。
所述标签词库支持自定义扩展和更新,课程标签向量cTags={s1,s2,s3,…,sn}。
所述步骤2)中,通过大数据计算引擎spark对学员操作日志进行分析,具体实现流程如下:
S1.学员在操作网站的过程中将操作日志通过kafka消息中间件实时发送至分析服务;
S2.分析服务进行日志数据清洗,系统内日志具有很强的自主可控性,但是日志内容仍然冗余繁杂,需要去掉无用日志,挖掘具有特征性的操作日志;
S3.通过大数据计算引擎spark统计用户的浏览行为的关键操作,包括访问、浏览、搜索和点击,提炼出有效关键词,并进行词频计算,然后根据学员id进行合并,构建学员关键词画像;
S4.通过日志分析挖掘课程实时浏览量数据,并按照实时浏览数据设置课程权重,实时浏览数据越高,课程权重越高;
热门课程库存储结构为:UUID(识别码),学员id,时间戳,课程id。
学员关键词画像:SF=[{tag,frequency,latestTime}]。
所述词频统计公式如下:
Figure BDA0003385467430000071
其中,w指单个词语,c指某个课程(cource),WF(w,c)表示课程c中出现词w的频次,DF(w)表示包含词w的课程总数;
WF-IDF(w,c)用以评估词w对课程c的重要程度,WF表示词w在所有课程中出现的次数占课程总词数的比率,IDF(w,c)为逆文档频率,IDF(w,c)=lg(总课程数 /出现词w的课程数)。
词频统计效果如下:
userId:f0fb0608202b43c5b5a7bb80b3f257ad,大数据=3
userId:fbdbe868c566b4af7857088707fc278a2,娱乐=5
userId:f0fb0608202b43c5b5a7bb80b3f257ad,新媒体=2
所述步骤3)中,定义课程标签属性{s1,s2,s3,…,sn},如果当前课程c具有标签属性si,则令si=1,若不具备属性si,则令si=0,课程C的推荐值为:
Figure BDA0003385467430000072
其中,si表示课程资源标签,pi为课程标签si的权重,是步骤2)中构建学员画像SF所得:
其中,si表示课程资源标签,pi为课程标签si的权重,是步骤2)中构建学员画像SF所得:
Figure BDA0003385467430000081
所述步骤4)中,构造课程标签与扩充后的关键词集矩阵,对课程聚类,计算相似值,然后使用Elasticsearch搜索引擎提供的SDK(Software Development Kit,软件开发工具包) 设置权重配比,最后将课程检索结果集合返回;具体实现流程如下:
S1.在搜索框中输入检索关键词,进行检索时,采用Elasticsearch搜索引擎集成的IK 分词器对检索关键词进行分词,得到分词集keywords1={w1,w2,w3,…,wn};
S2.通过Elasticsearch搜索引擎对分词集keywords1进行同义词转换拓展,同义词词库支持自定义扩展,得到拓展后的关键词集keywords2={w1,s1,w2,s2,…,wn,sn};
S3.通过课程的学习数量和评分计算得到课程i的最终评分scorei;
S4.通过关键词集keywords2与课程资源库中的标签集合构造向量矩阵:
Figure BDA0003385467430000082
S5、利用改善后的余弦相似性算法,融合关键的课程评分字段计算与关键词集作为匹配的课程集合,将课程标签作为n维课程空间上的向量,得到课程与关键词数据集合的相似值Ws;
S6、通过Elasticsearch搜索引擎的聚合查询和嵌套查询功能,计算相似课程的权值W,公式如下:
W=Ws*scorei
S7、根据课程权值排序,通过Elasticsearch搜索引擎对检索结果集合高亮,流式分页返回检索结果。
所述步骤S3中,课程i的最终评分scorei计算公式为:
Figure BDA0003385467430000083
其中,Su,i为课程的学习数量,Ru,i为学员对课程的直接评分,评分范围设置在[0~ 10]。
所述步骤S5中,课程与关键词数据集合的相似值Ws通过两个向量之间的夹角余弦值进行计算,公式为:
Figure BDA0003385467430000091
用于实现该基于在线学习课程的智能化搜索推荐方法的系统,包括课程标签模块,日志分析模块,智能推荐模块和智能检索模块;
所述课程标签模块用于创建与上传课程视频时输入课程关键信息,并根据课程关键信息为课程打上标签,得到课程标签向量;
所述日志分析模块通过kafka消息中间件传输关键行为操作日志,并利用关键行为操作日志分析服务对学员行为进行分析;采用spark JavaSDK编写分析程序,对日志进行数据清洗和分析,计算关键词频次,计算课程浏览和学习人数,构建学员需求画像,建立学员标签集合;
所述智能推荐模块通过学员标签集合计算每个标签与当前学员的相关性,通过学员标签集合与课程标签集合向量空间计算出每个课程对于当前学员的推荐值C,并将资源库中的课程按照推荐值C从大到小降序排列,将推荐值C最高的课程集合返回给web端;
所述智能检索模块根据学员输入的检索关键词进行分词、同义词转义处理,扩展关键词集合;并利用关键词集合和课程标签集合构造矩阵计算每个课程的相似值,根据权重配比计算各个因素的权值,并按照权值大小降序排列各个因素,返回检索结果集合。
与现有技术相比,基于在线学习课程的智能化搜索推荐方法及系统,具有以下特点:
1、能够快速构建学员画像,定位学员需求;
2、即使在学员没有根据特定关键词搜索的情况下,也能实现精准推送课程;
3、采用预处理的方式,学员通过关键词搜索时,能够更快的返回课程检索结果集合;
4、通过课程及课时集(增子集)综合情况、学员画像、关键词相关度,并扩展相似度算法,实现精准搜索、精准定位。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:包括以下步骤:
1)、为课程打标签,建立课程标签集合
创建与上传课程视频时输入课程关键信息,包括课程章节,课程子课时,课时名称,章节目录名称,课程名称和课程简介;根据课程关键信息为课程打上标签,得到课程标签向量;
2)、分析日志,并根据关键词统计频次构建学员画像
通过kafka消息中间件传输关键行为操作日志,并利用关键行为操作日志分析服务对学员行为进行分析;采用spark JavaSDK编写分析程序,对日志进行数据清洗和分析,计算关键词频次,计算课程浏览和学习人数,构建学员需求画像,建立学员标签集合;
3)、智能推荐
通过学员标签集合计算每个标签与当前学员的相关性,通过学员标签集合与课程标签集合向量空间计算出每个课程对于当前学员的推荐值C,并将资源库中的课程按照推荐值C从大到小降序排列,将推荐值C最高的课程集合返回给web端;
4)、智能检索
根据学员输入的检索关键词进行分词、同义词转义处理,扩展关键词集合,分词词库和同义词词库支持自定义词库;
利用关键词集合和课程标签集合构造矩阵计算每个课程的相似值;根据权重配比计算相似课程的权值,并按照权值大小降序排列相似课程,返回检索结果集合。
2.根据权利要求1所述的基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:为了保证课程标签的强关联性和可靠性,所述步骤1)中,包括自动打标签和手动打标签两种标签方式;
所述自动打标签是指当课程上传或修改时,通过IK分词器对课程关键信息字段进行分词,并将生成的分词结果集与标签词库进行匹配,标签词库自动化为课程打上标签,得到课程标签向量;
所述标签词库支持自定义扩展和更新,课程标签向量cTags={s1,s2,s3,…,sn}。
3.根据权利要求3所述的基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:所述步骤2)中,通过大数据计算引擎spark对学员操作日志进行分析,具体实现流程如下:
S1.学员在操作网站的过程中将操作日志通过kafka消息中间件实时发送至分析服务;
S2.分析服务进行日志数据清洗,去掉无用日志,挖掘具有特征性的操作日志;
S3.通过大数据计算引擎spark统计用户的浏览行为的关键操作,包括访问、浏览、搜索和点击,提炼出有效关键词,并进行词频计算,然后根据学员id进行合并,构建学员关键词画像;
学员关键词画像:SF=[{tag,frequency,latestTime}];
S4.通过日志分析挖掘课程实时浏览量数据,并按照实时浏览数据设置课程权重,实时浏览数据越高,课程权重越高;
课程库存储结构为:识别码UUID,学员id,时间戳,课程id;
所述词频统计公式如下:
Figure FDA0003385467420000021
其中,w指单个词语,c指某个课程(cource),WF(w,c)表示课程c中出现词w的频次,DF(w)表示包含词w的课程总数;
WF-IDF(w,c)用以评估词w对课程c的重要程度,WF表示词w在所有课程中出现的次数占课程总词数的比率,IDF(w,c)为逆文档频率,IDF(w,c)=lg(总课程数/出现词w的课程数)。
4.根据权利要求1所述的基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:所述步骤3)中,定义课程标签属性{s1,s2,s3,…,sn},如果当前课程c具有标签属性si,则令si=1,若不具备属性si,则令si=0,课程C的推荐值为:
Figure FDA0003385467420000022
其中,si表示课程资源标签,pi为课程标签si的权重,是步骤2)中构建学员画像SF所得:
Figure FDA0003385467420000031
5.根据权利要求5所述的基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:所述步骤4)中,构造课程标签与扩充后的关键词集矩阵,对课程聚类,计算相似值,然后使用Elasticsearch搜索引擎提供的SDK设置权重配比,最后将课程检索结果集合返回;
具体实现流程如下:
S1.在搜索框中输入检索关键词,进行检索时,采用Elasticsearch搜索引擎集成的IK分词器对检索关键词进行分词,得到分词集keywords1={w1,w2,w3,…,wn};
S2.通过Elasticsearch搜索引擎对分词集keywords1进行同义词转换拓展,同义词词库支持自定义扩展,得到拓展后的关键词集keywords2={w1,s1,w2,s2,…,wn,sn};
S3.通过课程的学习数量和评分计算得到课程i的最终评分scorei;
S4.通过关键词集keywords2与课程资源库中的标签集合构造向量矩阵:
R11 R12 R1n
R21 R22 R2n
Rm1 Rm2 Rmn
S5、利用改善后的余弦相似性算法,融合关键的课程评分字段计算与关键词集作为匹配的课程集合,将课程标签作为n维课程空间上的向量,得到课程与关键词数据集合的相似值Ws;
S6、通过Elasticsearch搜索引擎的聚合查询和嵌套查询功能,计算相似课程的权值W,公式如下:
W=Ws*scorei
S7、根据课程权值排序,通过Elasticsearch搜索引擎对检索结果集合高亮,流式分页返回检索结果。
6.根据权利要求1所述的基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:所述步骤S3中,课程i的最终评分scorei计算公式为:
Figure FDA0003385467420000041
其中,Su,i为课程的学习数量,Ru,i为学员对课程的直接评分,评分范围设置在[0~10]。
7.根据权利要求1所述的基于在线学习课程的智能化搜索推荐方法及系统,其特征在于:所述步骤S5中,课程与关键词数据集合的相似值Ws通过两个向量之间的夹角余弦值进行计算,公式为:
Figure FDA0003385467420000042
8.一种用于实现权利要求1~7所述的基于在线学习课程的智能化搜索推荐方法的系统,其特征在于:包括课程标签模块,日志分析模块,智能推荐模块和智能检索模块;
所述课程标签模块用于创建与上传课程视频时输入课程关键信息,并根据课程关键信息为课程打上标签,得到课程标签向量;
所述日志分析模块通过kafka消息中间件传输关键行为操作日志,并利用关键行为操作日志分析服务对学员行为进行分析;采用spark JavaSDK编写分析程序,对日志进行数据清洗和分析,计算关键词频次,计算课程浏览和学习人数,构建学员需求画像,建立学员标签集合;
所述智能推荐模块通过学员标签集合计算每个标签与当前学员的相关性,通过学员标签集合与课程标签集合向量空间计算出每个课程对于当前学员的推荐值C,并将资源库中的课程按照推荐值C从大到小降序排列,将推荐值C最高的课程集合返回给web端;
所述智能检索模块根据学员输入的检索关键词进行分词、同义词转义处理,扩展关键词集合;并利用关键词集合和课程标签集合构造矩阵计算每个课程的相似值,根据权重配比计算各个因素的权值,并按照权值大小降序排列各个因素,返回检索结果集合。
CN202111451841.0A 2021-12-01 2021-12-01 一种基于在线学习课程的智能化搜索推荐方法及系统 Pending CN114139056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111451841.0A CN114139056A (zh) 2021-12-01 2021-12-01 一种基于在线学习课程的智能化搜索推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111451841.0A CN114139056A (zh) 2021-12-01 2021-12-01 一种基于在线学习课程的智能化搜索推荐方法及系统

Publications (1)

Publication Number Publication Date
CN114139056A true CN114139056A (zh) 2022-03-04

Family

ID=80386754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111451841.0A Pending CN114139056A (zh) 2021-12-01 2021-12-01 一种基于在线学习课程的智能化搜索推荐方法及系统

Country Status (1)

Country Link
CN (1) CN114139056A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357323A (zh) * 2022-03-19 2022-04-15 深圳市启程教育科技有限公司 基于外贸人才用课程推荐系统及方法
CN114490526A (zh) * 2022-04-02 2022-05-13 北京新唐思创教育科技有限公司 选课索引文件更新方法、课程搜索方法及装置
CN114756745A (zh) * 2022-03-29 2022-07-15 重庆义康鑫科技有限公司 一种基于大数据分析的智能信息推荐方法及装置
CN114969545A (zh) * 2022-06-16 2022-08-30 江苏智慧智能软件科技有限公司 一种心理健康课程个性化智能推荐系统及方法
CN115934780A (zh) * 2022-12-20 2023-04-07 中科世通亨奇(北京)科技有限公司 基于混合推荐和标签数据库的科技情报推荐方法
CN116257694A (zh) * 2023-05-16 2023-06-13 安徽教育网络出版有限公司 一种基于在线学习课程的智能化搜索推荐方法和系统
CN116541432A (zh) * 2023-05-22 2023-08-04 杭州精英在线教育科技股份有限公司 一种基于教育机器人的在线课堂智能推荐方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357323A (zh) * 2022-03-19 2022-04-15 深圳市启程教育科技有限公司 基于外贸人才用课程推荐系统及方法
CN114357323B (zh) * 2022-03-19 2022-06-03 深圳市启程教育科技有限公司 基于外贸人才课程推荐系统及方法
CN114756745A (zh) * 2022-03-29 2022-07-15 重庆义康鑫科技有限公司 一种基于大数据分析的智能信息推荐方法及装置
CN114490526A (zh) * 2022-04-02 2022-05-13 北京新唐思创教育科技有限公司 选课索引文件更新方法、课程搜索方法及装置
CN114969545A (zh) * 2022-06-16 2022-08-30 江苏智慧智能软件科技有限公司 一种心理健康课程个性化智能推荐系统及方法
CN114969545B (zh) * 2022-06-16 2023-10-13 江苏智慧智能软件科技有限公司 一种心理健康课程个性化智能推荐系统及方法
CN115934780A (zh) * 2022-12-20 2023-04-07 中科世通亨奇(北京)科技有限公司 基于混合推荐和标签数据库的科技情报推荐方法
CN116257694A (zh) * 2023-05-16 2023-06-13 安徽教育网络出版有限公司 一种基于在线学习课程的智能化搜索推荐方法和系统
CN116257694B (zh) * 2023-05-16 2023-08-22 安徽教育网络出版有限公司 一种基于在线学习课程的智能化搜索推荐方法和系统
CN116541432A (zh) * 2023-05-22 2023-08-04 杭州精英在线教育科技股份有限公司 一种基于教育机器人的在线课堂智能推荐方法
CN116541432B (zh) * 2023-05-22 2023-10-17 杭州精英在线教育科技股份有限公司 一种基于教育机器人的在线课堂智能推荐方法

Similar Documents

Publication Publication Date Title
CN114139056A (zh) 一种基于在线学习课程的智能化搜索推荐方法及系统
US8346701B2 (en) Answer ranking in community question-answering sites
Lu et al. A new algorithm for inferring user search goals with feedback sessions
JP5283208B2 (ja) 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
CN110516067A (zh) 基于话题检测的舆情监控方法、系统及存储介质
US8984398B2 (en) Generation of search result abstracts
US20110213761A1 (en) Searchable web site discovery and recommendation
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
US11875585B2 (en) Semantic cluster formation in deep learning intelligent assistants
US20050138079A1 (en) Processing, browsing and classifying an electronic document
Li et al. News contextualization with geographic and visual information
US11954137B2 (en) Data generation device and data generation method
CN116186372A (zh) 一种能够提供个性化服务的书目系统
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN108595411B (zh) 一种同主题文本集合中多文本摘要获取方法
Li et al. Improving relevance judgment of web search results with image excerpts
Gao et al. Personalized recommendation method for English teaching resources based on artificial intelligence technology
CN112749328A (zh) 搜索方法、装置和计算机设备
US20070112546A1 (en) Context modeling architecture and framework
US9305103B2 (en) Method or system for semantic categorization
CN115269961A (zh) 内容搜索方法以及相关设备
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
CN115130453A (zh) 互动信息生成方法和装置
Tian et al. Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge
CN112330387A (zh) 一种应用于看房软件的虚拟经纪人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination