CN110110225B - 基于用户行为数据分析的在线教育推荐模型及构建方法 - Google Patents
基于用户行为数据分析的在线教育推荐模型及构建方法 Download PDFInfo
- Publication number
- CN110110225B CN110110225B CN201910306546.2A CN201910306546A CN110110225B CN 110110225 B CN110110225 B CN 110110225B CN 201910306546 A CN201910306546 A CN 201910306546A CN 110110225 B CN110110225 B CN 110110225B
- Authority
- CN
- China
- Prior art keywords
- user
- criterion
- algorithm
- recommendation
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/08—Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
Abstract
本发明属于网络教育个性化推荐技术领域,公开了一种基于用户行为数据分析的在线教育推荐模型及构建方法,所述基于用户行为数据分析的在线教育推荐模型的构建方法包括:在候选频度属性集中增加了置信度和计算支持度的名词和名词短语、定义阈值以及超过阈值的词;利用邻近规则剪枝算法、独立支持度剪枝算法和规则词过滤剪枝去除无意义词和冗余词;筛选出一组准则。本发明可以缓解推荐算法的可扩展性问题,识别用户偏好,优化传统协同过滤推荐算法中的相似度算法,计算用户相似度,生成推荐。实验结果表明,基于用户偏好的个性化推荐算法能够有效地提高推荐质量。
Description
技术领域
本发明属于网络教育个性化推荐技术领域,尤其涉及一种基于用户行为数据分析的在线教育推荐模型及构建方法。
背景技术
目前,最接近的现有技术:随着互联网技术的飞速发展,智能手机、平板电脑等智能终端设备的大规模普及,4G等移动网络资源不再稀缺,数字化和移动在线学习已成为人们接受教育的新途径。以在线学习平台为代表的在线教育服务正在重塑传统的学习习惯,使人们能够随时随地进行分散的网络化学习。与传统的教育模式相比,网络教育具有学习时间分散、学习地点不限、内容目标性强、在线互动效率高、可重复学习等优点。它对学习风格从传统的“被动”课堂教学模式向“互动”在线教学模式的转变起到了重要作用。通过在线教育平台,用户可以突破传统教学模式的时空限制,随时选择感兴趣的内容进行有针对性的、零散的学习,学习方式变得更加灵活可控。同时,网络教育可以通过网络传输的便利性和Web2;0强大的互动性,为学习者提供在线交流和学习服务,从而实现学习者与教师、学习者和学习者的多维度互动,帮助学习者更好地理解课程的内容,解决学习过程中遇到的问题。越来越多的用户开始使用在线教育平台进行学习。对于在线学习教育平台来说,如何准确地向用户推荐满足其需求的产品是非常重要的,直接影响到用户体验的满意度。因此,对用户行为进行数据分析是非常必要的。
目前,对网络教育个性化推荐的研究较少,但越来越多的网络教育平台应用推荐技术来发现用户特征和消费模式,并有针对性地进行课程推荐。国内外在网络教育中引入个性化建议的例子不多。在实验中,没有合适的数据集,研究也存在许多困难。因此,利用产品属性挖掘方法可以确定推荐系统的准则集(criteria set),然后利用个性化推荐算法建立基于在线教育用户行为偏好的推荐模型,帮助用户过滤信息并做出决策。它使用软件从大量资源中识别最相关的项目,以探索用户对每个准则(criterion)的偏好,从而得到更准确的建议。
近年来,互联网在线教育平台越来越受到用户的青睐,许多学者对其进行了大量的相关研究。TAM模型作为大学生在线学习平台使用的一种有影响力的模型。研究发现,TAM模型可以有效地解释大学生使用在线学习平台的意愿。分析研究大学生网络课程学习的影响因素时发现,表现预期、社会影响、努力工作期望(hard work expectation)和网络课程学习意愿的积极影响,对于理论模型的选择和运用具有重要意义。随着学者们不断深化对网络教育的研究,越来越多的学者开始分析他们的用户行为和推荐模式。使用数据挖掘的相关工具来挖掘用户行为。通过实践验证了该方法的有效性,为进一步构建具有较大数据量的多个数据源和用户数据分析系统奠定了良好的基础。KimE提出了一种用户行为推荐算法,并实现了经典的Knn协同过滤模型和基于随机梯度下降的隐式因子分解-隐语义模型。基于用户行为数据的挖掘方法。研究发现,该算法结合了矩阵分解技术和多任务学习技术的优点,适用于处理海量用户行为数据。对浏览网页的用户的日志数据进行了分析,通过仿真实验进行了比较分析,并通过了相关测试。研究表明,该方法是可行的。以商业在线教育平台为研究对象,构建了在线教育平台用户课程支付意愿的影响因素模型,并通过实验验证了模型的可靠性。
综上所述,现有技术存在的问题是:随着网络教育用户数量的不断增加,如何准确地向用户推荐学习资源以满足用户的个性化需求,成为网络教育用户面临的关键问题。
发明内容
针对现有技术存在的问题,本发明提供了一种基于用户行为数据分析的在线教育推荐模型及构建方法。
本发明是这样实现的,一种基于用户行为数据分析的在线教育推荐模型的构建方法,所述基于用户行为数据分析的在线教育推荐模型的构建方法包括:
第一步,在候选频度属性集中增加了置信度和计算支持度的名词和名词短语、定义阈值以及超过阈值的词;
第二步,利用邻近规则剪枝算法、独立支持度剪枝算法和规则词过滤剪枝去除无意义词和冗余词;
第三步,筛选出一组准则。
进一步,所述基于用户行为数据分析的在线教育推荐模型的构建方法具体包括:关联规则事务文件的构造规则是名词和名词短语,对注释数据进行分割和标注,删除非名词;语音标记部分使用ICTCLA完成;删除非名词部分以构建关联规则事务文件;
关联规则事务文件中的每个句子都是一行,称为事务,名词是一个数据项;提取频度数据项集以定义最小支持和频度数据项集维度。
进一步,所述基于用户行为数据分析的在线教育推荐模型的构建方法的修剪处理具体包括邻近规则修剪、独立支持修剪和正规词过滤修剪三种方法;
邻近规则修剪,(a)对于频度数据项集合m,m包含n个名词,1≤2≤n,扫描预处理后的句子;(b)如果m中的词汇出现在句子a中,记录词汇w1,w2,...wn在句子a中的位置,执行步骤(c),否则执行步骤(a);(c)如果wi和wi+1之间的距离小于或等于两个单词,则认为,在A句中,频度数据项集m是相邻词,执行(d),否则执行(a);(d)频度数据项集m的邻近支持增加1;(e)如果m在至少t句中相邻,则将m添加到准则集。在T=(句子数量×最小支持度)是四舍五入取整的;
独立支持度剪枝算法,对于一维频度数据项集,计算一维频度数据项集a的出现次数;计算包含一维频度数据项集的二维频度数据项集的出现次数;计算A-B是一维频度数据项集的独立支持;如果一维频度数据项集的独立支持不小于最小支持度,则将该集添加到准则集A中;
正规词过滤修剪,将用户模型的特征空间表示为项目的一组准则,关键词表示为单个准则,特征空间表示为C={C1,C2,...,Ck};用户u的用户偏好模型是其中是用户u对准则k的权重,反映了用户u对准则k的重视程度,采用多准则决策方法;在推荐系统中,决策目标是item i,它属于所有候选集;集合中的元素称为候选项;四种决策问题类型如下:选择,对于多个备选方案的选择,从所有候选人中选择一个更合适的选项;分类是指将候选项分为多个预先确定的类别;排序,从最佳到最差对所有方案进行排序;描述每个候选项如何执行每个准则。
进一步,所述基于用户行为数据分析的在线教育推荐模型的构建方法为特定用户选择和推荐一个或多个合适的项目;根据它们的适用性将它们分类为预先定义的类别;根据特定项目对每个准则的评估,描述项目对特定用户的适用性;多准则决策中使用的UTA算法根据用户的项目历史得分计算出用户对准则的偏好,进而分析用户的决策策略;
对于目标用户来说,定义项目的整体效用函数是:
u(I)是item I的总效用并且ui(ri)是准则的边际效用函数Ci;对于准则Ci的得分ri, 为准则的最小得分,ri *是准则的最大得分;被分为[ri j,ri j+1]区间,区间ai-1相等;ai是在测试集中可以被排序的项目总数;ri j是由由公式2确定:
其中j=1,2,...,aii=1,2,...,k,ri属于一定的区间ri∈[ri j,ri j+1]和
进一步,所述基于用户行为数据分析的在线教育推荐模型的构建方法采用基于用户偏好的个性化推荐算法包括:
进一步,生成推荐的过程分为两个步骤:
首先,计算用户群中用户的相似度;
然后根据相似度和用户得分生成预测得分,并输出推荐;计算用户相似度;用户聚类后,得到用户聚簇,每一个类别中用户的偏好相似;对于基于用户偏好的个性化推荐算法,引入多准则评分后的R(U,I)包括一个整体评分和K-多准则评分;
最后,由于两个用户之间的距离与用户之间的相似度成反比,所以用户I、J的相似度计算公式定义为:
当用户之间的距离增加时,相似度将接近0;当两个用户对所有共同项目评分相同时,相似度为1。
本发明的另一目的在于提供一种由所述基于用户行为数据分析的在线教育推荐模型的构建方法构建的基于用户行为数据分析的在线教育推荐模型。
本发明的另一目的在于提供一种应用所述基于用户行为数据分析的在线教育推荐模型的网络在线学习平台。
综上所述,本发明的优点及积极效果为:本发明基于用户行为数据分析的推荐模型和算法可以作为解决大数据时代信息过载的有效手段,有助于用户从海量数据中寻找满足其兴趣偏好的资源,有利于在线教育的发展。本发明由重庆市儿童大数据工程实验室、重庆市电子工程技术互动学习研究中心、重庆市教委科技攻关项目(重庆市教育科学技术攻关项目编号:)资助。KJZDK201801601)。
附图说明
图1是本发明实施例提供的基于用户行为数据分析的在线教育推荐模型的构建方法流程图。
图2是本发明实施例提供的频度数据项集提取算法流程图。
图3是本发明实施例提供的四种算法的MAE值示意图。
图4是本发明实施例提供的四种算法的RMSE值示意图。
图5是本发明实施例提供的四种算法的精确度比较示意图。
图6是本发明实施例提供的四种算法的召回率比较示意图。
图7是本发明实施例提供的四种算法的f值比较示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
随着网络教育用户数量的不断增加,如何准确地向用户推荐学习资源以满足用户的个性化需求,成为网络教育用户面临的关键问题。本发明采用基于用户偏好行为数据分析的个性化推荐系统,对网上教育推荐模型进行了分析。利用产品属性挖掘方法确定推荐系统的准则集,然后利用个性化推荐算法进行用户偏好建模,探索用户对每个准则的偏好,产生更准确的推荐。结果表明,采用用户距离相似度的多准则推荐算法效果最好。使用这种基于用户偏好的个性化推荐算法可以有效地提高推荐质量。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于用户行为数据分析的在线教育推荐模型的构建方法包括以下步骤:
S101:在候选频度属性集中增加了置信度和计算支持度的名词和名词短语、定义阈值以及超过阈值的词;
S102:然后利用邻近规则剪枝算法、独立支持度剪枝算法和规则词过滤剪枝去除无意义词和冗余词;
S103:最后筛选出一组准则。
下面结合附图对本发明的应用原理作进一步的描述。
1、基于网络教育用户行为偏好的推荐模型构建
关联规则法是产品属性挖掘中常用的一种方法,在产品属性挖掘方法中被用来挖掘项目准则集。关联规则使用置信度和支持度来描述元素(elements)之间的关系。前提是在产品属性挖掘中对项目的相关句子进行分段,提取出名词和名词短语。在候选频度属性集中增加了置信度和计算支持度的名词和名词短语、定义阈值以及超过阈值的词;
然后利用邻近规则剪枝算法(proximity rule pruning)、独立支持度剪枝算法和规则词过滤剪枝去除无意义词和冗余词,最后筛选出一组准则。
该算法的具体过程如下:关联规则事务文件的构造规则主要是名词和名词短语,因此有必要对注释数据进行分割和标注,删除非名词。中文采用中国科学院技术研究所的ICTCLAS工具进行分词。语音标记部分还使用ICTCLA完成。删除非名词部分以构建关联规则事务文件。前三步处理后的文本发明件存储在关联规则事务数据库中,被称为关联规则事务文件。关联规则事务文件中的每个句子都是一行,称为事务,名词是一个数据项。提取频度数据项集(frequent item set)以定义最小支持和频度数据项集维度(此处,最小支持为1%,频度数据项集为2)。在先验算法中采用了频度数据项集提取算法。算法流程图如图2所示。
修剪处理。从这两个步骤中得到的准则集A需要进一步处理,以去除一些多余的词汇,包括邻近规则修剪、独立支持修剪和正规词过滤修剪(regular word filteringpruning)三种方法。(1)邻近规则修剪。在准则中,可能会有这样一个多维的项目集,例如“产品、手机”等,这些词不是产品本身的属性,因为它们的子项是频度数据项或频度数据集,所以它们被包含在准则中。通常,一个句子中相距较远的单词是用来讨论不同的话题的。例如,“产品,手机”这句话出现的很多,支持度和置信度都很高,但显然“产品,手机”不属于同一套准则。因此,有必要使用邻接规则修剪来去除这些没有语义关系的非紧邻频度数据项集。步骤如下:(a)对于频度数据项集合m,m包含n个名词(1≤2≤n),扫描预处理后的句子;(b)如果m中的词汇出现在句子a中,记录词汇w1,w2,...wn在句子a中的位置,执行步骤(c),否则执行步骤(a);(c)如果wi和wi+1之间的距离小于或等于两个单词,则认为,在A句中,频度数据项集m是相邻词,执行(d),否则执行(a);(d)频度数据项集m的邻近支持增加1;(e)如果m在至少t句中相邻,则将m添加到准则集。在T=(句子数量×最小支持度)是四舍五入取整的。
(2)独立支持度剪枝算法。在处理集中,删除了没有语义关系的非邻近频度数据项集,但也有一些一维集。例如,电影的“效果”,这个属性不能很准确地描述项目的属性,因为“效果”可能是电影的“动画效果”,也可能是“打斗效果”。因此,如果“效果”不与其他词汇结合,就不能表现出明确的属性,这将导致歧义、用户评价中的理解问题和推荐不准确。因此,有必要使用独立支持度剪枝算法来删除那些通常与其他词汇连在一起用的单词。步骤如下:对于一维频度数据项集,计算一维频度数据项集a的出现次数;计算包含一维频度数据项集的二维频度数据项集的出现次数;计算(A-B)是一维频度数据项集的独立支持。如果一维频度数据项集的独立支持不小于最小支持度,则将该集添加到准则集A中。
(3)正规词过滤修剪。由于用户评价的口语化和随机性,评价中存在着许多与用户相关的商品代词(commodity pronous)、范词或人称代词。因此,你需要使用正规词过滤器修剪来删除出现频率很高的正规词。正规词而非项目属性词主要包括:表示产品、品牌型号的词,如“apple”等;常用的口语名词,如“brands”等;常用的人称名词,如“classmates”和“mothers”。有必要考虑用户对推荐系统中每个准则的重视程度,即考虑用户对每个准则的偏好,因为不同的用户重视的准则不同。例如,有些用户更喜欢电影网站中具有良好故事情节的电影,而有些用户更喜欢具有良好视觉效果的电影,认为故事情节不太重要。本发明将用户模型的特征空间表示为项目的一组准则,关键词表示为单个准则,特征空间表示为C={C1,C2,...,Ck};用户u的用户偏好模型是其中是用户u对准则k的权重,反映了用户u对准则k的重视程度,为了在个性化推荐系统问题中引入多准则的概念,可以采用多准则决策方法。在推荐系统中,决策目标是item i,它属于所有候选集;集合中的元素称为候选项。四种决策问题类型如下:选择,对于多个备选方案的选择,从所有候选人中选择一个更合适的选项;分类是指将候选项分为多个预先确定的类别;排序,从最佳到最差对所有方案进行排序;描述每个候选项如何执行每个准则。这四类决策问题可以被视为以下建议问题:为特定用户选择和推荐一个或多个合适的项目;根据它们的适用性将它们分类为预先定义的类别,例如分类为“推荐购买”和“推荐浏览”项目;特定用户的所有可选项目都从最合适的到最不合适的进行排序,并为该用户进行推荐的排序。根据特定项目对每个准则的评估,描述项目对特定用户的适用性。这相当于对项目的所有准则的性能进行全面分析,并描述项目对特定用户的适用性(即帮助用户以个性化的方式做出选择)。在本发明中,多准则决策中使用的UTA算法可以根据用户的项目历史得分计算出用户对准则(即准则权重)的偏好,进而分析用户的决策策略。虽然此步骤中使用的UTA方法是多准则决策中的排序问题,但这并不意味着相应的推荐问题也必须属于此类问题。需要强调的是,在用户偏好建模过程中,只有UTA算法才能解决用户的准则权重计算问题,最终的目标仍然是预测用户在项目中的打分。UTA算法主要包括以下步骤:定义整体效用函数的基本思想是假设项目的整体效用是准则值的效用值之和,因此对于目标用户来说,定义项目的整体效用函数是:
u(I)是item I的总效用并且ui(ri)是准则的边际效用函数Ci;对于准则Ci的得分ri, 为准则的最小得分,ri *是准则的最大得分;被分为[ri j,ri j+1]区间,区间ai-1相等;ai是可以在测试集中可以被排序的项目总数;ri j是由由公式2确定:
其中j=1,2,...,aii=1,2,...,k,ri属于一定的区间ri∈[ri j,ri j+1]和
表1用户偏好矩阵
2、基于用户偏好的个性化推荐算法
协同过滤算法虽然在许多系统中得到了成功的应用,但仍然存在着一个严重的问题——可伸缩性问题。可伸缩性问题意味着随着系统的发展,系统中的数据量将迅速增加,系统识别近邻用户(neighbor users)的计算量将成倍增加。改善可伸缩性问题的一种方法是将具有类似偏好的用户分组,然后识别组中的邻居用户,而不是搜索整个用户组。这种方法被称为基于集群的协同过滤算法。学者们提出了多种基于集群的协同过滤算法。本发明采用K均值聚类算法对用户进行聚类。本发明的用户偏好聚类算法流程如下:(1)输入用户偏好矩阵,随机选择n个用户作为初始用户聚类中心点(cluster center)cj=(cj1,cj2,...,cjn),计算所有用户与中心点(用户聚类中心点除外)之间的距离以此分别把有相似点的用户分配到一个用户聚类中心。更新每个用户聚类中所有用户的平均值,使其成为新的用户聚类中心。如果用户聚类中心不变且收敛,则完成聚类,否则算法返回到步骤(2),直到聚类终止。生成推荐的过程分为两个步骤:首先,计算用户群中用户的相似度,然后根据相似度和用户得分生成预测得分,并输出推荐。计算用户相似度。用户聚类(user clustering)后,可以得到用户聚簇(user clusters),每一个类别中用户的偏好相似。协同过滤算法的主要步骤之一是计算目标用户和近邻用户之间的相似度。由于具有相似偏好的用户已首先被聚类,所以与目标用户在同一聚类中的所有用户只需要被当作近邻用户计算,且它们之间的相似度可以被计算。对于基于用户偏好的个性化推荐算法,引入多准则评分后的R(U,I)包括一个整体评分和K-多准则评分。也就是说,每个用户对每个项目都有K+1的评级。推荐系统不能直接使用传统的协同过滤算法的用户相似度计算公式,因此有必要改进传统的相似度计算方法以适应多准则评分。算法有三个主要改进:平均相似度算法:传统的相似度算法是计算两个用户的准则相似度,且取其均值作为两个用户之间的相似度。最小相似度算法:利用传统相似度算法计算两个用户准则的相似度,并取每个准则的相似度的最小值作为两个用户的相似度。最后,由于两个用户之间的距离与用户之间的相似度成反比,所以用户I、J的相似度计算公式定义为:
该公式保证了当用户之间的距离增加时,相似度将接近0。当两个用户对所有共同项目(比如,距离为0)评分相同时,相似度为1。
下面结合仿真对本发明的应用效果作详细的描述。
1、算法仿真与评价
表2
用户偏好矩阵的部分数据
User number | c<sub>1</sub> | c<sub>2</sub> | c<sub>3</sub> | c<sub>4</sub> |
1 | 0;232 | 0;046 | 0;238 | 0;484 |
2 | 0;399 | 0;185 | 0;112 | 0;304 |
3 | 0;236 | 0;152 | 0;35 | 0;262 |
4 | 0;382 | 0;363 | 0;148 | 0;107 |
5 | 0;528 | 0;21 | 0;118 | 0;144 |
6 | 0;14 | 0;214 | 0;229 | 0;417 |
… | … | … | … | … |
1000 | 0;098 | 0;506 | 0;16 | 0;236 |
1001 | 0;107 | 0;483 | 0;128 | 0;282 |
1002 | 0;184 | 0;171 | 0;197 | 0;448 |
1003 | 0;195 | 0;376 | 0;149 | 0;28 |
1004 | 0;147 | 0;18 | 0;409 | 0;264 |
1005 | 0;238 | 0;131 | 0;41 | 0;221 |
1006 | 0;179 | 0;454 | 0;125 | 0;242 |
1007 | 0;231 | 0;387 | 0;268 | 0;114 |
… | … | … | … | … |
通过用户偏好建模步骤建立的用户模型将具有相似偏好的用户聚类。实验分别为k=0(无聚类)、k=10、k=20、k=30、k=40、k=50。实验结果如下图所示。测试了传统的基于用户的协同过滤算法中的用户相似度算法和上述三种改进的多准则评分算法,包括平均相似度算法、最小相似度算法和用户距离相似度算法。平均相似度法(sim-avg):平均相似度算法计算的用户相似度矩阵如表3(k=0)所示。
表3用户相似度矩阵(SIM AVG)
最小相似度算法计算的用户相似度矩阵如表4所示。(k=0)
表4用户相似矩阵(sim-min)
用户距离相似度法是基于用户多维距离计算公式:首先,计算同一项目n的两个用户之间的距离:
2、算法性能评价与结果分析
测试了4种算法,包括传统的基于用户的协同过滤算法(user-CF)和3种改进的协同过滤算法,包括使用最小相似度的多准则推荐算法(MC-CF-min)、使用平均相似度的多准则推荐算法(MC-CF-avg)和使用用户距离相似度的多准则推荐算法(MC-CF-Dis),并对这四种算法的性能进行了评价。评价指标包括平均绝对误差(MAE)、均方根误差(RMSE)、准确率、召回率和F值。如图3和图4所示。
在实验过程中,用户偏好聚类算法能够有效的减少算法的运行时间,说明用户偏好聚类能够有效的缓解推荐算法的可扩展性问题。从实验结果可以看出,随着簇的数目在一定范围内的增加,四种算法的MAE值和RMSE值逐渐减小。与传统的基于用户的协同过滤算法(user-CF)相比,最小相似度多准则推荐算法(MC-CF-min)和平均相似度多准则推荐算法(MC-CF-avg)的MAE和RMSE值有较小的降低。使用用户距离相似度的多准则推荐算法(MC-CF-dis)的MAE和RMSE值有较大的下降,说明在相似度算法中,用户距离相似度算法的误差最小。因此,在推荐系统中使用这种基于用户偏好的个性化推荐算法可以有效提高推荐质量,如图5所示;
从实验结果可以看出,随着簇的数量在一定范围内的增加,四种算法的准确率逐渐提高。与传统的基于用户的协同过滤算法(user-CF)相比,最小相似度多准则推荐算法(minimum similarity multi-criteria recommendation algorithm,MC-CF-min)和平均相似度多准则推荐算法(average similarity multi-criteria recommendationalgorithm,MC-CF-avg)的准确率与user-CF基本相同或略有提高。利用用户距离相似度的多准则推荐算法(MC-CF-dis)的准确率得到了很大的提高。结果表明,在相似度算法中,用户距离相似度算法的准确率最高。因此,在推荐系统中使用基于用户偏好的个性化推荐算法可以有效提高推荐质量。计算了四种算法的召回率,结果如图6所示。从实验结果可以看出,随着簇数在一定范围内的增加,四种算法的召回率逐渐提高。与传统的基于用户的协同过滤算法(user-CF)相比,最小相似度多准则推荐算法(minimum similarity multi-criteria recommendation algorithm,MC-CF-min)和平均相似度多准则推荐算法(average similarity multi-criteria recommendation algorithm,MC-CF-avg)的召回率与user-CF基本相同或略有提高。使用用户距离相似度的多准则推荐算法(MC-CF-dis)的召回率有了很大的提高。结果表明,在相似度算法中,用户距离相似度算法的召回率最高。因此,在推荐系统中使用基于用户偏好的个性化推荐算法可以有效提高推荐质量。从实验结果可以看出,随着簇数在一定范围内的增加,四种算法的F值逐渐增大如图7所示。与传统的基于用户的协同过滤算法(user-CF)相比,最小相似度多准则推荐算法(MC-CF-min)和平均相似度多准则推荐算法(MC-CF-avg)的F值基本相同或略高于user-CF。使用用户距离相似度的多准则推荐算法(MC-CF-dis)的f值有较大的增加。结果表明,在相似度算法中,用户距离相似度算法的F值最高,因此在推荐系统中使用基于用户偏好的个性化推荐算法可以有效提高推荐质量。
本发明种基于用户偏好的个性化推荐系统。研究的主要内容包括:使用k-means算法根据用户的准则偏好进行用户聚类,将具有相似偏好的用户分为一类。这可以缓解推荐算法的可扩展性问题,识别用户偏好,优化传统协同过滤推荐算法中的相似度算法,计算用户相似度,生成推荐。最后,对基于用户偏好的个性化推荐算法进行了仿真实验。实验结果表明,基于用户偏好的个性化推荐算法能够有效地提高推荐质量。
本发明由重庆市儿童大数据工程实验室、重庆市电子工程技术互动学习研究中心、重庆市教委科技攻关项目(重庆市教育科学技术攻关项目编号:)资助。KJZDK201801601)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于用户行为数据分析的在线教育推荐模型的构建方法,其特征在于,所述基于用户行为数据分析的在线教育推荐模型的构建方法包括:
第一步,在候选频度属性集中增加了置信度和计算支持度的名词和名词短语、定义阈值以及超过阈值的词;
第二步,利用邻近规则剪枝算法、独立支持度剪枝算法和规则词过滤剪枝去除无意义词和冗余词;
第三步,筛选出一组准则;
所述基于用户行为数据分析的在线教育推荐模型的构建方法为特定用户选择和推荐一个或多个合适的项目;根据它们的适用性将它们分类为预先定义的类别;根据特定项目对每个准则的评估,描述项目对特定用户的适用性;多准则决策中使用的UTA算法根据用户的项目历史得分计算出用户对准则的偏好,进而分析用户的决策策略;
对于目标用户来说,定义项目的整体效用函数是:
u(I)是决策目标item i的总效用并且ui(ri)是准则的边际效用函数Ci;对于准则Ci的得分ri, 为准则的最小得分,ri *是准则的最大得分;被分为[ri j,ri j+1]区间,区间个数为ai-1,每个区间长度相等,ai是在测试集中可以被排序的项目总数;ri j是由由以下确定:
2.如权利要求1所述的基于用户行为数据分析的在线教育推荐模型的构建方法,其特征在于,所述基于用户行为数据分析的在线教育推荐模型的构建方法具体包括:关联规则事务文件的构造规则是名词和名词短语,对注释数据进行分割和标注,删除非名词;语音标记部分使用ICTCLA完成;删除非名词部分以构建关联规则事务文件;
关联规则事务文件中的每个句子都是一行,称为事务,名词是一个数据项;提取频度数据项集以定义最小支持和频度数据项集维度。
3.如权利要求1所述的基于用户行为数据分析的在线教育推荐模型的构建方法,其特征在于,所述基于用户行为数据分析的在线教育推荐模型的构建方法的修剪处理具体包括邻近规则修剪、独立支持修剪和正规词过滤修剪三种方法;
邻近规则修剪,(a)对于频度数据项集合m,m包含n个名词,1≤2≤n,扫描预处理后的句子;(b)如果m中的词汇出现在句子a中,记录词汇w1,w2,...wn在句子a中的位置,执行步骤(c),否则执行步骤(a);(c)如果wi和wi+1之间的距离小于或等于两个单词,则认为,在A句中,频度数据项集m是相邻词,执行(d),否则执行(a);(d)频度数据项集m的邻近支持增加1;(e)如果m在至少t句中相邻,则将m添加到准则集;在t=(句子数量×最小支持度)是四舍五入取整的;
独立支持度剪枝算法,对于一维频度数据项集,计算一维频度数据项集a的出现次数;计算包含一维频度数据项集的二维频度数据项集的出现次数;a-b是两个一维频数据项集的独立支持的计算;如果一维频度数据项集的独立支持不小于最小支持度,则将该集添加到准则集A中;
6.一种应用权利要求1所述基于用户行为数据分析的在线教育推荐模型的构建方法的网络在线学习平台。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910306546.2A CN110110225B (zh) | 2019-04-17 | 2019-04-17 | 基于用户行为数据分析的在线教育推荐模型及构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910306546.2A CN110110225B (zh) | 2019-04-17 | 2019-04-17 | 基于用户行为数据分析的在线教育推荐模型及构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110225A CN110110225A (zh) | 2019-08-09 |
CN110110225B true CN110110225B (zh) | 2020-08-07 |
Family
ID=67485595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910306546.2A Active CN110110225B (zh) | 2019-04-17 | 2019-04-17 | 基于用户行为数据分析的在线教育推荐模型及构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110225B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569446B (zh) * | 2019-09-04 | 2022-05-17 | 第四范式(北京)技术有限公司 | 一种构建推荐对象候选集的方法和系统 |
CN113516879B (zh) * | 2020-04-09 | 2023-03-31 | 北京一起教育信息咨询有限责任公司 | 小学生识字量测验方法及装置 |
KR102419667B1 (ko) * | 2020-09-03 | 2022-07-11 | 단국대학교 산학협력단 | 가상현실(vr)/증강현실(ar) 환경에서 협업 딥러닝을 활용한 개인 맞춤형 항공 조종사 훈련시스템 및 그 방법 |
CN112085099B (zh) * | 2020-09-09 | 2022-05-17 | 西南大学 | 一种分布式学生聚类集成方法及系统 |
CN112699302B (zh) * | 2021-01-05 | 2023-07-04 | 汕头大学 | 一种基于测地距离的实时推荐方法 |
CN113177181B (zh) * | 2021-06-29 | 2021-08-31 | 长沙豆芽文化科技有限公司 | 基于交互定制计划的在线教学信息推送方法及系统 |
CN114268836A (zh) * | 2021-11-16 | 2022-04-01 | 上海视九信息科技有限公司 | 电视小程序的冷启动推荐方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7305373B1 (en) * | 2002-12-10 | 2007-12-04 | Massachusetts Institute Of Technology | Incremental reduced error pruning |
CN103700005A (zh) * | 2013-12-17 | 2014-04-02 | 南京信息工程大学 | 一种基于自适应多最小支持度的关联规则推荐方法 |
CN104331862A (zh) * | 2014-10-14 | 2015-02-04 | 南京航空航天大学 | 一种并联型分数阶零相位滤波器及其滤波方法 |
CN104573124A (zh) * | 2015-02-09 | 2015-04-29 | 山东大学 | 一种基于并行化关联规则算法的教育云应用统计方法 |
CN106940801A (zh) * | 2016-01-04 | 2017-07-11 | 中国科学院声学研究所 | 一种用于广域网络的深度强化学习推荐系统及方法 |
CN106981056A (zh) * | 2017-03-31 | 2017-07-25 | 蒲亦非 | 一种基于分数阶偏微分方程的图像对比度增强滤波器 |
CN108182294A (zh) * | 2018-01-31 | 2018-06-19 | 湖北工业大学 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725661B1 (en) * | 2011-04-07 | 2014-05-13 | Google Inc. | Growth and use of self-terminating prediction trees |
CN105117424B (zh) * | 2015-07-31 | 2019-08-02 | 中国科学院软件研究所 | 一种基于停留时间的移动对象语义行为模式挖掘方法 |
CN105183841B (zh) * | 2015-09-06 | 2019-03-26 | 南京游族信息技术有限公司 | 大数据环境下结合频繁项集和深度学习的推荐方法 |
CN108022057A (zh) * | 2017-12-29 | 2018-05-11 | 科大讯飞股份有限公司 | 学习行为分析方法及系统 |
-
2019
- 2019-04-17 CN CN201910306546.2A patent/CN110110225B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7305373B1 (en) * | 2002-12-10 | 2007-12-04 | Massachusetts Institute Of Technology | Incremental reduced error pruning |
CN103700005A (zh) * | 2013-12-17 | 2014-04-02 | 南京信息工程大学 | 一种基于自适应多最小支持度的关联规则推荐方法 |
CN104331862A (zh) * | 2014-10-14 | 2015-02-04 | 南京航空航天大学 | 一种并联型分数阶零相位滤波器及其滤波方法 |
CN104573124A (zh) * | 2015-02-09 | 2015-04-29 | 山东大学 | 一种基于并行化关联规则算法的教育云应用统计方法 |
CN106940801A (zh) * | 2016-01-04 | 2017-07-11 | 中国科学院声学研究所 | 一种用于广域网络的深度强化学习推荐系统及方法 |
CN106981056A (zh) * | 2017-03-31 | 2017-07-25 | 蒲亦非 | 一种基于分数阶偏微分方程的图像对比度增强滤波器 |
CN108182294A (zh) * | 2018-01-31 | 2018-06-19 | 湖北工业大学 | 一种基于频繁项集增长算法的电影推荐方法及系统 |
Non-Patent Citations (2)
Title |
---|
"中文评论中产品特征挖掘的剪枝算法研究";李实 等;《计算机工程》;20111205;第37卷(第23期);第3.1节-第3.2节 * |
面向个性化学习的远程在线教育资源推荐;龙世荣 等;《广西教育学院学报》;20181210;第二节-第三节 * |
Also Published As
Publication number | Publication date |
---|---|
CN110110225A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110209808B (zh) | 一种基于文本信息的事件生成方法以及相关装置 | |
Zhang | Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
Cheng et al. | Unsupervised sentiment analysis with signed social networks | |
CN102929861B (zh) | 一种文本情感指数计算方法和系统 | |
CN110597962B (zh) | 搜索结果展示方法、装置、介质及电子设备 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN111259263B (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
CN107038184B (zh) | 一种基于分层隐变量模型的新闻推荐方法 | |
CN103577549A (zh) | 一种基于微博标签的人群画像系统和方法 | |
US20200192921A1 (en) | Suggesting text in an electronic document | |
CN102004772A (zh) | 一种用于根据检索词进行搜索结果排序的方法及设备 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN110442872A (zh) | 一种文本要素完整性审核方法及装置 | |
Liu et al. | Using collaborative filtering algorithms combined with Doc2Vec for movie recommendation | |
Raghuvanshi et al. | A brief review on sentiment analysis | |
CN111221968A (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN106126605A (zh) | 一种基于用户画像的短文本分类方法 | |
CN110110220A (zh) | 融合社交网络和用户评价的推荐模型 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
Jing et al. | Identification of microblog opinion leader based on user feature and interaction network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |