CN111881172B - 一种基于答题统计特征的题目推荐系统 - Google Patents

一种基于答题统计特征的题目推荐系统 Download PDF

Info

Publication number
CN111881172B
CN111881172B CN202010724420.XA CN202010724420A CN111881172B CN 111881172 B CN111881172 B CN 111881172B CN 202010724420 A CN202010724420 A CN 202010724420A CN 111881172 B CN111881172 B CN 111881172B
Authority
CN
China
Prior art keywords
question
topic
query
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010724420.XA
Other languages
English (en)
Other versions
CN111881172A (zh
Inventor
陈建海
马万腾
沈睿
周瑞祺
余林恩
何钦铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010724420.XA priority Critical patent/CN111881172B/zh
Publication of CN111881172A publication Critical patent/CN111881172A/zh
Application granted granted Critical
Publication of CN111881172B publication Critical patent/CN111881172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于答题统计特征的题目推荐系统,属于计算机辅助教学领域与数据挖掘领域,包括题目获取模块、预处理模块、查询特征配置模块、用户界面、特征处理模块、聚类计算模块和题目推荐模块。本推荐系统利用二次聚类的方式对从教学平台后台上任意给定的获取的题目集中高效筛选出与最能针对性解决用户需求的试题,采用多种评估方式相结合方法,基于答题统计特征能够较强的代表某一时间段内的用户对每一道题的掌握情况,且会随着掌握程度的提升以及教育质量的提升动态更新特征值的数值。在推荐中结合了聚类结果中类内信息及类间信息,保证了所推荐试题具有较强的代表性。弥补了辅助教学平台上相似题目过多,没有典型题目筛选机制的缺陷。

Description

一种基于答题统计特征的题目推荐系统
技术领域
本发明涉及计算机辅助教学领域与数据挖掘领域,尤其涉及一种基于答题统计特征的题目推荐系统。
背景技术
随着计算机和互联网技术的普及与流行,在线辅助教学平台的重要性与必要性日益显现。当今有许多平台,例如作业帮、拼题A、中国大学MOOC等,致力于研究数据驱动的数字教学个性化服务、个性化智能导学等,一般提供填空题、选择题、判断题等多种题型的自动判题功能。
一些在线辅助教学平台经过长期的运营,拥有大量的原创题库和学生练习记录,累积了海量的结构化教学评测数据,这些评测数据蕴藏着不同层次的学习者在不同阶段的学习表现,也反映了全国各地上千位教师贡献的数万题的质量信息。
然而,当前题库较大的在线教育平台大多存在着如下问题:
(1)同一知识点大量题目内容相近。在共享开放平台中,每门课程的每个知识点下都有来自不同层次高校的众多教师贡献的题目,这些题目对知识点的考察角度不同,题目难易层次也有差别;但同一个知识点下存在许多题目,其内容间互相交叉,难易程度相近。这些题目的存在使得学习者要花费较多时间做相似的题,难以提高学习效率。
(2)缺乏具有针对性题目的推送功能。现有的推送功能只是推送出一些与所属知识点相关的题目,而老师在考试或作业出题,学生在自主练习做题时都常常面临题目选择的问题,而选择一道题时不仅要考虑这道题包含的知识点和难度,还要考虑其在同类题目中的典型程度,这使得学习者无法快速找到高质量、有代表性的题目。
现有技术中还存在一些通过决策树等方式进行个性化作业推送的报道,针对不同学生的薄弱知识点进行个性化题目推荐,通过强化作业训练提高学生对薄弱知识点的掌握程度,但其推荐的试题评价准则单一,忽略了同一知识点下不同试题之间的关系,同样存在所推荐试题缺乏代表性的缺陷。
研究一种能够针对用户提出的需求对题目进行高效筛选和推送的系统,有助于学习者在制定个性化的训练方案时提高训练的针对性和效率,避免重复训练。
发明内容
为了解决当前辅助教学平台中大量题目内容相近,无法根据用户需求推荐更具有典型性的题目的缺陷,本发明提出了一种基于答题统计特征的题目推荐系统。利用二次聚类的方式对从教学平台后台获取的题目集中高效筛选出与最能针对性解决用户需求的试题,采用了多种评估方式相结合的方法,在特征选择上,基于答题统计特征能够较强的代表某一时间段内的用户对每一道题的掌握情况,且会随着掌握程度的提升以及教育质量的提升动态更新特征值的数值。在推荐标准上,结合了聚类结果中类内信息及类间信息,保证了所推荐试题具有较强的代表性。
为了实现上述目的,本发明采用如下技术方案:
一种基于答题统计特征的题目推荐系统,包括:
题目获取模块:用于实时获取一段时间内的教学平台后台题目数据和用户练习记录数据,题目数据包括题目ID、总分、引用次数、用户ID、得分、提交时间和答题分布;同时建立题目ID、题目内容与所属知识点之间的题目ID-题目内容-知识点映射关系,所述题目内容包括试题和答案;
预处理模块:用于将题目获取模块采集到的题目数据和用户练习记录数据进行数据清洗,将清洗后的题目数据生成题目知识库;
查询特征配置模块:用于提取并配置题目知识库的题目查询特征q={xj},且j=1,2,…Q,Q为题目查询特征数量;所述的题目查询特征包括引用次数、平均提交次数、平均得分和题目难度;
用户界面:供用户输入查询的关键内容,所述关键内容包括期望查询的知识点C、期望获得的题目数量M、以及允许用户为不同的题目查询特征设置特征权重w1,w2…wQ,其中wj为题目的第j个查询特征权重,默认为1;生成查询向量r={C,M,w1,w2…wQ};
特征处理模块:读取用户界面获得的查询向量r,根据预先建立的题目ID-题目内容-知识点映射关系,选择题目知识库中位于用户查询知识点C下的所有题目ID,根据查询特征配置模块的配置结果生成题目查询特征矩阵I∈Rn×Q,n为查询知识点下的所有题目数量;对题目查询特征矩阵I进行标准化处理得到
Figure BDA0002601155900000021
且i=1,2,…n;j=1,2,…Q,其中
Figure BDA0002601155900000022
是标准化后的查询知识点C下第i个题目的第j个查询特征;根据查询向量r中的特征权重得到最终的查询特征矩阵
Figure BDA0002601155900000031
聚类计算模块:包括第一聚类单元、第二聚类单元、判断单元;
将查询特征矩阵
Figure BDA0002601155900000032
作为第一聚类单元的输入,得到第一聚类结果;所述第一聚类结果包括类簇数K和初始类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K
将查询特征矩阵
Figure BDA0002601155900000033
作为第二聚类单元的输入,并将第一聚类单元输出的类簇数K和类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K作为第二聚类单元的目标条件,输出最终类中心Θ=[θ1,...,θk]∈RQ×K
判断单元用于根据距离每一个题目最近的类中心判断每一个题目ID所属的类;
题目推荐模块:用于计算每一个题目ID的推荐得分值,并将所有题目ID按照推荐得分值从高到低进行排序,将前M个题目ID作为筛选结果,根据题目ID-题目内容-知识点映射关系,将M个题目ID对应的试题及所属知识点推送给用户。
本发明具备的有益效果是:
(1)本发明对辅助教学平台上的题目进行了典型性的挖掘分析,在推荐系统中充分考虑了用户的需求,允许用户为不同的题目查询特征设置特征权重,包括用户关注的题目引用、得分、难度等,在满足客户需求的条件下推荐该知识点下最具代表性的题目。在推荐过程中对所属知识点下的所有题目的推荐得分进行了科学量化,结合了聚类结果中类内信息及类间信息,给出了更加科学的评分标准,能够得到每一道题目的推荐分数,该推荐分数不仅能够用于执行本发明中的典型性题目推荐任务,解决由于平台上相似题目过多、同一知识点下题目冗杂导致的用户学习训练低效的问题,还可以指导老师编写更具代表性的题目、以及引导训练系统的设计,优化题库,具备推广前景。
(2)本发明建立了以答题统计特征为基础的特征池,包括引用次数、提交次数、平均得分和平均得分率等,将特征池中的指标进行组合、转换后生成用于配置题目知识库的题目查询特征,该题目查询特征能够较强的代表某一时间段内的用户对每一道题的掌握情况,且会随着掌握程度的提升、教育质量的提升、题库的优化等动态更新特征值的数值,并且引入了基于答题分布和平均得分率的难度值来动态表征试题难度,解决了题库内难度标注不准问题。因此,基于本发明提出的特征动态生成方法具备更准确的代表性。
(3)在单一聚类算法的应用中,通常选择K-Means算法、均值漂移聚类等,但由于每一个知识点下的题目数量不同,往往难以确定类簇数,而不同预设参数的选择会对聚类结果产生较大的影响。本发明采用二次聚类的方式解决了类数难以确定、且传统聚类算法对类中心参数十分敏感导致的聚类结果不稳定的问题,首先随机挑选多个小规模数据集联合进行第一聚类单元的训练以调节参数,第一聚类单元选用无需设定类簇数参数的聚类算法,用于生成类簇数及初始类中心,如DBSCAN聚类算法,能够高效的给出第二聚类单元的初始参数,避免了人工对聚类算法参数的主观性调整,提高了聚类算法输出结果的稳定性。
附图说明
图1为本发明的整体架构示意图;
图2为本发明的预处理模块示意图;
图3为本发明的特征提取及标准化工作示意图;
图4为本发明的聚类过程示意图;
图5为典型性分数的计算方式示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
在图1中可以看到,本发明的源数据为是教学平台后台的数据集,具体包括题目信息和与题目有关的所有提交信息,根据中间过程计算得到的相应题目集的题目典型性分数,实现推荐系统的试题推荐,整个过程简洁明了。对于方法的内部实现,分为题目获取模块、预处理模块、查询特征配置模块、用户界面、特征处理模块、聚类计算模块、题目推荐模块。
题目获取模块:用于实时获取一段时间内的教学平台后台题目数据和用户练习记录数据,题目数据包括题目ID、总分、引用次数、用户ID、得分、提交时间和答题分布;同时建立题目ID、题目内容与所属知识点之间的题目ID-题目内容-知识点映射关系,所述题目内容包括试题和答案;所述的答题分布指所有用户对同一道题作答结果的频率分布,例如选择题中回答四个选项的提交次数各占本题所有提交次数的频率分布为a,b,c,d(a+b+c+d=1),这个频率分布就叫答题分布;
预处理模块:用于将题目获取模块采集到的题目数据和用户练习记录数据进行数据清洗,将清洗后的题目数据生成题目知识库;
查询特征配置模块:用于提取并配置题目知识库的题目查询特征q={xj},且j=1,2,…Q,Q为题目查询特征数量;
用户界面:供用户输入查询的关键内容,所述关键内容包括期望查询的知识点C、期望获得的题目数量M、以及允许用户为不同的题目查询特征设置特征权重w1,w2…wQ,其中wj为题目的第j个查询特征权重,默认为1;生成查询向量r={C,M,w1,w2…wQ};
特征处理模块:读取用户界面获得的查询向量r,根据预先建立的题目ID-题目内容-知识点映射关系,选择题目知识库中位于用户查询知识点C下的所有题目ID,根据查询特征配置模块的配置结果生成题目查询特征矩阵I∈Rn×Q,n为查询知识点下的所有题目数量;对题目查询特征矩阵I进行标准化处理得到
Figure BDA0002601155900000051
且i=1,2,…n;j=1,2,…Q,其中
Figure BDA0002601155900000052
是标准化后的查询知识点C下第i个题目的第j个查询特征;根据查询向量r中的特征权重得到最终的查询特征矩阵
Figure BDA0002601155900000053
聚类计算模块:包括第一聚类单元、第二聚类单元和判断单元;
将查询特征矩阵
Figure BDA0002601155900000054
作为第一聚类单元的输入,得到第一聚类结果;所述第一聚类结果包括类簇数K和初始类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K
将查询特征矩阵
Figure BDA0002601155900000055
作为第二聚类单元的输入,并将第一聚类单元输出的类簇数K和类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K作为第二聚类单元的目标条件,输出最终类中心Θ=[θ1,...,θk]∈RQ×K
判断单元用于根据距离每一个题目最近的类中心判断每一个题目ID所属的类;
题目推荐模块:用于计算每一个题目ID的推荐得分值,并将所有题目ID按照推荐得分值从高到低进行排序,将前M个题目ID作为筛选结果,根据题目ID-题目内容-知识点映射关系,将M个题目ID对应的试题及所属知识点推送给用户。
在本发明的一个具体实施中给出了题目获取模块和预处理模块的介绍,这两个模块用于生成按照一定规则和格式存储的题目知识库。
所述题目获取模块可获取多平台数据,通过针对不同的平台所在搜索数据库制定网页爬虫规则,使用预设的爬虫程序爬取所需的题目数据和用户练习记录数据。根据获取后的数据建立题目ID、题目内容与所属知识点之间的题目ID-题目内容-知识点映射关系,所述题目内容包括试题和答案。
如图2所示,数据预处理流程包括数据异常处理,数据缺失处理,数据重复处理。首先进行数据重复处理,删除重复数据;之后进行数据缺失处理,将题目引用数,题目所属知识点信息,提交数据中存在缺失的题目和提交信息删除;对于数据异常,要删除提交时间、登陆等存在明显异常,题目得分取值超出阈值的数据,删除用户名异常的数据;之后删除引用次数少于10次的题目数据。
预处理后的后台数据分别储存在submission文件和problem文件中;提交数据储存在submission文件中,每一行代表一个提交信息,其包含信息:提交用户ID、每次提交的题目ID、本次提交的得分和提交时间;而题目的信息储存在problem文件中,其包含每道题的引用次数,题目总分,题目所属知识点信息等。submission文件和problem文件共同构成了题目知识库。
在本发明的一个具体实施中给出了查询特征配置模块、用户界面、特征处理模块的介绍,这三个模块用于根据用户需求,有针对性的生成题目特征集。
本发明可以首先建立一个基于答题统计特征的特征池,最终选用的查询特征都可以基于特征池中的参数组合、转换后生成,特征池中存储的参数为能够代表题目难度、得分、热度等信息,如引用次数、提交次数、平均得分和平均得分率等。将最终选用的查询特征表示为q={xj},且j=1,2,…Q,Q为题目配置的查询特征数量。查询特征配置模块需要在推荐系统中预先配置好,如图3,将平均得分、平均引用次数、题目难度、平均提交次数共四个特征作为本实施例的配置结果。对于每个题目,计算关于此题的所有提交结果的平均得分(其中对每一个相同的人只根据时间顺序取前5次提交)。再根据题目ID查找到problem文件中此题目的引用次数;遍历submission文件可以得出每道题的平均提交次数。根据problem文件中题目所属知识点信息可计算知识点下平均得分。其中对于题目难度定义公式:
Difficulty(Xi)=φ(mK(Xi))+ψ(m(Xi)-mK(Xi))+r(V(Xi))
Difficulty(Xi)是题目Xi的难度特征值,
Figure BDA0002601155900000061
为题目Xi的平均得分率,
Figure BDA0002601155900000062
为题目Xi的平均得分,Fi为题目Xi的总分;mK(Xi)为题目Xi所属的知识点下所有题目平均得分率的均值;V(Xi)为关于题目Xi的学生答题分布与真实题目答案分布之间的交叉熵。在本示例中,φ(·),ψ(·),r(·)均为单调增函数,取
Figure BDA0002601155900000063
Figure BDA0002601155900000064
在用户界面,是基于查询特征配置模块的配置结果进行与用户之间的交互。用户需要选择期望查询的知识点C、期望获得的题目数量M。题目查询特征设置特征权重与查询特征配置模块配置好的特征相匹配,选用更直观的方式直接显示在用户界面上,、允许用户为不同的题目查询特征设置特征权重w1,w2…wQ,其中wj为题目的第j个查询特征权重,默认为1;当用户选择不修改权重时,即根据每一部分权重相同的默认值进行后续的题目筛选步骤,若用户比较在意题目的热度,即题目的平均引用次数,可以在题目热度的选项前调整权值选择框,将默认值1修改为更大的数值。根据用户界面的提交结果生成查询向量r={C,M,w1,w2…wQ}。用户界面允许同时输入多个期望查询的知识点,每一个知识点对应的题目推荐过程单独进行。
特征处理模块读取用户界面获得的查询向量r,根据预先建立的题目ID-题目内容-知识点映射关系,选择题目知识库中位于用户查询知识点C下的所有题目ID,根据查询特征配置模块的配置结果生成题目查询特征矩阵I∈Rn×Q,n为查询知识点下的所有题目数量;对题目查询特征矩阵I进行标准化处理得到
Figure BDA0002601155900000071
且i=1,2,…n;j=1,2,…Q,其中
Figure BDA0002601155900000072
是标准化后的查询知识点C下第i个题目的第j个查询特征;在标准化过程中,将平均得分除以此题总分可以得到标准化的平均得分;难度、引用次数、平均提交次数均采用除以相应特征数值中的最大值的方式。经过标准化后可以得到标准化特征数据。根据查询向量r中的特征权重得到最终的查询特征矩阵
Figure BDA0002601155900000073
在本发明的一个具体实施中给出了聚类计算模块、题目推荐模块的介绍,这两个模块用于通过聚类算法给出最终的推荐结果。聚类计算模块包括第一聚类单元和第二聚类单元,图4所示为二次聚类过程。对于二次聚类过程,首先随机抽取3-5个题目数在150-200的知识点。第一聚类单元选用DBSCAN聚类算法,对于DBSCAN的参数,设置半径R在[0.1,0.5]之间,最小数目在[2,4]之间等距遍历,并将算法应用于抽取的知识点下的题目集中。若找到一组参数使得DBSCAN在每个抽取到的知识点下的题目集上运行的到类数均在5-10个,则将其设为所需参数。之后在给定知识点包含的题目集上运行DBSCAN算法得到第一聚类结果;所述第一聚类结果包括类簇数K和类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K,所述类簇数K的范围为5-10。将其作为第二聚类单元的输入进行第二次聚类,第二次聚类过程为:
输入:初始类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K,数据矩阵
Figure BDA0002601155900000074
参数s0<0,μ>1
设置m从0开始重复迭代:
1.
Figure BDA0002601155900000081
其中,i=1,...,n;j=1,...,K;wm,ij表示第m次迭代计算时的权重,xi表示查询特征矩阵
Figure BDA0002601155900000082
中第i行数据的转置,为一个列向量,对应第i个题目;sm表示第m次迭代计算后的聚类参数,||·||表示范数;θm,j为类中心,下角标m是迭代计算次数,初始为0;
2.更新类中心θm+1,j
Figure BDA0002601155900000083
sm+1=μ·sm
m=m+1
3.重复步骤2-3,直至收敛,将最终的类中心更新结果表示为Θ=[θ1,...,θk],得到聚类结果。
4.根据距离每一个题目最近的类中心判断每一个题目ID所属的类。
题目推荐模块计算每一个题目的得分,分数的计算过程如图5所示,对得到的聚类结果,根据定义:
Figure BDA0002601155900000084
s(Xj,Xi)+d(Xj,Xi)=1
Figure BDA0002601155900000086
计算题目Xi的典型性得分Typicality(Xi),此例中选择相似度s(X,Y)=e-||X-Y||,而单调函数
Figure BDA0002601155900000085
将得分从高到低进行排序,当不同题目ID对应相同推荐得分值时,判断相同得分的题目ID所属的类,若属于同一类,则随机排序;若属于不同的类,则判断所述不同的类中高于所述相同推荐得分值的题目数量,将题目数量较少的类对应的题目ID排在前,若题目数量相同,则随机排序。将前M个题目ID作为筛选结果,根据题目ID-题目内容-知识点映射关系,将M个题目ID对应的试题及所属知识点推送给用户。
实施例
表格1,2给出了上述具体实施流程在PTA平台的后台数据集中的“二叉树及其遍历”知识点下的部分输出结果:
此知识点共有题目262道,算法将题目分为9类,其中得到部分典型性评分较高的题目如下:
表1得分较高的题目
Figure BDA0002601155900000091
表2得分较低的题目
Figure BDA0002601155900000092
Figure BDA0002601155900000101
可以看出,典型性较高的题目大多较为直观,题目对知识点的考察直白明了。而典型性较低的题目与知识点的相关程度则相对不高,或对知识点的考察方式较为隐晦。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于答题统计特征的题目推荐系统,其特征在于,包括:
题目获取模块:用于实时获取一段时间内的教学平台后台题目数据和用户练习记录数据,题目数据包括题目ID、总分、引用次数、用户ID、得分、提交时间和答题分布;同时建立题目ID、题目内容与所属知识点之间的题目ID-题目内容-知识点映射关系,所述题目内容包括试题和答案;
预处理模块:用于将题目获取模块采集到的题目数据和用户练习记录数据进行数据清洗,将清洗后的题目数据生成题目知识库;
查询特征配置模块:用于提取并配置题目知识库的题目查询特征q={xj},且j=1,2,...Q,Q为题目查询特征数量;所述的题目查询特征包括引用次数、平均提交次数、平均得分和题目难度;
用户界面:供用户输入查询的关键内容,所述关键内容包括期望查询的知识点C、期望获得的题目数量M、以及允许用户为不同的题目查询特征设置特征权重w1,w2...wQ,其中wj为题目的第j个查询特征权重,默认为1;生成查询向量r={C,M,w1,w2...wQ};
特征处理模块:读取用户界面获得的查询向量r,根据预先建立的题目ID-题目内容-知识点映射关系,选择题目知识库中位于用户查询知识点C下的所有题目ID,根据查询特征配置模块的配置结果生成题目查询特征矩阵I∈Rn×Q,n为查询知识点下的所有题目数量;对题目查询特征矩阵I进行标准化处理得到
Figure FDA0002601155890000011
且i=1,2,...n;j=1,2,...Q,其中
Figure FDA0002601155890000012
是标准化后的查询知识点C下第i个题目的第j个查询特征;根据查询向量r中的特征权重得到最终的查询特征矩阵
Figure FDA0002601155890000013
聚类计算模块:包括第一聚类单元、第二聚类单元、判断单元;
将查询特征矩阵
Figure FDA0002601155890000014
作为第一聚类单元的输入,得到第一聚类结果;所述第一聚类结果包括类簇数K和初始类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K
将查询特征矩阵
Figure FDA0002601155890000015
作为第二聚类单元的输入,并将第一聚类单元输出的类簇数K和类中心Θ0=[θ0,1,...,θ0,K]∈RQ×K作为第二聚类单元的目标条件,输出最终类中心Θ=[θ1,...,θk]∈RQ×K
判断单元用于根据距离每一个题目最近的类中心判断每一个题目ID所属的类;
题目推荐模块:用于计算每一个题目ID的推荐得分值,并将所有题目ID按照推荐得分值从高到低进行排序,将前M个题目ID作为筛选结果,根据题目ID-题目内容-知识点映射关系,将M个题目ID对应的试题及所属知识点推送给用户。
2.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述第一聚类单元选用DBSCAN聚类算法。
3.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述第二聚类单元的计算步骤为:
步骤1:初设聚类参数s0<0,μ>1;
步骤2:计算权重:
Figure FDA0002601155890000021
其中,i=1,...,n;j=1,...,K;wmm,ij表示第m次迭代计算时的权重,xi表示查询特征矩阵
Figure FDA0002601155890000025
中第i行数据的转置,为一个列向量,对应第i个题目;sm表示第m次迭代计算后的聚类参数,||·||表示范数;θm,j为类中心,下角标m是迭代计算次数,初始为0;
步骤3:更新类中心θm+1,j
Figure FDA0002601155890000022
sm+1=μ·sm
步骤4:重复步骤2-3,直至收敛,将最终的类中心更新结果表示为Θ=[θ1,...,θk]。
4.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述类簇数K的范围为5-10。
5.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述推荐得分值的计算公式为:
Figure FDA0002601155890000023
s(Xj,Xi)+d(Xj,Xi)=1
Figure FDA0002601155890000024
其中,Ck表示题目Xi所属的类,nk表示第k个类Ck的大小,f(·)和g(·)是单调增函数,Typicality(Xi)表示题目Xi的得分。
6.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述查询特征配置模块生成的题目难度特征值计算公式为:
Difficulty(Xi)=φ(mK(Xi))+ψ(m(Xi)-mK(Xi))+r(V(Xi))
其中:Difficulty(Xi)是题目Xi的难度特征值,φ(·),ψ(·),r(·)均为单调增函数,
Figure FDA0002601155890000031
为题目Xi的平均得分率,
Figure FDA0002601155890000032
为题目Xi的平均得分,Fi为题目Xi的总分;mK(Xi)为题目Xi所属的知识点下所有题目平均得分率的均值;V(Xi)为关于题目Xi的学生答题分布与真实题目答案分布之间的交叉熵。
7.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述题目推荐模块中,当不同题目ID对应相同推荐得分值时,判断相同得分的题目ID所属的类,若属于同一类,则随机排序;若属于不同的类,则判断所述不同的类中高于所述相同推荐得分值的题目数量,将题目数量较少的类对应的题目ID排在前,若题目数量相同,则随机排序。
8.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述预处理模块中的数据清洗包括重复数据删除、缺失数据删除、异常数据删除;所述重复数据删除还包括根据提交时间,删除同一用户ID提交的前D次以外的练习记录数据。
9.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述用户界面允许同时输入多个期望查询的知识点,每一个知识点对应的题目推荐过程单独进行。
10.根据权利要求1所述的一种基于答题统计特征的题目推荐系统,其特征在于,所述题目获取模块可获取多平台数据,通过针对不同的平台所在搜索数据库制定网页爬虫规则,使用预设的爬虫程序爬取所需的题目数据和用户练习记录数据。
CN202010724420.XA 2020-07-24 2020-07-24 一种基于答题统计特征的题目推荐系统 Active CN111881172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724420.XA CN111881172B (zh) 2020-07-24 2020-07-24 一种基于答题统计特征的题目推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724420.XA CN111881172B (zh) 2020-07-24 2020-07-24 一种基于答题统计特征的题目推荐系统

Publications (2)

Publication Number Publication Date
CN111881172A CN111881172A (zh) 2020-11-03
CN111881172B true CN111881172B (zh) 2022-04-19

Family

ID=73200467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724420.XA Active CN111881172B (zh) 2020-07-24 2020-07-24 一种基于答题统计特征的题目推荐系统

Country Status (1)

Country Link
CN (1) CN111881172B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380429A (zh) * 2020-11-10 2021-02-19 武汉天有科技有限公司 一种习题推荐方法及装置
CN113326254A (zh) * 2021-06-18 2021-08-31 立信(重庆)数据科技股份有限公司 一种调研数据清洗方法及系统
CN114386764B (zh) * 2021-12-11 2022-12-16 上海师范大学 一种基于gru和r-gcn的oj平台题目序列推荐方法
CN116089705B (zh) * 2022-12-08 2023-11-14 读书郎教育科技有限公司 一种基于ai的学习题目个性化推荐方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709830A (zh) * 2015-08-13 2017-05-24 马正方 一种基于知识点结构的题库系统
CN109739829A (zh) * 2019-01-15 2019-05-10 山东仁博信息科技有限公司 一种基于日常作业的学生知识体系分析系统
CN110399558B (zh) * 2019-07-26 2021-09-14 江苏曲速教育科技有限公司 一种试题推荐方法和系统

Also Published As

Publication number Publication date
CN111881172A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881172B (zh) 一种基于答题统计特征的题目推荐系统
CN109598995B (zh) 基于贝叶斯知识跟踪模型的智能教学系统
CN110069607B (zh) 用于客户服务的方法、装置、电子设备、计算机可读存储介质
Shovon et al. An Approach of Improving Students Academic Performance by using k means clustering algorithm and Decision tree
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN112434517B (zh) 一种结合主动学习的社区问答网站答案排序方法及系统
CN106021364A (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN110120001B (zh) 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN113360616A (zh) 自动问答处理方法、装置、设备及存储介质
CN117150151B (zh) 一种基于大语言模型的错题分析及试题推荐系统和方法
CN112508334A (zh) 融合认知特性及试题文本信息的个性化组卷方法及系统
CN114913729B (zh) 一种选题方法、装置、计算机设备和存储介质
US20180165413A1 (en) Gene expression data classification method and classification system
CN113256252A (zh) 一种基于b/s架构的考测系统
CN107544956A (zh) 一种文本要点检测方法及系统
CN117909466A (zh) 领域问答系统、构造方法、电子设备及存储介质
CN112380429A (zh) 一种习题推荐方法及装置
CN110070232B (zh) 引入教师教学风格的多维度预测学生成绩的方法
Rusydiyah et al. Clustering of learning media user data during Covid-19 Pandemic using K-Means method based on multicultural culture in Indonesia
CN111625631B (zh) 一种选择题选项生成方法
CN113066358A (zh) 理科教学辅助系统
Li et al. Approach of intelligence question-answering system based on physical fitness knowledge graph
CN111401525A (zh) 一种基于深度学习的适应性学习系统和方法
CN114896975B (zh) 一种面向在线教育智能助教的自主进化方法及系统
CN111583363A (zh) 一种图文新闻的视觉自动生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant