CN111552796A - 组卷方法、电子设备及计算机可读介质 - Google Patents

组卷方法、电子设备及计算机可读介质 Download PDF

Info

Publication number
CN111552796A
CN111552796A CN202010340143.2A CN202010340143A CN111552796A CN 111552796 A CN111552796 A CN 111552796A CN 202010340143 A CN202010340143 A CN 202010340143A CN 111552796 A CN111552796 A CN 111552796A
Authority
CN
China
Prior art keywords
question
test
error
user
paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010340143.2A
Other languages
English (en)
Inventor
何明
吴士婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202010340143.2A priority Critical patent/CN111552796A/zh
Publication of CN111552796A publication Critical patent/CN111552796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种组卷方法、电子设备和计算机可读介质,其中,所述组卷方法包括:构建用于表征试题错误属性的试题错误要素向量、用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量、用于表征用户做题习惯的用户做题偏好矩阵;根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量;从试题库中获取与所述试题错误要素向量、所述用户错误要素向量和所述试题参数向量相匹配的试题,根据获取的所述试题进行组卷。通过本发明实施例,能够显著提高组卷的智能化水平和试卷使用效果,进而改进用户的使用体验。

Description

组卷方法、电子设备及计算机可读介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种组卷方法、电子设备和计算机可读介质。
背景技术
随着在线教育的普及和教育智能化程度的提高,越来越多的学生通过网络进行学习。在学习过程,考试是验证学习效果的必不可少的一个环节。由此,用户对试卷的要求也越来越高。
在线教育系统中,通过组卷算法来组织生成试卷。传统组卷方式中,组卷算法根据给定的组卷参数生成一套合乎给定组卷参数约束的试卷即可。而随着用户要求的提高,仅仅只满足相应的组卷参数约束已经无法达到用户的使用需求,急需考虑一种更为智能、更为个性化的组卷方案,以提高试卷的智能化水平和使用效果,改进用户的使用体验。
发明内容
本发明提供了一种组卷方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种组卷方法,包括:构建用于表征试题错误属性的试题错误要素向量、用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量、用于表征用户做题习惯的用户做题偏好矩阵;根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量;从试题库中获取与所述试题错误要素向量、所述用户错误要素向量和所述试题参数向量相匹配的试题,根据获取的所述试题进行组卷。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的组卷方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的组卷方法。
根据本发明实施例提供的方案,在进行组卷时,不仅考虑组卷参数,还同时考虑试题错误属性、用户在错误要素上的犯错概率以及用户做题习惯等因素,除此之外,还根据用户做题偏好矩阵和组卷参数获得试题参数向量,基于上述各种因素进行组卷。一方面,综合上述因素组成的试卷既能够依据组卷参数满足基本的组卷约束要求,还能够根据用户做题偏好矩阵的信息很好地匹配用户的做题习惯。另一方面,通过试题错误要素向量和用户错误要素向量还能够使得组成的试卷可以帮助用户较好地改进自身的错题习惯和不足。可见,通过本发明实施例的方案,能够提供一个综合了基本组卷参数约束、用户做题偏好和用户错题习惯的个性化智能组卷方案,能够显著提高组卷的智能化水平和试卷使用效果,进而改进用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明实施例一的一种组卷方法的步骤流程图;
图2A为根据本发明实施例二的一种组卷方法的示意性流程图;
图2B为图2A所示实施例中使用的一种RNN的结构示意图;
图3为根据本发明实施例三的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种组卷方法的步骤流程图。本实施例的组卷方法包括以下步骤:
步骤S102:构建用于表征试题错误属性的试题错误要素向量、用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量、用于表征用户做题习惯的用户做题偏好矩阵。
其中,对试题错误要素向量的构建、对用户错误要素向量的构建和对用户做题偏好矩阵的构建的执行可以不分先后顺序,也可以并行执行。
试题错误要素向量用于表征试题错误属性,针对每道试题都有其错误属性,也即,每道试题都对应有相应的试题错误要素向量。例如,因粗心而导致错误的属性、因审题问题导致错误的属性、因难度导致错误的属性等等。在具体应用中,所述错误属性可以根据实际情况由本领域技术人员进行具体设置。
用户错误要素向量用于表征用户在各个试题错误要素上犯错的概率,针对每个用户都有其对应的用户错误要素向量。例如,针对用户A做过的题目,其中因审题问题导致错误的概率、因思路不清晰导致错误的概率,因题目难度导致错误的概率,等等。在具体应用中,具体的试题错误要素的设置也可以由本领域技术人员根据实际需求设置。
用户做题偏好矩阵用于表征用户的做题习惯,针对每个用户都有其对应的用户做题偏好矩阵,通过该矩阵,可以了解用户的做题习惯信息,例如,有的用户喜欢先做填空题,有的用户喜欢先做判断题,有的用户喜欢先做选择题,有的用户喜欢先从简单题目做起,有的用户喜欢从较难题目作起,等等。本发明实施例中,采用了用户做题偏好矩阵的形式,以充分表征用户的做题习惯,便不限于此,也可以将用户做题偏好矩阵简化为用户做题偏好向量,或者说,向量形式可以认为是某个维度为1的矩阵,其同样适用于本发明实施例提供的方案。
步骤S104:根据用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量。
组卷参数用于指示组织生成试卷的各种参数,包括但不限于:试题类型、试题分数、试题难易程度、知识点,等等。本发明实施例中,组卷参数可以为常规参数,也可以由本领域技术人员根据实际需求适当设置地,本发明实施例对此不作限制。
与常规使用组卷参数的方式不同,本发明实施例中,将用户做题偏好矩阵与组卷参数相结合,以根据用户的做题习惯调整组卷参数,生成所述试题参数向量。此外,基于用户做题偏好矩阵和组卷参数生成的试题参数向量为每道试题的参数,而非常规使用中试题的编号,由此,可以大大提升组卷的泛化能力和运行效率,无需在组卷时对试题库进行遍历以获知每道试题的信息。
步骤S106:从试题库中获取与试题错误要素向量、用户错误要素向量和试题参数向量相匹配的试题,根据获取的试题进行组卷。
试题库中存储有大量试题,可以基于试题错误要素向量、用户错误要素向量和试题参数向量,从试题库中挑选出符合需要的试题,以进行组卷。例如,可以先根据试题参数向量按照设定的相似度算法从试题库中获取候选试题,再根据试题错误要素向量和用户错误要素向量从候选试题选择出符合预设错误率的试题,根据这些试题进行组卷(基于给定的组卷要求,自动生成一套符合要求的试卷)。
根据本实施例,在进行组卷时,不仅考虑组卷参数,还同时考虑试题错误属性、用户在错误要素上的犯错概率以及用户做题习惯等因素,除此之外,还根据用户做题偏好矩阵和组卷参数获得试题参数向量,基于上述各种因素进行组卷。一方面,综合上述因素组成的试卷既能够依据组卷参数满足基本的组卷约束要求,还能够根据用户做题偏好矩阵的信息很好地匹配用户的做题习惯。另一方面,通过试题错误要素向量和用户错误要素向量还能够使得组成的试卷可以帮助用户较好地改进自身的错题习惯和不足。可见,通过本发明实施例的方案,能够提供一个综合了基本组卷参数约束、用户做题偏好和用户错题习惯的个性化智能组卷方案,能够显著提高组卷的智能化水平和试卷使用效果,进而改进用户的使用体验。
本实施例的组卷方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
参照图2A,示出了根据本发明实施例二的一种组卷方法的示意性流程图。
由图2A可见,本实施例的组卷方案首先基于用户做题数据,构建了试题错误要素向量,对试题的错误属性进行刻画;构建了用于刻画用户在各个错误要素上犯错概率的用户错误要素向量,以更好地了解用户自身的学习能力;并且,构建了用户做题偏好矩阵,以刻画用户在试卷上的答题偏好。上述三方面的构建可以不分先后顺序,或者并行构建。接下来,基于能够综合组卷参数和做题偏好的RNN网络模块生成试题参数向量,该RNN网络模块以组卷参数为输入,以组卷参数的满足程度和做题偏好的满足程度为目标函数,输出试题参数向量。进而,由于传统组卷方案对用户的错误习惯和做题习惯考虑较为不足,导致最终所组的试卷不能很好地帮助用户针对性的修正自己的错误习惯,也不能符合用户的做题习惯。为了较好地解决此不足,基于试题错误要素向量、用户错误要素向量以及试题参数向量,生成综合了用户做题偏好、组卷约束和错误要素的个性化智能试卷,以显著提高组卷方案的智能化程度和个性化程度,能够为用户带来更好的做题效果和使用体验。
以下,对图2A所示的过程进行详细说明如下:
步骤S202:构建用于表征试题错误属性的试题错误要素向量。
在一种可行方式中,本步骤可以实现为:获取预设数量的历史试卷数据,对历史试卷数据进行分析,获得多个试题错误要素及各个试题错误要素对应的易错概率;以多个试题错误要素及各个试题错误要素对应的易错概率为试题错误属性,构建试题错误要素向量。其中,预设数据可以由本领域技术人员根据实际需求适当设置,本发明实施例对此不作限制。
获取的历史试卷数据可以作为分析样本,基于其获得构建试题错误要素向量的信息,例如,可以基于历史试卷数据,分别进行用户的做题过程数据分析、做题结果数据分析和做题答案数据分析,获得对应的用户的做题数据向量、做题结果数据和做题答案数据;根据用户的做题数据向量、做题结果数据和做题答案数据,获得做题特征向量;对做题特征向量中的每个向量进行错误类型划分;根据划分结果进行试题错误要素的统计及各个试题错误要素对应的数量统计,根据统计结果获得多个试题错误要素及各个试题错误要素对应的易错概率。由此,可以高效获得试题错误属性。
其中,在对做题特征向量中的每个向量进行错误类型划分时,若试题数量较多和/或每道试题的做题人数较多,则错误类型划分将极为耗时,且效率和精度也会受影响。为此,在一种可行方式中,可以针对历史试卷数据中的每道题目,确定对应的做题特征向量;对确定的做题特征向量进行聚类,并根据聚类结果获得至少一个类别及各个类别的聚类中心,以及做题特征向量与各个聚类中心的相似度;基于决策树,获得各个聚类中心在每个错误类别上的概率值;根据所述概率值和所述相似度,确定用户针对当前题目的错误类型。
进一步可选地,在基于决策树,获得各个聚类中心在每个错误类别上的概率值时,可以通过决策树,对各个聚类中心的错误类型进行预测;并且,针对当前聚类中心的预测过程,若在预测过程中,确定决策树收敛,则根据当前聚类中心在决策树的各个分支上的基尼值,确定当前聚类中心在每个错误类别上的基尼值;根据当前聚类中心在每个错误类别上的基尼值,确定当前聚类中心在每个错误类别上的概率值。
其中,所述决策树可以由本领域技术人员根据实际情况采用任意适当方式构建,本发明实施例对此不作限制。决策树是一种机器学习的方法,其采用树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。在一种决策树的决策方式中,使用基尼系数划分节点数据集,基尼值越小数据的不确定性越低,反之则越高,当基尼值为0时,数据集中的所有样本都是同一类别。本发明实施例采用此种方式确定当前聚类中心在每个错误类别上的概率值。但不限于此,信息熵的方式也同样适用于本发明实施例的方案。
以下,以一个具体示例为例,对试题错误要素向量的构建过程进行说明。
本示例中,构建试题错误要素向量
Figure BDA0002468262430000081
主要用于刻画试题i的错误属性,即在各个错误要素上用户犯错的可能性。其中,qci表示第i道题的错误要素向量,qci1表示第1个错误要素上的易错概率,依此类推,K1为总的错误要素数量。错误要素可以根据实际的情况进行调整,举例而言,qci1可以为审题错误要素,即用户在该道题上因为审题不清晰而犯错的概率;qci2可以为粗心错误要素,即用户在该道题上因为粗心而犯错的概率;qci3为题目难度错误要素,即用户因为该道题太难而犯错的概率;qci4为不够熟练错误要素,即用户因为平时练习太少而犯错的概率;qci5为思维错误要素,即用户因为思路不清晰而犯错的概率。那么,此时的K1=5。需要说明的是,这里的错误要素可以基于实际情况进行调整,即可以增加或减少。试题错误要素向量
Figure BDA0002468262430000082
的具体计算方式为所有做过该道题的用户如学生在特定错误要素上犯错的比例即为特定错误要素的概率。举例而言,假如某道题总共做过的人数为100人,因为审题犯错的为50人、因为粗心犯错的为20人、因为题目太难而犯错的为10人、因为不够熟练而犯错的为5人、因为思路不清晰而犯错的为15人,那么在该道题上的错误要素向量qci=(0.5,0.2,0.1,0.05,0.15)。对于所有的试题都按照类似的方式进行处理,则可以获得所有试题的错误要素向量。
在上述过程中,在确定具体的错误要素时,考虑到试题数量巨大以及每道题会被多个用户做过,使得总的做题记录数目过于巨大。此外,考虑到试题错误自身的特性,如题目难度和涵盖内容不同,使得现有的聚类或分类方法难以直接应用到错误要素向量构建这一任务上。基于此,本发明实施例采用了一种阶段性软聚-分类方法PSCCMethod,能够显著降低错误要素向量的构建时间,并能够同时提高试题错误要素向量构建的精度。
以学生数据为例,该阶段性软聚-分类方法PSCCMethod具体包括:
步骤A1:从学生的做题数据得到学生的做题数据向量。
整理每道试题上学生的做题数据向量quij(统计出来的数据),包括三个部分:(1)做题过程性数据quij,1,即做题数据向量。quij,1=(quij,11,quij,12,quij,13),其中,quij,11表示学生j在试题i上的做题时长,quij,12表示学生j在试题i上的修改次数,quij,13表示学生整个做题过程中的所有数据(该元素包含学生修改的数据,比如先写了一段话,随后删掉,则该元素会同时包含学生删掉的数据,该元素能够更精确的了解学生在这道题上的做题过程);(2)做题结果数据quij,2,表示学生最终提交的试题结果数据;(3)做题答案数据qui,表示该试题的答案数据。
步骤A2:基于学生的做题数据向量得到该试题的做题特征向量。
基于步骤A1的学生的做题数据向量quij得到做题特征向量qfij=(qfij,1,qfij,2,qfij,3,qfij,4)。其中,qfij,1=quij,11,qfij,2=quij,12,qfij,3表示quij,13与做题答案数据qui的匹配程度,完全匹配则为1,不完全匹配则为0;与之类似,qfij,4表示表示quij,2与答案数据qui的匹配程度,完全匹配则为1,不完全匹配则为0。
需要说明的是,qfij,3与qfij,4的意义不尽相同。举例而言,当qfij,4=1而qfij,3≠1时,表明该学生虽然最终题目是做对了,但是过程中却存在着涂改和不确定的情况,表明还不够熟练。当两个都为1时,则表明学生在这道题上较为自信和确定,对该道题所涉及的知识点掌握程度比较高。
步骤A3:对做该道试题的所有学生数据情况进行整理。
基于步骤A2,可以得到试题i上所有做过该试题的学生的做题特征向量的集合,记为qfi=(qfi1,...,qfij,...,qfiJ)。
步骤A4:基于步骤A3,可以得到所有试题的特征向量集合,记为qf=(qf1,...,qfi,...,qfI)。
步骤A5:判断每道试题上每个学生做题特征向量qfij的错误类别(对应于步骤A1里面的错误要素)。
如前所述,当试题的数量较多且每道试题上做题人数较多时,逐一判断每个做题特征向量qfij的错误类别,会极为耗时,且精度会存在一定的影响。为了提高运算的效率和精度,本实施例中采用了一种阶段性软聚-分类方法PSCCMethod。
该方法包括:
步骤A5-1:首先,采用k-means聚类方法对每道试题下的做题特征向量集合qfi=(qfi1,...,qfij,...,qfiJ)进行聚类,总共聚成K1类。在聚类结束后,记录两个数值:(1)每个类别的聚类中心,记为centerik=(centerik,1,centerik,2,centerik,3,centerik,4),即收敛时每个类别上所有学生做题特征向量中各元素值上的均值向量。其中,centerik,1表示做题时长的均值,其他三个元素依次类推;(2)每个学生的做题特征向量与各个类别中心的余弦相似度的向量,记为
Figure BDA0002468262430000101
其中,scij,k表示在试题i上学生j与第k个类别的余弦相似度,相似度值越大,表明学生属于该类别的概率越大。需要说明的是,记录centerik的是为了在后续进行错误分类时,无需对每个学生进行计算,只需对类别中心进行计算即可,假设得到第k个类别为审题错误,则该类别下的所有学生都为审题错误,无需再一个一个进行计算。采用这种方式有两个好处,一个是在后续的分类算法中,如果对每个学生都计算一次,运算量较大,直接计算类别中心可以大幅降低运算成本;第二就是基于类别中心得到的有监督训练数据会更为准确,因为基于单个学生的数据会存在一定的随机性和偏差。记录scij可以避免硬聚类带来的精度损失,传统的聚类方法会直接将某个学生分到一个特定的类别中,而实际上该学生有可能在两个类别的隶属度上差别不是很大,只考虑一个类别不是很合理,故而记录下每个学生与各个类别中心的余弦相似度向量scij,在后续的分类过程中使用。
步骤A5-2:基于步骤A5-1得到每个试题上K1个类中心,但是却不知道每个类别中心到底表示哪类错误。为了得到每个类别中心所代表的错误,本步骤基于决策树对步骤A5-1得到的所有试题上的类别中心进行分类。决策树的具体实现可以基于现有的决策树运算方式即可,最终可以得到每个类别中心所对应的错误类型。所不同的是,在决策树收敛时,需要再次迭代计算每个类别中心在分叉过程中的基尼值,然后将各条分支上的基尼值进行连乘,最终可以得到每个类别中心在各个错误类别上连乘后的基尼值,并对所有类别上连乘后的基尼值进行归一化处理,则得到每个错误类别上的概率值,记为
Figure BDA0002468262430000111
其中,cpik,k表示第k个类别中心属于错误类别k的概率。由此,可以更为准确地获得每个类别中心属于每个错误类别的概率,便于下一步骤中更为准确地得到学生j在试题i上的错误类别。
步骤A5-3:将步骤A5-1得到的scij与步骤A5-2得到的cpik进行相乘,选择其中相乘后的最大值所在的错误类型,即为学生j在试题i上的错误类别。举例而言,假设经过步骤A5-1得到学生在聚类中心1上的余弦相似度为0.5,在聚类中心2上的余弦相似度为0.4。在步骤A5-2得到聚类中心1在错误类别1上的概率值为0.3,在错误类别2上的概率值为0.6;聚类中心2在错误类别1上的概率值0.8,在错误类别2上的概率值为0.1。如果采用传统的聚类或分类方法,会直接将该学生的做题结果的错误类型记为错误类别2,而通过本实施例的方式会将该学生的做题结果的错误类型记录为错误类别1。而从实际数据上看,该种方式更为准确、置信度更高。
通过上述基于阶段性软聚-分类方法PSCCMethod的方式,可以大幅度提高运算的效率和显著提升学生错误要素的识别精度。
步骤A6:基于步骤A5可以得到每条学生做题记录对应的错误类型,随后可基于该错误类型对试题的错误要素向量进行统计计算即可。
也即,统计每道题上各种错误类型的占比即可。
通过上述过程,实现了试题错误要素向量的构建,并且,相较于传统方式,能够显著降低试题错误要素向量的构建时间,并能够同时提高试题错误要素向量构建的精度。
步骤S204:构建用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量。
接前述学生数据示例,本步骤中,例如,构建用户错误要素向量
Figure BDA0002468262430000121
用于刻画用户j在各个错误要素上的犯错概率,更好地了解用户自身的学习能力。其中,ucj表示第j个用户的错误要素向量,ucj1表示用户j在第1个错误要素上的错误概率,每个维度上所代表的含义与步骤S202中的试题错误要素向量相同。在一种可行方式中,可以根据用户已做过的题目在各个错误要素的犯错比例确定错误要素向量。举例而言,假如该用户j总共做过100道题,因为审题做错的题目为10道、因为粗心做错的题目为30道、因为题目太难做错的题目为15道、因为不够熟练做错的题目为25道、因为思路不清晰做错的题目为20道,那么该用户j的错误要素向量ucj=(0.1,0.3,0.15,0.25,0.2)。对所有的用户都按照类似的方式进行处理,则可以获得所有用户的错误要素向量。直接基于步骤A5得到的错误类别,进行统计即可。
步骤S206:构建用于表征用户做题习惯的用户做题偏好矩阵。
在一种可行方式中,本步骤可以实现为:针对每个用户,从历史试卷数据中确定当前用户的用户试卷数据;根据所述用户基于所述用户试卷数据的做题顺序数据,构建不同题型之间的题型转换概率矩阵和构建不同试题难度之间的难度转换概率矩阵;根据所述题型转换概率矩阵和所述难度转换概率矩阵,获得用于表征用户做题习惯的用户做题偏好矩阵。
以下,仍以前述学生数据为例,对本步骤的实现过程进行示例性说明。
该过程包括:构建用户做题偏好矩阵qpj=(qpj1,qpj2),用于刻画用户j在试卷上的答题偏好。一般来说,每个用户在试卷的答题上都会有自己的答题偏好,比如有的用户喜欢先做填空题,而有的用户喜欢先做选择题,又有部分用户喜欢先做判断题;另外,有的用户喜欢先做简单的题目,有的用户喜欢先做稍微难一点的题目。而现有的组卷方案都没有考虑到用户的做题偏好,对所有用户的试题排序都是一样的,如先判断题、再选择题、最后问答题,使得组卷的用户体验不够好。基于此,本发明实施例在组卷时综合考虑了用户在试卷上的答题偏好,构建了用户做题偏好矩阵qpj=(qpj1,qpj2)。其中,qpj1表示用户j在试题题型上的偏好,qpj2表示用户j在试题难度上的偏好,具体构建方式如下。
步骤B1:获得试题题型偏好矩阵qpj1
根据用户j在每份试卷上的答题顺序,构建不同题型之间的转换概率。设总的题型个数为K2,则试题题型偏好矩阵qpj1的维度为(K2+1)×K2,即行数为K2+1,列数为K2。之所以行数的个数为K2+1是考虑到用户在试卷上所做的第一道题的题型,因为此时不存在任何题型与该题型之间的一个转化关系。基于用户所有的试卷做题顺序数据,计算矩阵qpj1中相应的元素值概率,则得到每个用户的试题题型偏好矩阵qpj1
举例而言,假设总共只有两种题型,用户j所做的试卷总数为100份。那么,矩阵
Figure BDA0002468262430000141
其中,
Figure BDA0002468262430000142
表示用户在100份试卷中所做的第一道题的题型为1的比例(假如为60道,则
Figure BDA0002468262430000143
),
Figure BDA0002468262430000144
表示用户在100份试卷中所做的第一道题的题型为2的比例(假如为40道,则
Figure BDA0002468262430000145
);
Figure BDA0002468262430000146
表示用户在做题时,从题型1到题型1所占的顺序比例,其他的依此类推。基于用户实际的试卷上的做题顺序,可以计算出
Figure BDA0002468262430000147
中各个元素的值。其他用户的计算方法类似,最后可以获得所有用户的试题题型偏好矩阵。需要说明的是,以上仅以两种题型为例,但在实际使用中不限于此,本领域技术人员可以根据实际需求适当设置。一种设置方式中,因每个学科试卷的题型基本上较为固定,可以分学科确定题型;另一种设置方式中,可以多个学科设置相同的题型,多个不同学科之间,相同的题型可以统一表示,如每个学科均有填空题或者选择题,而针对不相同的题型可以将它们归入一类或多类,例如,对于语言的作文题、英语的作文题、数学的证明题,均归入主观题型一类,等等。
步骤B2:获得试题难度偏好矩阵qpj2
同样,根据用户j在每份试卷上的答题顺序,构建不同试题难度之间的转换概率。设总的试题难度等级个数为K3,则试题难度偏好矩阵qpj2的维度为(K3+1)×K3。行数的个数为K3+1同样是考虑到用户在试卷上所做的第一道题的难度等级,因为此时不存在任何难度与该难度之间的一个转化关系。基于用户所有的试卷做题顺序数据,计算矩阵qpj2中相应的元素值概率,则得到每个用户的试题难度偏好矩阵qpj2
举例而言,总共只有两种难度(简单、难),用户j所做的试卷总数同样为100份。那么,矩阵
Figure BDA0002468262430000151
其中,
Figure BDA0002468262430000152
表示用户在100份试卷中所做的第一道题的难度为1的比例(假如为30道,则
Figure BDA0002468262430000153
),
Figure BDA0002468262430000154
表示用户在100份试卷中所做的第一道题的难度为2的比例(假如为70道,则
Figure BDA0002468262430000155
);
Figure BDA0002468262430000156
表示用户在做题时,从难度1到难度1所占的顺序比例,其他的依此类推。基于用户实际的试卷上的做题顺序,可以计算出
Figure BDA0002468262430000157
中每个元素的值。其他用户的计算方法类似,最后可以获得所有用户的试题难度偏好矩阵。需要说明的是,以上仅以两种题型为例,但在实际使用中不限于此,本领域技术人员可以根据实际需求适当设置。
步骤B3:将步骤B1所获得的试题题型偏好矩阵qpj1和步骤B2所获得的试题难度偏好矩阵qpj2进行组合,则得到用户j的做题偏好矩阵qpj=(qpj1,qpj2)。该矩阵能够很好地刻画用户的做题偏好和习惯,为后续的智能组卷提供先验知识,可以较大程度提高组卷的用户体验。
本步骤所构建的用户做题偏好矩阵qpj=(qpj1,qpj2),较好地解决了现有组卷方案的不足,即现有组卷文案中没有考虑用户的做题偏好和习惯,保证了通过本发明实施例所提供的方案所组的试卷能够基于不同用户的做题习惯和偏好生成不同试题顺序的试卷,显著提高了组卷的用户体验和个性化程度,增加了组卷方案的灵活性和用户的黏性。
步骤S208:根据用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量。
在一种可行方式中,本步骤可以实现为:将组卷参数输入以组卷参数的满足程度和用户做题偏好矩阵的满足程度为目标函数的RNN(Recurrent Neural Network,循环神经网络)中,通过所述RNN输出试题参数向量。其中,所述试题参数向量包括但不限于以下至少之一:试题难度参数、试题知识点参数、试题分值参数。
RNN是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的神经网络,包含输入层、隐层、输出层,通过激活函数控制输出,层与层之间通过权值连接,并且,在层之间的神经元之间也建立了权连接,RNN通过训练“学”到的东西就蕴含在“权值“中。
与常规RNN不同,本发明实施例的RNN包括两部分,即第一部分和第二部分。其中,第一部分用于根据输入的组卷参数输出候选的试题参数向量;第二部分用于根据输入的候选的试题参数向量和组卷参数,对候选的试题参数向量中的参数的顺序进行调整,输出与用户做题偏好矩阵相匹配的最终试题参数向量。其中,在对试题参数向量中的参数的顺序进行调整时,一种可行方式中,第二部分可以基于根据用户做题偏好矩阵生成的目标函数,对候选的试题参数向量中的参数的顺序进行调整。其中,所述目标函数为:根据用户做题偏好矩阵计算出的候选的试题参数向量中的每个试题参数的应有顺序,与候选的试题参数向量中的每个试题参数的实际顺序的差异函数。
以下,仍以前述学生数据为例,接续前续示例性过程,对本步骤中的上述过程进行示例性说明。
首先,构建能够综合组卷参数和用户做题偏好的RNN网络模块,为便于说明,本发明实施例中,也将该RNN网络模块称为PraAndPreRNNMod,该模块以组卷参数为输入,以组卷参数的满足程度和用户做题偏好的满足程度为目标函数,输出含有设定数量的试题参数向量。与现有的组卷方案在生成试卷时都不会考虑用户的做题偏好,使得用户体验不够良好的方式相比,采用本发明实施例中的PraAndPreRNNMod,能够同时兼顾组卷参数约束的满足程度和用户做题偏好的满足程度,使得最终生成的试题参数向量更为准确、更具个性化。并且,针对现有RNN网络难以较好地适配到组卷题目偏好的问题,本发明实施例中的PraAndPreRNNMod实现为递进式RNN网络结构,能够先通过PraAndPreRNNMod的第一部分,针对组卷输入参数输出相应的候选的试题参数向量。随后再将输出的候选的试题参数向量和原有的组卷参数作为PraAndPreRNNMod的第二部分的输入,对候选的试题参数向量的顺序进行调整,输出能够贴合用户做题偏好的试题参数顺序。最终,既能够输出试题参数,又能够输入试题参数的顺序,很好地解决了现有RNN网络模型结构的不足,并且,具有较好的通用性。
以下,结合如图2B所示的网络结构,对PraAndPreRNNMod的构建过程进行说明,如下:
步骤C1:构建PraAndPreRNNMod的第一部分的输入部分。
如图2B所示,本示例中的PraAndPreRNNMod包括第一部分和第二部分,第一部分的结构可以采用常规的RNN结构。
首先,构建第一部分的输入部分,该输入部分也可认为是PraAndPreRNNMod的输入部分(位于第一部分)。该输入部分向PraAndPreRNNMod输入给定的组卷参数
Figure BDA0002468262430000171
即,输入n1个组卷参数。对组卷参数进行one-hot处理,即构建n1个维度为n1的向量,每个向量第k位上的值为ck,其他位上的值为0,将这n1个向量按顺序作为PraAndPreRNNMod的输入,即PraAndPreRNNMod的输入为
Figure BDA0002468262430000181
其中,
Figure BDA0002468262430000182
剩下元素值都为0,其他的
Figure BDA0002468262430000183
依此类推。一般而言,组卷参数有试卷难度分布、试卷题型的分布、知识点的分布、总分值等,这里不做具体限定。举例而言,c1可以表示难度为1的试题数量,c2可以表示难度为2的试题数量,c3表示题型1的试题数量,c4表示题型2的试题数量,c5表示知识点1的试题数量,c6表示知识点2的试题数量,c7表示试卷总分。
步骤C2:构建PraAndPreRNNMod第一部分的输出部分。
与传统组卷方案直接生成试题不同,本发明实施例中,PraAndPreRNNMod不管第一部分还是第二部分的输出均为每道试题的参数而非具体的试题编号,以提高PraAndPreRNNMod的泛化能力和运行效率。因为试题本身的题库有可能会非常大,直接用于组卷,会导致搜索空间过于巨大,使得运算开销非常大,而直接输出的是试题的参数(即试题参数向量),则可以有效避免该问题。
具体而言,第m道试题的参数向量为
Figure BDA0002468262430000184
总共会输出的试题参数向量个数为组卷所要求的试题数量(设为M),即PraAndPreRNNMod的第一部分的输出为
Figure BDA0002468262430000185
一般而言,试题参数向量包括试题难度、试题题型、试题知识点、试题分值等,这里不做具体限制,可根据实际应用做针对性调整。
步骤C3:构建PraAndPreRNNMod第一部分的目标函数PraAndPreObject,简写为ppo1
ppo1用以计算输出的试题参数向量tv=(tv(1),tv(2),…,tv(m),…,tv(M))与本次组卷的组卷参数
Figure BDA0002468262430000186
之间的距离,距离越近,表明组卷参数约束的满足程度越高;距离越远,则表明组卷参数约束的满足程度越低。根据试题参数向量tv=(tv(1),tv(2),…,tv(m),…,tv(M))计算当前组卷在各个组卷参数上的具体值
Figure BDA0002468262430000191
举例而言,在tv中有3道题的难度为1,则c′1=3,其他的依次类推。随后,基于组卷参数
Figure BDA0002468262430000192
Figure BDA0002468262430000193
和当前试题参数上的组卷参数具体值
Figure BDA0002468262430000194
计算两者之间的距离:ppo1=1-cosineSimilarity(c,c′)。其中,cosineSimilarity(c,c′)表示两者之间的余弦相似度。
步骤C4:构建PraAndPreRNNMod第二部分的输入部分。
将第一部分的输出tv=(tv(1),tv(2),…,tv(m),…,tv(M))与步骤C1的输入
Figure BDA0002468262430000195
进行联合,作为第二部分的输入,以通过同时考虑组卷参数的输入和试题参数向量的输出,能够提高第二部分的试题顺序输出的准确度。
步骤C5:构建PraAndPreRNNMod第二部分的输出部分。
第二部分主要用于对第一部分输出的试题参数顺序进行调整,以确保最终的组卷试题顺序可以较好地满足学生的做题偏好。具体而言,首先基于学生的做题偏好矩阵计算tv=(tv(1),tv(2),…,tv(m),…,tv(M))中每个试题参数tv(m)的顺序,记为ts=(ts(1),ts(2),…,ts(m),…,ts(M))。假设计算出tv(m)这个试题参数的顺序应为1,也就是应该排在最前面,但是实际上却排在第m位。需要对该试题参数的顺序进行调整(具体调整可参考步骤C6)。
步骤C6:构建PraAndPreRNNMod第二部分的目标函数ppo2
ppo2主要用于计算试题应有的顺序即(从1到M)与实际的顺序ts=(ts(1),ts(2),…,ts(m),…,ts(M))之间的差异:
Figure BDA0002468262430000196
Figure BDA0002468262430000197
最为理想的情况是,第二部分的目标函数的值为0,即第一部分输出的试题参数的顺序与用户的做题偏好完全一致。
步骤C7:基于步骤C1到步骤C6对PraAndPreRNNMod进行训练。
在PraAndPreRNNMod完成训练后,在后续应用中可以将其根据实际组卷时的组卷参数和实际的用户做题偏好矩阵,输出的试题参数向量tv‘=(tv’(1),tv‘(2),…,tv’(m),…,tv‘(M))作为PraAndPreRNNMod的最终输出。
通过上述过程所构建的RNN网络模块PraAndPreRNNMod,能够基于用户的个性化做题偏好和相应的组卷参数,生成综合了用户做题偏好和组卷参数的试题参数向量集tv‘=(tv’(1),tv‘(2),…,tv’(m),…,tv‘(M)),有效地解决了现有组卷方案用户体验不够良好的问题。特别地,与传统组卷方案直接生成试题不同,本实施例中所构建的PraAndPreRNNMod输出为每道试题的参数而非具体的试题编号,可以显著提高模型的泛化能力和运行效率,因为试题本身的题库有可能会非常大,直接应用到组卷模块中,导致搜索空间过于巨大,使得运算开销非常大,而直接输出的是试题的参数可以有效避免该问题。另外,为了更好地将用户做题偏好和组卷参数约束都能较好地反映到最终试卷中,PraAndPreRNNMod采用了递进式RNN网络结构,能够先针对组卷参数输出相应的候选试题参数向量。随后再将输出的候选试题参数向量和原有的组卷参数作为新的下一部分即第二部分的输入,对试题参数向量中的参数的顺序进行调整,输出能够贴合用户做题偏好的试题参数顺序。最终,既能够输出试题参数,又能够输出试题参数的顺序,很好地解决了现有RNN网络模型结构的不足,具有较的通用性。
步骤S210:从试题库中获取与试题错误要素向量、用户错误要素向量和试题参数向量相匹配的试题,根据获取的试题进行组卷。
接续前述示例,本步骤构建综合试题错误要素向量、用户错误要素向量和试题参数向量的试卷生成模块WrongFusePaperMod,以生成最终的试卷。现有组卷方案除前述问题外,对用户的错误习惯也没有充分考虑,导致最终所组的试卷不能很好地帮助用户针对性的修正自己的错误习惯。为此,本实施例,基于前述错误要素向量、用户错误要素向量和试题参数向量,针对性地构建了能够综合考虑上述因素的试卷生成模块WrongFusePaperMod。
该构建过程包括:
步骤D1:基于试题参数向量tv=(tv(1),tv(2),…,tv(m),…,tv(M)),按顺序地针对每个试题参数向量,根据试题参数向量与题库中试题参数之间的余弦相似度大小选择前N道试题。
其中,所述N可以由本领域技术人员根据实际情况适当设置,本实施例中以5道为例。则,举例而言,针对第一道试题的参数向量tv(1),计算tv(1)与题库中所有试题之间的余弦相似度,然后基于余弦相似度的大小选择排在前面的5道试题,则针对每个试题参数向量都获得了5道试题,记为qs=((qs11,qs12,qs13,qs14,qs15),…,(qsM1,qsM2,qsM3,qsM4,qsM5))。其中,(qs11,qs12,qs13,qs14,qs15)表示基于试题参数向量tv(1)所获得的五道试题的ID编号。
步骤D2:基于试题错误要素向量
Figure BDA0002468262430000211
和用户错误要素向量
Figure BDA0002468262430000212
来获得最终组卷结果。
首先,针对步骤D1的每一个试题参数向量所选出的5道试题(qs11,qs12,qs13,qs14,qs15)(这里以第一个试题参数向量为例,其他的依次类推),选择出每道题目的错误要素向量qci。随后,计算qci与用户错误要素向量ucj的点积之和,并进行归一化,得到用户在该题目上的犯错概率。因为有五道试题,所以可以获得五个犯错概率,选择那个与0.5最为接近的试题作为第一个试题参数向量上最终所确定的试题。其他的试题参数向量采用同样的方法,都能各自获得一个相应的最终试题。最后,将这些试题按顺序组合到一起,即为最终所组的试卷fp。需要说明的是,因在学生的实际做题中,不希望出那种一定会做错的题目(即做错概率为1),也不希望出那种一定会做对的题目(即做错的概率为0.5),而是出那种处于中间档位的题目,这样的题目对于用户价值会更大,因为做这样的题目一方面用户需要进行思考,另一方面有可以很好地改善他的做题习惯,因此,犯错概率可选择为0.5。但不限于此,在实际应用中,可以基于实际情况来针对性的调整,本发明实施例不做具体限定。
基于试卷生成模块WrongFusePaperMod,可以使得最终生成的试卷能够较好地考虑用户的错题习惯和试题上的概要性错误画像,保证了最终所生成的试卷能够很好地帮助用户改善自身的做题习惯,降低了以后做错题的可能性。
综合而言,最终所生成的试卷具有三个方面的显著改善:首先,能够保证最为基础的组卷约束(即给定的组卷参数);其次,能够有效地综合用户的做题偏好(包括题型偏好和难度偏好),使得最终所生成的试卷能够更好地贴合用户的做题偏好,一定程度上提高了用户的使用体验,提高了组卷方案的适用范围和个性化程度;最后,很好地考虑了用户的错误习惯和试题的概要性错误画像,使得最终所生成的试卷能够综合用户的错误习惯和原因,增加了试卷的智能化程度,因为其可以帮助用户改善自身的做题习惯和不足,能够显著提高用户的使用体验。
由上,本实施例提供的组卷方案能够逐步地考虑用户的个性化且重要的信息(做题习惯、组卷参数约束、错误要素),最终生成一份综合了用户做题偏好、组卷约束和试题错误要素和用户错误要素的个性化智能试卷,显著提高了组卷方案的智能化程度和个性化程度,能够为用户带来更好的做题效果和使用体验。
实施例三
图3为本发明实施例三中电子设备的硬件结构;如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。
其中:
处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。
通信接口302,用于与其它电子设备或服务器进行通信。
处理器301,用于执行程序305,具体可以执行上述组卷方法实施例中的相关步骤。
具体地,程序305可以包括程序代码,该程序代码包括计算机操作指令。
处理器301可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器303,用于存放程序305。存储器303可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序305具体可以用于使得处理器301执行以下操作:构建用于表征试题错误属性的试题错误要素向量、用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量、用于表征用户做题习惯的用户做题偏好矩阵;根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量;从试题库中获取与所述试题错误要素向量、所述用户错误要素向量和所述试题参数向量相匹配的试题,根据获取的所述试题进行组卷。
在一种可选的实施方式中,程序305还用于使得处理器301在构建用于表征试题错误属性的试题错误要素向量时,获取预设数量的历史试卷数据,对所述历史试卷数据进行分析,获得多个试题错误要素及各个试题错误要素对应的易错概率;以所述多个试题错误要素及各个试题错误要素对应的易错概率为试题错误属性,构建试题错误要素向量。
在一种可选的实施方式中,程序305还用于使得处理器301在对所述历史试卷数据进行分析,获得多个试题错误要素及各个试题错误要素对应的易错概率时,基于所述历史试卷数据,分别进行用户的做题过程数据分析、做题结果数据分析和做题答案数据分析,获得对应的用户的做题数据向量、做题结果数据和做题答案数据;根据所述用户的做题数据向量、做题结果数据和做题答案数据,获得做题特征向量;对所述做题特征向量中的每个向量进行错误类型划分;根据划分结果进行试题错误要素的统计及各个试题错误要素对应的数量统计,根据统计结果获得多个试题错误要素及各个试题错误要素对应的易错概率。
在一种可选的实施方式中,程序305还用于使得处理器301在对所述做题特征向量中的每个向量进行错误类型划分时,针对所述历史试卷数据中的每道题目,确定对应的做题特征向量;对确定的所述做题特征向量进行聚类,并根据聚类结果获得至少一个类别及各个所述类别的聚类中心,以及所述做题特征向量与各个聚类中心的相似度;基于决策树,获得各个所述聚类中心在每个错误类别上的概率值;根据所述概率值和所述相似度,确定所述用户针对当前题目的错误类型。
在一种可选的实施方式中,程序305还用于使得处理器301在基于决策树,获得各个所述聚类中心在每个错误类别上的概率值时,通过决策树,对各个所述聚类中心的错误类型进行预测;并且,针对当前聚类中心的预测过程,若在所述预测过程中,确定决策树收敛,则根据当前聚类中心在所述决策树的各个分支上的基尼值,确定当前聚类中心在每个错误类别上的基尼值;根据当前聚类中心在每个错误类别上的基尼值,确定当前聚类中心在每个错误类别上的概率值。
在一种可选的实施方式中,程序305还用于使得处理器301在构建用于表征用户做题习惯的用户做题偏好矩阵时,针对每个用户,从所述历史试卷数据中确定当前用户的用户试卷数据;根据所述用户基于所述用户试卷数据的做题顺序数据,构建不同题型之间的题型转换概率矩阵和构建不同试题难度之间的难度转换概率矩阵;根据所述题型转换概率矩阵和所述难度转换概率矩阵,获得用于表征用户做题习惯的用户做题偏好矩阵。
在一种可选的实施方式中,程序305还用于使得处理器301在根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量时,将所述组卷参数输入以所述组卷参数的满足程度和所述用户做题偏好矩阵的满足程度为目标函数的循环神经网络RNN中,通过所述RNN输出所述试题参数向量。
在一种可选的实施方式中,RNN包括第一部分和第二部分;其中,所述第一部分用于根据输入的所述组卷参数输出候选的试题参数向量;所述第二部分用于根据输入的所述候选的试题参数向量和所述组卷参数,对所述候选的试题参数向量中的参数的顺序进行调整,输出与所述用户做题偏好矩阵相匹配的最终试题参数向量。
在一种可选的实施方式中,第二部分基于根据所述用户做题偏好矩阵生成的目标函数,对所述候选的试题参数向量中的参数的顺序进行调整。
在一种可选的实施方式中,目标函数为:根据所述用户做题偏好矩阵计算出的所述候选的试题参数向量中的每个试题参数的应有顺序,与所述候选的试题参数向量中的每个试题参数的实际顺序的差异函数。
在一种可选的实施方式中,所述试题参数向量包括以下至少之一:试题难度参数、试题知识点参数、试题分值参数。
程序305中各步骤的具体实现可以参见上述组卷方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本发明实施例中的方法中限定的上述功能。需要说明的是,本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括接入模块和发送模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所描述的组卷方法。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:构建用于表征试题错误属性的试题错误要素向量、用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量、用于表征用户做题习惯的用户做题偏好矩阵;根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量;从试题库中获取与所述试题错误要素向量、所述用户错误要素向量和所述试题参数向量相匹配的试题,根据获取的所述试题进行组卷。
在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (13)

1.一种组卷方法,其特征在于,包括:
构建用于表征试题错误属性的试题错误要素向量、用于表征用户在预设的各个试题错误要素上的犯错概率的用户错误要素向量、用于表征用户做题习惯的用户做题偏好矩阵;
根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量;
从试题库中获取与所述试题错误要素向量、所述用户错误要素向量和所述试题参数向量相匹配的试题,根据获取的所述试题进行组卷。
2.根据权利要求1所述的方法,其特征在于,所述构建用于表征试题错误属性的试题错误要素向量,包括:
获取预设数量的历史试卷数据,对所述历史试卷数据进行分析,获得多个试题错误要素及各个试题错误要素对应的易错概率;
以所述多个试题错误要素及各个试题错误要素对应的易错概率为试题错误属性,构建试题错误要素向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述历史试卷数据进行分析,获得多个试题错误要素及各个试题错误要素对应的易错概率,包括:
基于所述历史试卷数据,分别进行用户的做题过程数据分析、做题结果数据分析和做题答案数据分析,获得对应的用户的做题数据向量、做题结果数据和做题答案数据;
根据所述用户的做题数据向量、做题结果数据和做题答案数据,获得做题特征向量;
对所述做题特征向量中的每个向量进行错误类型划分;
根据划分结果进行试题错误要素的统计及各个试题错误要素对应的数量统计,根据统计结果获得多个试题错误要素及各个试题错误要素对应的易错概率。
4.根据权利要求3所述的方法,其特征在于,所述对所述做题特征向量中的每个向量进行错误类型划分,包括:
针对所述历史试卷数据中的每道题目,确定对应的做题特征向量;
对确定的所述做题特征向量进行聚类,并根据聚类结果获得至少一个类别及各个所述类别的聚类中心,以及所述做题特征向量与各个聚类中心的相似度;
基于决策树,获得各个所述聚类中心在每个错误类别上的概率值;
根据所述概率值和所述相似度,确定所述用户针对当前题目的错误类型。
5.根据权利要求4所述的方法,其特征在于,所述基于决策树,获得各个所述聚类中心在每个错误类别上的概率值,包括:
通过决策树,对各个所述聚类中心的错误类型进行预测;
并且,针对当前聚类中心的预测过程,若在所述预测过程中,确定决策树收敛,则根据当前聚类中心在所述决策树的各个分支上的基尼值,确定当前聚类中心在每个错误类别上的基尼值;根据当前聚类中心在每个错误类别上的基尼值,确定当前聚类中心在每个错误类别上的概率值。
6.根据权利要求1所述的方法,其特征在于,构建用于表征用户做题习惯的用户做题偏好矩阵,包括:
针对每个用户,从所述历史试卷数据中确定当前用户的用户试卷数据;
根据所述用户基于所述用户试卷数据的做题顺序数据,构建不同题型之间的题型转换概率矩阵和构建不同试题难度之间的难度转换概率矩阵;
根据所述题型转换概率矩阵和所述难度转换概率矩阵,获得用于表征用户做题习惯的用户做题偏好矩阵。
7.根据权利要求1所述的方法,其特征在于,所述根据所述用户做题偏好矩阵和组卷参数,获得用于表征待生成的试卷的试题参数的试题参数向量,包括:
将所述组卷参数输入以所述组卷参数的满足程度和所述用户做题偏好矩阵的满足程度为目标函数的循环神经网络RNN中,通过所述RNN输出所述试题参数向量。
8.根据权利要求7所述的方法,其特征在于,所述RNN包括第一部分和第二部分;
其中,所述第一部分用于根据输入的所述组卷参数输出候选的试题参数向量;所述第二部分用于根据输入的所述候选的试题参数向量和所述组卷参数,对所述候选的试题参数向量中的参数的顺序进行调整,输出与所述用户做题偏好矩阵相匹配的最终试题参数向量。
9.根据权利要求8所述的方法,其特征在于,所述第二部分基于根据所述用户做题偏好矩阵生成的目标函数,对所述候选的试题参数向量中的参数的顺序进行调整。
10.根据权利要求9所述的方法,其特征在于,所述目标函数为:根据所述用户做题偏好矩阵计算出的所述候选的试题参数向量中的每个试题参数的应有顺序,与所述候选的试题参数向量中的每个试题参数的实际顺序的差异函数。
11.根据权利要求7-10任一项所述的方法,其特征在于,所述试题参数向量包括以下至少之一:试题难度参数、试题知识点参数、试题分值参数。
12.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一项所述的组卷方法。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一项所述的组卷方法。
CN202010340143.2A 2020-04-26 2020-04-26 组卷方法、电子设备及计算机可读介质 Pending CN111552796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010340143.2A CN111552796A (zh) 2020-04-26 2020-04-26 组卷方法、电子设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010340143.2A CN111552796A (zh) 2020-04-26 2020-04-26 组卷方法、电子设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN111552796A true CN111552796A (zh) 2020-08-18

Family

ID=72005914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010340143.2A Pending CN111552796A (zh) 2020-04-26 2020-04-26 组卷方法、电子设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN111552796A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465329A (zh) * 2020-11-23 2021-03-09 广东电网有限责任公司佛山供电局 一种基于电力知识点的资质考试智能组卷系统
CN113377942A (zh) * 2021-07-12 2021-09-10 北京乐学帮网络技术有限公司 一种试卷生成方法、装置、计算机设备及存储介质
CN115454951A (zh) * 2022-10-18 2022-12-09 读书郎教育科技有限公司 一种教学数据共享系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410676A (zh) * 2018-11-28 2019-03-01 国家电网公司 一种安全资格认证考试方法、系统及设备
CN110533974A (zh) * 2018-05-24 2019-12-03 中国移动通信集团有限公司 一种智能组卷方法、系统和计算机可读存储介质
CN110704732A (zh) * 2019-09-19 2020-01-17 广州大学 基于认知诊断的时序性习题推荐方法
CN110727360A (zh) * 2019-09-10 2020-01-24 深圳市壹箭教育科技有限公司 一种错题管理方法、系统及存储介质和终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533974A (zh) * 2018-05-24 2019-12-03 中国移动通信集团有限公司 一种智能组卷方法、系统和计算机可读存储介质
CN109410676A (zh) * 2018-11-28 2019-03-01 国家电网公司 一种安全资格认证考试方法、系统及设备
CN110727360A (zh) * 2019-09-10 2020-01-24 深圳市壹箭教育科技有限公司 一种错题管理方法、系统及存储介质和终端设备
CN110704732A (zh) * 2019-09-19 2020-01-17 广州大学 基于认知诊断的时序性习题推荐方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465329A (zh) * 2020-11-23 2021-03-09 广东电网有限责任公司佛山供电局 一种基于电力知识点的资质考试智能组卷系统
CN113377942A (zh) * 2021-07-12 2021-09-10 北京乐学帮网络技术有限公司 一种试卷生成方法、装置、计算机设备及存储介质
CN115454951A (zh) * 2022-10-18 2022-12-09 读书郎教育科技有限公司 一种教学数据共享系统
CN115454951B (zh) * 2022-10-18 2023-06-30 读书郎教育科技有限公司 一种教学数据共享系统

Similar Documents

Publication Publication Date Title
CN110188331B (zh) 模型训练方法、对话系统评价方法、装置、设备及存储介质
CN112346567B (zh) 基于ai的虚拟交互模型生成方法、装置及计算机设备
US20110270883A1 (en) Automated Short Free-Text Scoring Method and System
CN111552796A (zh) 组卷方法、电子设备及计算机可读介质
CN110516791B (zh) 一种基于多重注意力的视觉问答方法及系统
CN109299245B (zh) 知识点召回的方法和装置
CN112508334A (zh) 融合认知特性及试题文本信息的个性化组卷方法及系统
CN114913729B (zh) 一种选题方法、装置、计算机设备和存储介质
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN114254208A (zh) 薄弱知识点的识别方法、学习路径的规划方法与装置
CN114567815B (zh) 一种基于预训练的慕课自适应学习系统构建方法和装置
KR102281161B1 (ko) 자기소개서를 기반으로 면접 질문을 생성하는 서버 및 방법
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN114201684A (zh) 一种基于知识图谱的自适应学习资源推荐方法及系统
Jiang et al. Evaluating Sources of Course Information and Models of Representation on a Variety of Institutional Prediction Tasks.
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN115858919A (zh) 基于项目领域知识和用户评论的学习资源推荐方法及系统
CN113505154B (zh) 一种基于大数据的数字阅读统计分析方法及系统
CN113283488B (zh) 一种基于学习行为的认知诊断方法及系统
CN111401525A (zh) 一种基于深度学习的适应性学习系统和方法
KR20210058376A (ko) 인공지능 기반 동영상 해답 제공을 이용한 학습 시스템
CN113935554B (zh) 投放系统中的模型训练方法、资源投放方法及装置
CN115713441A (zh) 基于AHP-Fuzzy算法和神经网络的教学质量评价方法与系统
CN114329181A (zh) 一种题目推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination