CN116361541A - 基于知识追踪与相似度分析的试题推荐方法 - Google Patents

基于知识追踪与相似度分析的试题推荐方法 Download PDF

Info

Publication number
CN116361541A
CN116361541A CN202310042279.9A CN202310042279A CN116361541A CN 116361541 A CN116361541 A CN 116361541A CN 202310042279 A CN202310042279 A CN 202310042279A CN 116361541 A CN116361541 A CN 116361541A
Authority
CN
China
Prior art keywords
knowledge
test question
test
questions
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310042279.9A
Other languages
English (en)
Inventor
宋建锋
王钰凯
谢琨
苗启广
权义宁
刘向增
刘如意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310042279.9A priority Critical patent/CN116361541A/zh
Publication of CN116361541A publication Critical patent/CN116361541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于知识追踪与相似度分析的试题推荐方法,本发明使用知识点相似度与文本词向量分析的方式进行试题相似性比对,解决了现有技术存在的试题聚类对比度过高、知识点词向量不完整、试题文本解析不全面的问题。本发明利用训练好的知识追踪网络,分析学生的学习行为,动态更新学生的知识点的掌握情况,并利用试题相似度分析结果与学生的答题记录,为学生推荐试题内容,解决了现有技术存在的不同能力学生的差异化问题。使得本发明推荐的试题具有在分类方面有着更快的解析速度、清晰的模块划分以及高准确率的试题分类的优点。

Description

基于知识追踪与相似度分析的试题推荐方法
技术领域
本发明属于数据处理技术领域,更进一步涉及自然语言处理技术领域中的一种基于知识追踪与相似度分析的试题推荐方法。本发明可用于在线考试系统、在线课程学习系统等教育辅助平台,通过在众多试题资源中找出合适的习题数据、试题与知识点信息推荐给目标用户。
背景技术
教育信息化是我国教育行业的发展重要课题,个性化习题推荐帮助学生在学习的过程中做到薄弱知识强化、知识难点攻略。传统的习题推荐推荐算法主要以基于内容的协同过滤推荐为主,该算法的主要实现方式是,根据找到与目标学生A的历史记录相似的学生B,然后为A学生推荐与学生B相似的试题内容。此方法过于简单,并没有考虑习题的具体特征,并且如果数据量过小,则会造成推荐信息不准确,个人学生特异性考虑欠缺等严重性问题。项目反映理论IRT(item response theory)是认知模型中最经典的一种方式,IRT可以根据学生的具体情况比如:潜在特质、试题难度、辨识度等分析学生具体表现。虽然认知诊断相比于协同过滤考虑到了学生的认知状态,并且根据不同学生的知识水平进行了推荐,但是没有考虑到试题的相似度以及学生薄弱项目的针对性复习,使试题推荐具有局限性,无法很好的提升学生的弱势知识点。
中山大学在其申请的专利文献“一种基于用户学习行为的个性化试题推荐方法”(专利申请号:201811302272.1,申请公布号:CN 109509126 A)中提出了一种基于用户学习行为的个性化试题推荐方法。该方法从在线教育平台获取用户历史做题数据、试题与知识点信息;根据用户历史做题数据,构造用户-试题得分矩阵R,将试题与知识点之间的关联构造为试题-知识点关联矩阵Q。通过DINA模型构建用户认知诊断模型,得到用户知识点掌握矩阵A。对矩阵R非负矩阵分解,得到用户和试题的隐含特征矩阵W和H,求出W和H矩阵的估计值,得到得分预测模型;最后计算用户潜在作答情况,并将目标用户自己选择难度范围的试题推荐给目标用户。该方法存在的不足之处是,该方法虽然加快了模型的训练速度,但是忽略了学生之间的差异性以及试题之间的区分度,未能很好的做到差异化学习,并且对于数据量较小的样本无法很好的建模分析。
江苏大学在其申请的专利文献“一种基于解题思路和知识点的试题相似度计算方法”(专利申请号:202111626398.6,申请公布号:CN 114372518 A)中提出了一种基于解题思路和知识点的试题相似度的计算方法。该方法的实现步骤是,首先整理试题特征信息形成知识点类特征集和解题思路类特征集,其中一方面以Jaccard系数作为两试题之间的知识点相似度,另一方面从试题解题思路的角度出发,考量两试题之间的相似性,其中利用Skip-gram模型将解题思路中的语料信息转换为相对应的词向量,进而以计算词向量之间欧氏距离的方式,评价试题之间的相似度,最终与知识点相似度相结合,提升数学类试题相似度评价的准确性,尤其是能够避开数学题中不同符号图表所带来的干扰。但是,该方法仍然存在的不足之处是,只考虑到试题以及试题语义之间的相似性,未考虑到学生自身的情况因素,无法根据不同水平以及学习效率的学生,进行针对性的出题。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种基于知识追踪与相似度分析的试题推荐方法。用于解决学生在学习过程中存在的个体差异问题,对于不同知识点掌握程度的学生进行独立性分析,并为学生推荐合适的试题。
实现本发明目的的技术思路是,本发明将会根据学生在学习过程产生的数据信息建模分析学习行为,利用知识网络拟合学生在学习过程中导致的知识掌握程度的变化情况。发明首先使用知识点相似度与文本词向量分析的方式将试题间的相似性进行比对,其次通过余弦相似度计算相同类别中试题之间向量夹角,得到试题间的相似度分析。然后搭建知识追踪网络,利用学生的答题记录与试题相似度分析结果拟合学生的学习行为,动态更新学生的知识点的掌握情况,从而为学生推荐试题内容。解决了试题推荐过程中存在的试题重复度高、知识点关联程度过低以及学生知识点网络无法细分化等问题。
本发明的实现步骤如下:
步骤1,构建知识词典:
步骤1.1,收集每个学年中的至少3门课程、至少50名学生的6000道试题与试题对应的答题记录组成数据集,每道试题包括试题内容、该道试题的知识点、每个知识点对应的知识点解析;
步骤1.2,将每道试题整理成以(j-test、j-k、j-k-info)为标签文件,其中,j为试题的序号,j-test表示第j道试题的试题内容,j-k表示第j道试题的第k个知识点,j-k-info表示第j道试题第k个知识点的对应解析;
步骤1.3,将数据集中所有试题中相同知识点划分为同一种类别,得到至少10种类别,每种类别至少包含10条知识点,每个知识点至少对应500道试题;将类别划分后的每道试题的标签修改为(j-test、j-k、j-k-info、class-j)的标签文件,其中,class-j表示属于第class种类别的第j道试题;
步骤1.4,利用文件格式工具,将(j-test、j-k、j-k-info、class-j)标签文件转化为可用于机器学习分析的svg格式文件,并将svg格式文件存入知识词典中;
步骤2,计算知识词典中同种类别中知识点之间的相似性权值概率:
将知识词典中同种类别的知识点进行两两相似性比对,计算同种类别知识点间的相似性权值概率;
步骤3,计算知识词典中每道试题的每个词汇在该试题中的词频TF:
将知识词典中所有试题进行分词预处理,依次划分每道试题的试题结构,计算知识词典中每道试题的每个词汇在该试题中的词频;
步骤4,计算知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF;
步骤5,计算知识词典中每道试题的每个词汇在该试题中的TF-IDF值;
步骤6,计算知识词典中同种类别中试题之间的余弦相似度:
将知识词典中同种类别的试题进行两两的相似性比对,计算同种类别试题间的余弦相似度;
步骤7,生成由知识点词序列向量组成的训练集:
步骤7.1,从知识词典中找到每个学生的每道答题记录对应的试题,将每道试题包含的所有知识点组成该道试题的知识点向量,将每道试题的知识点向量按照每个学生的答题记录中与试题对应的序号进行排列后组成该学生的知识点词序列向量;
步骤7.2,将所有学生的知识点词序列向量组成训练集;
步骤8,搭建知识追踪网络:
步骤8.1,基于现有的LSTM网络搭建一个知识追踪网络,其结构依次串联为:输入层,遗忘层,记忆层,知识点预测层,输出层;其中,输入层采用Bert预训练模型作为文本编码器,记忆层采用tanh激活函数实现,记忆层通过tanh激活函数将每种类别每道试题的权重值与试题向量激活,并映射到-1~1之间,知识点预测层采用sigmoid激活函数实现,知识点预测层通过sigmoid激活函数将知识点词序列向量与试题向量激活,并映射到0~1之间,输出层由Softmax单元组成;
步骤8.2,设置知识追踪网络各层参数如下:
将文本编码器的知识点词序列向量维度设置为512,输入知识点的最大长度设置为100,输入试题的最大长度设置为1000;
将遗忘层的神经单元数设置为100,遗忘层的丢弃率设置为0.2,字向量维度设置为300;
将记忆层的神经单元数设置为120,试题向量维度设置为1000,记忆层保留率设置为0.7;
将知识点预测层的神经单元数设置为80;输出层输出由试题与试题所对应的预测概率组成的序列概率,其预测概率取值为0~1;
步骤9,训练知识追踪网络:
将训练集输入到知识追踪网络中,利用交叉熵损失函数,计算每道试题的知识点预测向量与该道试题对应的知识点向量之间的损失值,通过梯度下降法,迭代更新知识追踪网络中的所有参数,直至损失函数收敛为止,得到训练好的知识追踪网络;
步骤10,利用训练好的知识追踪网络推荐试题:
步骤10.1,为需要推荐试题的学生收集与该学生所学习的相同年级相同科目的试题,采用与步骤1.1和步骤1.2相同的方式,将所有试题整理成test为标签的文件,并转化为svg格式作为待预测试题,将待预测试题输入到训练好的知识追踪网络中,输出需要推荐试题学生的预测试题序列概率;
步骤10.2,将预测试题序列概率转化为XLS格式文件,获得待预测试题中每道试题的试题内容与其所对应的预测概率,根据试题的预测概率的从大到小,为需要推荐试题的学生推荐试题内容。
本发明与现有技术相比较,具有以下优点:
第一,本发明采用知识追踪的方法,即从多个方面考虑学生学习过程中的影响因素,克服了现有技术中存在的训练样本过小导致无法拟合学生学习行为的缺陷,以及不同能力学生之间存在的差异化的问题。使得本发明能更加细致的建模分析用户学习行为,具有根据时间序列动态更新学生的知识点的掌握情况的优点。
第二,本发明在基础的试题相似度分析上,提出了一种新型的试题词向量与知识点相似度相结合的试题相似度分析模式。克服了现有技术存在的试题聚类对比度过高、知识点词向量不完整、试题文本解析不全面的缺陷等问题,使得本发明在试题分类方面有着更快的解析速度、清晰的模块划分以及高准确率的试题分类的优点。
附图说明
图1本发明的流程图。
具体实施方式
下面结合附图1和实施例对本发明做进一步的描述。
步骤1,构建知识词典。
本发明实施例的数据是取自ASSITments2018数据集,该数据集是针对高等教育学校的练习与辅导系统,其题型主要以选择、应答为主要结构。ASSITments2018数据集选取2018年上半年,伍斯特理工学院100名大学二年级学生,在ASSITment在线学习系统中关于《计算机网络》、《数据结构》、《C++》三个课程,共6000道试题的38000条答题记录。其中《计算机网络》课程包括50条知识点、3000道试题以及18000条答题记录,《数据结构》课程包括40条知识点、1800道试题及12000条答题记录,《C++》课程包括1200道试题和20条知识点及8000条答题记录。
步骤1.1,将ASSITments2018数据集的每道试题信息均整理为以(j-test、j-k、j-k-info)为标签的数据化格式文件,其中,j为试题序号,j-test表示第j道试题序号与所对应的题内容,j-k表示第j道试题序号与所包含的知识点k,1道试题的可包含多个知识点,1个知识点可对应多个试题,j-k-info表示第j道试题序号、该试题所包含的知识点k与该试题所包含的知识点的对应解析info。
本发明的实施例以ASSITments2018数据集中第13道试题为例,其数据化格式,如下表所示:
Figure BDA0004050861020000061
步骤1.2,将以(j-test、j-k、j-k-info)为标签的数据化格式文件,依据知识点关联信息划分为10种类别,每种类别至少包含10条知识点,每条知识点对应至少500道试题,以ASSITments2018数据集中的《数据结构》为例,类别1为数据结构基础,其中包括:数据结构的发展、数据结构、数据元素、数据对象等10种知识点,每种知识点有所对应的多个试题,对于包含多个知识点的试题,可重复使用。并将其划分结果作为以(j-test、j-k、j-k-info)为标签的数据化格式文件中新的标签,名为class-j。由此得到以(j-test、j-k、j-k-info、class-j)为标签的数据化格式文件,以ASSITments2018数据集中第13道试题为例,其试题类别为1类,则class-j标签对应数据内容为1-13。
步骤1.3,利用wps、word或者格式工厂,将以(j-test、j-k、j-k-info、class-j)为标签的数据化格式文件转化为可用于机器学习分析的svg格式文件,并将svg格式文件存入知识词典中。
步骤2,计算知识词典中同种类别中知识点之间的相似性权值概率。
为了有效的对比同种类别中试题之间的相似性,需要将同种类别中所包含的所有知识点之间的相似性进行对比。知识点之间的相似性的对比方式先是通过字符串编码将知识点及其解析内容转化为[0,1]向量,例如:存储结构为[0,1,1,0,0,1,1,1,1,0,0]。然后将步骤1中所整理出的知识词典中同种类别中包含的所有知识点进行两两的相似性对比。
本发明实施例的相似性对比方式是使用现有的word2vec技术,将两个知识点之间的向量值进行余弦乘积后,再按照下式,计算两个知识点之间的相似性权值概率:
Figure BDA0004050861020000071
其中,
Figure BDA0004050861020000072
表示知识点/>
Figure BDA0004050861020000073
与知识点/>
Figure BDA0004050861020000074
之间的相似性权值概率,m和n表示知识点序号,r表示类别序号,p(.)表示求概率操作,/>
Figure BDA0004050861020000075
表示r类别中第m个知识点,/>
Figure BDA0004050861020000076
表示r类别中第n个知识点,/>
Figure BDA0004050861020000077
表示知识点/>
Figure BDA0004050861020000078
所对应的解析内容,/>
Figure BDA0004050861020000079
表示知识点/>
Figure BDA00040508610200000710
所对应的解析内容。
步骤3,计算知识词典中每道试题的每个词汇在该试题中的词频TF(TermFrequency)。
词频表示着在每道试题中每个词汇在该试题中出现的频率,是衡量试题差异化的标准方式。其方法是将知识词典中的所有试题进行分词预处理,依次划分每道试题的试题结构,以《数据结构》为例,原试题为:叙述其逻辑结构、存储结构和运算(操作)三方面的内容。划分后为:叙述/其/逻辑结构、/存储结构/和/运算/(操作)/三方面/的/内容。然后计算每道试题中的每个词汇在该试题中的词频,如果试题中词汇的TF值越高,则该词汇在该试题中出现的频率越高。
按照下式,计算知识词典中的每道试题中的每个词汇在该试题中的词频TF值:
Figure BDA00040508610200000711
其中,TFij表示在第j道试题dj中第i个词汇ei的词频,i表示词汇序号,j表示试题序号,nij表示词汇ei在试题dj中出现的次数,∑表示求和操作,Nj表示试题dj中词汇ei的总数,nkj表示第k个词汇ek在试题dj中出现的次数。
步骤4,计算知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF(Inverse Document Frequency)。
试题中词汇的IDF值是用来衡量每道试题的每个词汇在该试题中的普遍程度。如果试题中词汇的IDF值越高,则该词汇在文本分类中特性比较差或者独立性比较弱。
按照下式,计算试题中的逆文档词频IDF值:
Figure BDA0004050861020000081
其中,IDFij表示在试题dj中词汇ei的逆文档词频,|.|表示求绝对值操作,D表示知识词典中的试题的总数,log表示以2为底的对数操作,∈表示包含,{j:ti∈dj}表示知识词典中包含词汇ei的试题数量。
步骤5,计算知识词典中每道试题的每个词汇在该试题中的TF-IDF(termfrequency–inverse document frequency)值。
由步骤3、4所得出的TF、IDF值,可用计算知识词典中所有试题中所有词汇TF-IDF值,试题中词汇的TF-IDF值是用来衡量每道试题的每个词汇在该试题中的重要程度,如果试题中词汇的TF-IDF值越大,则该词汇在该试题中的重要程度越高。
以《数据结构》为例,原试题为:叙述其逻辑结构、存储结构和运算(操作)三方面的内容,如果该试题中“逻辑结构”一词的TF-IDF值越大,则“逻辑结构”对于该试题的重要程度越高。
按照下式,计算试题中词汇的TF-IDF值:
TF-IDFij=TFij/|dj|log(|D|/IDFij)
其中,TF-IDFij表示在试题dj中词汇ei的TF-IDF值,TFij表示试题dj中第i个词汇ei的词频,|.|表示求绝对值操作,log表示以2为底的对数操作,IDFij表示在试题dj中词汇ei的逆文档词频。
步骤6,计算知识词典中同种类别中试题之间的余弦相似度。
计算知识词典中同种类别中试题之间的余弦相似度是采用步骤2所得出的知识词典中同种类别中知识点之间的相似性权值概率与步骤5所得出的知识词典中每道试题的每个词汇在该试题中的TF-IDF值,通过将知识词典中的同种试题类别的试题进行两两相似性比对,获得试题间的余弦相似度,余弦相似度是用来衡量知识词典中同试题类别的试题之间相似性,取值范围为[0,1],其值越接近于1,则相似性越强。
按照下式,计算相同试题类别中试题间的余弦相似度:
Figure BDA0004050861020000091
其中,
Figure BDA0004050861020000092
表示试题/>
Figure BDA0004050861020000093
与试题/>
Figure BDA0004050861020000094
之间的余弦相似度,r表示试题类别的序号,Nj表示试题/>
Figure BDA0004050861020000095
中词汇的总数,nq表示试题/>
Figure BDA0004050861020000096
中词汇的总数,TF-IDFiq表示在试题/>
Figure BDA0004050861020000097
中词汇ei的TF-IDF值,Tj表示试题/>
Figure BDA0004050861020000098
中的知识点总数,tq表示试题/>
Figure BDA0004050861020000099
中知识点的总数,/>
Figure BDA00040508610200000910
表示试题dj所包含的第n条知识点,/>
Figure BDA00040508610200000911
表示试题dq所包含的第m条知识点,/>
Figure BDA00040508610200000912
表示知识点/>
Figure BDA00040508610200000913
与知识点/>
Figure BDA00040508610200000914
之间的相似性权值概率。
步骤7,生成由知识点词序列向量组成的训练集。
步骤7.1,从知识词典中找到每个学生的每道答题记录对应的试题,将每道试题包含的所有知识点组成该道试题的知识点向量,将每道试题的知识点向量按照每个学生的答题记录中与试题对应的序号进行排列后组成该学生的知识点词序列向量。
步骤7.2,将所有学生的知识点词序列向量组成训练集;
步骤8,搭建知识追踪网络:
步骤8.1,基于现有的LSTM网络搭建一个知识追踪网络,其结构依次串联为:输入层,遗忘层,记忆层,知识点预测层,输出层;其中,输入层采用Bert预训练模型作为文本编码器,记忆层采用tanh激活函数实现,记忆层通过tanh激活函数将每种类别每道试题的权重值与试题向量激活,并映射到-1~1之间,知识点预测层采用sigmoid激活函数实现,知识点预测层通过sigmoid激活函数将知识点词序列向量与试题向量激活,并映射到0~1之间,输出层由Softmax单元组成。
按照下式,计算每种类别每道试题的权重值:
Figure BDA0004050861020000101
其中,
Figure BDA0004050861020000102
表示第r种类别中第j道试题/>
Figure BDA0004050861020000103
的权重值,/>
Figure BDA0004050861020000104
表示回答试题/>
Figure BDA0004050861020000105
中的知识点km的正确次数,/>
Figure BDA0004050861020000106
表示在知识点词序列向量中知识点km出现的次数,R第r种类别中的试题总数,max表示求最大值操作,/>
Figure BDA0004050861020000107
表示第r种类别中的第q道试题,/>
Figure BDA0004050861020000108
表示试题
Figure BDA0004050861020000109
与试题/>
Figure BDA00040508610200001010
之间的余弦相似度。
步骤8.2,设置知识追踪网络各层参数如下:
将文本编码器的知识点词序列向量维度设置为512,输入知识点的最大长度设置为100,输入试题的最大长度设置为1000;
将遗忘层的神经单元数设置为100,遗忘层的丢弃率设置为0.2,字向量维度设置为300;
将记忆层的神经单元数设置为120,试题向量维度设置为1000,记忆层保留率设置为0.7;
将知识点预测层的神经单元数设置为80;输出层输出由试题与试题所对应的预测概率组成的序列概率,其预测概率取值为0~1;
步骤9,训练知识追踪网络。
将训练集输入到知识追踪网络中,利用交叉熵损失函数,计算每道试题的知识点预测向量与该道试题对应的知识点向量之间的损失值,通过梯度下降算法及学习率为0.01的Adam优化器对网络参数迭代更新,迭代更新知识追踪网络中的所有参数,直至损失函数收敛为止,得到训练好的知识追踪网络。
所述损失函数公式如下:
Figure BDA0004050861020000111
其中,
Figure BDA0004050861020000113
表示损失函数值,T表示学生答题记录中试题的总数,/>
Figure BDA0004050861020000114
表示交叉熵函数,Mt表示第t道试题的知识点预测向量,Kt表示第t道试题的对应的知识点向量。
步骤10,利用训练好的知识追踪网络推荐试题。
步骤10.1,为需要推荐试题的学生收集与该学生所学习的相同年级相同科目的试题,采用与步骤1.1和步骤1.2相同的方式,将所有试题整理成test为标签的文件,并转化为svg格式作为待预测试题,将待预测试题输入到训练好的知识追踪网络中,输出需要推荐试题学生的预测试题序列概率。
步骤10.2,将该学生的预测试题序列概率利用python的txt_file工具包输出为txt格式文件,将其输出的txt格式文件再次利用wps、word格式工厂转化为XLS格式文件,即可获得获得待预测试题中每道试题的试题内容与其所对应的预测概率。例如:
Figure BDA0004050861020000112
根据试题的预测概率的从大到小,为该学生推荐试题内容。

Claims (8)

1.一种基于知识追踪与相似度分析的试题推荐方法,其特征在于,采用试题词向量与知识点相结合的试题相似度分析方式,搭建并训练知识追踪网络,利用试题相似度分析结果与学生答题记录,为学生推荐试题内容;该试题推荐方法的步骤包括如下:
步骤1,构建知识词典:
步骤1.1,收集每个学年中的至少3门课程、至少50名学生的6000道试题与试题对应的答题记录组成数据集,每道试题包括试题内容、该道试题的知识点、每个知识点对应的知识点解析;
步骤1.2,将每道试题整理成以(j-test、j-k、j-k-info)为标签文件,其中,j为试题的序号,j-test表示第j道试题的试题内容,j-k表示第j道试题的第k个知识点,j-k-info表示第j道试题第k个知识点的对应解析;
步骤1.3,将数据集中所有试题中相同知识点划分为同一种类别,得到至少10种类别,每种类别至少包含10条知识点,每个知识点至少对应500道试题;将类别划分后的每道试题的标签修改为(j-test、j-k、j-k-info、class-j)的标签文件,其中,class-j表示属于第class种类别的第j道试题;
步骤1.4,利用文件格式工具,将(j-test、j-k、j-k-info、class-j)标签文件转化为可用于机器学习分析的svg格式文件,并将svg格式文件存入知识词典中;
步骤2,计算知识词典中同种类别中知识点之间的相似性权值概率:
将知识词典中同种类别的知识点进行两两相似性比对,计算同种类别知识点间的相似性权值概率;
步骤3,计算知识词典中每道试题的每个词汇在该试题中的词频TF:
将知识词典中所有试题进行分词预处理,依次划分每道试题的试题结构,计算知识词典中每道试题的每个词汇在该试题中的词频;
步骤4,计算知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF;
步骤5,计算知识词典中每道试题的每个词汇在该试题中的TF-IDF值;
步骤6,计算知识词典中同种类别中试题之间的余弦相似度:
将知识词典中同种类别的试题进行两两的相似性比对,计算同种类别试题间的余弦相似度;
步骤7,生成由知识点词序列向量组成的训练集:
步骤7.1,从知识词典中找到每个学生的每道答题记录对应的试题,将每道试题包含的所有知识点组成该道试题的知识点向量,将每道试题的知识点向量按照每个学生的答题记录中与试题对应的序号进行排列后组成该学生的知识点词序列向量;
步骤7.2,将所有学生的知识点词序列向量组成训练集;
步骤8,搭建知识追踪网络:
步骤8.1,基于现有的LSTM网络搭建一个知识追踪网络,其结构依次串联为:输入层,遗忘层,记忆层,知识点预测层,输出层;其中,输入层采用Bert预训练模型作为文本编码器,记忆层采用tanh激活函数实现,记忆层通过tanh激活函数将每种类别每道试题的权重值与试题向量激活,并映射到-1~1之间,知识点预测层采用sigmoid激活函数实现,知识点预测层通过sigmoid激活函数将知识点词序列向量与试题向量激活,并映射到0~1之间,输出层由Softmax单元组成;
步骤8.2,设置知识追踪网络各层参数如下:
将文本编码器的知识点词序列向量维度设置为512,输入知识点的最大长度设置为100,输入试题的最大长度设置为1000;
将遗忘层的神经单元数设置为100,遗忘层的丢弃率设置为0.2,字向量维度设置为300;
将记忆层的神经单元数设置为120,试题向量维度设置为1000,记忆层保留率设置为0.7;
将知识点预测层的神经单元数设置为80;输出层输出由试题与试题所对应的预测概率组成的序列概率,其预测概率取值为0~1;
步骤9,训练知识追踪网络:
将训练集输入到知识追踪网络中,利用交叉熵损失函数,计算每道试题的知识点预测向量与该道试题对应的知识点向量之间的损失值,通过梯度下降法,迭代更新知识追踪网络中的所有参数,直至损失函数收敛为止,得到训练好的知识追踪网络;
步骤10,利用训练好的知识追踪网络推荐试题:
步骤10.1,为需要推荐试题的学生收集与该学生所学习的相同年级相同科目的试题,采用与步骤1.1和步骤1.2相同的方式,将所有试题整理成test为标签的文件,并转化为svg格式作为待预测试题,将待预测试题输入到训练好的知识追踪网络中,输出需要推荐试题学生的预测试题序列概率;
步骤10.2,将预测试题序列概率转化为XLS格式文件,获得待预测试题中每道试题的试题内容与其所对应的预测概率,根据试题的预测概率的从大到小,为需要推荐试题的学生推荐试题内容。
2.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤2中所述的知识词典中同种类别的知识点之间的相似性权值概率是由下式得到的:
Figure FDA0004050861010000031
其中,
Figure FDA0004050861010000032
表示知识点/>
Figure FDA0004050861010000033
与知识点/>
Figure FDA0004050861010000034
之间的相似性权值概率,m和n表示知识点序号,r表示类别序号,p(.)表示求概率操作,/>
Figure FDA0004050861010000035
表示r类别中第m个知识点,/>
Figure FDA0004050861010000036
表示r类别中第n个知识点,/>
Figure FDA0004050861010000037
表示知识点/>
Figure FDA0004050861010000038
所对应的解析内容,/>
Figure FDA0004050861010000039
表示知识点/>
Figure FDA00040508610100000310
所对应的解析内容。
3.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤3中知识词典中每道试题的每个词汇在该试题中的词频TF是由下式得到的:
Figure FDA00040508610100000311
其中,TFij表示在第j道试题dj中第i个词汇ei的词频,i表示词汇序号,j表示试题序号,nij表示词汇ei在试题dj中出现的次数,∑表示求和操作,Nj表示试题dj中词汇ei的总数,nkj表示第k个词汇ek在试题dj中出现的次数。
4.根据权利要求3所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤4中知识词典中每道试题的每个词汇在该试题中的逆文档词频IDF是由下式得到的:
Figure FDA0004050861010000041
其中,IDFij表示在试题dj中词汇ei的逆文档词频,|.|表示求绝对值操作,D表示知识词典中的试题的总数,log表示以2为底的对数操作,∈表示包含,{j:ti∈dj}表示知识词典中包含词汇ei的试题数量。
5.根据权利要求4所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤5中知识词典中每道试题的每个词汇在该试题中的TF-IDF值是由下式得到的:
TF-IDFij=TFij/|dj|log(|D|/IDFij)
其中,TF-IDFij表示在试题dj中词汇ei的TF-IDF值,TFij表示试题dj中第i个词汇ei的词频,|.|表示求绝对值操作,log表示以2为底的对数操作,IDFij表示在试题dj中词汇ei的逆文档词频。
6.根据权利要求5所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤6中知识词典中同种类别中试题之间的余弦相似度是由下式得到的:
Figure FDA0004050861010000042
其中,
Figure FDA0004050861010000043
表示试题/>
Figure FDA0004050861010000044
与试题/>
Figure FDA0004050861010000045
之间的余弦相似度,r表示试题类别的序号,Nj表示试题/>
Figure FDA0004050861010000046
中词汇的总数,Nq表示试题/>
Figure FDA0004050861010000047
中词汇的总数,TF-IDFiq表示在试题/>
Figure FDA0004050861010000048
中词汇ei的TF-IDF值,Tj表示试题/>
Figure FDA0004050861010000049
中的知识点总数,Tq表示试题/>
Figure FDA0004050861010000051
中知识点的总数,/>
Figure FDA0004050861010000052
表示试题dj所包含的第n条知识点,/>
Figure FDA0004050861010000053
表示试题dq所包含的第m条知识点,/>
Figure FDA0004050861010000054
表示知识点/>
Figure FDA0004050861010000055
与知识点/>
Figure FDA0004050861010000056
之间的相似性权值概率。
7.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤8.2中所述每种类别每道试题的权重值是由下式得到的:
Figure FDA0004050861010000057
其中,
Figure FDA0004050861010000058
表示第r种类别中第j道试题/>
Figure FDA0004050861010000059
的权重值,/>
Figure FDA00040508610100000510
表示回答试题/>
Figure FDA00040508610100000511
中的知识点km的正确次数,/>
Figure FDA00040508610100000512
表示在知识点词序列向量中知识点km出现的次数,R第r种类别中试题的总数,max表示求最大值操作,/>
Figure FDA00040508610100000513
表示第r种类别中的第q道试题,/>
Figure FDA00040508610100000514
表示试题/>
Figure FDA00040508610100000515
与试题/>
Figure FDA00040508610100000516
之间的余弦相似度。
8.根据权利要求1所述的基于知识追踪与相似度分析的试题推荐方法,其特征在于,步骤9中所述的损失函数如下:
Figure FDA00040508610100000517
其中,
Figure FDA00040508610100000518
表示损失函数值,T表示学生答题记录中试题的总数,l(·)表示交叉熵函数,Mt表示第t道试题的知识点预测向量,Kt表示第t道试题的对应的知识点向量。
CN202310042279.9A 2023-01-28 2023-01-28 基于知识追踪与相似度分析的试题推荐方法 Pending CN116361541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310042279.9A CN116361541A (zh) 2023-01-28 2023-01-28 基于知识追踪与相似度分析的试题推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310042279.9A CN116361541A (zh) 2023-01-28 2023-01-28 基于知识追踪与相似度分析的试题推荐方法

Publications (1)

Publication Number Publication Date
CN116361541A true CN116361541A (zh) 2023-06-30

Family

ID=86905385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310042279.9A Pending CN116361541A (zh) 2023-01-28 2023-01-28 基于知识追踪与相似度分析的试题推荐方法

Country Status (1)

Country Link
CN (1) CN116361541A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291775A (zh) * 2023-11-27 2023-12-26 山东多科科技有限公司 一种深度知识追踪的精准化教学方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291775A (zh) * 2023-11-27 2023-12-26 山东多科科技有限公司 一种深度知识追踪的精准化教学方法
CN117291775B (zh) * 2023-11-27 2024-03-01 山东多科科技有限公司 一种深度知识追踪的精准化教学方法

Similar Documents

Publication Publication Date Title
US10628731B1 (en) Deep convolutional neural networks for automated scoring of constructed responses
CN107230174B (zh) 一种基于网络的在线互动学习系统和方法
CN112184500A (zh) 基于深度学习和知识图谱的课外学习辅导系统及实现方法
CN114913729B (zh) 一种选题方法、装置、计算机设备和存储介质
CN112101039A (zh) 一种面向在线学习社区的学习兴趣发现方法
CN111460101A (zh) 知识点类型的识别方法、装置及处理器
CN111461394A (zh) 一种基于深度矩阵分解的学生成绩预测方法
Bagaria et al. An intelligent system for evaluation of descriptive answers
CN116361541A (zh) 基于知识追踪与相似度分析的试题推荐方法
CN112785039B (zh) 一种试题作答得分率的预测方法及相关装置
CN112685470B (zh) 基于学分银行和大数据分析的终身学习资源智能推送方法
CN115358300A (zh) 基于语音和文本分类的学生认知识别方法、装置以及设备
CN113934846A (zh) 一种联合行为-情感-时序的在线论坛主题建模方法
CN114548098A (zh) 文本可读性评估方法、装置、设备及存储介质
CN113468311A (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
Borade et al. Automated Grading of PowerPoint Presentations Using Latent Semantic Analysis
Zhou Research on teaching resource recommendation algorithm based on deep learning and cognitive diagnosis
Singh et al. Computer Application for Assessing Subjective Answers using AI
CN111563162A (zh) 基于文本情感分析的mooc评论分析系统及方法
KR20210058376A (ko) 인공지능 기반 동영상 해답 제공을 이용한 학습 시스템
JP2020177507A (ja) 試験問題予測システム及び試験問題予測方法
Wen et al. Research on Chinese Character Feature Extraction and Modeling of Children's Cognitive Law Based on LightGBM Algorithm
Yang Chinese Sentiment Analysis of MOOC Reviews Based on Word Vectors
Jenitha et al. Prediction of Students' Performance based on Academic, Behaviour, Extra and Co-Curricular Activities.
Qawasmeh et al. Bayes model for assessing the reading difficulty of English text for English education in Jordan.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination