CN114386716A - 基于改进irt结构的答题序列预测方法、控制器及存储介质 - Google Patents

基于改进irt结构的答题序列预测方法、控制器及存储介质 Download PDF

Info

Publication number
CN114386716A
CN114386716A CN202210143449.8A CN202210143449A CN114386716A CN 114386716 A CN114386716 A CN 114386716A CN 202210143449 A CN202210143449 A CN 202210143449A CN 114386716 A CN114386716 A CN 114386716A
Authority
CN
China
Prior art keywords
vector
answer
question
information
irt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210143449.8A
Other languages
English (en)
Other versions
CN114386716B (zh
Inventor
刘羲
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210143449.8A priority Critical patent/CN114386716B/zh
Publication of CN114386716A publication Critical patent/CN114386716A/zh
Priority to PCT/CN2022/090662 priority patent/WO2023155301A1/zh
Application granted granted Critical
Publication of CN114386716B publication Critical patent/CN114386716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术,其实施例提供了基于改进IRT结构的答题序列预测方法,该方法包括以下步骤:分别对历史答题记录信息进行向量化处理得到携带方向的答题序列输入向量,将所有携带方向的答题序列输入向量输入至LSTM中进行处理得到用户能力向量,对题目难度数据和题目区分度数据进行向量化处理得到题目难度向量和题目区分向量,通过IRT对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率,根据答对概率确定目标推荐题目。通过将用户能力、题目难度、题目区分度向量化,能够精确的描绘用户水平和题目水平,减少信息损失的同时通过改进LSTM结构,解决用户答错题目,用户能力反而上升的情况,从而提高预测的准确率。

Description

基于改进IRT结构的答题序列预测方法、控制器及存储介质
技术领域
本发明实施例涉及但不限于数据分析领域,尤其涉及一种基于改进IRT结构的答题序列预测方法、控制器及存储介质。
背景技术
随着英语学习需求的不断扩充和人工智能的不断进步,快速、便捷、高效的学习英语已成为人们的需求。现有英文答题序列预测主要通过深度神经网络模型进行预测,即将答题序列看为序列预测问题,对用户已做题目按时间排序,通过用户的历史答题序列,预测当前推荐给用户的合适题目。该方案存在以下三个缺点,其一,对用户能力和题目难度没有明确的表达,不能满足后续任务需求。其二,答题序列预测容易受噪音影响,其预测的不可控性较大。其三,当序列预测模型采用简单结构时,其预测更偏向于人群总体平均预测,而当序列预测模型采用复杂结构时,其训练需求大量的训练数据,不适用于中小数据量的预测需求情况。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例的主要目的在于提出一种基于改进IRT结构的答题序列预测方法,更加精确的描绘用户水平和题目水平,减少信息损失的同时通过改进LSTM结构,解决用户答错题目,用户能力反而上升的情况,从而提高预测的准确率。
第一方面,本发明实施例提供了一种基于改进IRT结构的答题序列预测方法,其特征在于,所述预测方法包括:
获取用户答题序列,所述用户答题序列包括若干个历史答题记录信息;
分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量;
将所有所述携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;
获取题目难度数据以及题目区分度数据;
对所述题目难度数据和所述题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;
通过IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率;
根据所述答对概率确定目标推荐题目。
在一实施例中,所述通过长短期记忆网络LSTM分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量,包括:
获取所述历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息;
分别对每个所述历史答题记录信息中的所述第一文本信息和所述第一标识信息进行embedding处理,得到所述第一文本信息的向量和所述第一标识信息的向量;
将所述答题结果信息进行向量化处理,得到每个所述答题结果信息对应的二维向量信息;
将所述第一文本信息的向量、所述第一标识信息的向量和所述答题结果信息对应的二维向量信息进行拼接处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量。
在一实施例中,第一文本信息的向量的生成方法包括:
将所述第一文本信息中的英语单词进行embedding处理,得到embedding处理后的第一文本信息;
对所述embedding处理后的第一文本信息进行maxpool处理,得到所述第一文本信息的向量。
在一实施例中,所述方法还包括:
在所述答题结果信息为正确的情况下,所述答题序列输入向量的方向为正;
在所述答题结果信息为错误的情况下,所述答题序列输入向量的方向为负。
在一实施例中,所述通过IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率,包括:
所述通过IRT模型建立得到第一公式,所述第一公式为答对概率=所述题目区分向量*(所述用户能力向量-所述题目难度向量);
通过所述第一公式对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率。
在一实施例中,当所述题目为英语题目时,所述题目难度向量的生成方法包括:
获取用户所答题目的第二文本信息和第二标识信息;
将所述第二文本信息中的英语单词进行embedding处理,得到embedding处理后的第二文本信息;
对所述embedding处理后的第二文本信息进行maxpool处理,得到所述第二文本信息的向量;
对所述标识信息进行embedding处理,得到所述标识信息的向量;
将所述第二文本信息的向量和所述标识信息的向量进行拼接处理并经过一层全连接输出得到题目难度向量。
在一实施例中,所述根据所述答对概率确定目标推荐题目,包括:
对每一个题目的所述答对概率与预设正确率进行比较,得到比较差值;
将小于阈值的比较差值所对应的题目确定为目标推荐题目。
第二方面,本发明实施例提供了一种基于改进IRT结构的答题序列预测方法装置,包括:
第一处理模块,用于分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量;
第一计算模块,用于将所有所述携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;
第一获取模块,用于获取题目难度数据以及题目区分度数据;
第二处理模块,用于对所述题目难度数据和所述题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;
第二计算模块,用于通过IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率;
确定模块,用于根据所述答对概率确定目标推荐题目。
在一实施例中,第一处理模块还用于获取所述历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息;
分别对每个所述历史答题记录信息中的所述第一文本信息和所述第一标识信息进行embedding处理,得到所述第一文本信息的向量和所述第一标识信息的向量;
将所述答题结果信息进行向量化处理,得到每个所述答题结果信息对应的二维向量信息;
将所述第一文本信息的向量、所述第一标识信息的向量和所述答题结果信息对应的二维向量信息进行拼接处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量。
在一实施例中,第一处理模块还用于第一文本信息的向量的生成方法包括:
将所述第一文本信息中的英语单词进行embedding处理,得到embedding处理后的第一文本信息;
对所述embedding处理后的第一文本信息进行maxpool处理,得到所述第一文本信息的向量。
在一实施例中,第一处理模块还用于在所述答题结果信息为正确的情况下,所述答题序列输入向量的方向为正;在所述答题结果信息为错误的情况下,所述答题序列输入向量的方向为负。
在一实施例中,第二计算模块,还用于所述通过IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率,包括:
所述通过IRT模型建立得到第一公式,所述第一公式为答对概率=所述题目区分向量*(所述用户能力向量-所述题目难度向量);
通过所述第一公式对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率。
在一实施例中,还包括生成模块,所述生成模块用于当所述题目为英语题目时,所述题目难度向量的生成方法包括:
获取用户所答题目的第二文本信息和第二标识信息;
将所述第二文本信息中的英语单词进行embedding处理,得到embedding处理后的第二文本信息;
对所述embedding处理后的第二文本信息进行maxpool处理,得到所述第二文本信息的向量;
对所述标识信息进行embedding处理,得到所述标识信息的向量;
将所述第二文本信息的向量和所述标识信息的向量进行拼接处理并经过一层全连接输出得到题目难度向量。
在一实施例中,确定模块,还用于所述根据所述答对概率确定目标推荐题目,包括:
对每一个题目的所述答对概率与预设正确率进行比较,得到比较差值;
将小于阈值的比较差值所对应的题目确定为目标推荐题目。
第三方面,本发明实施例提供了一种控制器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于改进IRT结构的答题序列预测方法。
第四方面,一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行第一方面所述的基于改进IRT结构的答题序列预测方法。
本发明实施例包括:基于改进IRT结构的答题序列预测方法包括以下步骤:获取用户答题序列,所述用户答题序列包括若干个历史答题记录信息;分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量;将所有所述携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;获取题目难度数据以及题目区分度数据;对所述题目难度数据和所述题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;通过IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率;根据所述答对概率确定目标推荐题目。在本实施例的技术方案中,通过将用户能力、题目难度、题目区分度向量化,更加精确的描绘用户水平和题目水平,减少信息损失的同时通过改进LSTM结构,解决用户答错题目,用户能力反而上升的情况,从而提高预测的准确率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
图1是本发明一个实施例提供的用于执行基于改进IRT结构的答题序列预测方法的系统架构平台的示意图;
图2是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法的流程图;
图3是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法中改进深度神经网络IRT模型的示意图;
图4是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法中的生成答题序列输入向量的流程图;
图5是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法中改进LSTM结构的示意图;
图6是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法中计算答对概率的流程图;
图7是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法中生成题目难度向量的流程图;
图8是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法中确定目标推荐题目的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明实施例提供了一种基于改进IRT结构的答题序列预测方法,该链路图修复方法包括以下步骤:获取用户答题序列,用户答题序列包括若干个历史答题记录信息;分别对若干个历史答题记录信息进行向量化处理,得到历史答题记录信息对应的携带方向的答题序列输入向量;将所有携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;获取题目难度数据以及题目区分度数据;对题目难度数据和题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;通过IRT模型对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率;根据答对概率确定目标推荐题目。在本实施例的技术方案中,通过将用户能力、题目难度、题目区分度向量化,更加精确的描绘用户水平和题目水平,减少信息损失的同时通过改进LSTM结构,解决用户答错题目,用户能力反而上升的情况,从而提高预测的准确率。
下面结合附图,对本发明实施例作进一步阐述。
首先,对本申请中涉及的若干名词进行解释:
项目反应理论(Item Response Theory,IRT),又称题目反应理论、潜在特质理论(Item Response Theory)是一系列心理统计学模型的总称。IRT是用来分析考试成绩或者问卷调查数据的数学模型。IRT模型的目标是来确定潜在的心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。广泛应用在心理和教育测量领域。项目反应理论的意义在于可以指导项目筛选和测验编制。项目反应理论假设被试者有一种“潜在特质”,潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点,意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料,能够综合直观地得出项目难度、鉴别度等项目分析的特征,从而起到指导项目筛选和编制测验比较分数等作用。
embedding指的是将离散变量转为向量的一种处理方式。在神经网络中,embedding可以减少离散变量的空间维数,同时还可以有意义的表示该变量。embedding有以下3个主要目的:1、在embedding空间中查找最近邻,可以用于根据用户的兴趣来进行推荐;2、作为监督性学习任务的输入;3、用于可视化不同离散变量之间的关系。
长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,LSTM是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
如图1所示,图1是本发明一个实施例提供的用于执行基于改进IRT结构的答题序列预测方法的系统架构平台100的示意图。
在图1的示例中,该系统架构平台100设置有处理器110和存储器120,其中,处理器110和存储器120可以通过总线或者其他方式连接,图1中以通过总线连接为例。
存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器120可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至该系统架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解的是,该系统架构平台可以应用于5G通信网络系统以及后续演进的移动通信网络系统等,本实施例对此并不作具体限定。
本领域技术人员可以理解的是,图1中示出的系统架构平台并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
系统架构平台100可以是独立的系统架构平台100,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云系统架构平台100。
基于上述系统架构平台,下面提出本发明的基于改进IRT结构的答题序列预测方法的各个实施例。
如图2所示,图2是本发明一个实施例提供的基于改进IRT结构的答题序列预测方法的流程图,该基于改进IRT结构的答题序列预测方法应用于上述架构平台,并且该基于改进IRT结构的答题序列预测方法包括但不限于有步骤S100、步骤S200、步骤S300、步骤S400、步骤S500、步骤S600和步骤S700。
步骤S100,获取用户答题序列,用户答题序列包括若干个历史答题记录信息;
步骤S200,分别对若干个历史答题记录信息进行向量化处理,得到历史答题记录信息对应的携带方向的答题序列输入向量;
步骤S300,将所有携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;
步骤S400,获取题目难度数据以及题目区分度数据;
步骤S500,对题目难度数据和题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;
步骤S600,通过IRT模型对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率;
步骤S700,根据答对概率确定目标推荐题目。
在一实施例中,获取用户答题序列,用户答题序列包括若干个历史答题记录信息;分别对若干个历史答题记录信息进行向量化处理,得到历史答题记录信息对应的携带方向的答题序列输入向量;将所有携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;获取题目难度数据以及题目区分度数据;对题目难度数据和题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;通过IRT模型对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率;根据答对概率确定目标推荐题目。在本实施例的技术方案中,通过将用户能力、题目难度、题目区分度向量化,更加精确的描绘用户水平和题目水平,减少信息损失的同时通过改进LSTM结构,解决用户答错题目,用户能力反而上升的情况,从而提高预测的准确率。
需要说明的是,参照图3,本实施例采用了改进深度神经网络IRT模型,其改进点主要有两方面:
(1)用户能力、题目难度和题目区分度进行向量化处理:由于在原IRT理论中,用户能力、题目难度、题目区分度在训练后得到都为一个值,在公式中属于数值间运算,在训练与预测中丢失较多信息。本实施例对其进行优化处理,在公式间运算改为向量运算,而最终结果的答对概率还是一个数值,但是由于用户能力、题目难度、题目区分度各向量间包含了更多信息,所以得到的答对概率更加准确。
(2)对LSTM结构进行改进:在目前的通过LSTM结构对用户能力进行预测的过程中,会出现在用户答错题目的情况下,用户能力反而上升的问题,出现该问题的主要原因为,LSTM结构模型只考虑最后输出的用户能力向量符合条件即可,而没考虑处理过程中用户能力的变化情况。在本实施例中,添加模型对用户能力预测过程的控制,有效解决在用户答错题目的情况下,用户能力反而上升的问题。
参照图4,在一实施例中,步骤S200包括但不限于步骤S410、步骤S420、步骤S440和步骤。
步骤S410,获取历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息;
步骤S420,分别对每个历史答题记录信息中的第一文本信息和第一标识信息进行embedding处理,得到第一文本信息的向量和第一标识信息的向量;
步骤S430,将答题结果信息进行向量化处理,得到每个答题结果信息对应的二维向量信息;
步骤S440,将第一文本信息的向量、第一标识信息的向量和答题结果信息对应的二维向量信息进行拼接处理,得到历史答题记录信息对应的携带方向的答题序列输入向量。
具体地,获取历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息,然后分别对每个历史答题记录信息中的第一文本信息和第一标识信息进行embedding处理,得到第一文本信息的向量和第一标识信息的向量,接着将答题结果信息进行向量化处理,得到每个答题结果信息对应的二维向量信息,再将第一文本信息的向量、第一标识信息的向量和答题结果信息对应的二维向量信息进行拼接处理,从而得到历史答题记录信息对应的携带方向的答题序列输入向量。通过对历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息进行向量化处理后得到历史答题记录信息对应的携带方向的答题序列输入向量,向量计算能够更加精确的描绘用户水平和题目水平,减少信息损失,同时由于得出的答题序列输入向量具有方向,能够使得基于该答题序列输入向量计算得出的用户能力向量,能够解决用户答错题目,用户能力反而上升的情况,从而提高预测的准确率。
需要说明的是,第一文本信息的向量的生成方法为将第一文本信息中的英语单词进行embedding处理,得到embedding处理后的第一文本信息,然后对embedding处理后的第一文本信息进行maxpool处理,得到第一文本信息的向量。
可以理解的是,将答题结果信息进行向量化处理,得到每个答题结果信息对应的二维向量信息的步骤可以包括以下情况,在答题结果信息为正确的情况下,答题序列输入向量的方向为正,此时答题序列输入向量可以表示为1;在答题结果信息为错误的情况下,答题序列输入向量的方向为负,此时答题序列输入向量可以表示为0。需要说明的是,本实施例对于如何表示答题序列输入向量的方向的表示方式不作具体限定。
在一实施例中,参照图5,在获取用户答题序列embedding的方法均不变的情况下,在该答题序列输入向量进入双向LSTM进行用户能力向量预测时,不取LSTM结构的末尾输出,而是取答题序列输入向量对位输出的绝对值向量作为用户回答该题的能力增加或减少值,如该用户有34个答题序列输入向量,则有相应的34个输出向量。如果用户答对该题,则该对位输出的向量乘以1,如果用户答错该题,则该对位输出的向量乘以-1。最后将这些向量加权求和,得到最终的用户能力向量。由于该结构反映了用户的答题过程的预测,不再只对用户能力的结果进行预测,所以当用户答对某题时,用户的能力会加上该题赋予的增长值,而答错题目时,会减去该题赋予的增长值,该方式能够在解决相关技术中在用户答错题的情况下能力反而上升的问题。
参照图6,在一实施例中,步骤S600包括但不限于步骤S610和步骤S620。
步骤S610,通过IRT模型建立得到第一公式,第一公式为答对概率=题目区分向量*(用户能力向量-题目难度向量);
步骤S620,通过第一公式对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率。
具体地,IRT模型将预测分为三个部分,用户能力、题目难度和题目区分度预测,根据IRT模型要求获取前述步骤处理得到的题目区分向量、用户能力向量和题目难度向量,然后通过公式答对概率=题目区分向量*(用户能力向量-题目难度向量)进行计算得到用户当前题目的正确率,由于用户能力、题目难度和题目区分度对应的信息已转化为向量信息,训练与预测中丢失较少信息,那么通过第一公式计算得出的答对概率更加准确。
在一实施例中,取得用户能力、题目难度、题目区分度三个向量后,最后通过公式答对概率=题目区分向量*(用户能力向量-题目难度向量),得到该用户当前题目的答对概率,答对为1,答错为0。在预测时,分别将题库中的题目做为当前题目输入到模型中,得到用户答对该题的正确率,对所有题目均进行预测,为后续确定目标推荐题目做数据准备。
参照图7,在一实施例中,步骤S400中的题目难度数据的生成方法包括但不限于步骤S710、步骤S720、步骤S730、步骤S740和步骤S750。
步骤S710,获取用户所答题目的第二文本信息和第二标识信息;
步骤S720,将第二文本信息中的英语单词进行embedding处理,得到embedding处理后的第二文本信息;
步骤S730,对embedding处理后的第二文本信息进行maxpool处理,得到第二文本信息的向量;
步骤S740,对标识信息进行embedding处理,得到标识信息的向量;
步骤S750,将第二文本信息的向量和标识信息的向量进行拼接处理并经过一层全连接输出得到题目难度向量。
具体地,当题目为英语题目时,获取用户所答题目的第二文本信息和第二标识信息,将第二文本信息中的英语单词进行embedding处理得到embedding处理后的第二文本信息,然后对embedding处理后的第二文本信息进行maxpool处理得到第二文本信息的向量,接着对标识信息进行embedding处理,能够得到标识信息的向量,再将第二文本信息的向量和标识信息的向量进行拼接处理并经过一层全连接输出得到题目难度向量,由于已经对题目难度信息进行向量化处理,能够使得题目难度丢失较少信息,然后将题目难度向量代入第一公式计算得出的答对概率更加准确。
需要说明的是,对于不同的题库,题库中的题目数量类型均不相同,本实施例对其不作具体限定。
参照图8,在一实施例中,步骤S800包括但不限于步骤S810和步骤S820。
步骤S810,对每一个题目的答对概率与预设正确率进行比较,得到比较差值。
步骤S820,将小于阈值的比较差值所对应的题目确定为目标推荐题目。
在一实施例中,对每一个题目的答对概率与预设正确率进行比较,得到比较差值,然后对每一个题目的答对概率与预设正确率进行比较,得到比较差值。通常情况下,取得用户答题正确率在0.5附近的题目,表明该题对用户知识点的掌握帮助最大,可以确定为推荐的题目。
基于上述基于改进IRT结构的答题序列预测方法,下面分别提出本发明的基于改进IRT结构的答题序列预测方法装置、控制器和计算机可读存储介质的各个实施例。
本发明的一个实施例还提供了基于改进题目反应理论的答题序列的预测装置,包括:
第一获取模块,用于获取用户答题序列,用户答题序列包括若干个历史答题记录信息;
第一处理模块,用于分别对若干个历史答题记录信息进行向量化处理,得到历史答题记录信息对应的携带方向的答题序列输入向量;
第一计算模块,用于将所有携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;
第一获取模块,用于获取题目难度数据以及题目区分度数据;
第二处理模块,用于对题目难度数据和题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;
第二计算模块,用于通过IRT模型对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率;
确定模块,用于根据答对概率确定目标推荐题目。
在一实施例中,第一处理模块还用于获取历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息;
分别对每个历史答题记录信息中的第一文本信息和第一标识信息进行embedding处理,得到第一文本信息的向量和第一标识信息的向量;
将答题结果信息进行向量化处理,得到每个答题结果信息对应的二维向量信息;
将第一文本信息的向量、第一标识信息的向量和答题结果信息对应的二维向量信息进行拼接处理,得到历史答题记录信息对应的携带方向的答题序列输入向量。
在一实施例中,第一处理模块还用于第一文本信息的向量的生成方法包括:
将第一文本信息中的英语单词进行embedding处理,得到embedding处理后的第一文本信息;
对embedding处理后的第一文本信息进行maxpool处理,得到第一文本信息的向量。
在一实施例中,第一处理模块还用于在答题结果信息为正确的情况下,答题序列输入向量的方向为正;在答题结果信息为错误的情况下,答题序列输入向量的方向为负。
在一实施例中,第二计算模块,还用于通过IRT模型对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率,包括:
通过IRT模型建立得到第一公式,第一公式为答对概率=题目区分向量*(用户能力向量-题目难度向量);
通过第一公式对用户能力向量、题目难度向量和题目区分向量进行计算得到当前题目的答对概率。
在一实施例中,还包括生成模块,生成模块用于当题目为英语题目时,题目难度向量的生成方法包括:
获取用户所答题目的第二文本信息和第二标识信息;
将第二文本信息中的英语单词进行embedding处理,得到embedding处理后的第二文本信息;
对embedding处理后的第二文本信息进行maxpool处理,得到第二文本信息的向量;
对标识信息进行embedding处理,得到标识信息的向量;
将第二文本信息的向量和标识信息的向量进行拼接处理并经过一层全连接输出得到题目难度向量。
在一实施例中,确定模块,还用于根据答对概率确定目标推荐题目,包括:
对每一个题目的答对概率与预设正确率进行比较,得到比较差值;
将小于阈值的比较差值所对应的题目确定为目标推荐题目。
需要说明的是,上述基于改进题目反应理论的答题序列的预测装置的各个实施例与基于改进IRT结构的答题序列预测方法的实施例中所使用的技术手段、解决的技术问题以及达到的技术效果一致,此处不作具体赘述,详见基于改进IRT结构的答题序列预测方法的实施例。
另外,本发明的一个实施例提供了一种控制器,该控制器包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
处理器和存储器可以通过总线或者其他方式连接。
需要说明的是,本实施例中的控制器,可以对应为包括有如图1所示实施例中的存储器和处理器,能够构成图1所示实施例中的系统架构平台的一部分,两者属于相同的发明构思,因此两者具有相同的实现原理以及有益效果,此处不再详述。
实现上述实施例的控制器侧的基于改进IRT结构的答题序列预测方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例的基于改进IRT结构的答题序列预测方法,例如,执行以上描述的图2中的方法步骤S100至S700、图4中的方法步骤S410至S440、图6中的方法步骤S610至S620、图7中的方法步骤S710至步骤S750、图8中的方法步骤S810至步骤S820。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,当计算机可执行指令用于执行上述终端侧的基于改进IRT结构的答题序列预测方法,例如,执行以上描述的图2中的方法步骤S100至S700、图4中的方法步骤S410至S440、图6中的方法步骤S610至S620、图7中的方法步骤S710至步骤S750、图8中的方法步骤S810至步骤S820。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (10)

1.一种基于改进IRT结构的答题序列预测方法,其特征在于,所述预测方法包括:
获取用户答题序列,所述用户答题序列包括若干个历史答题记录信息;
分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量;
将所有所述携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;
获取题目难度数据以及题目区分度数据;
对所述题目难度数据和所述题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;
通过题目反应理论IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率;
根据所述答对概率确定目标推荐题目。
2.根据权利要求1所述的基于改进IRT结构的答题序列预测方法,其特征在于,所述分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量,包括:
获取所述历史答题记录信息中的第一文本信息、第一标识信息和答题结果信息;
分别对每个所述历史答题记录信息中的所述第一文本信息和所述第一标识信息进行embedding处理,得到所述第一文本信息的向量和所述第一标识信息的向量;
将所述答题结果信息进行向量化处理,得到每个所述答题结果信息对应的二维向量信息;
将所述第一文本信息的向量、所述第一标识信息的向量和所述答题结果信息对应的二维向量信息进行拼接处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量。
3.根据权利要求2所述的基于改进IRT结构的答题序列预测方法,其特征在于,第一文本信息的向量的生成方法包括:
将所述第一文本信息中的英语单词进行embedding处理,得到embedding处理后的第一文本信息;
对所述embedding处理后的第一文本信息进行maxpool处理,得到所述第一文本信息的向量。
4.根据权利要求2所述的基于改进IRT结构的答题序列预测方法,其特征在于,还包括:
在所述答题结果信息为正确的情况下,所述答题序列输入向量的方向为正;
在所述答题结果信息为错误的情况下,所述答题序列输入向量的方向为负。
5.根据权利要求1所述的基于改进IRT结构的答题序列预测方法,其特征在于,所述通过题目反应理论IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率,包括:
所述通过IRT模型建立得到第一公式,所述第一公式为:答对概率=所述题目区分向量*(所述用户能力向量-所述题目难度向量);
通过所述第一公式对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率。
6.根据权利要求1所述的基于改进IRT结构的答题序列预测方法,其特征在于,当所述题目为英语题目时,所述题目难度向量的生成方法包括:
获取用户所答题目的第二文本信息和第二标识信息;
将所述第二文本信息中的英语单词进行embedding处理,得到embedding处理后的第二文本信息;
对所述embedding处理后的第二文本信息进行maxpool处理,得到所述第二文本信息的向量;
对所述标识信息进行embedding处理,得到所述标识信息的向量;
将所述第二文本信息的向量和所述标识信息的向量进行拼接处理并经过一层全连接输出得到题目难度向量。
7.根据权利要求1所述的基于改进IRT结构的答题序列预测方法,其特征在于,所述根据所述答对概率确定目标推荐题目,包括:
对每一个题目的所述答对概率与预设正确率进行比较,得到比较差值;
将小于阈值的比较差值所对应的题目确定为目标推荐题目。
8.一种基于改进IRT结构的答题序列预测方法装置,其特征在于,包括:
第一获取模块,用于获取用户答题序列,所述用户答题序列包括若干个历史答题记录信息;
第一处理模块,用于分别对所述若干个历史答题记录信息进行向量化处理,得到所述历史答题记录信息对应的携带方向的答题序列输入向量;
第一计算模块,用于将所有所述携带方向的答题序列输入向量输入至长短期记忆网络LSTM结构中进行计算处理,得到用户能力向量;
第一获取模块,用于获取题目难度数据以及题目区分度数据;
第二处理模块,用于对所述题目难度数据和所述题目区分度数据进行向量化处理,得到题目难度向量和题目区分向量;
第二计算模块,用于通过题目反应理论IRT模型对所述用户能力向量、所述题目难度向量和所述题目区分向量进行计算得到当前题目的答对概率;
确定模块,用于根据所述答对概率确定目标推荐题目。
9.一种控制器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的基于改进IRT结构的答题序列预测方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7任意一项所述的基于改进IRT结构的答题序列预测方法。
CN202210143449.8A 2022-02-16 2022-02-16 基于改进irt结构的答题序列预测方法、控制器及存储介质 Active CN114386716B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210143449.8A CN114386716B (zh) 2022-02-16 2022-02-16 基于改进irt结构的答题序列预测方法、控制器及存储介质
PCT/CN2022/090662 WO2023155301A1 (zh) 2022-02-16 2022-04-29 基于改进irt结构的答题序列预测方法、控制器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210143449.8A CN114386716B (zh) 2022-02-16 2022-02-16 基于改进irt结构的答题序列预测方法、控制器及存储介质

Publications (2)

Publication Number Publication Date
CN114386716A true CN114386716A (zh) 2022-04-22
CN114386716B CN114386716B (zh) 2023-06-16

Family

ID=81205898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210143449.8A Active CN114386716B (zh) 2022-02-16 2022-02-16 基于改进irt结构的答题序列预测方法、控制器及存储介质

Country Status (2)

Country Link
CN (1) CN114386716B (zh)
WO (1) WO2023155301A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023155301A1 (zh) * 2022-02-16 2023-08-24 平安科技(深圳)有限公司 基于改进irt结构的答题序列预测方法、控制器及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229718B (zh) * 2016-12-22 2020-06-02 北京字节跳动网络技术有限公司 一种信息预测方法及装置
CN110223553B (zh) * 2019-05-20 2021-08-10 北京师范大学 一种答题信息的预测方法及系统
US20230222933A1 (en) * 2020-05-27 2023-07-13 Nec Corporation Learning device, learning method, and learning program
CN112257966B (zh) * 2020-12-18 2021-04-09 北京世纪好未来教育科技有限公司 模型处理方法、装置、电子设备及存储介质
CN113239699B (zh) * 2021-04-15 2023-11-07 北京师范大学 一种融合多特征的深度知识追踪方法及系统
CN114386716B (zh) * 2022-02-16 2023-06-16 平安科技(深圳)有限公司 基于改进irt结构的答题序列预测方法、控制器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023155301A1 (zh) * 2022-02-16 2023-08-24 平安科技(深圳)有限公司 基于改进irt结构的答题序列预测方法、控制器及存储介质

Also Published As

Publication number Publication date
WO2023155301A1 (zh) 2023-08-24
CN114386716B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN111260249B (zh) 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置
CN111506814B (zh) 一种基于变分自注意力网络的序列推荐方法
KR20200047006A (ko) 머신 러닝 기반의 근사모델 구축 방법 및 시스템
US20220335222A1 (en) Systems and methods for generating dynamic conversational responses based on historical and dynamically updated information
US20230325726A1 (en) Techniques for deriving and/or leveraging application-centric model metric
CN112785585A (zh) 基于主动学习的图像视频质量评价模型的训练方法以及装置
CN114330499A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
CN112560829A (zh) 人群数量确定方法、装置、设备及存储介质
CN114328277A (zh) 一种软件缺陷预测和质量分析方法、装置、设备及介质
CN114386716B (zh) 基于改进irt结构的答题序列预测方法、控制器及存储介质
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
CN115631008B (zh) 商品推荐方法、装置、设备及介质
WO2023015483A1 (en) Method and apparatus for prerequisite relation discovery for concepts of a plurality of courses
CN116910274B (zh) 基于知识图谱和预测模型的试题生成方法及系统
CN114461853A (zh) 视频场景分类模型的训练样本生成方法、装置及设备
De Fausti et al. Multilayer perceptron models for the estimation of the attained level of education in the Italian Permanent Census
US11869383B2 (en) Method, system and non-transitory computer- readable recording medium for providing information on user's conceptual understanding
CN116150420B (zh) 一种图片任务推送结果的评估方法和系统
KR102512552B1 (ko) 인공지능 처리 결과 분석 장치 및 그 방법
CN115063753B (zh) 一种安全带佩戴检测模型训练方法及安全带佩戴检测方法
CN117112859B (zh) 人口移动演化的显示方法、装置及计算机可读存储介质
CN117975204B (zh) 一种模型训练方法、缺陷检测方法以及相关装置
KR102672518B1 (ko) 인공지능 기반 실시간 지층 분포 및 상태 파악 지반 조사 시스템
CN118158276A (zh) 一种基于用户分析的业务匹配方法、装置及设备
US20220172088A1 (en) Model selection for discrete latent variable models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant