CN112685532A - 试题资源分析方法、装置、电子设备和存储介质 - Google Patents

试题资源分析方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112685532A
CN112685532A CN202011580551.1A CN202011580551A CN112685532A CN 112685532 A CN112685532 A CN 112685532A CN 202011580551 A CN202011580551 A CN 202011580551A CN 112685532 A CN112685532 A CN 112685532A
Authority
CN
China
Prior art keywords
test question
resources
error rate
resource
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011580551.1A
Other languages
English (en)
Other versions
CN112685532B (zh
Inventor
王金树
苏喻
付瑞吉
王士进
魏思
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202011580551.1A priority Critical patent/CN112685532B/zh
Publication of CN112685532A publication Critical patent/CN112685532A/zh
Application granted granted Critical
Publication of CN112685532B publication Critical patent/CN112685532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种试题资源分析方法、装置、电子设备和存储介质,其中方法包括:确定待分析的试题资源;对试题资源进行错误率分析,得到错误率分析结果;将试题资源输入使用频次预估模型,得到使用频次预估模型输出的适用性分析结果,使用频次预估模型是基于样本试题资源,以及样本试题资源在目标应用场景下的适用性标签训练得到的;基于错误率分析结果和适用性分析结果,确定试题资源的分析结果。本发明提供的方法、装置、电子设备和存储介质,能够得到能够从规范性、完善性、周期适用性等层面上表征试题资源质量的分析结果,实现了全面、客观的试题资源质量分析,有助于合理分配试题资源加工资源,实现高效率的试题资源加工。

Description

试题资源分析方法、装置、电子设备和存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种试题资源分析方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的发展和成熟,涉及到自然语言理解的个性化的试题推荐得到了广泛的应用。在试题推荐之前,往往需要工作人员将海量试题资源加工成试题推荐所需的结构化形式。考虑到试题资源质量参差不齐,对应在资源加工阶段所要求的加工精度也不相同,通常在试题资源加工之前需要对试题资源进行质量分析。
目前针对试题资源的质量分析,通常只考虑试题本身是具有“答案错误”、“格式错误”、“解析不完善”等试题自身的规范性和完善性上的问题,并未能将试题资源的质量分析与实际应用场景结合起来,由此得到的分析结果过于片面,基于此可能导致试题资源在实际应用场景中不适用的问题。
发明内容
本发明提供一种试题资源分析方法、装置、电子设备和存储介质,用以解决现有技术中试题资源分析过于片面的缺陷。
本发明提供一种试题资源分析方法,包括:
确定待分析的试题资源;
对所述试题资源进行错误率分析,得到错误率分析结果;
将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;
基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
根据本发明提供一种的试题资源分析方法,所述对所述试题资源进行错误率分析,得到错误率分析结果,包括:
基于低错误率规则集合,对所述试题资源进行规则匹配,基于匹配结果确定所述错误率分析结果;
所述低错误率规则集合是基于符合各候选规则的样本试题资源的错误率,对各候选规则进行关联挖掘得到的。
根据本发明提供一种的试题资源分析方法,所述低错误率规则集合是基于如下步骤确定的:
基于符合频繁项集中各候选规则的样本试题资源,确定所述频繁项集的支持度、信任度和错误率;
若所述频繁项集的支持度、信任度和错误率均满足预设条件,则扩充所述频繁项集;
将包含规则数最多且满足所述预设条件的频繁项集作为所述低错误率规则集合。
根据本发明提供一种的试题资源分析方法,所述试题资源包括试题文本,或包括试题文本和试题属性,所述试题属性包括知识点、试题来源区域、考试类型、适用年级、试题难度中的至少一种。
根据本发明提供一种的试题资源分析方法,所述将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,包括:
将所述试题资源及与之相似的高频试题资源,或将所述试题资源输入使用频次预估模型的特征编码层,由所述特征编码层基于所述试题资源的试题属性和/或所述高频试题资源的试题属性,对所述试题资源进行特征编码,得到所述特征编码层输出的资源特征;
将所述资源特征输入所述频次预估模型的频次输出层,得到所述频次输出层输出的适用性分析结果。
根据本发明提供一种的试题资源分析方法,所述资源特征包括所述试题资源的教学进度的特征表示,所述教学进度的特征表示是基于所述试题资源中的知识点和/或所述高频试题资源中的知识点确定的。
根据本发明提供一种的试题资源分析方法,与所述试题资源相似的高频试题资源是基于所述试题资源的知识点匹配得到的。
本发明还提供一种试题资源分析装置,包括:
资源确定单元,用于确定待分析的试题资源;
错误率分析单元,用于对所述试题资源进行错误率分析,得到错误率分析结果;
频次预估单元,用于将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;
融合分析单元,用于基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述试题资源分析方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述试题资源分析方法的步骤。
本发明提供的试题资源分析方法、装置、电子设备和存储介质,通过预估试题资源在目标应用场景下的使用频次,确定试题资源的适用性分析结果,并与试题资源的错误率分析结果相结合,从而得到能够从规范性、完善性、周期适用性等层面上表征试题资源质量的分析结果,实现了全面、客观的试题资源质量分析,有助于合理分配试题资源加工资源,实现高效率的试题资源加工。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的试题资源分析方法的流程示意图之一;
图2是本发明提供的低错误率规则集合确定方法的流程示意图;
图3是本发明提供的试题资源分析方法中步骤130的实施方式的流程示意图;
图4是本发明提供的试题资源分析方法的流程示意图之二;
图5是本发明提供的试题资源分析装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前针对试题资源质量的定义,通常忽略了试题资源在教育行业中的周期适用性,而过分关注于试题资源本身的规范性和完善性。如此定义的试题资源质量略显生硬,并不能够适用实际的应用场景。例如,当前处于春季学期的情况下,已经过去的秋季学期内适用的试题资源显然并不适用于当前的应用场景,而这一点在目前的试题资源分析中并未被关注。
针对这一问题,本发明实施例提供了一种试题资源分析方法,从而全面地进行试题资源质量评估。图1是本发明提供的试题资源分析方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定待分析的试题资源。
此处的试题资源可以包括待分析的试题文本本身,例如试题的题面文本、答案文本、解析文本等,也可以包括待分析的试题的相关信息,例如试题考核的知识点,试题来源的网站、书目名称,试题编写的时间,试题适用的教材版本、考核科目等。
试题资源可以体现为文本的形式,进一步地,待评估试题可以是相关人员直接输入的文本,也可以是通过从电子版试卷中提取的,还可以是通过光学字符识别OCR技术从纸质版试卷或者书目所对应的图像中提取的,本发明实施例对此不作具体限定。
步骤120,对试题资源进行错误率分析,得到错误率分析结果。
具体地,针对试题资源的错误率分析用于评估待分析的试题资源在规范性、完善性等层面上是否存在错误,具体可用于评估试题资源中给出的试题答案是否正确,解析是否完善,或者题面中是否存在错别字等情况。
由此得到的错误率分析结果可以是试题资源存在错误的概率或者得分,用于指示试题资源是否可用,从而在试题资源加工之前实现错题的有效筛选和标记,避免在试题资源加工过程中遗漏错题修正补漏的流程,导致将错题或者不完整的试题推送给用户的情况。
步骤130,将试题资源输入使用频次预估模型,得到使用频次预估模型输出的适用性分析结果,使用频次预估模型是基于样本试题资源,以及样本试题资源在目标应用场景下的适用性标签训练得到的。
具体地,目标应用场景即期望试题资源可用于的应用场景,目标应用场景通常是当前进行试题资源加工后需要应用到的具体场景,例如目前阶段的试题资源加工是为了高二秋季学期期中考试做准备,则可以将目标应用场景设置为高二秋季学期期中。
使用频次预估模型用于对输入的试题资源在目标应用场景下的使用频次进行估计,从而分析判断试题资源是否适用于目标应用场景,并输出试题资源在目标应用场景下的适用性分析结果。由此得到的适用性分析结果可以是试题资源在目标应用场景下可能被调用的次数,也可以是试题资源与目标应用场景的适用程度,例如高适用度、中适用度或者低适用度。
适用性分析结果的预测分析,充分考虑了试题资源在教育行业的周期适用性,从而在试题资源加工之前区分开针对目标应用场景适用或者不适用的试题资源,因此可以优先加工市场需求更高,即对于目标应用场景而言更加适用的试题资源。
在执行步骤130之前,还可以预先训练得到使用频次预估模型,使用频次预估模型的训练方法可以包括如下步骤:首先,采集得到大量样本试题资源,以及样本试题资源在目标应用场景下的使用频次,通过使用频次的高低评价样本试题资源与目标应用场景的适用程度,从而实现样本试题资源在目标应用场景下的适用性标签的标注。随即,基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签进行模型训练,从而得到使用频次预估模型。
此处,使用频次预估模型可以是基于常见的二分类模型实现的,作为优选,可以将XGBoost模型应用于使用频次预估模型的构建。
需要说明的是,本发明实施例不对步骤120和步骤130的执行顺序作具体限定,步骤120可以在步骤130之前或者之后执行,也可以与步骤130同步执行。
步骤140,基于错误率分析结果和适用性分析结果,确定试题资源的分析结果。
具体地,在确定试题资源的分析结果时,可以结合错误率分析结果和适用性分析结果进行分析评估。通过表征试题资源在规范性、完善性等层面上的错误率分析结果,与表征试题资源在周期适用性层面上的适用性分析结果,可以实现更加全面、客观的试题资源质量分析,由此所得的试题资源的分析结果可以从规范性、完善性、周期适用性等层面上表征试题资源的质量,从而为选取适合的试题资源加工策略提供依据。例如,针对分析结果显示在目标应用场景下适应度高且错误率低的试题资源,可以对应选择优先级高、精度要求低的加工策略,针对分析结果显示在目标应用场景下适应度低且错误率高的试题资源,可以对应选择优先级低、精度要求高的加工策略,以便于合理分配试题资源加工资源,实现高效率的试题资源加工。
本发明实施例提供的方法,通过预估试题资源在目标应用场景下的使用频次,确定试题资源的适用性分析结果,并与试题资源的错误率分析结果相结合,从而得到能够从规范性、完善性、周期适用性等层面上表征试题资源质量的分析结果,实现了全面、客观的试题资源质量分析,有助于合理分配试题资源加工资源,实现高效率的试题资源加工。
目前,针对试题资源的错误率分析大多是通过专家归纳总结的教育行业的领域知识执行的。然而,专家归纳总结的领域知识中包含了大量的主观成分,导致这种基于经验的错误率分析方式稳定性和泛化能力都比较弱,很难有效推广,且构建在主观经验之上的错误率分析方式存在反馈调节链路冗长的问题,自我更新速度缓慢。对此,基于上述实施例,步骤120包括:基于低错误率规则集合,对试题资源进行规则匹配,基于匹配结果确定错误率分析结果;低错误率规则集合是基于符合各候选规则的样本试题资源的错误率,对各候选规则进行关联挖掘得到的。
此处,用于进行错误率分析的低错误率集合中包含了多个相互关联的规则,当试题资源同时满足低错误率集合中的各个规则时,试题资源为低错误率试题资源的概率高于预设概率阈值,即试题资源较大概率为低错误率试题资源。基于低错误率规则集合,对试题资源进行规则匹配所得的匹配结果,反映的是试题资源是否符合低错误率规则集合中各个规则。由此即可分析得到试题资源的错误率分析结果。
考虑到人为规定低错误率规则集合过于主观,会直接导致错误率分析结果的稳定性低,本发明实施例中的低错误率规则集合是通过关联挖掘的方式得到的。此处,关联挖掘作为一种数据挖掘方式,可以从大规模数据中挖掘出对象之间的隐含关系。将关联挖掘应用到低错误率规则集合的获取时,可以将符合各个候选规则的样本试题资源的错误率作为约束条件,从而保证从各个候选规则中挖掘得到的低错误率规则集合中的各个规则不仅相互关联,且符合各个规则组合的试题资源能够满足低错误率的要求。进一步地,此处用于关联挖掘的算法可以是Apriori算法,FP-growth算法等。
需要说明的是,此处的候选规则可以是预先设定的与错误率之间可能存在关系的信息,诸如试题资源的来源、试题资源的知识点、试题资源的创建时间等,都可能与错误率之间存在潜在的关系,例如高考试题一般出现错误的几率非常小,可以对应设置候选规则为试题资源是否来源于高考试卷,又例如高中物理中“动量”是难度较大的知识点,在出题阶段出错的概率也比较高,可以对应设置候选规则为知识点是否为动量。
本发明实施例提供的方法,通过关联挖掘的方式获取低错误率规则集合以实现自动化的错误率分析,并且关联挖掘的方式可以满足低错误率规则实时更新的需求,有助于提高了错误率分析的可靠性和鲁棒性。
基于上述任一实施例,图2是本发明提供的低错误率规则集合确定方法的流程示意图,如图2所示,低错误率规则集合确定方法包括:
步骤210,基于符合频繁项集中各候选规则的样本试题资源,确定频繁项集的支持度、信任度和错误率;
步骤220,若频繁项集的支持度、信任度和错误率均满足预设条件,则扩充频繁项集;
步骤230,将包含规则数最多且满足预设条件的频繁项集作为低错误率规则集合。
具体地,低错误率规则集合的确定过程可以视为寻找最大项数的频繁项集的过程,针对预先设定的各个候选规则,可以组建包含其中一个或者多个候选规则的频繁项集,并通过符合该频繁项集内各个候选规则的样本试题资源,统计该频繁项集对应的支持度、信任度和错误率,在该频繁项集对应的支持度、信任度和错误率均满足预设条件的情况下,对该频繁项集进行扩充,即将新的候选规则加入该频繁项集,并针对扩充后的频繁项集执行上述操作,直至找到包含规则数最多且满足预设条件的频繁项集。
其中,频繁项集的支持度表示的是符合频繁项集中所有候选规则的样本试题资源在所有样本试题资源中的占比,反映了频繁项集中各候选规则之间关联的先验概率,假设频繁项集中的两个候选规则为R1、R2,分别符合R1、R2的样本试题资源即R1、R2分别产生的试题子集记为T1、T2,则R1、R2的支持度support(R1,R2)为:
Figure BDA0002865870760000091
式中,number(T1∩T2)为同时符合R1、R2的样本试题资源数量,number(AllSamples)为所有样本试题资源的总数。
需要说明的是,假设R1、R2规则并不存在事实上的关联性,但是T1、T2的集合足够大时其对应的支持度仍然可以很高,也就是说单凭支持度并不能稳定反映候选规则之间的关联性,因此需要引入信任度。
频繁项集的信任度表示的是符合频繁项集中所有候选规则的样本试题资源在符合频繁项集中各项候选规则的样本试题资源中的占比,反映了频繁项集内部各项候选规则之间的关联性。对应到候选规则R1、R2的信任度confidence(R1←R2)可以表示为:
Figure BDA0002865870760000101
式中,number(T2)为符合R2的样本试题资源数量。
此外,考虑到错误率分析的低错误率需求,还需要评估频繁项集的错误率。此处的错误率反映的是符合频繁项集中各候选规则的样本试题资源中报错的比例。在寻找最大项数的频繁项集的过程,需要筛除错误率高于预设阈值的频繁项集,从而保证最终得到的低错误率规则集合满足低错误率的需求。
基于上述任一实施例,频繁项集的错误率是基于符合频繁项集中各候选规则的样本试题资源的报错率确定的。
具体地,报错率是指一批样本试题资源中存在报错信息的样本试题资源的占比。在衡量频繁项集的错误率时,需要分别衡量符合频繁项集中的各个候选规则的样本试题资源的报错率。对应到候选规则R1、R2的错误率error_rate(R1,R2)可以表示为如下形式:
Figure BDA0002865870760000102
式中,T1-error和T2-error分别为T1和T2中存在报错信息的部分,number(T1-error∪T2-error)表示符合规则R1或R2的样本试题资源中存在报错信息的数量,number(T1∪T2)表示符合规则R1或R2的样本试题资源的数量。
基于上述任一实施例,低错误率规则集合可以通过Apriori算法实现,其具体步骤如下:
首先,根据预先设定好的各个候选规则,生成频繁项集C1,并删除不满足预设条件的频繁项集,将所有保留下的频繁项集记为L1
如下表所示,假设共5有个候选规则,即R1,R2,R3,R4,R5,可以分别生成如下频繁项集C1
C<sub>1</sub> 支持度 信任度 错误率
{R<sub>1</sub>} + + +
{R<sub>2</sub>} + + +
{R<sub>3</sub>} + + +
{R<sub>4</sub>} + - -
{R<sub>5</sub>} + + +
表中,“+”表示满足预设条件,“-”表示不满足预设条件。由此可见,{R4}不满足预设条件,可以删除{R4},并分别将{R1}、{R2}、{R3}、{R5}作为L1进行扩充,得到频繁项集C2
C<sub>2</sub> 支持度 信任度 错误率
{R<sub>1</sub>,R<sub>2</sub>} + + -
{R<sub>1</sub>,R<sub>3</sub>} + + +
{R<sub>1</sub>,R<sub>5</sub>} - - +
{R<sub>2</sub>,R<sub>3</sub>} + + +
{R<sub>2</sub>,R<sub>5</sub>} + + +
{R<sub>3</sub>,R<sub>5</sub>} + + +
删除不满足预设条件的{R1,R2}和{R1,R5},并分别将{R1,R3}、{R2,R3}、{R2,R5}和{R3,R5}作为L2进行扩充,得到频繁项集C3
C<sub>3</sub> 支持度 信任度 错误率
{R<sub>1</sub>,R<sub>2</sub>,R<sub>3</sub>} + + +
{R<sub>2</sub>,R<sub>3</sub>,R<sub>5</sub>} + + +
{R1,R2,R3}的子集包括{R1}、{R2}、{R3}、{R1,R2}、{R1,R3}和{R2,R3},而其中{R1,R2}并不属于L2,因此{R1,R2,R3}不满足预设条件;而{R2,R3,R5}包括其子集均满足预设条件。将{R2,R3,R5}作为L3,考虑到对L3扩充所得的频繁项集C4均不满足预设条件,算法终止。将{R2,R3,R5}作为最终得到的低错误率规则集合。
基于上述任一实施例,试题资源包括试题文本,或包括试题文本和试题属性,试题属性包括知识点、试题来源区域、考试类型、适用年级、试题难度中的至少一种。
具体地,试题资源本身涵盖了试题文本,此处的试题文本可以包含试题的题面文本、答案文本和解析文本等。在此基础上上,试题资源还可以携带试题相对应的属性信息,即试题属性,此处的试题属性可以涉及知识点、试题来源区域、考试类型、适用年级、试题难度等各方面的信息。考虑到本发明实施例中所指的试题资源均为待加工的试题资源,试题资源本身不一定完整,存在部分试题资源仅包含试题文本,不包含试题属性,也存在部分试题资源虽然同时包含了试题文本和试题属性,但是试题属性可能仅存在少数几项,并不完整的情况。
基于上述任一实施例,图3是本发明提供的试题资源分析方法中步骤130的实施方式的流程示意图,如图3所示,步骤130包括:
步骤131,将试题资源及与之相似的高频试题资源,或将试题资源输入使用频次预估模型的特征编码层,由特征编码层基于试题资源的试题属性和/或高频试题资源的试题属性,对试题资源进行特征编码,得到特征编码层输出的资源特征。
步骤132,将资源特征输入频次预估模型的频次输出层,得到频次输出层输出的适用性分析结果。
具体地,使用频次预估模型包括特征编码层和频次输出层。其中,特征编码层可以基于输入的试题资源编码其对应的资源特征,频次输出层可以基于输入的资源特征,分析预估试题资源在目标应用场景下可能的使用频次,进而得到并输出试题资源的适用性分析结果。
进一步地,特征编码层的输入可以有两种情况,一种是仅将待分析的试题资源本身作为输入,此时特征编码层可以基于试题资源内包含的试题属性,对试题资源进行特征编码,从而输出试题特征;另一种是将待分析的试题资源,以及与待分析的试题资源相似的高频试题资源一并作为输入,此处特征编码层可以基于试题资源内包含的试题属性和/或高频试题资源内包含的试题属性,对试题资源进行特征编码,从而输出试题特征。其中,高频试题资源是在目标应用场景下使用频次较高的试题资源,例如在目标应用场景下使用次数超过预设次数阈值的试题资源即可作为高频试题资源,预设次数阈值可以为5次、10次、20次等。
在特征编码层中,将试题属性纳入试题资源的特征编码,相较于仅针对试题文本本身进行特征编码,能够丰富编码所得的资源特征在各个方面的信息,从而提高适用性分析结果的准确性和可靠性。且考虑到待分析的试题资源本身可能存在缺失试题属性的情况,特征编码层也可以结合与待分析的试题资源相似的高频试题资源的试题属性进行编码,从而弥补待分析的试题资源本身缺失的信息。
本发明实施例提供的方法,基于试题资源的试题属性和/或高频试题资源的试题属性,对试题资源进行特征编码,从而丰富编码所得的资源特征在各个方面的信息,提高频次预估模型的泛化能力,保证适用性分析结果的准确性和可靠性。
基于上述任一实施例,资源特征包括试题资源的教学进度的特征,教学进度的特征是基于试题资源中的知识点和/或高频试题资源中的知识点确定的。
具体地,在教育行业的周期适用性问题上,当一道题面清晰、答案正确、解析完善的期末复习所用的试题被用于学期初的同步教学场景时,很可能是不适用的。考虑到这一问题,特征编码层在进行资源特征编码的过程中,融合了试题资源所反映的教学进度的特征,使得试题资源的资源特征能够充分体现试题资源本身的周期适用性,后续在频次输出层中,频次输出层也可以基于资源特征中包含的教学进度的特征,与目标应用场景本身需要的教学进度进行比较,从而分析试题资源的适用性。
进一步地,可以预先对主流教材的章节进行编码,以章节顺序表征教学进度,使得特征编码层在进行教学进度的特征编码时,可以通过预先构建的知识点和教材章节之间的映射关系,将输入的试题资源的知识点和/或高频试题资源的知识点直接映射到对应教材章节的编码特征,从而实现教学进度的特征编码,提高试题资源在目标应用场景下的适用性分析的可靠性。
本发明实施例提供的方法,基于试题资源中的知识点和/或高频试题资源中的知识点对试题资源的教学进度进行特征编码,以丰富试题资源的周期适应性的相关特征,提高试题资源在目标应用场景下的适用性分析的可靠性。
基于上述任一实施例,步骤130中,作为频次预估模型的特征编码层输入的与试题资源相似的高频试题资源,是基于试题资源的知识点匹配得到的。
具体地,考虑到试题资源本身具备特殊性,试题资源存在的本身就是为了实现知识点的考核。相较于传统匹配通常应用的语义匹配,从知识点的角度上进行试题资源的匹配,具有更强的针对性。由此,在确定与试题资源相似的高频试题资源,可以将候选的所有高频试题资源的知识点的隐层向量,分别与待分析的试题资源的知识点的隐层向量进行匹配,并将知识点匹配所得的高频试题资源作为与待分析的试题资源相似的高频试题资源。
基于上述任一实施例,图4是本发明提供的试题资源分析方法的流程示意图之二,如图4所示,该方法包括:
首先,确定待分析的试题资源,此处的试题资源可以是多个。
接着,分别对各个试题资源进行错误率分析和适用性分析。其中,错误率分析用于指示对应试题资源的可用性,其分析结果即错误率从分析结果。错误率分析可以通过关联挖掘所得的低错误率规则集合,对试题资源进行规则匹配实现。适用性分析是基于预先训练的使用频次预估模型实现的,使用频次预估模型可以基于待分析的试题资源,或者基于待分析的试题资源及与之相似的高频试题资源,结合对待分析的试题资源的教学进度,对待分析的试题资源在目标应用场景下可能的使用频次进行估计,从而得到适用性分析结果。
在得到各个试题资源的错误率分析结果和适用性分析结果后,可以对各试题资源的错误率分析结果和适用性分析结果分别进行融合,从而得到表征各试题资源的资源质量的分析结果,分析结果可以是高质量试题资源或者非高质量试题资源。
此处,可以基于各个试题资源的错误率分析结果,筛选出低错误率的试题资源,同时基于各个试题资源的适用性分析结果,筛选出适用于目标应用场景的试题资源,基于两方面的筛选结果,融合得到高质量试题资源,并将其余试题资源作为非高质量试题资源。
下面对本发明提供的试题资源分析装置进行描述,下文描述的试题资源分析装置与上文描述的试题资源分析方法可相互对应参照。
图5是本发明提供的试题资源分析装置的结构示意图,如图5所示,该装置包括:
资源确定单元510,用于确定待分析的试题资源;
错误率分析单元520,用于对所述试题资源进行错误率分析,得到错误率分析结果;
频次预估单元530,用于将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;
融合分析单元540,用于基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
本发明实施例提供的装置,通过预估试题资源在目标应用场景下的使用频次,确定试题资源的适用性分析结果,并与试题资源的错误率分析结果相结合,从而得到能够从规范性、完善性、周期适用性等层面上表征试题资源质量的分析结果,实现了全面、客观的试题资源质量分析,有助于合理分配试题资源加工资源,实现高效率的试题资源加工。
基于上述任一实施例,所述错误率分析单元520用于:
基于低错误率规则集合,对所述试题资源进行规则匹配,基于匹配结果确定所述错误率分析结果;
所述低错误率规则集合是基于符合各候选规则的样本试题资源的错误率,对各候选规则进行关联挖掘得到的。
基于上述任一实施例,该装置还包括规则集合确定单元,用于:
基于符合频繁项集中各候选规则的样本试题资源,确定所述频繁项集的支持度、信任度和错误率;
若所述频繁项集的支持度、信任度和错误率均满足预设条件,则扩充所述频繁项集;
将包含规则数最多且满足所述预设条件的频繁项集作为所述低错误率规则集合。
基于上述任一实施例,所述试题资源包括试题文本,或包括试题文本和试题属性,所述试题属性包括知识点、试题来源区域、考试类型、适用年级、试题难度中的至少一种。
基于上述任一实施例,所述频次预估单元530用于:
将所述试题资源及与之相似的高频试题资源,或将所述试题资源输入使用频次预估模型的特征编码层,由所述特征编码层基于所述试题资源的试题属性和/或所述高频试题资源的试题属性,对所述试题资源进行特征编码,得到所述特征编码层输出的资源特征;
将所述资源特征输入所述频次预估模型的频次输出层,得到所述频次输出层输出的适用性分析结果。
基于上述任一实施例,所述资源特征包括所述试题资源的教学进度的特征表示,所述教学进度的特征表示是基于所述试题资源中的知识点和/或所述高频试题资源中的知识点确定的。
基于上述任一实施例,与所述试题资源相似的高频试题资源是基于所述试题资源的知识点匹配得到的。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)66、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器66,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器66可以调用存储器630中的逻辑指令,以执行试题资源分析方法,该方法包括:确定待分析的试题资源;对所述试题资源进行错误率分析,得到错误率分析结果;将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的试题资源分析方法,该方法包括:确定待分析的试题资源;对所述试题资源进行错误率分析,得到错误率分析结果;将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的试题资源分析方法,该方法包括:确定待分析的试题资源;对所述试题资源进行错误率分析,得到错误率分析结果;将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种试题资源分析方法,其特征在于,包括:
确定待分析的试题资源;
对所述试题资源进行错误率分析,得到错误率分析结果;
将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;
基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
2.根据权利要求1所述的试题资源分析方法,其特征在于,所述对所述试题资源进行错误率分析,得到错误率分析结果,包括:
基于低错误率规则集合,对所述试题资源进行规则匹配,基于匹配结果确定所述错误率分析结果;
所述低错误率规则集合是基于符合各候选规则的样本试题资源的错误率,对各候选规则进行关联挖掘得到的。
3.根据权利要求2所述的试题资源分析方法,其特征在于,所述低错误率规则集合是基于如下步骤确定的:
基于符合频繁项集中各候选规则的样本试题资源,确定所述频繁项集的支持度、信任度和错误率;
若所述频繁项集的支持度、信任度和错误率均满足预设条件,则扩充所述频繁项集;
将包含规则数最多且满足所述预设条件的频繁项集作为所述低错误率规则集合。
4.根据权利要求1至3中任一项所述的试题资源分析方法,其特征在于,所述试题资源包括试题文本,或包括试题文本和试题属性,所述试题属性包括知识点、试题来源区域、考试类型、适用年级、试题难度中的至少一种。
5.根据权利要求4所述的试题资源分析方法,其特征在于,所述将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,包括:
将所述试题资源及与之相似的高频试题资源,或将所述试题资源输入使用频次预估模型的特征编码层,由所述特征编码层基于所述试题资源的试题属性和/或所述高频试题资源的试题属性,对所述试题资源进行特征编码,得到所述特征编码层输出的资源特征;
将所述资源特征输入所述频次预估模型的频次输出层,得到所述频次输出层输出的适用性分析结果。
6.根据权利要求5所述的试题资源分析方法,其特征在于,所述资源特征包括所述试题资源的教学进度的特征表示,所述教学进度的特征表示是基于所述试题资源中的知识点和/或所述高频试题资源中的知识点确定的。
7.根据权利要求5所述的试题资源分析方法,其特征在于,与所述试题资源相似的高频试题资源是基于所述试题资源的知识点匹配得到的。
8.一种试题资源分析装置,其特征在于,包括:
资源确定单元,用于确定待分析的试题资源;
错误率分析单元,用于对所述试题资源进行错误率分析,得到错误率分析结果;
频次预估单元,用于将所述试题资源输入使用频次预估模型,得到所述使用频次预估模型输出的适用性分析结果,所述使用频次预估模型是基于样本试题资源,以及所述样本试题资源在目标应用场景下的适用性标签训练得到的;
融合分析单元,用于基于所述错误率分析结果和所述适用性分析结果,确定所述试题资源的分析结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述试题资源分析方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述试题资源分析方法的步骤。
CN202011580551.1A 2020-12-28 2020-12-28 试题资源分析方法、装置、电子设备和存储介质 Active CN112685532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011580551.1A CN112685532B (zh) 2020-12-28 2020-12-28 试题资源分析方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011580551.1A CN112685532B (zh) 2020-12-28 2020-12-28 试题资源分析方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112685532A true CN112685532A (zh) 2021-04-20
CN112685532B CN112685532B (zh) 2023-01-17

Family

ID=75452767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011580551.1A Active CN112685532B (zh) 2020-12-28 2020-12-28 试题资源分析方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112685532B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128305A (ja) * 2008-11-28 2010-06-10 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法およびプログラム
CN106780204A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种用于试题题库的评估方法及装置
CN107292785A (zh) * 2017-06-27 2017-10-24 北京粉笔蓝天科技有限公司 一种出题方法及系统
CN108389147A (zh) * 2018-02-26 2018-08-10 浙江创课教育科技有限公司 试题难度分级处理方法及系统
CN110599839A (zh) * 2019-10-23 2019-12-20 济南盈佳科技有限责任公司 一种基于智能组卷和文本分析评阅的在线考试方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128305A (ja) * 2008-11-28 2010-06-10 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法およびプログラム
CN106780204A (zh) * 2016-11-14 2017-05-31 广东小天才科技有限公司 一种用于试题题库的评估方法及装置
CN107292785A (zh) * 2017-06-27 2017-10-24 北京粉笔蓝天科技有限公司 一种出题方法及系统
CN108389147A (zh) * 2018-02-26 2018-08-10 浙江创课教育科技有限公司 试题难度分级处理方法及系统
CN110599839A (zh) * 2019-10-23 2019-12-20 济南盈佳科技有限责任公司 一种基于智能组卷和文本分析评阅的在线考试方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SITI KHADIJAH MOHAMAD等: "Pattern of Reflection in Learning for Predicting Students"Performance", 《IEEE XPLORE》 *
潘婷婷等: "基于知识点与错误率关联的个性化智能组卷模型", 《计算机系统应用》 *
范玉玲等: "基于时空聚类分析的自动组卷模型研究", 《计算机与现代化》 *
赖复响: "基于遗传算法的试卷生成系统研究与设计", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN112685532B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
US9251474B2 (en) Reward based ranker array for question answer system
CN111651676B (zh) 基于能力模型进行职业推荐的方法、装置、设备和介质
CN114913729B (zh) 一种选题方法、装置、计算机设备和存储介质
CN111737968A (zh) 一种作文自动批改及评分的方法及终端
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN105117398A (zh) 一种基于众包的软件开发问题自动应答方法
Lee et al. Use of training, validation, and test sets for developing automated classifiers in quantitative ethnography
CN113220908B (zh) 知识图谱的匹配方法和装置
CN111144079A (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
US20230351153A1 (en) Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning
CN114218379A (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN112966708A (zh) 一种基于语义相似度的中文众包测试报告聚类方法
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN112182237A (zh) 题目知识点关联方法、题目知识点关联系统和存储介质
CN112860873B (zh) 智能应答方法、装置及存储介质
CN113158022B (zh) 业务推荐方法、装置、服务器及存储介质
CN112685532B (zh) 试题资源分析方法、装置、电子设备和存储介质
US10558713B2 (en) Method of tuning a computer system
CN111723182A (zh) 一种用于漏洞文本的关键信息抽取方法及装置
CN111428130A (zh) 一种知识蒸馏过程中增强文本数据的方法及装置
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
CN115438153A (zh) 一种意图匹配度分析模型的训练方法及装置
CN116228361A (zh) 基于特征匹配的课程推荐方法、装置、设备和存储介质
CN116050382A (zh) 章节检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant