CN110209797A

CN110209797A - 英语分级阅读材料自动推荐方法及装置

Info

Publication number: CN110209797A
Application number: CN201910523596.6A
Authority: CN
Inventors: 刘晓峰; 刘学; 孙雄飞
Original assignee: Beijing Xuege Technology Co Ltd
Current assignee: Beijing xuebang Technology Co.,Ltd.
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-09-06

Abstract

本发明实施例公开了一种英语分级阅读材料自动推荐方法及装置，所述方法包括：首先，构建优质题库；计算每一阅读材料文本的难度预测指标的特征值；使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数，然后，获取学生的阅读能力水平；从优质题库中选出适合学生阅读的阅读材料文本。本发明实施例公开的英语分级阅读材料自动推荐方法及装置，通过构建优质题库，计算难度预测指标的特征值，最终生成了TL难度指数，使TL难度指数更加科学、更加准确，进而能够根据TL难度指数向读者推荐适合的阅读材料文本，从而循序渐进地提高阅读能力水平。

Description

英语分级阅读材料自动推荐方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种英语分级阅读材料自动推荐方法及装置。

背景技术

分级阅读是按照孩子在不同年龄段的智力和心理发育程度为他们提供的阅读计划，这些阅读计划具有科学性、针对性、系统性，能够循序渐进地提高读者的阅读能力。阅读材料的难度将对提高读者的阅读能力产生至关重要的影响，因此，科学、准确地确定阅读材料的难度成了关键。

现有技术中，针对阅读材料的材料难度指数的确定，存在如下问题：

一、试题等值的难度。许多测量学家和统计学家也提出了各式各样的等值方法，但仍然存在难以实践的问题。事实上，传统的等值方法需要首先设计一个共同组，然后邀请共同组完成两份不同的试题，或者是设计一套共同题，然后邀请两组学生(符合一定的人口学特征或者是教育学特征的分布)来完成试题。这样做的后果是，第一，每次可等值的题量较少，至多不到30道题目，效率很低。第二，每次等值都需要进行专门的、实验化的设计，而独立于专门的业务活动，这样做会造成等值的成本较高(主要是邀请被试的成本较高，因为需要与学校或培训机构协商，且要保障样本的合理性，同时考虑到被试的心理，不一定能建立长期、稳定的合作点)。由于过多的限制条件，导致题库建设实际上是一个非常漫长而繁琐的过程。这个是行业内尚未解决的技术难点。

二、阅读材料参数估计的难度。阅读材料的难度估计依赖于建立在该文本之上的试题的难度，而试题编制的本质是心理测验的编制，因此要服从于心理测验的编制流程，也即对每一份心理测验的题目都要进行预试以获取相关指标的特征，比如难度。然而，对于市场化的公司而言，对每一篇阅读都完成上述流程是一件极高成本的事情，而越过此一环节又难以保证质量，如何在保证质量的前提下高效地产出阅读文本，是行业内难以解决的问题。

三、适应于特定读者的预测。一些做法是采取蒙特卡洛模拟的方法证明，使用项目反应理论的方法来预测读者对该文本的掌握概率，与使用试题均值来预测没有显著差异。在此基础上，构建回归模型来预测阅读难度，从而免去了对文本的预试和等值的环节。然而，这种方案通常会存在以下几个问题，第一，未能考虑到母语学习与二语学习者区别。第二，这种分级阅读体系，并未考虑特定读者的刚性需求，例如，高考考生对高考英语的提分需求。

发明内容

为此，本发明实施例提供一种英语分级阅读材料自动推荐方法及装置，以解决现有技术中由于机械化地套用国外分级阅读体系的模型而导致的难度指数结果不准确、无法适应特定读者的需求的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

根据本发明实施例的第一方面提供一种英语分级阅读材料自动推荐方法，包括：

对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，构建优质题库；

计算每一阅读材料文本的难度预测指标的特征值；

使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数；

获取学生的阅读能力水平；

根据学生的阅读能力水平，从所述优质题库中选出适合学生阅读的阅读材料文本。

进一步地，所述对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，具体包括：

采用项目反应理论中的3PL模型对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理。

进一步地，所述计算每一阅读材料文本的难度预测指标的特征值，具体包括：

遴选阅读材料文本的难度预测指标；

对阅读材料文本进行清洗和分词，获取每一阅读材料文本的难度预测指标的特征值。

进一步地，所述难度预测指标包括初选指标：难词比、词频对数均值、平均句长、全文长度、主题和体裁。

进一步地，所述将阅读材料文本中的试题的难度均值构建为TL难度指数之后，还包括：

计算教师上传的目标阅读材料文本的TL难度指数；

获取所述目标阅读材料文本的教学用途上的标注和对应的试题，所述标注和试题是教师根据目标阅读材料文本的内在的知识点、能力点等内容，并结合高考考察规律进行完成的；

根据所述目标阅读材料文本，以及所述目标阅读材料文本的教学用途上的标注和对应的试题，构建授课过程中使用的素材。

根据本发明实施例的第二方面提供一种英语分级阅读材料自动推荐装置，包括：

构建模块，用于对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，构建优质题库；

计算模块，用于计算每一阅读材料文本的难度预测指标的特征值；

生成模块，用于使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数；

获取模块，用于获取学生的阅读能力水平；

推荐模块，用于根据学生的阅读能力水平，从所述优质题库中选出适合学生阅读的阅读材料文本。

再一方面，本发明实施例提供一种电子设备，包括：存储器、处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述方法的步骤。

又一方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述方法的步骤。

本发明实施例具有如下优点：

本发明实施例公开的英语分级阅读材料自动推荐方法及装置，通过构建优质题库，计算难度预测指标的特征值，最终生成了TL难度指数，使TL难度指数更加科学、更加准确，进而能够根据TL难度指数向读者推荐适合的阅读材料文本，从而循序渐进地提高阅读能力水平。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种英语分级阅读材料自动推荐方法示意图；

图2为本发明实施例提供的英语分级阅读材料自动推荐技术原理图；

图3为本发明实施例提供的一种英语分级阅读材料自动推荐装置示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种英语分级阅读材料自动推荐方法示意图，如图1所示，本发明实施例提供一种英语分级阅读材料自动推荐方法，其执行主体为英语分级阅读材料自动推荐装置，该方法包括：

步骤S101、对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，构建优质题库；

步骤S102、计算每一阅读材料文本的难度预测指标的特征值；

步骤S103、使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数；

步骤S104、获取学生的阅读能力水平；

步骤S105、根据学生的阅读能力水平，从所述优质题库中选出适合学生阅读的阅读材料文本。

具体来说，本发明实施例基于二语学习理论和长期的实践经验证明，对于二语学习者而言，学习本身应当是循序渐进的，换言之，二语学习者适宜于阅读和理解与其语言能力相近的文本，而不是难度过高或者过低的文本，否则则会降低学习者的阅读兴趣和学习效率。在国内的英语教育体系下，学生除了要提升自身的阅读理解能力外，还需要应对升学选拔考试，因此，在给学生推荐阅读文本的时候不仅要考虑学生本身的阅读能力，还需要考虑学生的答题能力。而目前在教育测评市场和英语分级阅读市场内均未有成熟的学习体系出现。主要原因即上文所述的题目等值、文本难度估计和阅读体系适应性的问题。

本发明实施例涉及的英语分级阅读材料自动推荐装置包括构建模块、计算模块和生成模块。

首先，通过构建模块对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，构建优质题库。

通过大规模、时序化的各类考试收集了累计千万级别的考生数据，这实际上已经符合了测验等值的基本前提条件。在此基础上，我们采取项目反应理论中的3PL模型对历次考试的英语阅读试题进行参数估计和等值处理，构建了一份维度完整的、数量足够的、质量合规的优质题库。在此基础上，我们以题目的难度均值作为阅读的难度，构建出一份良好的测试数据。

然后，通过计算模块计算每一阅读材料文本的难度预测指标的特征值。

参照国内外的分级阅读与二语学习理论体系，遴选出难词比、词频对数均值、平均句长等指标体系，作为对阅读文本的难度的预测指标。

在遴选指标之后，遵循语料库建设的操作流程，通过自行编写的程序对各项文本进行清洗、分词等相关操作，从而计算出每一项指标的特征值。此后，采取随机抽样的方式选取出百余份阅读文本，从第三方网站中测试出难词比、词频对数均值和平均句长等指标，与自行编程测量出的指标特征值进行检验，结果显示没有显著差异，证明自行编写程序的测量准确性。

最后，通过生成模块使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数。

以难词比、词频对数均值等指标为自变量，将阅读文本难度作为因变量，构建回归方程。结果显示，R²大于0.7，属于可接受范围。将以此公式作为对阅读文本的难度估计和推荐算法的根本依据。

在大样本和等值的前提下，使用标准十分乘以10(最终结果乘以10，转换为百分形式以满足用户的心理习惯)的计算方式，将阅读文本的难度值构建为TL指数。

图2为本发明实施例提供的英语分级阅读材料自动推荐技术原理图，如图2所示，英语分级阅读产品主要是利用项目反应理论中的逻辑三参数模型及TL难度指数计算公式，通过对阅读文本的测量和对学生能力的测量，分别得出阅读文本的难度和学生的能力水平，并在此基础上为其进行推荐，从而帮助学生在循序渐进(从易到难)的过程中，提高英语阅读能力。

将阅读材料文本中的试题的难度均值构建为TL难度指数之后，还包括：

通过获取模块获取学生的阅读能力水平；

最后，通过推荐模块根据学生的阅读能力水平，从优质题库中选出适合学生阅读的阅读材料文本。

该部分的使用方法如下：

①教师在线组卷并发布试卷。

②学生完成教师发布的测验题。

③系统自动计算出学生的阅读能力。

④系统自动计算出与学生能力相匹配的阅读文本，并为其进行推荐。

本发明实施例公开的英语分级阅读材料自动推荐方法，通过构建优质题库，计算难度预测指标的特征值，最终生成了TL难度指数，使TL难度指数更加科学、更加准确，进而能够根据TL难度指数向读者推荐适合的阅读材料文本，从而循序渐进地提高阅读能力水平。

在上述实施例的基础上，进一步地，所述对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，具体包括：

具体来说，通过大规模、时序化的各类考试收集了累计千万级别的考生数据，这实际上已经符合了测验等值的基本前提条件。在此基础上，我们采取项目反应理论中的3PL模型对历次考试的英语阅读试题进行参数估计和等值处理，构建了一份维度完整的、数量足够的、质量合规的优质题库。在此基础上，我们以题目的难度均值作为阅读的难度均值，构建出一份良好的测试数据。

在以上各实施例的基础上，进一步地，所述计算每一阅读材料文本的难度预测指标的特征值，具体包括：

遴选阅读材料文本的难度预测指标；

具体来说，参照国内外的分级阅读与二语学习理论体系，遴选出难词比、词频对数均值、平均句长等指标体系，作为对阅读文本的难度的预测指标。

在以上各实施例的基础上，进一步地，所述难度预测指标包括初选指标：难词比、词频对数均值、平均句长、全文长度、主题和体裁。

具体来说，遴选标准主要是围绕着学生参试场景的特征为标准的，主要指标如下：

1、难词影响程度。选择难词比和词频对数均值的原因是考虑到生僻词(出现频率较低)对考生阅读文本时的影响，基于本土化的考虑，我们对难词的定义参照了Dale-Chall算法等理念，以高考英语词汇大纲作为本土化的依据，生成一份容易词表作为计算的依据。同时为了保证研究合理性，我们参考蓝思阅读的词频对数比的概念，构建了另一套判断难词影响程度的指标，即词频对数比，词频来源于我们自主研发的高考英语语料库的词频表。

2、全文长度。考虑到学生在完成考试场景中的作答是受到时间限制的，因此文章长度本身会影响到学生浏览、查找线索和完成题目的速度。这一点与国外分级阅读指标和幼儿分级阅读体系有所不同，因为后两者显然是未曾受到考试时间的影响的。

3、句长的影响。考虑到对于语言学习者而言，单句越长意味着阅读者对其含义的把握能力越有难度，因此，我们引入了平均句长和句数两个指标作为预测指标。之所以要引入后者，主要是考虑到平均句长的计算方式是以全文长度除以句数而得，可能会与全文长度产生共线性的问题(会降低回归方程的预测效度)，因此，我们将两项指标均考虑在内，并通过统计学的方法来选择存留。

4、体裁与主题的影响。对于语言学习者来说，对文章本身的理解受其认知结构的影响，换言之，如果阅读者对某一话题领域的熟悉程度越高，也意味着他们在答题时越有可能调动出更多的信息(它们可能并不来自于阅读文本本身，而是阅读者在日常活动中所获取的信息和其他经验)，从而降低其阅读与答题的难度。因此，我们将这两项指标纳入到考量范围中。

在以上各实施例的基础上，进一步地，所述将阅读材料文本中的试题的难度均值构建为TL难度指数之后，还包括：

计算教师上传的目标阅读材料文本的TL难度指数；

具体来说，本发明实施例中的方法，还适用于教师，为教师提供素材。

计算教师上传的目标阅读材料文本的TL难度指数；

获取目标阅读材料文本的教学用途上的标注和对应的试题，标注和试题是教师根据目标阅读材料文本的内在的知识点、能力点等内容，并结合高考考察规律进行完成的；

根据目标阅读材料文本，以及目标阅读材料文本的教学用途上的标注和对应的试题，构建授课过程中使用的素材。

该部分的使用方法如下：

①教师在系统中上传阅读文本，系统自动计算出TL难度指数。

②通过运营手段，邀请教师对阅读文本进行教学用途上的标注。

③通过运营手段，邀请教师对阅读文本编写题目。

④教师可以对阅读文本、标注和题目进行下载，作为授课过程中使用的素材。

图3为本发明实施例提供的一种英语分级阅读材料自动推荐装置示意图，如图3所示，本发明实施例提供一种英语分级阅读材料自动推荐装置，用于执行上述任一实施例中所述的方法，具体包括构建模块301、计算模块302和生成模块303，其中：

构建模块301用于对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，构建优质题库；计算模块302用于计算每一阅读材料文本的难度预测指标的特征值；生成模块303用于使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数；获取模块304用于获取学生的阅读能力水平；推荐模块305用于根据学生的阅读能力水平，从所述优质题库中选出适合学生阅读的阅读材料文本。

通过大规模、时序化的各类考试收集了累计千万级别的考生数据，这实际上已经符合了测验等值的基本前提条件。在此基础上，我们采取项目反应理论中的3PL模型对历次考试的英语阅读试题进行参数估计和等值处理，构建了一份维度完整的、数量足够的、质量合规的优质题库。在此基础上，我们以题目的难度均值作为阅读的难度均值，构建出一份良好的测试数据。

通过获取模块获取学生的阅读能力水平；

该部分的使用方法如下：

①教师在线组卷并发布试卷。

②学生完成教师发布的测验题。

③系统自动计算出学生的阅读能力。

本发明实施例提供一种英语分级阅读材料自动推荐装置，用于执行上述任一实施例中所述的方法，通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同，此处不再赘述。

本发明实施例公开的英语分级阅读材料自动推荐装置，通过构建优质题库，计算难度预测指标的特征值，最终生成了TL难度指数，使TL难度指数更加科学、更加准确，进而能够根据TL难度指数向读者推荐适合的阅读材料文本，从而循序渐进地提高阅读能力水平。

图4为本发明实施例提供的电子设备的结构示意图，如图4所示，所述设备包括：处理器(processor)401、存储器(memory)402和总线403；

其中，处理器401和存储器402通过所述总线403完成相互间的通信；

处理器401用于调用存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：

计算每一阅读材料文本的难度预测指标的特征值；

使用标准十分乘以10的计算方式，将阅读材料文本中的试题的难度均值构建为TL难度指数。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

计算每一阅读材料文本的难度预测指标的特征值；

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

计算每一阅读材料文本的难度预测指标的特征值；

以上所描述的装置及设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种英语分级阅读材料自动推荐方法，其特征在于，包括：

计算每一阅读材料文本的难度预测指标的特征值；

获取学生的阅读能力水平；

2.根据权利要求1所述的英语分级阅读材料自动推荐方法，其特征在于，所述对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，具体包括：

3.根据权利要求1所述的英语分级阅读材料自动推荐方法，其特征在于，所述计算每一阅读材料文本的难度预测指标的特征值，具体包括：

遴选阅读材料文本的难度预测指标；

4.根据权利要求1所述的英语分级阅读材料自动推荐方法，其特征在于，所述难度预测指标包括初选指标：难词比、词频对数均值、平均句长、全文长度、主题和体裁。

5.根据权利要求1所述的英语分级阅读材料自动推荐方法，其特征在于，所述将阅读材料文本中的试题的难度均值构建为TL难度指数之后，还包括：

计算教师上传的目标阅读材料文本的TL难度指数；

获取所述目标阅读材料文本的教学用途上的标注和对应的试题，所述标注和试题是教师根据目标阅读材料文本的内在的知识点、能力点，并结合高考考察规律进行完成的；

6.一种英语分级阅读材料自动推荐装置，其特征在于，包括：

获取模块，用于学生的阅读能力水平；

7.根据权利要求6所述的英语分级阅读材料自动推荐装置，其特征在于，所述对预设的历次考试中的阅读材料文本中的试题进行参数估计和等值处理，具体包括：

8.一种电子设备，其特征在于，包括：存储器和处理器；

所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至5任一所述的方法。