CN113569556A

CN113569556A - 基于罗斯模型的儿童阅读测试文本难度的分级方法

Info

Publication number: CN113569556A
Application number: CN202110856241.6A
Authority: CN
Inventors: 罗德红; 龚婧
Original assignee: Huaihua University
Current assignee: Huaihua University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-29
Anticipated expiration: 2041-07-28
Also published as: CN113569556B

Abstract

本发明公开了基于罗斯模型的儿童阅读测试文本难度的分级方法，包括如下步骤：在文本中找到阅读理解问题的答案所涉及的文本片段；计算这些文本片段的语言变量，作为自变量；将阅读理解得分转化为Logit值，再转化为200‑1500区间的文本难度值，作为因变量；采用皮尔逊积差相关系数筛选出与因变量相关系数高的自变量；采用最小二乘法确定预测因变量的最佳语言变量，导出最佳匹配函数。本发明采用罗斯模型及其分值转换方法用200‑1500任一数字对文本进行难度级别分析，拟合优度高，符合汉语的语言特点。学生阅读文本和完成文本对应的3‑4道阅读理解题目，即可以测算出阅读文本的难度级别，计算简单快速，具有良好的适用性和推广性。

Description

基于罗斯模型的儿童阅读测试文本难度的分级方法

技术领域

本发明涉及教育技术领域，特别涉及基于罗斯模型的儿童阅读测试文本难度的分级方法。

背景技术

阅读是积极理解书面材料和获取意义的思维活动，是非物质的内隐过程，判断阅读理解能力水平应找到具有客观性质的指代物。这种指代物就是阅读文本中的语言变量。在英语国家，对文本难度进行划分的经典技术是构建可读性公式，技术成熟，其具体的方法是对学生进行阅读理解测试，将阅读理解得分作为因变量，将阅读理解测试文本中的语言变量作为自变量，采用皮尔逊积差相关系数和最小二乘法计算和筛选拟合优度最佳的语言变量，阅读测试文本难度是最佳语言变量的函数。

一般来讲，分级公式中的文本难度的数字得分用1-12表示，指代的是适合年级水平的文本难度；1996年诞生了以200-1500区间任一数字指代文本难度的技术。然而，对应年级水平的文本难度的数字指代技术忽略了同一年级不同儿童阅读理解能力差异，正如10岁儿童所穿鞋子的尺码不同一样；而以 200-1500区间任一数字指代文本难度的技术忽略了个体的选择性注意机制。当前普遍的观点是，人类的行为由目的或者任务所驱动，倾向于忽视与任务无关的刺激。在进行阅读理解测试时，我们遇到的语言特征如果是与回答阅读理解问题高度相关的，必定会对其进行认知加工，由此这些语言特征成为影响我们得分的显著性因素。然而，如果这些语言特征出现在与阅读理解问题无关的文本中时，我们倾向于跳过这些语言特征，它们就极有可能不会对我们的理解产生显著性影响。换言之，学生的阅读理解得分受到阅读理解问题的影响，即相同的文本，不同的题目，学生的得分可能完全不同，但是国内外分级阅读研究者并没有计算阅读理解问题是如何影响阅读理解得分的，这种忽略很可能使得阅读理解得分难以真实的反映阅读文本的难度。

发明内容

本发明的目的在于提供基于罗斯模型的儿童阅读测试文本难度的分级方法，将采用数学中的罗斯模型用200-1500区间任一数字指代阅读文本的难度，解决同一年级儿童之间不同水平阅读理解能力的指代问题，解决阅读理解问题影响儿童对文本语言变量的难度感知，从而影响文本难度的问题，从而解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

基于罗斯模型的儿童阅读测试文本难度的分级方法，包括如下步骤：

步骤1：在文本中找到阅读理解问题的答案所涉及的文本片段；

步骤2：计算这些文本片段的语言变量，作为自变量；

步骤3：借助罗斯模型软件将阅读理解得分转化为Logit值，再转化为 200-1500区间的文本难度值，作为因变量；

步骤4：采用皮尔逊积差相关系数筛选出与因变量相关系数高的自变量；

步骤5：采用最小二乘法确定预测因变量的最佳语言变量，导出最佳匹配函数，该函数就是分级公式；

进一步地，所述步骤2中的自变量有6类，该6类自变量分别为字、词、句、段落、篇章和词语联结；所述自变量的计算方法为：采用汉语词频工具计算词的重复次数，采用Chinese Text Analyzer软件和《现代汉语语料库词频表》计算熟词，采用文本可读性指标自动化分析系统分别计算词语联结和笔画数。

进一步地，所述步骤3的因变量采用200-1500文本难度值，所述文本难度值的获得方式如下：首先批阅被试的试卷，获得每道阅读理解问题所有被试的原始分，将所述原始分导入罗斯模型，获得所述原始分的logit值，再根据转化公式将所述logit值转化为200-1500文本难度值；所述罗斯模型软件的原理是Log_e(P_ni1/(1-P_ni1))＝B_n-D_i，计算被试对待特定项目的反应概率，即答题成功的可能性；答题成功的可能性越高，文本难度级别越低；答题成功的可能性越低，文本难度级别越高，答题成功的可能性间接反映了阅读文本的难度。

进一步地，所述步骤4皮尔逊积差相关系数的计算公式如下：

进一步地，所述步骤5导出最佳匹配函数的具体方法是：

将步骤4所得的皮尔逊积差相关系数由高到低进行排序，筛选出排序在前5位的自变量，将筛选出的自变量和步骤3所述因变量输入Statistical Product and ServiceSolutions软件中进行最小二乘法多元线性回归分析，根据输出的多重判定系数R²检验拟合优度，输出最佳匹配函数是：

Y_k＝β₀+β₁χ₁+β₂χ₂+β₃χ₃+ε

上式中，Y_k为因变量，即以200-1500表述的文本难度级别；

X₁，X₂，X₃：为预测阅读理解能力和文本难度的最佳自变量；

β₁,β₂,β₃：为偏回归系数；

ε：随机误差。

与现有技术相比，本发明的有益效果是：

(1)在文本中找到阅读理解问题所对应的答案部分，确定承载这些答案的源文本中的最佳语言预测变量的备选类型。

(2)组织学生参加阅读理解测试，获取他们的阅读理解得分，该得分代表了他们的阅读理解能力，也代表了阅读理解文本的难度。

(3)采用罗斯模型对阅读理解得分重新赋值；通过解析文档的最佳语言变量，结合学生阅读理解得分，运用罗斯模型、分值转换公式和最小二乘法，有效对儿童汉语阅读文本进行分级，用200-1500区间之间的数值进行级别表示。

该方法顾及到了个体的选择性注意机制，解决了阅读理解问题影响儿童对文本语言变量的难度感知，从而影响文本难度的问题；该方法解决了传统分级公式用1-12(小学一年级到高中三年级)指代各年级学生所适合阅读的文本难度级别，从而解决了同一年级儿童之间不同水平阅读理解能力的指代问题。该技术投入使用后，学生阅读文本及其完成若干道阅读理解问题，通过其所阅读文本中语言变量的计算和答题得分就可以对文本难度进行分级。突破了现有研究只能对文本进行年级分级的现状，实现了对同一年级被试的阅读理解能力的分级。

本发明方法从信息加工心理学理论的视角，采用对阅读理解问题的答案源文本中语言变量进行分析的方法，采用罗斯模型及其分值转换方法用 200-1500数字进行文本难度级别分析，拟合优度高，符合汉语的语言特点。学生阅读文本和完成文本对应的3-4道阅读理解题目，即可以测算出阅读文本的难度级别，计算简单快速，具有良好的适用性和推广性。

附图说明

图1为本发明基于罗斯模型的儿童阅读测试文本难度的分级方法的技术框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1：在文本中找到阅读理解问题的答案所涉及的文本片段

阅读理解问题的类型为反映被试阅读理解心理的全部过程，包括感觉、知觉、记忆、思维和想象。

步骤2：计算这些文本片段的语言变量，作为自变量。

自变量有6类，该6类自变量分别为字、词、句、段落、篇章和词语联结；所述自变量的计算方法为：采用汉语词频工具计算词的重复次数，采用 Chinese Text Analyzer软件和《现代汉语语料库词频表》计算熟词，采用文本可读性指标自动化分析系统分别计算词语联结和笔画数。

步骤3：借助罗斯模型软件将阅读理解得分进行转换，视作文本难度的指代，作为因变量。

因变量采用200-1500文本难度分值。所述文本难度分值的数学原理和获得方法如下：

数学原理是罗斯模型，是Log_e(P_ni1/(1-P_ni1))＝B_n-D_i，计算被试对待特定项目的反应概率，即答题成功的可能性，答题成功的可能性越高，文本难度级别越低；答题成功的可能性越低，文本难度级别越高，答题成功的可能性间接反映了阅读文本的难度。

所述罗斯模型原理中，B_n(ability)则代表编号为n的被试的能力水平， D_i(difficult)代表阅读理解题目i的难度，能力B_n的被试n在难度D_i的项目i上，计分为1的可能性为P_ni1(possibility)，计分为0的可能性为1-P_ni1。等式两边的单位均为Logit，满足+5～-5之间，将被试能力与项目难度相比较。如果被试水平(B_n)与项目难度(D_i)相等(B_n＝D_i)，正确反应项目(正确解答阅读理解问题)的概率则为50％；如果被试能力显著大于项目难度(B_n>D_i)，正确反应的概率接近100％；相反，若个体能力小于项目难度(B_n<D_i)，正确反应(正确解答阅读理解问题)的概率接近0。模型中的B(被试的阅读理解能力)和D(题目的难度)是单独的参数，一组参数的估计不受另一组参数的影响。这种数学性质使得测量具有“测试独立性”和“考生独立性”的特性。这一特性意味着，表征阅读理解题目的参数不依赖于儿童阅读理解能力分布，表征儿童阅读理解能力的参数不依赖于阅读理解测试中的题目。

将阅读理解原始分数转化为200-1500的方法如下：

首先，批阅被试的试卷，获得每道阅读理解问题所有被试的原始分数，其次，所述原始分数导入罗斯模型软件，获得Logit值；

转化logit值为200-1500分值的方法是：

首先，选定难度差别被经验普遍公认的两个文本作为测量参照点，处于高难度的文本(Dh)和低难度的文本(Dl)。拟令高难度文本为《红与黑》，低难度文本为《卖火柴的小姑娘》。

其次，测算两个文本难度，假设Dh＝+2.26，Dl＝-3.3.

第三，确定单位大小，令单位为“孔子”，单位大小为1/1000。

第四，令Dl＝200孔子，Dh＝1500孔子。

第五，构想转换方程式，将理论难度转换为孔子分值。

(-3.3+3.3)+200＝200孔子 (1)

[(2.26+3.3)*constant]+200＝1200孔子 (2)

[(logit+3.3)*180]+200＝文本难度分值 (3)

180是Dh的理论难度转换为1200孔子的结果。最后，由文本可读性公式所测试出的理论难度转换为孔子分值的转换公式如(3)。

步骤4：采用皮尔逊积差相关系数筛选出与因变量相关系数高的自变量。

皮尔逊积差相关系数的计算公式如下：

式中：

p＝皮尔逊积差相关系数

m：阅读理解问题的数量

Y_i：第i个阅读理解问题的文本难度分值；

m个阅读理解问题的文本难度分值的均值；

X_i：第i个阅读理解问题所对应的自变量；

m个自变量的均值。

步骤5：采用最小二乘法确定预测因变量的最佳语言变量，导出最佳匹配函数。

导出最佳匹配函数的具体方法是：

将步骤4所得的皮尔逊积差相关系数由高到低进行排序，筛选出排序在前 5位的自变量，将筛选出的自变量和步骤3所述因变量输入Statistical Product and ServiceSolutions软件中进行最小二乘法多元线性回归分析，根据输出的多重判定系数R²检验拟合优度，输出最佳匹配函数是：

Y_k＝β₀+β₁χ₁+β₂χ₂+β₃χ₃+ε

上式中，Y_k：为因变量，即以200-1500表述的文本难度级别；

X₁，X₂，X₃：为预测阅读理解能力和文本难度的最佳自变量。

β₁,β₂,β₃：为偏回归系数；

ε：随机误差；

上述最佳匹配函数就是分级公式。

图1所示是儿童汉语阅读文本难度分级的技术框架。实施方式的技术输入是在文本中找到阅读理解答案所对应的文本片段，即源文本，以及对这些文档中所包含的六大类170个语言变量进行计算，输出是目标文本的阅读级别。

1)确定被试：确定被试为初二年级的学生。根据《教育部义务教育语文课程标准》，该年级段的学生要求累计认识常用汉字3500个，累计覆盖《现代常用字表》的99.48％，具备了较好的测试基础；

2)对被试的语文课本题材进行整理：鉴于学生的阅读题材是影响阅读理解能力的因素，例如应用类题材普遍比文学类题材难度更大，根据语文课本中的题材分布挑选阅读理解测试的文本有利于反映学生阅读理解的真实水平，所以分析了人教版八年级和九年级语文课本中的题材；

3)根据整理的题材选取阅读测试材料：采用中小学生使用的标准化阅读测试文本和阅读理解问题。

4)结合读者阅读认知心理过程确定阅读问题：阅读是对文本信息进行心理加工和处理的过程，先确定了信息加工心理学的视角，根据学生从低到高的思维过程(感觉、知觉、记忆、思维和想象)确定了三类阅读理解问题，即进入与提取、综合与阐释、反思与评价，全面考查被试的阅读理解能力，实现对阅读理解能力的分级。

5)基于阅读理解问题，整理文本自变量：

在阅读理解测试中，对被试构成难度的语言变量是那些影响他们解答阅读理解问题的部分。将文本中针对每道阅读理解问题之答案的文本片段进行确定，它们是分析文本语言自变量的源文本。

具体的6类语言变量如下：

篇章：源文本篇章中的段落数量；总字数和总词数；不重复的字数和不重复的词数。

段落：源文本段落中的段落数量，段落中的句子数量、重复和不重复词与字的数量。

句子：源文本句子中的复合句、简单句和子句的句子数量以及各自所占总数的百分比，三类句子中的重复和不重复词与字的数量。

非比对字频和词频(自有字频和自有词频)：重复1-10次的自有字频和自有词频及其所占百分比。

比对的词频(熟词)：比对的对象是《现代汉语常用词表》；首先分为词表词(N＝14629)和非词表词；词表词又分为容易词(N＝300)和难词 (N＝11629)；容易词中分为高频词(N＝1000)、中频词(N＝1001-2000)、低频词(N＝2001-3000)。

词语联结：源文本中的词性，句法结构。

将源文本中的上述变量导入汉语语料库在线网站上的词频工具计算词的重复次数，导入Chinese Text Analyzer软件和《现代汉语语料库词频表》计算熟词，文本可读性指标自动化分析系统2.3计算词语联结和笔画数。

6)对被试进行阅读理解能力的测试：对被试进行标准化测试后，统一批阅试卷，保证评分者的信度和效度。将被试的阅读理解得分指代阅读理解能力，作为因变量。

7)对试卷进行信度、效度检验：试卷的整体信度0.9，结构效度超过0.8，符合要求，且达到较高的水准。

8)整理文本因变量：

因变量采用200-1500文本难度分值。将阅读理解原始分数转化为 200-1500文本难度分值的方法如下：

首先，批阅被试的试卷，获得每道阅读理解问题所有被试的原始分数，其次，将所述原始分数导入罗斯模型软件，获得Logit值；最后，转化logit 值为200-1500分值的公式是：

[(logit+3.3)*180]+200＝文本难度分值

9)筛选自变量：

计算步骤5)计算的自变量和步骤8)处理的因变量之间的皮尔逊积差相关系数。

皮尔逊积差相关系数的计算公式是：

式中：

p＝皮尔逊积差相关系数

Y_i：第i个阅读理解问题的文本难度分值，

的均值，i＝1···m；

X_i：第i个阅读理解问题所对应的自变量，

X_i的均值，i＝1···m；

m＝阅读理解问题的数量。

分别确定6类自变量中与因变量具有显著性相关关系，即P<0.05的自变量，按皮尔逊积差相关系数从高到低排序，从每个类型中筛选出相关系数值位列前5的自变量。

10)拟合最佳函数

将因变量和上述步骤9)筛选出的自变量输入Statistical Product and ServiceSolutions(SPSS)软件中，进行最小二乘法多元线性回归分析，根据输出的多重判定系数R²检验拟合优度：满足拟合优度R²接近1；满足方差膨胀因子VIF＜10；满足回归系数的显著度P＜0.05。确定输出最佳匹配函数是

Y_k＝β₀+β₁χ₁+β₂χ₂+β₃χ₃+ε ⑥

式中，Y_k＝为因变量，即以200-1500表述的文本难度级别，是自变量和因变量的数量关系结果。

X₁，X₂，X₃为预测阅读理解能力和文本难度的最佳自变量。

β₁,β₂,β₃为偏回归系数。

ε＝随机误差。Y_k：

公式⑥就是分级公式，Y_k是文本的难度分数。高阅读理解能力分数意味着文本难度级别低，低阅读理解能力意味着文本难度级别高。该公式的多重判定系数R²＝0.94，拟合优度高，表明自变量可以解释阅读理解能力和文本难度的94％的变异。

本发明方法从信息加工心理学理论的视角，采用对阅读理解问题的答案源文本中语言变量进行分析的方法，采用罗斯模型及其分值转换方法用 200-1500数值对文本进行难度级别分析，拟合优度高，符合汉语的语言特点。学生阅读文本和完成文本对应的3-4道阅读理解题目，即可以测算出阅读文本的难度级别，复合相关系数0.97，拟合优度94％，计算简单快速，具有良好的适用性和推广性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于罗斯模型的儿童阅读测试文本难度的分级方法，其特征在于，包括如下步骤：

步骤2：计算这些文本片段的语言变量，作为自变量；

步骤3：借助罗斯模型软件将阅读理解得分转化为Logit值，再转化为200-1500区间的文本难度值，作为因变量；

2.如权利要求1所述的基于罗斯模型的儿童阅读测试文本难度的分级方法，其特征在于，所述步骤2中的自变量有6类，该6类自变量分别为字、词、句、段落、篇章和词语联结；所述自变量的计算方法为：采用汉语词频工具计算词的重复次数，采用Chinese TextAnalyzer软件和《现代汉语语料库词频表》计算熟词，采用文本可读性指标自动化分析系统分别计算词语联结和笔画数。

3.如权利要求1所述的基于罗斯模型的儿童阅读测试文本难度的分级方法，其特征在于，所述步骤3的因变量采用200-1500文本难度值，所述文本难度值的获得方式如下：首先批阅被试的试卷，获得每道阅读理解问题所有被试的原始分，将所述原始分导入罗斯模型，获得所述原始分的logit值，再根据转化公式将所述logit值转化为200-1500文本难度值；所述罗斯模型软件的原理是Log_e(P_ni1/(1-P_ni1))＝B_n-D_i，计算被试对待特定项目的反应概率，即答题成功的可能性；答题成功的可能性越高，文本难度级别越低；答题成功的可能性越低，文本难度级别越高，答题成功的可能性间接反映了阅读文本的难度。

4.如权利要求1所述的基于罗斯模型的儿童阅读测试文本难度的分级方法，其特征在于，所述步骤4皮尔逊积差相关系数的计算公式如下：

5.如权利要求1所述的基于罗斯模型的儿童阅读测试文本难度的分级方法，其特征在于，所述步骤5导出最佳匹配函数的具体方法是：

Y_k＝β₀+β₁χ₁+β₂χ₂+β₃χ₃+ε

上式中，Y_k：为因变量，即以200-1500表述的文本难度级别；

β₁,β₂,β₃：为偏回归系数；

ε：随机误差。