CN113065334A

CN113065334A - 一种基于阅读理解练习的词汇水平测试处理方法及系统

Info

Publication number: CN113065334A
Application number: CN202110316123.6A
Authority: CN
Inventors: 蒋东辰; 李萍; 陈轶阳; 康鑫; 隗艳萍; 孙艳
Original assignee: Guangzhou Moyi Information Technology Co ltd
Current assignee: Guangzhou Moyi Information Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-02

Abstract

本发明提出一种基于阅读理解练习的词汇水平测试处理方法及系统，包括如下步骤：阅读文本预处理步骤：服务端针对每一篇阅读理解文本text，计算文本中各个词语w在当前文本中的难度；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数；为用户提供测试内容并进行难词累计步骤；词汇认知水平评估步骤：在用户积累够预定规模的阅读理解题目后，将其所有遇到的难词以其在词汇词频表WordFreq中的词频百分比为系数进行累加平均，获得平均词频百分比信息，再从WordFreq中找到平均词频百分比相对应的词汇排位，进而确定该用户的词汇量；基于词汇评估的英文文本推荐步骤：根据用户的词汇量，服务端为其推荐相应的词汇学习和阅读文本，通过网络发送到用户的终端。

Description

一种基于阅读理解练习的词汇水平测试处理方法及系统

技术领域

本发明属于计算机辅助英语教学领域，涉及英语学习者能力评估、英语学习语料推荐、英语学习材料自动分类等相关技术领域，特别涉及一种基于阅读理解练习的词汇水平测试处理方法及系统。

背景技术

词汇和语法是英语学习和英语教学中的两个重要方面。通常，各个英语语法点可以通过具体的习题来考察。尽管词汇也可以通过选择、填空等习题来考察，但其考察的通常只是测试者对某一个或某几个词汇的理解，这种练习很难衡量测试者对于英语词汇的整体把握情况。这对于英语词汇学习并不能提供有效地指导性意见。为此，本发明希望提供一套方案，以实现对测试者整体词汇水平的测试。

当前，对测试者进行的词汇测试主要是通过听写、或是中英对照来完成的。尽管这些方式能够在一定程度上反映测试者的词汇量，但其所对应的是测试者中英文词汇对应的能力，与真实的英语理解存在一定差距。而真实的词汇使用是要在语篇中完成的。因此，通过阅读答题测试阅读者的词汇，将能够更好的反映出测试者在词汇使用方面的能力水平。

发明内容

为了解决上述技术问题，本发明通过利用服务端进行阅读文本预处理、难词累计、词汇认知水平评估等几个步骤，实现基于阅读理解练习的学生词汇量测试处理以及学习内容的推送处理。

本发明的技术方案如下：一种基于阅读理解练习的词汇水平测试处理方法，包括如下步骤：

阅读文本预处理步骤：服务端针对每一篇阅读理解文本text，计算文本中各个词语w在当前文本中的难度；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数；

为用户提供测试内容并进行难词累计步骤：服务端为用户提供预定量的阅读理解题目，根据用户答题结果标注用户潜在的未掌握难词并进行累积；

词汇认知水平评估步骤：在用户积累够预定规模的阅读理解题目后，将其所有遇到的难词以其在词汇词频表WordFreq中的词频百分比为系数进行累加平均，获得平均词频百分比信息，再从WordFreq中找到平均词频百分比相对应的词汇排位，进而确定该用户的词汇量；

基于词汇评估的英文文本推荐步骤：根据用户的词汇量，服务端为其推荐相应的词汇学习和阅读文本，通过网络发送到用户的终端。

进一步的，所述阅读文本预处理步骤：针对每一篇阅读理解文本text，计算文本中各个词语w在当前文本中的难度；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数，具体如下：

步骤1.1将文本text中的所有单词变形转化为原形形式，单词变形包括：首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形等，假设文本中所有单词的原形构成的集合为WordSet，转步骤1.2；

步骤1.2统计WordSet中各单词原形w及其变形在文本text中出现的次数，计为Count(w)；统计text中词汇总数量，记为T，转步骤1.3；

步骤1.3对WordSet中的每一个单词w，计算w在文本text中的难度，其中n＝Count(w)，转步骤1.4；

步骤1.4将WordSet中的所有单词w按照其在文本text中的难度排序，将在当前文本中最难的词汇设为w₁，次难词汇设为w₂，其在文本中出现的次数相应记为n₁,n₂,...，以此类推；将这些单词及其在文本出现次数按降序插入键值对序列sortedWordMap<w_i,n_i>；键w_i表示文本中难度排名第i位的单词，值n_i存储难度排名第i位的单词在文本中出现的次数。

进一步的，所述为用户提供测试内容并进行难词累计步骤：为用户提供预定量的阅读理解题目，根据用户答题结果标注用户潜在的未掌握难词并进行累积；具体如下：

步骤2.1对于初次用户user，设置其难词累计表HardWord为空集，转步骤2.2；

步骤2.2在用户的随后使用中，服务端根据教师指派或习题布置方式将阅读理解题目逐个发送到客户端让用户user练习，用户每完成一个阅读理解习题后，将答案上传服务器，转步骤2.3；

步骤2.3根据用户user当前完成的阅读理解文本text及上传答题情况进行难词累加，假设text有K道习题且用户user答对C道题：如果C>0且C<K，则从sortedWordMap<w_i,n_i>中按难度从大到小顺序选择前(1-(C-1)/(K-1))*20％的词汇，设其为w₁,...,w_m，转步骤2.4；否则，转步骤2.5；

步骤2.4对每一个w_i，1<＝i<＝m，如果w_i已在HardWord中，即HardWord(w_i)不为零，则令HardWord(w_i)＝HardWord(w_i)+1；否则，将w_i加入HardWord，令HardWord(w_i)＝1；转步骤2.5；

步骤2.5记录当前状态，若用户继续进行测试，转步骤2.2；否则，结束步骤2。

进一步的，所述词汇认知水平评估步骤：在用户积累够预定规模的阅读理解题目后，将其所有遇到的难词以其在词汇词频表WordFreq中的词频百分比为系数进行累加平均，获得平均词频百分比信息，再从WordFreq中找到平均词频百分比相对应的词汇排位，进而确定该用户的词汇量，具体如下：

步骤3.1对用户user累计的所有难词做频率加权：假设user所对应的HardWord中的所有难词分别为w₁,w₂,...,w_H，其出现的累积次数分别N₁,N₂,...,N_H，以及其在词汇词频表WordFreq中对应的词频百分比分别为P₁,P₂,...,P_H，按照如下公式(4)计算难词平均词频，转步骤3.2；

步骤3.2对WordFreq中的所有词汇按照频率百分比由大到小的顺序排序，设第K个词汇的频率大于HP，而第K+1个词汇的频率小于等于HP；则K就可视为是该学生的词汇量，将第K个词汇的频率记为K_H。

进一步的，所述基于词汇评估的英文文本推荐步骤：根据用户的词汇量，服务端为其推荐相应的词汇学习和阅读文本，通过网络发送到用户的终端具体包括：

以K为基础，为用户推荐相应的词汇学习和阅读文本，具体的，对于语料库中的文本text，如果其按照词汇在文本中的难度计算，前20％难词的词频有一半以上都在K_H以后，或者如果这些词都不在K_H以后，则不推送内容；在这两种情况之外，则服务端将内容推送处理到客户端。

根据本发明的另一方面，还提出一种基于阅读理解练习的词汇水平测试处理系统，包括客户端和服务端；所述客户端包括：

用户登录模块，用户在客户端输入用户名和密码，由客户端经安全加密处理后发送给服务端；服务端对收到数据做解密等相应安全处理，获得用户名和密码，并在库中比对进行如下相应操作：如果收到的用户名与密码与服务端存储的某一用户名-密码匹配，则根据用户学习数据提供相应服务；否则，提示用户核对用户名与密码，再次尝试；

用户阅读答题模块，用户根据学习需求，完成系统或教师指派的阅读理解文本并答题，题目信息及答题结果会返回给服务端；

所述服务端包括：

阅读文本预处理模块，用于对服务端存储的所有阅读理解文本进行预处理，生成各篇文本中词汇难度的排序列表；

用户信息存储模块，若用户是初次登录，则将用户的用户名、密码等信息存储入数据库，并为用户在存储器中分配专有的用户难词累计表HardWord，将用户的难词累计表HardWord设置为空；若用户已经登陆过，则根据之前的难词累计表记录进行相应的操作；

用户答题文本提供模块，系统根据用户的需求，给用户指派相应的阅读理解测试文本；

用户难词累计模块，在收到用户答题结果后，服务端根据用户的当前阅读理解的答题情况，累计记录用户阅读该文本所积累的难词，存入用户相应的难词累计表中；

词汇认知水平评估模块，服务端根据用户积累的答题信息，计算评估用户的词汇水平，并将其返回给相应用户。

有益效果：

首先，本发明采用阅读答题的方式测试阅读者的词汇水平，避免了因只考虑词汇本身而忽略其在英文文本中的使用问题，能够更好的评估测试者在词汇使用方面的能力。

第二，评估测试者的词汇认知水平时，未采用常见的中英对照方式，而是考量测试者在阅读答题中遇到的难词，并结合语料库中的难词进行评估，该方法使得评估结果更为准确。

第三，整体上，该方法具有良好的效果，评估结果更为准确。与类似方法相比，本方法具有准确、高效等特点，适用于评估各类人群的英语词汇水平，极大程度的降低了使用门槛。

附图说明

图1为本发明的实现流程图；

图2为本发明的阅读文本预处理流程图；

图3为本发明的为用户提供测试内容并进行难词累计流程图；

图4为本发明的词汇认知水平评估流程图；

图5为本发明的基于阅读理解练习的词汇水平测试处理系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的实施例，要实现基于阅读理解练习的词汇水平测试处理方法及系统，需要利用数据库中存储的一定规模词汇量且涵盖面较为广泛的英语阅读理解习题及其解答，每篇阅读理解最好有多道习题，例如5道或更多。此外，数据库中还存储有词汇词频表WordFreq和针对各个学生的难词累计表HardWord。其中，词汇词频表WordFreq存储着所有单词及其在语料库中的频率信息，即WordFreq(w)存储着单词w在语料库中出现次数占词汇总出现次数的百分比，该词频表在估计学生词汇量时做参考；学生的难词累计表HardWord(w)记录该学生在阅读文本出现错题时，将w认定为文本难词的累计文本数量。

根据本发明的一个实施例的一种基于阅读理解练习的词汇水平测试处理系统，如图5所示，包括客户端和服务端；客户端包括：

所述服务端包括：

用户信息存储模块，若用户是初次登录，则将用户的用户名、密码等信息存储入数据库，并为用户分配专有的用户难词累计表HardWord，将用户的难词累计表HardWord设置为空；若用户已经登陆过，则根据之前的难词累计表记录进行相应的操作；

用户答题文本提供模块，系统或教师根据用户的需求，给用户指派相应的阅读理解测试文本；

根据本发明的另一实施例，提供一种基于阅读理解练习的词汇水平测试处理方法，如图1所示，包括如下步骤：

具体的，根据本实施例，所述阅读文本预处理步骤如下，如图2所示：

针对每一篇阅读理解文本text，本发明将计算文本中各个词语w在当前文本中的难度textDif(w,text)；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数。其中，不妨假设在当前文本中最难的词汇为w₁，次难词汇为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推。

假设文本text包含N个单词，单词w在文本text中出现k次的概率可由二项分布近似刻画，即：

其中，

为在N个元素中选择k个元素的组合数，N为文本text的总词汇数，P为词语w在语料库中的出现次数百分比，即P＝WordFreq(w)；那么，在包含N个词语的文本text中词汇w出现的条件下，w在文本text中出现n次的α概率分位数为，w出现次数小于等于n次的概率累加，即：

而单词w在文本text中的难度由其在语料库中的信息量I(w)＝-lg(WordFreq(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成，即：

textDif(w,text)＝α(w,n)I(w). (3)

具体的，本步骤实现如下：

步骤1.3对WordSet中的每一个单词w，利用公式textDif(w,text)＝α(w，n)I(w)计算w在文本text中的难度，其中n＝Count(w)，转步骤1.4；

步骤1.4将WordSet中的所有单词w按照其在文本text中的难度排序，将在当前文本中最难的词汇设为w₁，次难词汇设为w₂，其在文本中出现的次数相应记为n₁,n₂,...，以此类推；将这些单词及其在文本出现次数按降序插入键值对序列sortedWordMap<w_i,n_i>。

文本词汇难度评估结束后，将获得一个经过难度排序的单词及其在文本text中出现次数的键值对序列sortedWordMap<w_i,n_i>。其中，键w_i表示文本中难度排名第i位的单词，值n_i存储难度排名第i位的单词在文本中出现的次数。

所述的为用户提供测试内容并进行难词累计步骤，具体包括：

由于阅读理解包括五道习题。因此可以根据用户答对(或答错)的问题数量标注用户潜在的未掌握难词。具体的，如果用户只答对一道题，则将该文本的难词序列前20％的难词作为词汇累积；如果用户答对两道题，则将该文本的难词序列前15％的难词作为词汇累积；如果用户答对三道题，则将该文本的难词序列前10％的难词作为词汇累积；如果用户答对四道题，则将该文本的难词序列前5％的难词作为词汇累积；如果用户全部五道题都答对了或者全都答错了，则不做难词积累。具体实现如下：

步骤2.2在用户的随后使用中，服务端可根据教师指派或习题布置等方式将阅读理解题目逐个发送到客户端让用户user练习，用户每完成一个阅读理解习题后，将答案上传服务器，转步骤2.3；

步骤2.3根据用户user当前完成的阅读理解文本text及上传答题情况进行难词累加，假设text有K道习题且用户user答对C道题：如果C>0且C<K，则从sortedWordMap<w_i,n_i>中按难度从大到小顺序选择前(1-(C-1)/(K-1))*20％的词汇，不妨设其为w₁,...,w_m，转步骤2.4；否则，转步骤2.5；

步骤2.4对每一个w_i(1<＝i<＝m)：如果w_i已在HardWord中，即HardWord(w_i)不为零，则令HardWord(w_i)＝HardWord(w_i)+1；否则，将w_i加入HardWord，令HardWord(w_i)＝1；转步骤2.5；

难词累计是一个循序渐进的过程，用户需要完成一定数量规模的阅读理解习题实现生词的积累。其中，如果阅读理解完全做对，则认为文本词汇难度过于小；如果阅读理解完全做错，则认为文本词汇难度过大；这两种情况都不适宜做准确的词汇累加。

所述的词汇认知水平评估步骤包括：在用户积累够一定规模的阅读理解题目后，可以将其所有遇到的难词以其在词汇词频表WordFreq中的词频百分比为系数进行累加平均，获得平均词频百分比信息，再从WordFreq中找到平均词频百分比相对应的词汇排位，进而确定该用户的词汇量。

具体的，本步骤实现如下：

基于词汇评估的英文文本推荐：以K为基础，可以为学生推荐相应的词汇学习和阅读文本。具体的，对于语料库中的文本text，如果其按照词汇在文本中的难度计算，前20％难词的词频有一半以上都在K_H以后，则认为该文本不适合阅读；如果这些词都不在K_H以后，则认为文本过于简单；在这两种情况之外，则做推送处理。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于阅读理解练习的词汇水平测试处理方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于阅读理解练习的词汇水平测试处理方法，其特征在于，所述阅读文本预处理步骤：针对每一篇阅读理解文本text，计算文本中各个词语w在当前文本中的难度；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数，具体如下：

3.根据权利要求1所述的一种基于阅读理解练习的词汇水平测试处理方法，其特征在于，所述为用户提供测试内容并进行难词累计步骤：为用户提供预定量的阅读理解题目，根据用户答题结果标注用户潜在的未掌握难词并进行累积；具体如下：

4.根据权利要求1所述的一种基于阅读理解练习的词汇水平测试处理方法，其特征在于，所述词汇认知水平评估步骤：在用户积累够预定规模的阅读理解题目后，将其所有遇到的难词以其在词汇词频表WordFreq中的词频百分比为系数进行累加平均，获得平均词频百分比信息，再从WordFreq中找到平均词频百分比相对应的词汇排位，进而确定该用户的词汇量，具体如下：

5.根据权利要求4所述的一种基于阅读理解练习的词汇水平测试处理方法，其特征在于，所述基于词汇评估的英文文本推荐步骤：根据用户的词汇量，服务端为其推荐相应的词汇学习和阅读文本，通过网络发送到用户的终端具体包括：

以K为基础，为用户推荐相应的词汇学习和阅读文本，具体的，对于语料库中的文本text，如果其按照词汇在文本中的难度计算，前20％难词的词频有一半以上都在K_H以后，或者如果这些词都不在K_H以后，则不推送内容；在这两种情况之外，则服务端将内容推送处理到客户端，其中将第K个词汇的频率记为K_H。

6.一种基于阅读理解练习的词汇水平测试处理系统，包括客户端和服务端；其特征在于，所述客户端包括：

所述服务端包括：