CN112949259B

CN112949259B - 一种自适应的基于词汇文本难度的生词标注系统及方法

Info

Publication number: CN112949259B
Application number: CN202110316129.3A
Authority: CN
Inventors: 蒋东辰; 蒋翱远; 陈轶阳; 康鑫; 隗艳萍; 孙艳
Original assignee: Guangzhou Moyi Information Technology Co ltd; Beijing Forestry University
Current assignee: Guangzhou Moyi Information Technology Co ltd; Beijing Forestry University
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2023-08-08
Anticipated expiration: 2041-03-24
Also published as: CN112949259A

Abstract

本发明提出一种自适应的基于词汇文本难度的生词标注方法及系统，所述方法包括以下步骤：步骤一、进行文本词汇难度评估，计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；步骤二、进行词表对比，确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照难度排序后存储；步骤三、进行生词标注，计算基于词汇文本难度词汇列表的累积词汇量，并对超过难度要求的生词进行标注；步骤四、进行文本难度评估，并给出文本难度提示信息。本发明既可以根据学习者所处的学习阶段，也可以根据文本的具体用词情况和学习者的真实水平，自动实现阅读文本生词的自动标注。

Description

一种自适应的基于词汇文本难度的生词标注系统及方法

技术领域

本发明属于计算机交互及计算机英语学习领域，特别涉及一种基于词汇文本难度的生词标注系统及方法。

背景技术

阅读是学生提升语言能力的主要途径，生词是学生阅读的主要障碍和提升方向。恰当的生词标注将能够有效降低学生学习的难度，增加学生的词汇积累。为此，本发明将针对英文阅读文本生词标注提供一套系统及方法。

当前，针对学生英语阅读的词汇标注要么是有英语教师及编辑手动完成，要么是通过设置词库由计算机自动完成。手工标注的准确性极大的依赖于标注者对不同水平学生能力的把握，存在个体差异，容易出现错标漏标等问题；同时，手工标注人力成本大，不适于大量的英语阅读材料的处理标注。基于计算机词库的生词标注采用一刀切的标注方法。这类方法效率高，但缺乏弹性。一些人名、地名和一些偶然出现的生词并不会影响阅读理解，但却也会被标注。这将降低阅读者的阅读体验，增加分心的关注点。

发明内容

为了解决上述技术问题，本发明提出一种自适应的基于词汇文本难度的生词标注系统及方法，既可以根据学习者所处的学习阶段，也可以根据文本的具体用词情况和学习者的真实水平，自动实现阅读文本生词的自动标注。

本发明的技术方案为：一种自适应的基于词汇文本难度的生词标注方法，其特征在于，包括以下步骤：

步骤一、进行文本词汇难度评估，计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；

步骤二、进行词表对比，确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照难度排序后存储；

步骤三、进行生词标注，计算基于词汇文本难度词汇列表的累积词汇量，并对超过难度要求的生词进行标注；

步骤四、进行文本难度评估，并给出文本难度提示信息。

进一步的，所述步骤一、进行文本词汇难度评估，计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；具体包括：

步骤1.1将文本text中的所有单词变形转化为原型形式，单词变形包括：首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形，假设文本中所有单词的原型构成的集合为WordSet，转步骤1.2；

步骤1.2统计文本text中各单词原型出现的次数，使用Count(w)表示单词w文本text中出现的次数，用T记录文本中的总词数，转步骤1.3；

步骤1.3对WordSet中的每一个单词w，利用公式textDif(w,text)＝α(w，n)I(w)计算单词w在文本text中的难度，其中n＝Count(w)，转步骤1.4；

步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序，将在当前文本中最难的词汇设为w₁，次难词汇设为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推；将这些单词及文本出现次数按降序插入键值对序列sortedWordMap<w_i,n_i>；即，文本词汇难度评估结束后，将获得一个经过难度排序的单词及其在文本text中出现次数的键值对序列sortedWordMap<w_i,n_i>，其中，键w_i表示文本中难度排名第i位的单词，值n_i存储难度排名第i位的单词在文本中出现的次数。

进一步的，所述步骤1.3中，利用公式textDif(w,text)＝α(w，n)I(w)计算w在文本text中的难度，具体包括：

假设待做词汇标注的英文文本为text，计算文本text中各个单词w的文本难度textDif(w,text)；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数；其中，假设在当前文本中最难的词汇为w₁，次难词汇为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推；

假设文本text包含N个单词，单词w在文本text中出现k次的概率由二项分布近似刻画，即：

其中，为在N个元素中选择k个元素的组合数，N为文本text的总词汇数，Prop(w)为词语w在语料库中整体的出现概率；那么，词汇w在包含N个词语的文本text中出现n次的α概率分位数为：在text中w出现的条件下，w出现次数小于等于n次的概率累加，即：

而单词w在文本text中的难度textDif(w,text)由其在语料库中的信息量I(w)＝-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成，即：

textDif(w,text)＝α(w,n)I(w)。 (3)

进一步的，步骤二、进行词表对比，确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照难度排序后存储，具体包括如下步骤：

对键值对序列sortedWordMap<w_i,n_i>中的每一个单词w_i：如果w_i不在Lex中，则将其标注为Unknown，存入生词序列UnknowList中；否则，标注为Know，存入已知词序列KnowList中。

经过词表对比，筛选出文本的生词序列UnknownList，序列存储生词的顺序按照步骤一中的词语难度排序，对于生词序列UnknownList中的生词U_j，j为该生词在生词序列中的排序。

进一步的，步骤三、进行生词标注，计算基于词汇文本难度词汇列表的累积词汇量，并对超过难度要求的生词进行标注，具体包括：

对前γ百分位的生词，利用词典进行词义标注或标注提示；具体步骤如下：

步骤3.1令当前累计词量TC＝0、处理词位I＝0，转步骤3.2；

步骤3.2令I＝I+1，对生词序列UnknownList中的生词U_I，计算累计词量TC＝TC+Count(U_I)；其中，Count(U_I)表示单词U_I在文本text中出现的次数，如果TC/N<＝γ，将U_I加入需标注生词集合WordToLabel，转步骤3.2；否则，转步骤3.3；

步骤3.3遍历待标注生词集合WordToLabel，对其任意生词U，利用词典检索其对应的词义，用M记录，并将结果<U,M>存储到词标注序列LabelMap中；

步骤3.4遍历词标注序列LabelMap，对任意生词及其对应的词义<U,M>，在文本中找到生词U第一次出现的位置，按“U(M)”的格式，对词义进行标注。

进一步的，步骤四、进行文本难度评估，并给出文本难度提示信息；具体包括：

步骤4.1统计生词序列UnknownList的词汇数量，用N表示；如果N＝0，则提示该文本可能较为简单，提示使用者人工确认；否则，转步骤4.2；

步骤4.2初始化词汇难度评估集合其中，WordToLabel为待标注生词集合令当前累计词量TC＝0、处理词位I＝0，转步骤4.3；

步骤4.3令I＝I+1，对词汇难度评估集合evaluateList中的生词U_I，计算累计词量TC＝TC+Count(U_I)；如果TC/N>β，则提示该文本词汇难度较大，提示人工确认选择；否则，提示文本词汇难度正常。

根据本发明的另一方面，还提出一种自适应的基于词汇文本难度的生词标注系统，包括：

文本词汇难度评估模块，用于计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；

词表对比模块，用于确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照难度排序进行存储；

生词标注模块，用于计算基于词汇文本难度词汇列表的累积词汇量，以及将词汇标注到文本中；

文本难度评估模块，用于给出文本难度提示信息。

有益效果：

本发明方法的优势在于：首先，生词的判断标准不是根据固定词库简单判定的，而是根据学习者所处的学习阶段以及英文文本的词汇使用情况综合识别的，这避免了非必要生词标注对学习者阅读学习连贯性及综合记忆学习的干扰；第二，算法根据文本中具体用词情况，使用基于统计的方法对文本生词难度进行自动判断，避免人工判断带来的主观影响，提升了标注效率；第三，算法可以根据难度需求，设置不同的难度水平，自动地调整文本生词标注的数量，更好的锻炼学习者的阅读能力。该方法具有良好的标注效果，与类似的方法相比，本方法具有简单、高效、理论基础完善等特点；适用于不同年级、各种类型的英语阅读文本的生词标注，通过计算机自动化实现，能够极大程度的降低人工标注的主观影响和劳力投入。

附图说明

图1为本发明的实现流程图；

图2为本发明的文本词汇难度评估流程图；

图3为本发明的生词标注流程图；

图4为本发明的文本难度评估流程图；

图5为本发明的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的实施例，提出一种自适应的基于词汇文本难度的生词标注方法及系统，本发明还包括：学习者所处的阶段及其已掌握或应该掌握的英语单词词库Lex，该词库将作为生词筛选标注的评判依据；英汉对照的词典Dict(w)，其将英文词汇w与其常用解释对应，用于生词标注的释意生成；此外，还需要英语单词的词频表Prop(w)，该表记录英语单词w在大量文本中的词频概率信息，其被用于判定词汇在给定文本中的难度。本发明的一种自适应的基于词汇文本难度的生词标注方法，具体包括以下步骤：

步骤一、步骤一、进行文本词汇难度评估，计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；具体如下：

假设待做词汇标注的英文文本为text。本步骤将计算文本text中各个单词w的文本难度textDif(w,text)；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数。其中，不妨假设在当前文本中最难的词汇为w₁，次难词汇为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推。

假设文本text包含N个单词，单词w在文本text中出现k次的概率可由二项分布近似刻画，即：

textDif(w,text)＝α(w,n)I(w). (3)

具体的，本步骤实现如下：

步骤1.1将文本text中的所有单词变形转化为原型形式，单词变形包括：首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形等，假设文本中所有单词的原型构成的集合为WordSet，转步骤1.2；

步骤1.3对WordSet中的每一个单词w，利用公式textDif(w,text)＝α(w，n)I(w)计算w在文本text中的难度，其中n＝Count(w)，转步骤1.4；

步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序，将在当前文本中最难的词汇设为w₁，次难词汇设为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推；将这些单词及文本出现次数按降序插入键值对序列sortedWordMap<w_i,n_i>。

文本词汇难度评估结束后，将获得一个经过难度排序的单词及其在文本text中出现次数的键值对序列sortedWordMap<w_i,n_i>。其中，键w_i表示文本中难度排名第i位的单词，值n_i存储难度排名第i位的单词在文本中出现的次数。

步骤二、进行词表对比，确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照难度排序后存储；具体如下：

词表比对的主要作用在于确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照词语难度排序后进行存储。具体的，对键值对序列sortedWordMap<w_i,n_i>中的每一个单词w_i：如果w_i不在Lex中，则将其标注为Unknown，存入生词序列UnknowList中；否则，标注为Know，存入已知词序列KnowList中。

经过词表对比，筛选出文本的生词序列UnknownList，序列存储生词的顺序按照步骤1中的词语难度排序。对于生词序列UnknownList中的生词U_j，j为该生词在生词序列中的排序。

步骤三、进行生词标注，计算基于词汇文本难度词汇列表的累积词汇量，并对超过难度要求的生词进行标注；具体如下：

首先计算基于词汇文本难度词汇列表的累积词汇量。对前γ百分位的生词，利用词典进行词义标注或标注提示(通常γ选择5％、10％、15％、20％等百分位，也可选择0～100％范围内的任意百分比)。具体步骤如下：

步骤3.1令当前累计词量TC＝0、处理词位I＝0，转步骤3.2；

步骤3.3遍历待标注生词集合WordToLabel，对其任意生词U，利用词典检索其对应的词义，用M记录，并将结果<U,M>存储到词标注序列LabelMap中。

步骤3.4遍历词标注序列LabelMap，对任意生词及其对应的词义<U,M>，在文本中找到生词U第一次出现的位置，按“U(M)”的格式，对词义进行标注，例如标注“marriage(婚姻)”。

步骤四、进行文本难度评估，并给出文本难度提示信息；具体如下：

如果标注为Uknown词汇数量为0，则提示该文本可能较为简单，系统提示使用者需要人工确认该文本是否过于简单；如果从生词序列UnknownList中排除掉已经标注词汇WordToLabel的累积词量百分比超过β(β常取5％～20％间数值，也可以选择0～100％范围内的任意百分比)，则系统提示该文本词汇难度较大，需人工确认选择。这一部分具体流程如下：

步骤4.2初始化词汇难度评估集合令当前累计词量TC＝0、处理词位I＝0，转步骤4.3；

根据本发明的另一实施例，还提出一种自适应的基于词汇文本难度的生词标注系统，如图5所示，为本发明的系统框图，包括：

文本难度评估模块，用于给出文本难度提示信息。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种自适应的基于词汇文本难度的生词标注方法，其特征在于，包括以下步骤：

步骤一、进行文本词汇难度评估，计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；所述步骤一、进行文本词汇难度评估，计算词汇w在包含N个词语的文本text中出现n次的α概率分位数；具体包括：

步骤1.1将文本text中的所有单词变形转化为原型形式，单词变形包括：首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形，文本中所有单词的原型构成的集合为WordSet，转步骤1.2；

步骤1.3对WordSet中的每一个单词w，利用公式textDif(w,text)＝α(w,n)I(w)计算单词w在文本text中的难度，其中n＝Count(w)，转步骤1.4；

步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序，将在当前文本中最难的词汇设为w₁，次难词汇设为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推；将这些单词及文本出现次数按降序插入键值对序列sortedWordMap<w_i,n_i>；其中，键w_i表示文本中难度排名第i位的单词，值n_i存储难度排名第i位的单词在文本中出现的次数；

所述步骤1.3中，利用公式textDif(w,text)＝α(w,n)I(w)计算w在文本text中的难度，具体包括：

待做词汇标注的英文文本为text，计算文本text中各个单词w的文本难度textDif(w,text)；然后，对文本中各单词按照难度由大到小的顺序排序并统计其出现次数；其中，在当前文本中最难的词汇为w₁，次难词汇为w₂，其在文本中出现的次数分别为n₁,n₂,...，以此类推；

文本text包含N个单词，单词w在文本text中出现k次的概率由二项分布近似刻画，即：

textDif(w,text)＝α(w,n)I(w) (3)

步骤三、进行生词标注，计算基于词汇文本难度词汇列表的累积词汇量，并对超过难度要求的生词进行标注；具体包括：

步骤3.1令当前累计词量TC＝0、处理词位I＝0，转步骤3.2；

步骤3.4遍历词标注序列LabelMap，对任意生词及其对应的词义<U,M>，在文本中找到生词U第一次出现的位置，按“U(M)”的格式，对词义进行标注；

步骤四、进行文本难度评估，并给出文本难度提示信息。

2.根据权利要求1所述的一种自适应的基于词汇文本难度的生词标注方法，其特征在于，步骤二、进行词表对比，确定文本text中不在词库Lex的超纲词汇，并将这些词汇按照难度排序后存储，具体包括如下步骤：

对键值对序列sortedWordMap<w_i,n_i>中的每一个单词w_i：如果w_i不在Lex中，则将其标注为Unknown，存入生词序列UnknowList中；否则，标注为Know，存入已知词序列KnowList中；

3.根据权利要求1所述的一种自适应的基于词汇文本难度的生词标注方法，其特征在于，步骤四、进行文本难度评估，并给出文本难度提示信息；具体包括：

步骤4.2初始化词汇难度评估集合其中，WordToLabel为待标注生词集合，令当前累计词量TC＝0、处理词位I＝0，转步骤4.3；