CN112949259B - 一种自适应的基于词汇文本难度的生词标注系统及方法 - Google Patents

一种自适应的基于词汇文本难度的生词标注系统及方法 Download PDF

Info

Publication number
CN112949259B
CN112949259B CN202110316129.3A CN202110316129A CN112949259B CN 112949259 B CN112949259 B CN 112949259B CN 202110316129 A CN202110316129 A CN 202110316129A CN 112949259 B CN112949259 B CN 112949259B
Authority
CN
China
Prior art keywords
word
text
difficulty
words
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110316129.3A
Other languages
English (en)
Other versions
CN112949259A (zh
Inventor
蒋东辰
蒋翱远
陈轶阳
康鑫
隗艳萍
孙艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Moyi Information Technology Co ltd
Beijing Forestry University
Original Assignee
Guangzhou Moyi Information Technology Co ltd
Beijing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Moyi Information Technology Co ltd, Beijing Forestry University filed Critical Guangzhou Moyi Information Technology Co ltd
Priority to CN202110316129.3A priority Critical patent/CN112949259B/zh
Publication of CN112949259A publication Critical patent/CN112949259A/zh
Application granted granted Critical
Publication of CN112949259B publication Critical patent/CN112949259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种自适应的基于词汇文本难度的生词标注方法及系统,所述方法包括以下步骤:步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;步骤四、进行文本难度评估,并给出文本难度提示信息。本发明既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况和学习者的真实水平,自动实现阅读文本生词的自动标注。

Description

一种自适应的基于词汇文本难度的生词标注系统及方法
技术领域
本发明属于计算机交互及计算机英语学习领域,特别涉及一种基于词汇文本难度的生词标注系统及方法。
背景技术
阅读是学生提升语言能力的主要途径,生词是学生阅读的主要障碍和提升方向。恰当的生词标注将能够有效降低学生学习的难度,增加学生的词汇积累。为此,本发明将针对英文阅读文本生词标注提供一套系统及方法。
当前,针对学生英语阅读的词汇标注要么是有英语教师及编辑手动完成,要么是通过设置词库由计算机自动完成。手工标注的准确性极大的依赖于标注者对不同水平学生能力的把握,存在个体差异,容易出现错标漏标等问题;同时,手工标注人力成本大,不适于大量的英语阅读材料的处理标注。基于计算机词库的生词标注采用一刀切的标注方法。这类方法效率高,但缺乏弹性。一些人名、地名和一些偶然出现的生词并不会影响阅读理解,但却也会被标注。这将降低阅读者的阅读体验,增加分心的关注点。
发明内容
为了解决上述技术问题,本发明提出一种自适应的基于词汇文本难度的生词标注系统及方法,既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况和学习者的真实水平,自动实现阅读文本生词的自动标注。
本发明的技术方案为:一种自适应的基于词汇文本难度的生词标注方法,其特征在于,包括以下步骤:
步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;
步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;
步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;
步骤四、进行文本难度评估,并给出文本难度提示信息。
进一步的,所述步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;具体包括:
步骤1.1将文本text中的所有单词变形转化为原型形式,单词变形包括:首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形,假设文本中所有单词的原型构成的集合为WordSet,转步骤1.2;
步骤1.2统计文本text中各单词原型出现的次数,使用Count(w)表示单词w文本text中出现的次数,用T记录文本中的总词数,转步骤1.3;
步骤1.3对WordSet中的每一个单词w,利用公式textDif(w,text)=α(w,n)I(w)计算单词w在文本text中的难度,其中n=Count(w),转步骤1.4;
步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序,将在当前文本中最难的词汇设为w1,次难词汇设为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;将这些单词及文本出现次数按降序插入键值对序列sortedWordMap<wi,ni>;即,文本词汇难度评估结束后,将获得一个经过难度排序的单词及其在文本text中出现次数的键值对序列sortedWordMap<wi,ni>,其中,键wi表示文本中难度排名第i位的单词,值ni存储难度排名第i位的单词在文本中出现的次数。
进一步的,所述步骤1.3中,利用公式textDif(w,text)=α(w,n)I(w)计算w在文本text中的难度,具体包括:
假设待做词汇标注的英文文本为text,计算文本text中各个单词w的文本难度textDif(w,text);然后,对文本中各单词按照难度由大到小的顺序排序并统计其出现次数;其中,假设在当前文本中最难的词汇为w1,次难词汇为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;
假设文本text包含N个单词,单词w在文本text中出现k次的概率由二项分布近似刻画,即:
其中,为在N个元素中选择k个元素的组合数,N为文本text的总词汇数,Prop(w)为词语w在语料库中整体的出现概率;那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即:
而单词w在文本text中的难度textDif(w,text)由其在语料库中的信息量I(w)=-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成,即:
textDif(w,text)=α(w,n)I(w)。 (3)
进一步的,步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储,具体包括如下步骤:
对键值对序列sortedWordMap<wi,ni>中的每一个单词wi:如果wi不在Lex中,则将其标注为Unknown,存入生词序列UnknowList中;否则,标注为Know,存入已知词序列KnowList中。
经过词表对比,筛选出文本的生词序列UnknownList,序列存储生词的顺序按照步骤一中的词语难度排序,对于生词序列UnknownList中的生词Uj,j为该生词在生词序列中的排序。
进一步的,步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注,具体包括:
对前γ百分位的生词,利用词典进行词义标注或标注提示;具体步骤如下:
步骤3.1令当前累计词量TC=0、处理词位I=0,转步骤3.2;
步骤3.2令I=I+1,对生词序列UnknownList中的生词UI,计算累计词量TC=TC+Count(UI);其中,Count(UI)表示单词UI在文本text中出现的次数,如果TC/N<=γ,将UI加入需标注生词集合WordToLabel,转步骤3.2;否则,转步骤3.3;
步骤3.3遍历待标注生词集合WordToLabel,对其任意生词U,利用词典检索其对应的词义,用M记录,并将结果<U,M>存储到词标注序列LabelMap中;
步骤3.4遍历词标注序列LabelMap,对任意生词及其对应的词义<U,M>,在文本中找到生词U第一次出现的位置,按“U(M)”的格式,对词义进行标注。
进一步的,步骤四、进行文本难度评估,并给出文本难度提示信息;具体包括:
步骤4.1统计生词序列UnknownList的词汇数量,用N表示;如果N=0,则提示该文本可能较为简单,提示使用者人工确认;否则,转步骤4.2;
步骤4.2初始化词汇难度评估集合 其中,WordToLabel为待标注生词集合令当前累计词量TC=0、处理词位I=0,转步骤4.3;
步骤4.3令I=I+1,对词汇难度评估集合evaluateList中的生词UI,计算累计词量TC=TC+Count(UI);如果TC/N>β,则提示该文本词汇难度较大,提示人工确认选择;否则,提示文本词汇难度正常。
根据本发明的另一方面,还提出一种自适应的基于词汇文本难度的生词标注系统,包括:
文本词汇难度评估模块,用于计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;
词表对比模块,用于确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序进行存储;
生词标注模块,用于计算基于词汇文本难度词汇列表的累积词汇量,以及将词汇标注到文本中;
文本难度评估模块,用于给出文本难度提示信息。
有益效果:
本发明方法的优势在于:首先,生词的判断标准不是根据固定词库简单判定的,而是根据学习者所处的学习阶段以及英文文本的词汇使用情况综合识别的,这避免了非必要生词标注对学习者阅读学习连贯性及综合记忆学习的干扰;第二,算法根据文本中具体用词情况,使用基于统计的方法对文本生词难度进行自动判断,避免人工判断带来的主观影响,提升了标注效率;第三,算法可以根据难度需求,设置不同的难度水平,自动地调整文本生词标注的数量,更好的锻炼学习者的阅读能力。该方法具有良好的标注效果,与类似的方法相比,本方法具有简单、高效、理论基础完善等特点;适用于不同年级、各种类型的英语阅读文本的生词标注,通过计算机自动化实现,能够极大程度的降低人工标注的主观影响和劳力投入。
附图说明
图1为本发明的实现流程图;
图2为本发明的文本词汇难度评估流程图;
图3为本发明的生词标注流程图;
图4为本发明的文本难度评估流程图;
图5为本发明的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
根据本发明的实施例,提出一种自适应的基于词汇文本难度的生词标注方法及系统,本发明还包括:学习者所处的阶段及其已掌握或应该掌握的英语单词词库Lex,该词库将作为生词筛选标注的评判依据;英汉对照的词典Dict(w),其将英文词汇w与其常用解释对应,用于生词标注的释意生成;此外,还需要英语单词的词频表Prop(w),该表记录英语单词w在大量文本中的词频概率信息,其被用于判定词汇在给定文本中的难度。本发明的一种自适应的基于词汇文本难度的生词标注方法,具体包括以下步骤:
步骤一、步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;具体如下:
假设待做词汇标注的英文文本为text。本步骤将计算文本text中各个单词w的文本难度textDif(w,text);然后,对文本中各单词按照难度由大到小的顺序排序并统计其出现次数。其中,不妨假设在当前文本中最难的词汇为w1,次难词汇为w2,其在文本中出现的次数分别为n1,n2,...,以此类推。
假设文本text包含N个单词,单词w在文本text中出现k次的概率可由二项分布近似刻画,即:
其中,为在N个元素中选择k个元素的组合数,N为文本text的总词汇数,Prop(w)为词语w在语料库中整体的出现概率;那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即:
而单词w在文本text中的难度textDif(w,text)由其在语料库中的信息量I(w)=-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成,即:
textDif(w,text)=α(w,n)I(w). (3)
具体的,本步骤实现如下:
步骤1.1将文本text中的所有单词变形转化为原型形式,单词变形包括:首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形等,假设文本中所有单词的原型构成的集合为WordSet,转步骤1.2;
步骤1.2统计文本text中各单词原型出现的次数,使用Count(w)表示单词w文本text中出现的次数,用T记录文本中的总词数,转步骤1.3;
步骤1.3对WordSet中的每一个单词w,利用公式textDif(w,text)=α(w,n)I(w)计算w在文本text中的难度,其中n=Count(w),转步骤1.4;
步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序,将在当前文本中最难的词汇设为w1,次难词汇设为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;将这些单词及文本出现次数按降序插入键值对序列sortedWordMap<wi,ni>。
文本词汇难度评估结束后,将获得一个经过难度排序的单词及其在文本text中出现次数的键值对序列sortedWordMap<wi,ni>。其中,键wi表示文本中难度排名第i位的单词,值ni存储难度排名第i位的单词在文本中出现的次数。
步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;具体如下:
词表比对的主要作用在于确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照词语难度排序后进行存储。具体的,对键值对序列sortedWordMap<wi,ni>中的每一个单词wi:如果wi不在Lex中,则将其标注为Unknown,存入生词序列UnknowList中;否则,标注为Know,存入已知词序列KnowList中。
经过词表对比,筛选出文本的生词序列UnknownList,序列存储生词的顺序按照步骤1中的词语难度排序。对于生词序列UnknownList中的生词Uj,j为该生词在生词序列中的排序。
步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;具体如下:
首先计算基于词汇文本难度词汇列表的累积词汇量。对前γ百分位的生词,利用词典进行词义标注或标注提示(通常γ选择5%、10%、15%、20%等百分位,也可选择0~100%范围内的任意百分比)。具体步骤如下:
步骤3.1令当前累计词量TC=0、处理词位I=0,转步骤3.2;
步骤3.2令I=I+1,对生词序列UnknownList中的生词UI,计算累计词量TC=TC+Count(UI);其中,Count(UI)表示单词UI在文本text中出现的次数,如果TC/N<=γ,将UI加入需标注生词集合WordToLabel,转步骤3.2;否则,转步骤3.3;
步骤3.3遍历待标注生词集合WordToLabel,对其任意生词U,利用词典检索其对应的词义,用M记录,并将结果<U,M>存储到词标注序列LabelMap中。
步骤3.4遍历词标注序列LabelMap,对任意生词及其对应的词义<U,M>,在文本中找到生词U第一次出现的位置,按“U(M)”的格式,对词义进行标注,例如标注“marriage(婚姻)”。
步骤四、进行文本难度评估,并给出文本难度提示信息;具体如下:
如果标注为Uknown词汇数量为0,则提示该文本可能较为简单,系统提示使用者需要人工确认该文本是否过于简单;如果从生词序列UnknownList中排除掉已经标注词汇WordToLabel的累积词量百分比超过β(β常取5%~20%间数值,也可以选择0~100%范围内的任意百分比),则系统提示该文本词汇难度较大,需人工确认选择。这一部分具体流程如下:
步骤4.1统计生词序列UnknownList的词汇数量,用N表示;如果N=0,则提示该文本可能较为简单,提示使用者人工确认;否则,转步骤4.2;
步骤4.2初始化词汇难度评估集合 令当前累计词量TC=0、处理词位I=0,转步骤4.3;
步骤4.3令I=I+1,对词汇难度评估集合evaluateList中的生词UI,计算累计词量TC=TC+Count(UI);如果TC/N>β,则提示该文本词汇难度较大,提示人工确认选择;否则,提示文本词汇难度正常。
根据本发明的另一实施例,还提出一种自适应的基于词汇文本难度的生词标注系统,如图5所示,为本发明的系统框图,包括:
文本词汇难度评估模块,用于计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;
词表对比模块,用于确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序进行存储;
生词标注模块,用于计算基于词汇文本难度词汇列表的累积词汇量,以及将词汇标注到文本中;
文本难度评估模块,用于给出文本难度提示信息。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种自适应的基于词汇文本难度的生词标注方法,其特征在于,包括以下步骤:
步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;所述步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;具体包括:
步骤1.1将文本text中的所有单词变形转化为原型形式,单词变形包括:首字母大写、动词各种变形、名词复数变形、形容词/副词比较级和最高级变形,文本中所有单词的原型构成的集合为WordSet,转步骤1.2;
步骤1.2统计文本text中各单词原型出现的次数,使用Count(w)表示单词w文本text中出现的次数,用T记录文本中的总词数,转步骤1.3;
步骤1.3对WordSet中的每一个单词w,利用公式textDif(w,text)=α(w,n)I(w)计算单词w在文本text中的难度,其中n=Count(w),转步骤1.4;
步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序,将在当前文本中最难的词汇设为w1,次难词汇设为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;将这些单词及文本出现次数按降序插入键值对序列sortedWordMap<wi,ni>;其中,键wi表示文本中难度排名第i位的单词,值ni存储难度排名第i位的单词在文本中出现的次数;
所述步骤1.3中,利用公式textDif(w,text)=α(w,n)I(w)计算w在文本text中的难度,具体包括:
待做词汇标注的英文文本为text,计算文本text中各个单词w的文本难度textDif(w,text);然后,对文本中各单词按照难度由大到小的顺序排序并统计其出现次数;其中,在当前文本中最难的词汇为w1,次难词汇为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;
文本text包含N个单词,单词w在文本text中出现k次的概率由二项分布近似刻画,即:
其中,为在N个元素中选择k个元素的组合数,N为文本text的总词汇数,Prop(w)为词语w在语料库中整体的出现概率;那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即:
而单词w在文本text中的难度textDif(w,text)由其在语料库中的信息量I(w)=-lg(Prop(w))和w在文本text中出现n次的α概率分位数α(w,n)的乘积构成,即:
textDif(w,text)=α(w,n)I(w) (3)
步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;
步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;具体包括:
对前γ百分位的生词,利用词典进行词义标注或标注提示;具体步骤如下:
步骤3.1令当前累计词量TC=0、处理词位I=0,转步骤3.2;
步骤3.2令I=I+1,对生词序列UnknownList中的生词UI,计算累计词量TC=TC+Count(UI);其中,Count(UI)表示单词UI在文本text中出现的次数,如果TC/N<=γ,将UI加入需标注生词集合WordToLabel,转步骤3.2;否则,转步骤3.3;
步骤3.3遍历待标注生词集合WordToLabel,对其任意生词U,利用词典检索其对应的词义,用M记录,并将结果<U,M>存储到词标注序列LabelMap中;
步骤3.4遍历词标注序列LabelMap,对任意生词及其对应的词义<U,M>,在文本中找到生词U第一次出现的位置,按“U(M)”的格式,对词义进行标注;
步骤四、进行文本难度评估,并给出文本难度提示信息。
2.根据权利要求1所述的一种自适应的基于词汇文本难度的生词标注方法,其特征在于,步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储,具体包括如下步骤:
对键值对序列sortedWordMap<wi,ni>中的每一个单词wi:如果wi不在Lex中,则将其标注为Unknown,存入生词序列UnknowList中;否则,标注为Know,存入已知词序列KnowList中;
经过词表对比,筛选出文本的生词序列UnknownList,序列存储生词的顺序按照步骤一中的词语难度排序,对于生词序列UnknownList中的生词Uj,j为该生词在生词序列中的排序。
3.根据权利要求1所述的一种自适应的基于词汇文本难度的生词标注方法,其特征在于,步骤四、进行文本难度评估,并给出文本难度提示信息;具体包括:
步骤4.1统计生词序列UnknownList的词汇数量,用N表示;如果N=0,则提示该文本可能较为简单,提示使用者人工确认;否则,转步骤4.2;
步骤4.2初始化词汇难度评估集合 其中,WordToLabel为待标注生词集合,令当前累计词量TC=0、处理词位I=0,转步骤4.3;
步骤4.3令I=I+1,对词汇难度评估集合evaluateList中的生词UI,计算累计词量TC=TC+Count(UI);如果TC/N>β,则提示该文本词汇难度较大,提示人工确认选择;否则,提示文本词汇难度正常。
CN202110316129.3A 2021-03-24 2021-03-24 一种自适应的基于词汇文本难度的生词标注系统及方法 Active CN112949259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110316129.3A CN112949259B (zh) 2021-03-24 2021-03-24 一种自适应的基于词汇文本难度的生词标注系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110316129.3A CN112949259B (zh) 2021-03-24 2021-03-24 一种自适应的基于词汇文本难度的生词标注系统及方法

Publications (2)

Publication Number Publication Date
CN112949259A CN112949259A (zh) 2021-06-11
CN112949259B true CN112949259B (zh) 2023-08-08

Family

ID=76228185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110316129.3A Active CN112949259B (zh) 2021-03-24 2021-03-24 一种自适应的基于词汇文本难度的生词标注系统及方法

Country Status (1)

Country Link
CN (1) CN112949259B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN102194346A (zh) * 2011-06-21 2011-09-21 无敌科技(西安)有限公司 一种自动分析词汇难度及注解难点词汇的嵌入式系统及方法
CN107357768A (zh) * 2017-07-26 2017-11-17 王�华 一种进行生词标注的方法及系统
CN110377898A (zh) * 2019-03-29 2019-10-25 镇江领优信息科技有限公司 异构数据类属特征学习和多标记学习方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163959B2 (en) * 2018-11-30 2021-11-02 International Business Machines Corporation Cognitive predictive assistance for word meanings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814066A (zh) * 2009-02-23 2010-08-25 富士通株式会社 文本阅读难度判断设备及其方法
CN102194346A (zh) * 2011-06-21 2011-09-21 无敌科技(西安)有限公司 一种自动分析词汇难度及注解难点词汇的嵌入式系统及方法
CN107357768A (zh) * 2017-07-26 2017-11-17 王�华 一种进行生词标注的方法及系统
CN110377898A (zh) * 2019-03-29 2019-10-25 镇江领优信息科技有限公司 异构数据类属特征学习和多标记学习方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
On the benefits of multimodal annotations for vocabulary uptake from reading;Frank Boers等;Computer Assisted Language Learning;第30卷(第07期);全文 *

Also Published As

Publication number Publication date
CN112949259A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN102662930B (zh) 一种语料标注方法及装置
Anthony et al. Mover: A machine learning tool to assist in the reading and writing of technical papers
Izumi et al. The NICT JLE Corpus: Exploiting the language learners’ speech database for research and education
WO2019165678A1 (zh) 一种慕课的关键词提取方法
US20210042391A1 (en) Generating summary content using supervised sentential extractive summarization
CN102884518A (zh) 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
CN110795938B (zh) 文本序列分词方法、装置及存储介质
WO2023236252A1 (zh) 答案生成方法、装置、电子设备及存储介质
CN102646091B (zh) 依存关系标注方法、装置和系统
Dürlich et al. EFLLex: A graded lexical resource for learners of English as a foreign language
CN112434211B (zh) 一种数据处理方法、装置、存储介质及设备
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN109376355B (zh) 英文单词和语句筛选方法、装置、存储介质及电子设备
CN107807958A (zh) 一种文章列表个性化推荐方法、电子设备及存储介质
CN109597808B (zh) 一种根据单词难度的单词排序方法及学习方法
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN112949259B (zh) 一种自适应的基于词汇文本难度的生词标注系统及方法
CN113065334A (zh) 一种基于阅读理解练习的词汇水平测试处理方法及系统
CN113420564B (zh) 一种基于混合匹配的电力铭牌语义结构化方法及系统
CN103699675B (zh) 一种译员分级索引的方法
CN114416977A (zh) 文本难度分级评估方法及装置、设备和存储介质
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
CN111881694A (zh) 篇章要点检测方法、装置、设备及存储介质
CN113901203A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN112100976B (zh) 知识点关系标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant