CN111427991A - 面向汉语词汇学习的分级词表动态生成方法和系统 - Google Patents

面向汉语词汇学习的分级词表动态生成方法和系统 Download PDF

Info

Publication number
CN111427991A
CN111427991A CN202010123921.2A CN202010123921A CN111427991A CN 111427991 A CN111427991 A CN 111427991A CN 202010123921 A CN202010123921 A CN 202010123921A CN 111427991 A CN111427991 A CN 111427991A
Authority
CN
China
Prior art keywords
vocabulary
word
value
hierarchical
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010123921.2A
Other languages
English (en)
Inventor
彭炜明
张曌
张引兵
宋继华
宋天宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010123921.2A priority Critical patent/CN111427991A/zh
Publication of CN111427991A publication Critical patent/CN111427991A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,方法包括:根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表价值评价体系;结合词汇属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;结合构建的词表价值评价体系和确定的词汇属性信息,通过分级词表动态生成算法,自动生成分级词表。优点为:本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,能够节省更新词表时所需要的大量人力和财力,使汉语学习资料更具有时效性,提升汉语学习效果。

Description

面向汉语词汇学习的分级词表动态生成方法和系统
技术领域
本发明属于语料库语言学和自然语言处理技术领域,具体涉及一种面向汉 语词汇学习的分级词表动态生成方法和系统。
背景技术
欧洲语言测试者协会发布了欧洲语言共同参考框架,用于评估学习者对所 学语言的掌握程度。欧洲语言共同参考框架将语言能力分为六级,并对各级别 所要求达到的语言能力进行了详细描述,为词表的分级提供了理论支撑。
我国从上世纪60年代开始研制用于对外汉语教学的词表,词表的研制基本 依靠人工筛选,由于没有统一的标准,各种词表层出不穷。随着时代发展和语 言使用习惯的变更,年代久远的词表暴露出越来越多的问题,传统的依靠人力 的词表研制方式在规范化、规模化、信息化、自动化、重复性、时效性以及可 解释性等方面均无法满足当前国际汉语教学领域的需求。
发明内容
针对现有技术存在的缺陷,本发明提供一种面向汉语词汇学习的分级词表 动态生成方法和系统,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种面向汉语词汇学习的分级词表动态生成方法,包括以下步 骤:
S1,根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表 价值评价体系;
S2,结合S1中确定的词汇属性,对汉语分级语料进行标注分析,获取需要 用到的有用的词汇属性信息;
S3,结合S1构建的词表价值评价体系和S2确定的词汇属性信息,通过分级 词表动态生成算法,自动生成分级词表。
优选的,S1中,所述合适的可量化的词汇属性包括两种:不依赖于上下文 的词汇内部属性和依赖于上下文的词汇外部属性;其中,词汇内部属性包括词 汇本身词性、词汇本身释义和词汇的构词能力;其中,词汇的构词能力包括构 词方式和构词类型;词汇外部属性包括词汇在特定语境中的词性、词汇在特定 语境中的释义和词汇的频率特征;其中,词汇的频率特征包括词频、文档频率 和等级频率。
优选的,S1具体包括如下步骤:
S101,基于“词汇类推”的研究成果,结合中文词汇的特点,将词汇的构 词能力具体化;S101具体包括如下步骤:
S1011,将词表中的每个词语进行减字类推,得到减字扩充词表;
S1012,基于减字扩充词表,进行组合类推,得到最终的扩充词表;
S102,基于词汇的构词能力对S1012得到的最终的扩充词表进行价值评价计 算,构建得到词表价值评价体系,S102具体包括如下步骤:
S1021,计算每个词汇的词频TF值;
S1022,计算每个词汇的文档频率DF值;
S1023,计算每个词汇的等级频率GF值;
S1024,计算每个词汇对不同等级词表的影响程度;
S1025,综合考虑每个词汇的词频TF值、文档频率DF值、等级频率GF值和 影响程度,计算每个词汇的价值;
S1026,将词表的每个词汇的价值求和,得到词表的总价值,由此得到词表 价值评价结果。
优选的,S1021具体为:
采用以下公式计算每个词汇的词频TF值:
Figure BDA0002393838190000021
其中,
Figure BDA0002393838190000022
为:词语w在第i级教材中的词频TF值;
S1022具体为:
采用以下公式计算每个词汇的文档频率DF值:
Figure BDA0002393838190000023
其中,
Figure BDA0002393838190000031
为:词语w在第i级教材的文章中的文档频率DF值;
S1023具体为:
采用以下公式计算每个词汇的等级频率GF值:
Figure BDA0002393838190000032
其中,GFw为:词语w的等级频率GF值;
S1024具体为:
(1)采用以下公式计算出现在第i级教材中的任一词语wj对第i级教材的 覆盖度:
Figure BDA0002393838190000033
其中:
Figure BDA0002393838190000034
表示:出现在第i级教材中的任一词语wj对第k级教材的覆盖度;
Figure BDA0002393838190000035
表示:词语wj在第k级教材的文章中的文档频率DF值;
Figure BDA0002393838190000036
表示:词语wj的等级频率GF值;
Figure BDA0002393838190000037
表示:词语wj在第k级教材中的词频TF值;
(2)采用以下公式计算词语的权重:
Figure BDA0002393838190000038
其中:
weightk为:出现在第i级教材中的任一词语wj出现在第k级教材的权重;
即:当出现在第i级教材中的任一词语wj出现在第k(k≤i)级教材时, 对应的权重不改变;而当其出现在第k(k>i)级教材时,对应的权重逐级递 减;
S1025具体为:
采用以下公式计算每个词语的价值:
Figure BDA0002393838190000041
其中:
Figure BDA0002393838190000042
为:出现在第i级教材中的任一词语wj的价值;
S1026具体为:
采用以下公式计算第i级词表的总价值:
Figure BDA0002393838190000043
其中:
scorei为:第i级词表V′的词表总价值;
n′为:第i级词表V′包括的词汇数量;
66453为:现代汉语词典中的词语总数量;
α是超参数;如果出现在第i级教材中的任一词语wj在核心集合中,则将α设 置为1;如果出现在第i级教材中的任一词语wj通过类推得到,即词语wj在外 延集合中,则将α设置为小于1大于0的数。
优选的,S2具体为:
S21,对现代汉语词典进行电子化、结构化和标注分析;其中,标注信息包 括词性、释义、构词方式以及构词类型;
S22,将国际汉语教材语料库划分为六个等级并进行标注分析,获取需要用 到的有用的词汇属性信息。
优选的,S3具体为:
S301,确定候选词集合S;其中,所述候选词集合S包括多个元素;每个元 素是一个词语;
S302,遍历候选词集合S中的每一个元素a,将元素a加入原目标词表M, 得到当前目标词表M′;
S303,对当前目标词表M′进行减字类推和组合类推,得到扩展词表M″;
S304,计算扩展词表M″的覆盖度score;
S305,重复步骤S302到S304,直到对候选词集合S中的每一个元素a遍历结 束,因此,每个元素a均对应得到一个具有覆盖度score的扩展词表M″;
对各个元素a对应的覆盖度score进行比较,得到覆盖度score最大的元素a*和 对应的扩展词表M*,并从候选词集合S中删除元素a*
S306,重复步骤S301到S305至第i级词表生成完全。
本发明还提供一种面向汉语词汇学习的分级词表动态生成系统,包括:
词表价值评价体系构建模块,用于根据语言学和计量词汇学,确定合适的 可量化的词汇属性,构建词表价值评价体系;
词汇属性信息获取模块,用于结合词表价值评价体系构建模块确定的词汇 属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;
分级词表生成模块,用于结合词表价值评价体系和词汇属性信息,通过分 级词表动态生成算法,自动生成分级词表。
本发明提供的面向汉语词汇学习的分级词表动态生成方法和系统具有以下 优点:
本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,能够 节省更新词表时所需要的大量人力和财力,使汉语学习资料更具有时效性,提 升汉语学习效果。
附图说明
图1为本发明提供的面向汉语词汇学习的分级词表动态生成方法的流程示 意图;
图2是电子化《现代汉语词典》示意图;
图3是“减字类推”流程示意图;
图4是“组合类推”流程示意图。
图5是合适的可量化的词汇属性的示意图;
图6为词语的词表中总量和增量的示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以 下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述 的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,能够 节省更新词表时所需要的大量人力和财力,使汉语学习资料更具有时效性,提 升汉语学习效果。
具体的,本发明提供的面向汉语词汇学习的分级词表动态生成方法和系统, 涉及语料库语言学和自然语言处理领域。该方法以词汇的量化分析为基础,结 合词汇类推机制,给出词汇对分级语料的覆盖度评价方案,并基于词汇对分级 语料的覆盖度分析设计了分级词表动态生成算法。算法为基于语料的分级词表 动态生成提供了程式化方案,为词表制定过程中的可解释性提供了依据。同时, 缓解了传统方法更新词表过度依赖于人工所消耗的大量人力、财力等问题。实 现了理论研究服务于教学的高度统一,有利于中文信息处理、词汇研究以及相 关研究服务于教学等领域的沟通与融合,有着重要的理论意义和应用价值。
参考图1,面向汉语词汇学习的分级词表动态生成方法,输入是一批汉语分 级语料,输出是分级词表,包括以下步骤:
S1,根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表 价值评价体系;
其中,S1中,所述合适的可量化的词汇属性包括两种:不依赖于上下文的 词汇内部属性和依赖于上下文的词汇外部属性;其中,词汇内部属性包括词汇 本身词性、词汇本身释义和词汇的构词能力;其中,词汇的构词能力包括构词 方式和构词类型;词汇外部属性包括词汇在特定语境中的词性、词汇在特定语 境中的释义和词汇的频率特征;其中,词汇的频率特征包括词频、文档频率和 等级频率。本发明方法主要考虑词汇的构词能力、词汇在特定语境中的词性和 词汇的频率特征;具体见图5:
S1具体包括如下步骤:
S101,基于“词汇类推”的研究成果,结合中文词汇的特点,将词汇的构 词能力具体化;S101具体包括如下步骤:
S1011,将词表中的每个词语进行减字类推,得到减字扩充词表;
具体的,构成词语的基本单位是语素,定义“减字类推”为将词语拆分成 语素的过程。减字类推只针对单个词语,反映的是词语的拆词能力。
表1减字词汇类推
Figure BDA0002393838190000071
对于“减字类推”的具体实现:
不是所有的词语都可以进行减字类推。单音节词全都不能进行减字类推, 部分多音节词不能进行减字类推。对于多音节词,构词类型属于惯指,即拆分 前后词语的义项不会发生改变,可以进行减字类推。但有些词语在拆分前后义 项会发生改变,比如“瞌睡虫”指爱打瞌睡的人,但将它拆分成“瞌睡”和“虫”时, “虫”的义项发生了改变,所以不满足减字类推的条件,不能够进行减字类推。
表3电子化《现代汉语词典》词条节选
Figure BDA0002393838190000072
在本研究中,减字类推的具体实现基于了电子化的《现代汉语词典》的标 注信息。表选取了其中两条具有代表性的词条,并筛选出与减字类推相关的属 性,其中“构词方式”和“构词类型”将直接决定减字类推的结果。
对于构词类型,本研究只区分0与非0,构词类型为0说明是惯指,即词语的 义项在拆分前后不会发生改变,所以本研究先筛选出构词类型为0的词语,再按 照其构词方式进行减字类推,于是表中的“安全系数”可以通过减字类推得到 词语“安全”和“系数”,而“阿猫阿狗”的构词类型不是0,不能够进行减字 类推。
S1012,基于减字扩充词表,进行组合类推,得到最终的扩充词表;
具体的,构成词语的基本单位是语素,通过减字类推可以得到词汇构词语 素集,语素集中的各语素通过互相组合形成新的词语,这一过程被定义为“组 合类推”。
表2组合词汇类推
Figure BDA0002393838190000081
对于“组合类推”的具体实现:
表4词语组合的构词模式
Figure BDA0002393838190000082
词素间的组合遵循一定的构词模式,在本研究中,只考虑基于词性的构词 模式。一个词语(词形)往往有多种词性,例如“八成”既可以用作数量词, 表示“十分之八”,也可以用作副词,表示“多半;大概”。但经统计发现, 多数词语有一个“主词性”,即该词语被用作“主词性”的次数远多于被用作 其他词性的次数。所以为了简化问题,对于第i级词表的候选词,本研究选择“主 词性”作为候选词的初始词性,之后再通过减字类推更新词语的词性。
本算法中,先记录候选词的初始词性,然后在减字类推时更新各词语的词 性,得到语素集合S={w1∶pos1,w2∶pos2,…,wn∶posn},其中wi是语素,posi是语 素wi对应的词性(1≤i≤n)。基于语素集合S,任选wi和wj进行拼接从而实现 组合类推,然后拼接posi和posj,观察拼接结果是否符合基于词性的构词模式, 若不符合,则可确定wiwj不是词语,若符合构词结构模式,则进一步在电子化的 《现代汉语词典》中检索元素wiwj是否出现,若出现,那么wiwj就是通过组合类 推得到的词语。
算法的优化:
在原先的算法中,词表每收录一个词语后,词表中词语的个数就会从n扩充 到n+1,这n+1个词语先经过减字类推得到m(m≥n+1)个构词单元,即语素。 接下来进行组合类推,将这m个语素两两组合得到m2个元素,再基于语素成词 构词模式对这m2个元素进行筛选,得到最终的扩展词表,算法时间复杂度为 O(m2)。当m很大时,该算法将耗费大量的时间。
实际上,在多次减字、组合类推的过程中,存在大量的重复计算。基于这 一点,改进思路是计算词表的“增量”而不是词表的“总量”。
在含有s个元素的候选词集合中,选择第n+1个词语进入到已经包含了n个 词语的词表时,需要经过s次减字、组合类推,计算s次词表的“总量”,做了 大量重复的工作。不妨将包含n+1个词语的词表切分成两部分来看待,第一部 分是原先已经确定的被词表收入的n个词语,第二部分是即将要被词表收录的第 n+1个词语。对于已确定被收入的n个词语,其经过减字类推得到m个构词单元, 这m个构词单元的组合类推的结果已经确定,所以已确定被收入的n个词语的扩 展集合在这s次计算中是固定的。基于此,本研究分别对拆分后的两部分进行减 字类推,记经过减字类推后得到的扩展集合为N1和N2,包含的元素个数分别为m1和m2,则词表的“增量”可表示(N1×N2)∪(N2×N2),即集合N1和N2做笛卡 尔积以及集合N2和自身做笛卡尔积,该算法复杂度为
Figure BDA0002393838190000091
考虑到m2是 一个小于10的数,所以算法复杂度为O(m1)。
综上,本研究将减字、组合类推的算法复杂度从O(n2)降低到O(n)。证明过 程如下,多项式的第一项对应包含n个词语的词表的“总量”,第二项对应加入 第n+1个词语后的“增量”,两项相加的结果即是包含n+1个词语的词表的“总 量”。见图6所示。
S102,基于词汇的构词能力对S1012得到的最终的扩充词表进行价值评价计 算,构建得到词表价值评价体系,S102具体包括如下步骤:
S1021,计算每个词汇的词频TF值;
采用以下公式计算每个词汇的词频TF值:
Figure BDA0002393838190000102
其中,
Figure BDA0002393838190000103
为:词语w在第i级教材中的词频TF值;
具体的,同一个词语在长文件里往往比在短文件里的词频更高,所以,为 了防止词频偏向长文件,本发明对词频进行归一化处理,即用词语w出现的次数 除以第i级教材的总长度,即包含词语的总数。
S1022,计算每个词汇的文档频率DF值;
采用以下公式计算每个词汇的文档频率DF值:
Figure BDA0002393838190000104
其中,
Figure BDA0002393838190000105
为:词语w在第i级教材的文章中的文档频率DF值;
具体的,在生成与之对应的第i级词表时,若对于某一个词语w,在等 级i的所有文章里,含有词语w的文章越多,则词语w的文档频率越大,说 明对于第i级教材,词语w出现频繁,覆盖度高,所以词语w应该被优先收 入第i级词表。
S1023,计算每个词汇的等级频率GF值;
采用以下公式计算每个词汇的等级频率GF值:
Figure BDA0002393838190000111
其中,GFw为:词语w的等级频率GF值;
具体的,如果给定词语w的等级频率越低,则说明词语w集中出现在某 一等级的教材中,所以对于该等级教材,词语w具有很好的将它与其他等级的 教材区分开的能力。
S1024,计算每个词汇对不同等级词表的影响程度;
S1024具体为:
(1)采用以下公式计算出现在第i级教材中的任一词语wj对第i级教材的 覆盖度:
Figure BDA0002393838190000112
其中:
Figure BDA0002393838190000113
表示:出现在第i级教材中的任一词语wj对第k级教材的覆盖度;
Figure BDA0002393838190000114
表示:词语wj在第k级教材的文章中的文档频率DF值;
Figure BDA0002393838190000115
表示:词语wj的等级频率GF值;
Figure BDA0002393838190000116
表示:词语wj在第k级教材中的词频TF值;
具体的,为了使得各级教材间尽可能分开,各级教材内部又尽可能聚集, 定义出现在第i级教材中的任一词语wj对第i级教材的覆盖度,从而倾向于选 择那些在第i级教材中词频高,文档频率高,但又很少在别的等级的教材中出现 的词语。
(2)采用以下公式计算词语的权重:
Figure BDA0002393838190000117
其中:
weightk为:出现在第i级教材中的任一词语wj出现在第k级教材的权重;
即:
对于出现在第i级教材中的词语wj,其也有可能出现在其他级别的教材中。 计算词语wj对整个分级教材的覆盖度时,采用加权和的形式更为合理。根据语 言学中高级覆盖低级的原则,当词语wj在第k(k≤i)级教材出现时,对应的 权重不需要改变,而当wj在第k(k>i)级教材出现时,对应的权重应该逐级递 减。
S1025,综合考虑每个词汇的词频TF值、文档频率DF值、等级频率GF值和 影响程度,计算每个词汇的价值;
S1025具体为:
采用以下公式计算每个词语的价值:
Figure BDA0002393838190000121
其中:
Figure BDA0002393838190000122
为:出现在第i级教材中的任一词语wj的价值;
S1026,将词表的每个词汇的价值求和,得到词表的总价值,由此得到词表 价值评价结果。
S1026具体为:
采用以下公式计算第i级词表的总价值:
Figure BDA0002393838190000123
其中:
scorei为:第i级词表V′的词表总价值;
n′为:第i级词表V′包括的词汇数量;
66453为:现代汉语词典中的词语总数量;
α是超参数;如果出现在第i级教材中的任一词语wj在核心集合中,则将α设 置为1;如果出现在第i级教材中的任一词语wj通过类推得到,即词语wj在外 延集合中,则将α设置为小于1大于0的数。
对于出现在第i级教材中的词语wj,其也有可能出现在其他级别的教材中。 计算词语wj对整个分级教材的覆盖度时,采用加权和的形式更为合理。根据语 言学中高级覆盖低级的原则,当词语wj在第k(k≤i)级教材出现时,对应的权 重不需要改变,而当wj在第k(k>i)级教材出现时,对应的权重应该逐级递减。 在量化第i级词表V′的大小时,除了计算V′中所有元素对整个分级教材的覆盖度 外,还需计算元素对电子化的《现代汉语词典》中所有词条的覆盖度,其中《现 代汉语词典》共有词语66453个。
S2,结合S1中确定的词汇属性,对汉语分级语料进行标注分析,获取需要 用到的有用的词汇属性信息;
S2具体为:
S21,对现代汉语词典进行电子化、结构化和标注分析;其中,标注信息包 括词性、释义、构词方式以及构词类型;
具体的,以《现代汉语词典(第六版)》中的词条为单位进行了较为详细 的标注,已有标注好的词条91900条,另有补充词条25393条。标注的信息 主要包括词性、释义、构词方式以及构词类型。
更具体的,对于《现代汉语词典(第六版)》的标注,以词语“安全”为例, 它的词性为形容词“a”,释义为“没有危险;平安”,构词方式为“<a mod="a…a"><a sen="004">安</a><a sen="001">全</a></a>”,构词类型为0,即惯指。
S22,将国际汉语教材语料库划分为六个等级并进行标注分析,获取需要用 到的有用的词汇属性信息。基于汉语词汇系统自身的特点,实现汉语词汇类推。
具体的,本算法基于36部结构化的人工标注的电子教材,教材一共涉及到 469篇文章,114782个词语,其中的每篇文章被标注整理为xml格式的文件。
更具体的,对于国际汉语教材语料库分级并进行标注分析,这36部教材根 据学习难度被人为地分成了6个等级,所以本算法需要基于这6个等级的教材自 动生成与之对应的6级词表。每一篇文章则被按句划分,再以句为单位对句子中 的每个词语进行详细标注,标注信息主要包括词性、词语结构以及词语义项。
S3,结合S1构建的词表价值评价体系和S2确定的词汇属性信息,通过分级 词表动态生成算法,自动生成分级词表。本发明具体采用贪心算法实现分级词 表的自动生成。
S3具体为:
S301,确定候选词集合S;其中,所述候选词集合S包括多个元素;每个元 素是一个词语;
S302,遍历候选词集合S中的每一个元素a,将元素a加入原目标词表M, 得到当前目标词表M′;
S303,对当前目标词表M′进行减字类推和组合类推,得到扩展词表M″;
S304,计算扩展词表M″的覆盖度score;
S305,重复步骤S302到S304,直到对候选词集合S中的每一个元素a遍历结 束,因此,每个元素a均对应得到一个具有覆盖度score的扩展词表M″;
对各个元素a对应的覆盖度score进行比较,得到覆盖度score最大的元素a*和 对应的扩展词表M*,并从候选词集合S中删除元素a*
S306,重复步骤S301到S305至第i级词表生成完全。
本发明还提供一种面向汉语词汇学习的分级词表动态生成系统,包括:
词表价值评价体系构建模块,用于根据语言学和计量词汇学,确定合适的 可量化的词汇属性,构建词表价值评价体系;
词汇属性信息获取模块,用于结合词表价值评价体系构建模块确定的词汇 属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;
分级词表生成模块,用于结合词表价值评价体系和词汇属性信息,通过分 级词表动态生成算法,自动生成分级词表。
实际应用中,为进一步提高词表生成的速度,可以采取以空间换时间的做 法,具体表现如下:
1)将数据库中的数据预先载入到内存中,避免频繁地访问数据库;
2)在内存中解析xml格式并将每个词语的减字类推的结果保存到内存中,避 免频繁地读写文件;
3)为了避免重复计算,算法提前将词语的内、外部属性计算完成并保存到 内存中,提前将各词语的覆盖度计算完成并保存到内存中。
综上所述,本发明提供的面向汉语词汇学习的分级词表动态生成方法和系 统具有以下优点:
本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统,能够 节省更新词表时所需要的大量人力和财力,使汉语学习资料更具有时效性,提 升汉语学习效果。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程, 是可以通过与计算机程序指令相关的硬件来完成的,上述的程序可存储于一计 算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流 程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM:Read-Only Memory)或随机存储记忆体(RAM:RandomAccess Memory)等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视本发明的保护范围。

Claims (7)

1.一种面向汉语词汇学习的分级词表动态生成方法,其特征在于,包括以下步骤:
S1,根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表价值评价体系;
S2,结合S1中确定的词汇属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;
S3,结合S1构建的词表价值评价体系和S2确定的词汇属性信息,通过分级词表动态生成算法,自动生成分级词表。
2.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S1中,所述合适的可量化的词汇属性包括两种:不依赖于上下文的词汇内部属性和依赖于上下文的词汇外部属性;其中,词汇内部属性包括词汇本身词性、词汇本身释义和词汇的构词能力;其中,词汇的构词能力包括构词方式和构词类型;词汇外部属性包括词汇在特定语境中的词性、词汇在特定语境中的释义和词汇的频率特征;其中,词汇的频率特征包括词频、文档频率和等级频率。
3.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S1具体包括如下步骤:
S101,基于“词汇类推”的研究成果,结合中文词汇的特点,将词汇的构词能力具体化;S101具体包括如下步骤:
S1011,将词表中的每个词语进行减字类推,得到减字扩充词表;
S1012,基于减字扩充词表,进行组合类推,得到最终的扩充词表;
S102,基于词汇的构词能力对S1012得到的最终的扩充词表进行价值评价计算,构建得到词表价值评价体系,S102具体包括如下步骤:
S1021,计算每个词汇的词频TF值;
S1022,计算每个词汇的文档频率DF值;
S1023,计算每个词汇的等级频率GF值;
S1024,计算每个词汇对不同等级词表的影响程度;
S1025,综合考虑每个词汇的词频TF值、文档频率DF值、等级频率GF值和影响程度,计算每个词汇的价值;
S1026,将词表的每个词汇的价值求和,得到词表的总价值,由此得到词表价值评价结果。
4.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S1021具体为:
采用以下公式计算每个词汇的词频TF值:
Figure FDA0002393838180000021
其中,
Figure FDA0002393838180000022
为:词语w在第i级教材中的词频TF值;
S1022具体为:
采用以下公式计算每个词汇的文档频率DF值:
Figure FDA0002393838180000023
其中,
Figure FDA0002393838180000024
为:词语w在第i级教材的文章中的文档频率DF值;
S1023具体为:
采用以下公式计算每个词汇的等级频率GF值:
Figure FDA0002393838180000025
其中,GFw为:词语w的等级频率GF值;
S1024具体为:
(1)采用以下公式计算出现在第i级教材中的任一词语wj对第i级教材的覆盖度:
Figure FDA0002393838180000026
其中:
Figure FDA0002393838180000027
表示:出现在第i级教材中的任一词语wj对第k级教材的覆盖度;
Figure FDA0002393838180000028
表示:词语wj在第k级教材的文章中的文档频率DF值;
Figure FDA0002393838180000029
表示:词语wj的等级频率GF值;
Figure FDA0002393838180000031
表示:词语wj在第k级教材中的词频TF值;
(2)采用以下公式计算词语的权重:
Figure FDA0002393838180000032
其中:
weightk为:出现在第i级教材中的任一词语wj出现在第k级教材的权重;
即:当出现在第i级教材中的任一词语wj出现在第k(k≤i)级教材时,对应的权重不改变;而当其出现在第k(k>i)级教材时,对应的权重逐级递减;
S1025具体为:
采用以下公式计算每个词语的价值:
Figure FDA0002393838180000033
其中:
Figure FDA0002393838180000034
为:出现在第i级教材中的任一词语wj的价值;
S1026具体为:
采用以下公式计算第i级词表的总价值:
Figure FDA0002393838180000035
其中:
scorei为:第i级词表V′的词表总价值;
n′为:第i级词表V′包括的词汇数量;
66453为:现代汉语词典中的词语总数量;
α是超参数;如果出现在第i级教材中的任一词语wj在核心集合中,则将α设置为1;如果出现在第i级教材中的任一词语wj通过类推得到,即词语wj在外延集合中,则将α设置为小于1大于0的数。
5.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S2具体为:
S21,对现代汉语词典进行电子化、结构化和标注分析;其中,标注信息包括词性、释义、构词方式以及构词类型;
S22,将国际汉语教材语料库划分为六个等级并进行标注分析,获取需要用到的有用的词汇属性信息。
6.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法,其特征在于,S3具体为:
S301,确定候选词集合s;其中,所述候选词集合S包括多个元素;每个元素是一个词语;
S302,遍历候选词集合s中的每一个元素a,将元素a加入原目标词表M,得到当前目标词表M′;
S303,对当前目标词表M′进行减字类推和组合类推,得到扩展词表M″;
S304,计算扩展词表M″的覆盖度score;
S305,重复步骤S302到S304,直到对候选词集合s中的每一个元素a遍历结束,因此,每个元素a均对应得到一个具有覆盖度score的扩展词表M″;
对各个元素a对应的覆盖度score进行比较,得到覆盖度score最大的元素a*和对应的扩展词表M*,并从候选词集合s中删除元素a*
S306,重复步骤S301到S305至第i级词表生成完全。
7.一种面向汉语词汇学习的分级词表动态生成系统,其特征在于,包括:
词表价值评价体系构建模块,用于根据语言学和计量词汇学,确定合适的可量化的词汇属性,构建词表价值评价体系;
词汇属性信息获取模块,用于结合词表价值评价体系构建模块确定的词汇属性,对汉语分级语料进行标注分析,获取需要用到的有用的词汇属性信息;
分级词表生成模块,用于结合词表价值评价体系和词汇属性信息,通过分级词表动态生成算法,自动生成分级词表。
CN202010123921.2A 2020-02-27 2020-02-27 面向汉语词汇学习的分级词表动态生成方法和系统 Pending CN111427991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010123921.2A CN111427991A (zh) 2020-02-27 2020-02-27 面向汉语词汇学习的分级词表动态生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123921.2A CN111427991A (zh) 2020-02-27 2020-02-27 面向汉语词汇学习的分级词表动态生成方法和系统

Publications (1)

Publication Number Publication Date
CN111427991A true CN111427991A (zh) 2020-07-17

Family

ID=71551721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123921.2A Pending CN111427991A (zh) 2020-02-27 2020-02-27 面向汉语词汇学习的分级词表动态生成方法和系统

Country Status (1)

Country Link
CN (1) CN111427991A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742459A (zh) * 2021-11-05 2021-12-03 北京世纪好未来教育科技有限公司 词汇展示方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173753A (ja) * 2003-12-09 2005-06-30 Ricoh Co Ltd 自然語辞書更新装置、更新方法、プログラム及び記録媒体
CN105786971A (zh) * 2016-02-02 2016-07-20 宋继华 一种面向国际汉语教学的语法点识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005173753A (ja) * 2003-12-09 2005-06-30 Ricoh Co Ltd 自然語辞書更新装置、更新方法、プログラム及び記録媒体
CN105786971A (zh) * 2016-02-02 2016-07-20 宋继华 一种面向国际汉语教学的语法点识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONGDONG GUO 等: "Construction of the Dynamic Word Structural Mode Knowledge Base for the International Chinese Teaching" *
张引兵等: "基于动态语料的分级词表动态生成研究" *
王敬;杨丽姣;蒋宏飞;苏靖杰;付静玲;: "汉语二语教学领域词义标注语料库的研究及构建" *
肖镜辉;刘秉权;王晓龙;: "面向汉语建模的自适应词表生成算法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742459A (zh) * 2021-11-05 2021-12-03 北京世纪好未来教育科技有限公司 词汇展示方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Tavakoli et al. To what extent are multiword sequences associated with oral fluency?
Marian et al. CLEARPOND: Cross-linguistic easy-access resource for phonological and orthographic neighborhood densities
Kyle Measuring lexical richness
CN110727796B (zh) 面向分级读物的多尺度难度向量分类方法
CN109635197B (zh) 搜索方法、装置、电子设备及存储介质
Martinc et al. Combining n-grams and deep convolutional features for language variety classification
Vandeweerd et al. Applying phraseological complexity measures to L2 French: A partial replication study
Deutsch et al. Formal and semantic effects of morphological families on word recognition in Hebrew
Schmitz et al. No genericity in sight: An exploration of the semantics of masculine generics in German
Wang et al. Corpus-based interpreting studies in China: Overview and prospects
CN111427991A (zh) 面向汉语词汇学习的分级词表动态生成方法和系统
Imperial et al. Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature
CN110705289B (zh) 一种基于神经网络和模糊推理的中文分词方法、系统及介质
Yamamoto et al. Proposal of japanese vocabulary difficulty level dictionaries for automated essay scoring support system using rubric
Khorjuvenkar et al. Parts of speech tagging for Konkani language
Yarahmadzehi et al. A study of Persian translations of English phrasal verbs in Harry Potter and the order of the phoenix
Esfandiari et al. Syntactic complexity measures and academic writing proficiency: A corpus-based study of professional and students' prose
US8977538B2 (en) Constructing and analyzing a word graph
Ludusan et al. How much does prosody help word segmentation? A simulation study on infant-directed speech
Khairova et al. The influence of various text characteristics on the readability and content informativeness
Romanchuk et al. Intellectual Analysis System Project for Ukrainian-language Artistic Works to Determine the Text Authorship Attribution Probability
Luong et al. Assessing vietnamese text readability using multi-level linguistic features
Lu et al. Working memory and the language device
Vogel et al. Investigating Paraphrasing-Based Data Augmentation for Task-Oriented Dialogue Systems
Nasution et al. ChatGPT Label: Comparing the Quality of Human-Generated and LLM-Generated Annotations in Low-resource Language NLP Tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200717