CN111427991A

CN111427991A - 面向汉语词汇学习的分级词表动态生成方法和系统

Info

Publication number: CN111427991A
Application number: CN202010123921.2A
Authority: CN
Inventors: 彭炜明; 张曌; 张引兵; 宋继华; 宋天宝
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2020-07-17

Abstract

本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统，方法包括：根据语言学和计量词汇学，确定合适的可量化的词汇属性，构建词表价值评价体系；结合词汇属性，对汉语分级语料进行标注分析，获取需要用到的有用的词汇属性信息；结合构建的词表价值评价体系和确定的词汇属性信息，通过分级词表动态生成算法，自动生成分级词表。优点为：本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统，能够节省更新词表时所需要的大量人力和财力，使汉语学习资料更具有时效性，提升汉语学习效果。

Description

面向汉语词汇学习的分级词表动态生成方法和系统

技术领域

本发明属于语料库语言学和自然语言处理技术领域，具体涉及一种面向汉语词汇学习的分级词表动态生成方法和系统。

背景技术

欧洲语言测试者协会发布了欧洲语言共同参考框架，用于评估学习者对所学语言的掌握程度。欧洲语言共同参考框架将语言能力分为六级，并对各级别所要求达到的语言能力进行了详细描述，为词表的分级提供了理论支撑。

我国从上世纪60年代开始研制用于对外汉语教学的词表，词表的研制基本依靠人工筛选，由于没有统一的标准，各种词表层出不穷。随着时代发展和语言使用习惯的变更，年代久远的词表暴露出越来越多的问题，传统的依靠人力的词表研制方式在规范化、规模化、信息化、自动化、重复性、时效性以及可解释性等方面均无法满足当前国际汉语教学领域的需求。

发明内容

针对现有技术存在的缺陷，本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种面向汉语词汇学习的分级词表动态生成方法，包括以下步骤：

S1，根据语言学和计量词汇学，确定合适的可量化的词汇属性，构建词表价值评价体系；

S2，结合S1中确定的词汇属性，对汉语分级语料进行标注分析，获取需要用到的有用的词汇属性信息；

S3，结合S1构建的词表价值评价体系和S2确定的词汇属性信息，通过分级词表动态生成算法，自动生成分级词表。

优选的，S1中，所述合适的可量化的词汇属性包括两种：不依赖于上下文的词汇内部属性和依赖于上下文的词汇外部属性；其中，词汇内部属性包括词汇本身词性、词汇本身释义和词汇的构词能力；其中，词汇的构词能力包括构词方式和构词类型；词汇外部属性包括词汇在特定语境中的词性、词汇在特定语境中的释义和词汇的频率特征；其中，词汇的频率特征包括词频、文档频率和等级频率。

优选的，S1具体包括如下步骤：

S101，基于“词汇类推”的研究成果，结合中文词汇的特点，将词汇的构词能力具体化；S101具体包括如下步骤：

S1011，将词表中的每个词语进行减字类推，得到减字扩充词表；

S1012，基于减字扩充词表，进行组合类推，得到最终的扩充词表；

S102，基于词汇的构词能力对S1012得到的最终的扩充词表进行价值评价计算，构建得到词表价值评价体系，S102具体包括如下步骤：

S1021，计算每个词汇的词频TF值；

S1022，计算每个词汇的文档频率DF值；

S1023，计算每个词汇的等级频率GF值；

S1024，计算每个词汇对不同等级词表的影响程度；

S1025，综合考虑每个词汇的词频TF值、文档频率DF值、等级频率GF值和影响程度，计算每个词汇的价值；

S1026，将词表的每个词汇的价值求和，得到词表的总价值，由此得到词表价值评价结果。

优选的，S1021具体为：

采用以下公式计算每个词汇的词频TF值：

其中，

为：词语w在第i级教材中的词频TF值；

S1022具体为：

采用以下公式计算每个词汇的文档频率DF值：

其中，

为：词语w在第i级教材的文章中的文档频率DF值；

S1023具体为：

采用以下公式计算每个词汇的等级频率GF值：

其中，GF_w为：词语w的等级频率GF值；

S1024具体为：

(1)采用以下公式计算出现在第i级教材中的任一词语w_j对第i级教材的覆盖度：

其中：

表示：出现在第i级教材中的任一词语w_j对第k级教材的覆盖度；

表示：词语w_j在第k级教材的文章中的文档频率DF值；

表示：词语w_j的等级频率GF值；

表示：词语w_j在第k级教材中的词频TF值；

(2)采用以下公式计算词语的权重：

其中：

weight_k为：出现在第i级教材中的任一词语w_j出现在第k级教材的权重；

即：当出现在第i级教材中的任一词语w_j出现在第k(k≤i)级教材时，对应的权重不改变；而当其出现在第k(k>i)级教材时，对应的权重逐级递减；

S1025具体为：

采用以下公式计算每个词语的价值：

其中：

为：出现在第i级教材中的任一词语w_j的价值；

S1026具体为：

采用以下公式计算第i级词表的总价值：

其中：

score_i为：第i级词表V′的词表总价值；

n′为：第i级词表V′包括的词汇数量；

66453为：现代汉语词典中的词语总数量；

α是超参数；如果出现在第i级教材中的任一词语w_j在核心集合中，则将α设置为1；如果出现在第i级教材中的任一词语w_j通过类推得到，即词语w_j在外延集合中，则将α设置为小于1大于0的数。

优选的，S2具体为：

S21，对现代汉语词典进行电子化、结构化和标注分析；其中，标注信息包括词性、释义、构词方式以及构词类型；

S22，将国际汉语教材语料库划分为六个等级并进行标注分析，获取需要用到的有用的词汇属性信息。

优选的，S3具体为：

S301，确定候选词集合S；其中，所述候选词集合S包括多个元素；每个元素是一个词语；

S302，遍历候选词集合S中的每一个元素a，将元素a加入原目标词表M，得到当前目标词表M′；

S303，对当前目标词表M′进行减字类推和组合类推，得到扩展词表M″；

S304，计算扩展词表M″的覆盖度score；

S305，重复步骤S302到S304，直到对候选词集合S中的每一个元素a遍历结束，因此，每个元素a均对应得到一个具有覆盖度score的扩展词表M″；

对各个元素a对应的覆盖度score进行比较，得到覆盖度score最大的元素a^*和对应的扩展词表M^*，并从候选词集合S中删除元素a^*；

S306，重复步骤S301到S305至第i级词表生成完全。

本发明还提供一种面向汉语词汇学习的分级词表动态生成系统，包括：

词表价值评价体系构建模块，用于根据语言学和计量词汇学，确定合适的可量化的词汇属性，构建词表价值评价体系；

词汇属性信息获取模块，用于结合词表价值评价体系构建模块确定的词汇属性，对汉语分级语料进行标注分析，获取需要用到的有用的词汇属性信息；

分级词表生成模块，用于结合词表价值评价体系和词汇属性信息，通过分级词表动态生成算法，自动生成分级词表。

本发明提供的面向汉语词汇学习的分级词表动态生成方法和系统具有以下优点：

本发明提供一种面向汉语词汇学习的分级词表动态生成方法和系统，能够节省更新词表时所需要的大量人力和财力，使汉语学习资料更具有时效性，提升汉语学习效果。

附图说明

图1为本发明提供的面向汉语词汇学习的分级词表动态生成方法的流程示意图；

图2是电子化《现代汉语词典》示意图；

图3是“减字类推”流程示意图；

图4是“组合类推”流程示意图。

图5是合适的可量化的词汇属性的示意图；

图6为词语的词表中总量和增量的示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

具体的，本发明提供的面向汉语词汇学习的分级词表动态生成方法和系统，涉及语料库语言学和自然语言处理领域。该方法以词汇的量化分析为基础，结合词汇类推机制，给出词汇对分级语料的覆盖度评价方案，并基于词汇对分级语料的覆盖度分析设计了分级词表动态生成算法。算法为基于语料的分级词表动态生成提供了程式化方案，为词表制定过程中的可解释性提供了依据。同时，缓解了传统方法更新词表过度依赖于人工所消耗的大量人力、财力等问题。实现了理论研究服务于教学的高度统一，有利于中文信息处理、词汇研究以及相关研究服务于教学等领域的沟通与融合，有着重要的理论意义和应用价值。

参考图1，面向汉语词汇学习的分级词表动态生成方法，输入是一批汉语分级语料，输出是分级词表，包括以下步骤：

其中，S1中，所述合适的可量化的词汇属性包括两种：不依赖于上下文的词汇内部属性和依赖于上下文的词汇外部属性；其中，词汇内部属性包括词汇本身词性、词汇本身释义和词汇的构词能力；其中，词汇的构词能力包括构词方式和构词类型；词汇外部属性包括词汇在特定语境中的词性、词汇在特定语境中的释义和词汇的频率特征；其中，词汇的频率特征包括词频、文档频率和等级频率。本发明方法主要考虑词汇的构词能力、词汇在特定语境中的词性和词汇的频率特征；具体见图5：

S1具体包括如下步骤：

具体的，构成词语的基本单位是语素，定义“减字类推”为将词语拆分成语素的过程。减字类推只针对单个词语，反映的是词语的拆词能力。

表1减字词汇类推

对于“减字类推”的具体实现：

不是所有的词语都可以进行减字类推。单音节词全都不能进行减字类推，部分多音节词不能进行减字类推。对于多音节词，构词类型属于惯指，即拆分前后词语的义项不会发生改变，可以进行减字类推。但有些词语在拆分前后义项会发生改变，比如“瞌睡虫”指爱打瞌睡的人，但将它拆分成“瞌睡”和“虫”时， “虫”的义项发生了改变，所以不满足减字类推的条件，不能够进行减字类推。

表3电子化《现代汉语词典》词条节选

在本研究中，减字类推的具体实现基于了电子化的《现代汉语词典》的标注信息。表选取了其中两条具有代表性的词条，并筛选出与减字类推相关的属性，其中“构词方式”和“构词类型”将直接决定减字类推的结果。

对于构词类型，本研究只区分0与非0，构词类型为0说明是惯指，即词语的义项在拆分前后不会发生改变，所以本研究先筛选出构词类型为0的词语，再按照其构词方式进行减字类推，于是表中的“安全系数”可以通过减字类推得到词语“安全”和“系数”，而“阿猫阿狗”的构词类型不是0，不能够进行减字类推。

具体的，构成词语的基本单位是语素，通过减字类推可以得到词汇构词语素集，语素集中的各语素通过互相组合形成新的词语，这一过程被定义为“组合类推”。

表2组合词汇类推

对于“组合类推”的具体实现：

表4词语组合的构词模式

词素间的组合遵循一定的构词模式，在本研究中，只考虑基于词性的构词模式。一个词语(词形)往往有多种词性，例如“八成”既可以用作数量词，表示“十分之八”，也可以用作副词，表示“多半；大概”。但经统计发现，多数词语有一个“主词性”，即该词语被用作“主词性”的次数远多于被用作其他词性的次数。所以为了简化问题，对于第i级词表的候选词，本研究选择“主词性”作为候选词的初始词性，之后再通过减字类推更新词语的词性。

本算法中，先记录候选词的初始词性，然后在减字类推时更新各词语的词性，得到语素集合S＝{w₁∶pos₁,w₂∶pos₂,…,w_n∶pos_n}，其中w_i是语素，pos_i是语素w_i对应的词性(1≤i≤n)。基于语素集合S，任选w_i和w_j进行拼接从而实现组合类推，然后拼接pos_i和pos_j，观察拼接结果是否符合基于词性的构词模式，若不符合，则可确定w_iw_j不是词语，若符合构词结构模式，则进一步在电子化的《现代汉语词典》中检索元素w_iw_j是否出现，若出现，那么w_iw_j就是通过组合类推得到的词语。

算法的优化：

在原先的算法中，词表每收录一个词语后，词表中词语的个数就会从n扩充到n+1，这n+1个词语先经过减字类推得到m(m≥n+1)个构词单元，即语素。接下来进行组合类推，将这m个语素两两组合得到m²个元素，再基于语素成词构词模式对这m²个元素进行筛选，得到最终的扩展词表，算法时间复杂度为 O(m²)。当m很大时，该算法将耗费大量的时间。

实际上，在多次减字、组合类推的过程中，存在大量的重复计算。基于这一点，改进思路是计算词表的“增量”而不是词表的“总量”。

在含有s个元素的候选词集合中，选择第n+1个词语进入到已经包含了n个词语的词表时，需要经过s次减字、组合类推，计算s次词表的“总量”，做了大量重复的工作。不妨将包含n+1个词语的词表切分成两部分来看待，第一部分是原先已经确定的被词表收入的n个词语，第二部分是即将要被词表收录的第 n+1个词语。对于已确定被收入的n个词语，其经过减字类推得到m个构词单元，这m个构词单元的组合类推的结果已经确定，所以已确定被收入的n个词语的扩展集合在这s次计算中是固定的。基于此，本研究分别对拆分后的两部分进行减字类推，记经过减字类推后得到的扩展集合为N₁和N₂，包含的元素个数分别为m₁和m₂，则词表的“增量”可表示(N₁×N₂)∪(N₂×N₂)，即集合N₁和N₂做笛卡尔积以及集合N₂和自身做笛卡尔积，该算法复杂度为

考虑到m₂是一个小于10的数，所以算法复杂度为O(m₁)。

综上，本研究将减字、组合类推的算法复杂度从O(n²)降低到O(n)。证明过程如下，多项式的第一项对应包含n个词语的词表的“总量”，第二项对应加入第n+1个词语后的“增量”，两项相加的结果即是包含n+1个词语的词表的“总量”。见图6所示。

S1021，计算每个词汇的词频TF值；

采用以下公式计算每个词汇的词频TF值：

其中，

为：词语w在第i级教材中的词频TF值；

具体的，同一个词语在长文件里往往比在短文件里的词频更高，所以，为了防止词频偏向长文件，本发明对词频进行归一化处理，即用词语w出现的次数除以第i级教材的总长度，即包含词语的总数。

S1022，计算每个词汇的文档频率DF值；

采用以下公式计算每个词汇的文档频率DF值：

其中，

为：词语w在第i级教材的文章中的文档频率DF值；

具体的，在生成与之对应的第i级词表时，若对于某一个词语w，在等级i的所有文章里，含有词语w的文章越多，则词语w的文档频率越大，说明对于第i级教材，词语w出现频繁，覆盖度高，所以词语w应该被优先收入第i级词表。

S1023，计算每个词汇的等级频率GF值；

采用以下公式计算每个词汇的等级频率GF值：

其中，GF_w为：词语w的等级频率GF值；

具体的，如果给定词语w的等级频率越低，则说明词语w集中出现在某一等级的教材中，所以对于该等级教材，词语w具有很好的将它与其他等级的教材区分开的能力。

S1024，计算每个词汇对不同等级词表的影响程度；

S1024具体为：

其中：

表示：词语w_j在第k级教材的文章中的文档频率DF值；

表示：词语w_j的等级频率GF值；

表示：词语w_j在第k级教材中的词频TF值；

具体的，为了使得各级教材间尽可能分开，各级教材内部又尽可能聚集，定义出现在第i级教材中的任一词语w_j对第i级教材的覆盖度，从而倾向于选择那些在第i级教材中词频高，文档频率高，但又很少在别的等级的教材中出现的词语。

(2)采用以下公式计算词语的权重：

其中：

即：

对于出现在第i级教材中的词语w_j，其也有可能出现在其他级别的教材中。计算词语w_j对整个分级教材的覆盖度时，采用加权和的形式更为合理。根据语言学中高级覆盖低级的原则，当词语w_j在第k(k≤i)级教材出现时，对应的权重不需要改变，而当w_j在第k(k>i)级教材出现时，对应的权重应该逐级递减。

S1025具体为：

采用以下公式计算每个词语的价值：

其中：

为：出现在第i级教材中的任一词语w_j的价值；

S1026具体为：

采用以下公式计算第i级词表的总价值：

其中：

score_i为：第i级词表V′的词表总价值；

n′为：第i级词表V′包括的词汇数量；

66453为：现代汉语词典中的词语总数量；

对于出现在第i级教材中的词语w_j，其也有可能出现在其他级别的教材中。计算词语w_j对整个分级教材的覆盖度时，采用加权和的形式更为合理。根据语言学中高级覆盖低级的原则，当词语w_j在第k(k≤i)级教材出现时，对应的权重不需要改变，而当w_j在第k(k>i)级教材出现时，对应的权重应该逐级递减。在量化第i级词表V′的大小时，除了计算V′中所有元素对整个分级教材的覆盖度外，还需计算元素对电子化的《现代汉语词典》中所有词条的覆盖度，其中《现代汉语词典》共有词语66453个。

S2具体为：

具体的，以《现代汉语词典(第六版)》中的词条为单位进行了较为详细的标注，已有标注好的词条91900条，另有补充词条25393条。标注的信息主要包括词性、释义、构词方式以及构词类型。

更具体的，对于《现代汉语词典(第六版)》的标注，以词语“安全”为例，它的词性为形容词“a”，释义为“没有危险；平安”，构词方式为“<a mod＝"a…a"><a sen＝"004">安</a><a sen＝"001">全</a></a>”，构词类型为0，即惯指。

S22，将国际汉语教材语料库划分为六个等级并进行标注分析，获取需要用到的有用的词汇属性信息。基于汉语词汇系统自身的特点，实现汉语词汇类推。

具体的，本算法基于36部结构化的人工标注的电子教材，教材一共涉及到 469篇文章，114782个词语，其中的每篇文章被标注整理为xml格式的文件。

更具体的，对于国际汉语教材语料库分级并进行标注分析，这36部教材根据学习难度被人为地分成了6个等级，所以本算法需要基于这6个等级的教材自动生成与之对应的6级词表。每一篇文章则被按句划分，再以句为单位对句子中的每个词语进行详细标注，标注信息主要包括词性、词语结构以及词语义项。

S3，结合S1构建的词表价值评价体系和S2确定的词汇属性信息，通过分级词表动态生成算法，自动生成分级词表。本发明具体采用贪心算法实现分级词表的自动生成。

S3具体为：

S304，计算扩展词表M″的覆盖度score；

S306，重复步骤S301到S305至第i级词表生成完全。

实际应用中，为进一步提高词表生成的速度，可以采取以空间换时间的做法，具体表现如下：

1)将数据库中的数据预先载入到内存中，避免频繁地访问数据库；

2)在内存中解析xml格式并将每个词语的减字类推的结果保存到内存中，避免频繁地读写文件；

3)为了避免重复计算，算法提前将词语的内、外部属性计算完成并保存到内存中，提前将各词语的覆盖度计算完成并保存到内存中。

综上所述，本发明提供的面向汉语词汇学习的分级词表动态生成方法和系统具有以下优点：

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过与计算机程序指令相关的硬件来完成的，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM：Read-Only Memory)或随机存储记忆体(RAM：RandomAccess Memory)等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种面向汉语词汇学习的分级词表动态生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法，其特征在于，S1中，所述合适的可量化的词汇属性包括两种：不依赖于上下文的词汇内部属性和依赖于上下文的词汇外部属性；其中，词汇内部属性包括词汇本身词性、词汇本身释义和词汇的构词能力；其中，词汇的构词能力包括构词方式和构词类型；词汇外部属性包括词汇在特定语境中的词性、词汇在特定语境中的释义和词汇的频率特征；其中，词汇的频率特征包括词频、文档频率和等级频率。

3.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法，其特征在于，S1具体包括如下步骤：

S1021，计算每个词汇的词频TF值；

S1022，计算每个词汇的文档频率DF值；

S1023，计算每个词汇的等级频率GF值；

S1024，计算每个词汇对不同等级词表的影响程度；

4.根据权利要求1所述的面向汉语词汇学习的分级词表动态生成方法，其特征在于，S1021具体为：

采用以下公式计算每个词汇的词频TF值：