CN110321404A - 词汇学习的词条选取方法、装置、电子设备及存储介质 - Google Patents

词汇学习的词条选取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110321404A
CN110321404A CN201910619958.1A CN201910619958A CN110321404A CN 110321404 A CN110321404 A CN 110321404A CN 201910619958 A CN201910619958 A CN 201910619958A CN 110321404 A CN110321404 A CN 110321404A
Authority
CN
China
Prior art keywords
word
entry
family
similarity
word family
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910619958.1A
Other languages
English (en)
Other versions
CN110321404B (zh
Inventor
翟文韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qicai Education Technology Co Ltd
Original Assignee
Beijing Qicai Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qicai Education Technology Co Ltd filed Critical Beijing Qicai Education Technology Co Ltd
Priority to CN201910619958.1A priority Critical patent/CN110321404B/zh
Publication of CN110321404A publication Critical patent/CN110321404A/zh
Application granted granted Critical
Publication of CN110321404B publication Critical patent/CN110321404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种词汇学习的词条选取方法、装置、电子设备及存储介质,通过语料库的数据挖掘,获得词条与词条词频的数据,再将词条组合成词族并进一步运算出词族的词频数据。按照词族的词频数据,优先选取高频词汇来分阶段学习,可以把握学习的重点;用词族和词源深度挖掘词汇之间的关联,词条的记忆会变得更加深刻,二者结合就可以达成良好的教学和记忆效果。

Description

词汇学习的词条选取方法、装置、电子设备及存储介质
技术领域
本发明涉及教育领域,具体涉及一种词汇学习的词条选取方法、装置、电子设备及计算机可读存储介质。
背景技术
随着社会的发展,外语在我们的生活和工作中也越来越重要,从而,也越来越多的人在学习语言(例如英语),在学习过程中往往需要记忆大量的单词,而单纯的记忆单词非常的枯燥,同时由于很多单词之间存在相似性,这也给学习的人带来了记忆的难度。
现有的词汇学习方式多为推荐需要学习的单词,由学习的人自行记忆,这样的学习方式没有系统的学习框架,不仅学习效率低,而且会造成记忆不深刻。
发明内容
有鉴于此,本发明实施例致力于提供一种词汇学习的词条选取方法,通过智能将词条组合成词族,并选取适合学习的人当前需求的词汇,以词族的形式增强记忆效果,同时增加记忆的词汇量。
根据本发明的一方面,本发明一实施例提供的一种词汇学习的词条选取方法,包括:从语料库中获取词条的词条词频;将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。
在一实施例中,在所述将形式相似度大于预设形式相似度阈值的所述词条组合为词族之后,还包括:选取所述词族的中心词,其中所述中心词代表所述词族。
在一实施例中,所述选取所述词族的中心词包括:选取所述词族中词条词频最大的词条为中心词。
在一实施例中,所述选取所述词族中词条词频最大的词条为中心词包括:判断是否存在其他词条的词条词频与最大的词条词频的差值小于预设差值;当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时,选取所述最大的词条词频对应的词条和所述其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。
在一实施例中,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之前,还包括:对所述词族进行预处理。
在一实施例中,所述对所述词族进行预处理包括:删除所述词族中词条词频小于第一预设词频阈值的词条。
在一实施例中,所述对所述词族进行预处理包括:计算当前词族中的词条与该词族的中心词的相似度;判断所述相似度是否小于第一预设相似度阈值;以及当判断结果为所述相似度小于所述第一预设相似度阈值,将所述相似度对应的所述词条调整至其他词族中。
在一实施例中,所述相似度包括语音相似度,和/或第一语义相似度,和/或词源相似度。
在一实施例中,所述词族的词族词频根据所述词族包含的所有词条的词条词频得到包括:所述词族的词族词频为所述词族包含的所有词条的词条词频求和得到。
在一实施例中,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之后,还包括:根据词族的词源,对选取的词族进行聚类操作。
在一实施例中,所述根据词族的词源,对所选取的词族进行聚类操作包括:查找所述选取的词族的中心词的词源;以及将具有相同词源的所述中心词对应的所述词族划分为同一类。
在一实施例中,所述词源包括美国传统字典的印欧根。
在一实施例中,在所述对选取的词族进行聚类操作之后,还包括:将满足预设条件的词族重新划分类。
在一实施例中,所述预设条件包括:对应的聚类中包含词族数量低于预设数量阈值,和/或与对应的词源的相似度小于第二预设相似度阈值,和/或未被划分至任何类。
在一实施例中,所述重新划分类的方式包括:提取当前词族的中心词的词干;计算所述词干与所有的词源的相似度;当大于第三预设相似度阈值的相似度数量为一个时,将所述当前词族划分至该相似度对应的词源所在的类;以及当大于所述第三预设相似度阈值的相似度数量为多个时,将所述当前词族划分至该多个相似度对应的多个词源中词族数量最少的词源所在的类。
在一实施例中,所述提取当前词族的中心词的词干包括:去除所述中心词的前缀和后缀,和/或将合成词拆解出对应的词条。
在一实施例中,在所述选取所述词族词频排序靠前的所述词条数量个词族及对应的词条作为词汇学习的内容之后,还包括:将选取的词条以图表的形式展开显示。
在一实施例中,所述图表包括多级节点,其中根节点为词源。
在一实施例中,所述多级节点包括:中心词和对应词族中的其他词条。
在一实施例中,所述多级节点还包括如下节点中的任一个或多个的组合:词源,语音特征,语义特征和前缀。
在一实施例中,所述图表包括思维导图。
根据本发明的另一方面,本发明一实施例提供的一种词汇学习的词条选取装置,包括:获取模块,用于从语料库中获取词条的词条词频;组合模块,用于将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。
根据本发明的另一方面,本发明一实施例提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的词汇学习的词条选取方法。
根据本发明的另一方面,本发明一实施例提供的一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的词汇学习的词条选取方法。
本发明实施例提供的词汇学习的词条选取方法,通过将词条组合成词族,并根据语料库中的词条词频得到词族词频,择优选取词族词频高的词族及对应的词条为词汇学习的内容,有效提高了词汇学习的效率和效果,同时通过词族的形式去记忆,相比单个词条记忆更加深刻,也进一步增加了记忆的词汇量。
附图说明
图1所示为本申请一实施例提供的词汇学习的词条选取方法的流程图。
图2所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。
图3所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。
图4所示为本申请一实施例提供的预处理方法的流程图。
图5所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。
图6所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。
图7所示为本申请一实施例提供的重新划分类的方法的流程图。
图8所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。
图9所示为本申请一实施例提供的图表的结构示意图。
图10所示为本申请一实施例提供的词汇学习的词条选取装置的结构示意图。
图11所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。
图12所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。
图13所示为本申请一实施例提供的预处理模块的结构示意图。
图14所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。
图15所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。
图16所示为本申请一实施例提供的重新划分模块的结构示意图。
图17所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。
图18所示为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,在示例性实施例中,因为相同的参考标记表示具有相同结构的相同部件或相同方法的相同步骤,如果示例性地描述了一实施例,则在其他示例性实施例中仅描述与已描述实施例不同的结构或方法。
在整个说明书及权利要求书中,当一个部件描述为“连接”到另一部件,该一个部件可以“直接连接”到另一部件,或者通过第三部件“电连接”到另一部件。此外,除非明确地进行相反的描述,术语“包括”及其相应术语应仅理解为包括所述部件,而不应该理解为排除任何其他部件。
首先,对本申请中涉及的名词进行相应的解释。词条也叫词目,是辞书学用语,指收列的词语及其释文。词条可以是词,也可以是词组。在一部词典中,词条是其构成的基本单元,是对单词拼写、注音、意义、用法等进行诠释的一个单位。词族是指多个声音和意义相通或相近的同源词组成的一个家族或系统。词源指词条或单词的来源,从该语言成分在语言中最早出现的记载追溯其语音、书写和词义的发展;追溯它从一种语言转变为另一种语言的过程;分析拼成它的组成部分;鉴定它在其他语言中的同源词,或者追溯它及其同源词在一种有记载的或假设的祖系语言中的共同的祖传形式。
图1所示为本申请一实施例提供的词汇学习的词条选取方法的流程图。如图1所示,该词汇学习的词条选取方法包括如下步骤:
步骤110:从语料库中获取词条的词条词频。
词条词频为词条在语料库中出现的频次,词条词频代表了该词条在语料库中的概率,由于通常在阅读过程中,生词的密度低于一定值(例如2%)时,才能在不借助查阅字典的情况下基本读懂文章大意,尽量掌握文章中出现频次高的词条会更加有助于读者理解文章的大意,因此,通过获取需要学习的单词表中的各个词条的词条词频,即词条在语料库中频繁出现,则应该优先学习。其中单词表可以是给定的考试大纲,也可以是包括该学习语言的所有词条的单词表。
在一实施例中,语料库包括任一种学习的自然语言库,例如如下语料库中的一种或多种的组合:美国当代英语语料库,英国国家语料库,中文字頻语料库等。当学习英语词汇时,语料库可以是上述语料库中的一种或多种的组合,当然,也可以根据实际需求自建语料库,应当理解,本申请实施例可以根据实际应用的需求而选取不同的语料库,只要所选取的语料库能够反映需要学习词条的出现频次即可,本申请对于语料库的具体类型不做限定。
步骤120:将形式相似度大于预设形式相似度阈值的词条组合为词族,其中词族的词族词频根据词族包含的所有词条的词条词频得到。
根据词条之间的形式相似度将词条组合为词族,例如“act”、“action”、“active”、“activity”等可以组合为一个词族,由于词族中的词条之间词义一般相同或相近,并且形式相似,因此,将词条组合成词族,能够有助于理解和记忆多个词条。
其中,词族的词族词频可以根据其所包含的所有词条的词条词频得到,在一实施例中,词族的词族词频为词族包含的所有词条的词条词频求和得到。应当理解,本申请实施例可以根据实际应用的需求而选取不同的获取词族词频的方法,只要所选取的获取词族词频的方法能够反映需要学习词族的出现频次即可,本申请对于获取词族词频的具体方法不做限定。
步骤130:选取词族词频排序靠前的部分或全部词族及对应的词条作为当前词汇学习的内容。
在一实施例中,根据当前所需要学习的词条数量,选取词族词频排序靠前的词条数量个词族及对应的词条作为当前词汇学习的内容。在获取所有词族的词族词频后,根据当前需要学习的词条数量(即词汇量),选取词族词频排序靠前的词条数量个词族及对应的词条作为当前词汇学习的内容,即选取词条数量个词族词频最大的词族及其包含的所有词条作为当前词汇学习的内容。例如,单纯提升个人英语水平(譬如托福考试,并未给出具体的词表而只是做了宽泛的能力描述或者只是某种宽泛的能力诉求,又譬如一般的听说交流,无障碍阅读普通的未简化文本,甚至包括针对特定专业的需求的专业词汇),则可以将所有的词族按照词族词频由大至小进行排序,择优选取一定量的排序靠前的词族为当前学习的内容,以实现学习者能够尽可能的学习使用频率较高的词条。并且本申请实施例还可以应用于有一定词汇水平的人提升个人英语水平,可以根据对其英语水平的测试而选取不同单词库来作为其词汇学习的可选范围,或者根据其英语水平层测试而选取对应的词频段的词条作为其词汇学习的可选范围。本申请实施例还可以应用于给出了学习大纲或固定的单词表的单层学习场景,例如参加高考,则会有明确的高考英语单词大纲或单词表,则本申请实施例只需将该单词表中的词条进行组合成多个词族(即限制获取词条或词族的范围),然后按照词族词频由大至小进行排序,优先学习词族词频较高的词条,以保证考生在即使不能完全掌握单词表中的所有单词时,也能够尽量掌握使用频率较高的词条。因此,学会词族中的一个词条,其他词条也能相应学会,并且能够加深对该词族中词条的记忆和理解。
通过将词条组合成词族,并根据语料库中的词条词频得到词族词频,择优选取词族词频高的词族及对应的词条为词汇学习的内容,有效提高了词汇学习的效率和效果,同时通过词族的形式去记忆,相比单个词条记忆更加深刻,也进一步增加了记忆的词汇量。
图2所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。如图2所示,在步骤120之后,本申请实施例提供的词汇学习的词条选取方法还可以包括:
步骤140:选取词族的中心词,其中中心词代表词族。
在将词条组合为词族后,为每个词族选取一个中心词,用于代表该词族,中心词可以是该词族中的任一个词条,只要该词条能够代表该词族内所有词条的主要形式和词义即可,本申请实施例对于词族的中心词不做限定。
在一实施例中,选取词族的中心词的方法可以是:选取词族中词条词频最大的词条为中心词。通过选取词条词频最大的词条为中心词可以由该词条更好的体现该词族的使用频率。在进一步的实施例中,判断是否存在其他词条的词条词频与最大的词条词频的差值小于预设差值;当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时(即存在与最大词条词频差不多的词条),选取最大的词条词频对应的词条和该其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。通常动词更能代表该词族的形式和词义,因为很多其他词性的词条都是有动词的词条通过加上前缀、后缀或其他组合方式得到。为了尽量减少记忆词条的长度,以提高记忆的效果,也可以选取词族中长度较短的词条,用户可以通过记忆该中心词来理解记忆整个词族,减小用户的记忆难度,当然也可以选取词条长度较短且为动词的词条。例如上一实施例中提及的包括“act”、“action”、“active”、“activity”等词条的词族,可以选取act为中心词。应当理解,本申请实施例给出了示例性的选取中心词的方法,并不代表本申请实施例选取中心词的方法限定于此。
图3所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。如图3所示,在步骤130之前,该方法还可以包括:
步骤150:对词族进行预处理。
在一实施例中,对词族进行预处理可以包括:删除词族中词条词频小于第一预设词频阈值的词条。由于部分词条非常少见,即在日常阅读或考试中出现的几率很低,如果花费时间和精力去记忆这些词条,不仅浪费时间和精力,而且还会降低学习其他词条的效率。因此,我们将这些词条词频小于某一预设值(第一预设词频阈值)的词条删除,不用刻意去记忆,即使出现了这些少见的词条,也可以根据其构成联想到相关词族,从而得出其大概词义,对于阅读和理解整句话的含义不会造成实质性的影响。
图4所示为本申请一实施例提供的预处理方法的流程图。如图4所示,步骤150可以包括如下子步骤:
步骤1501:计算当前词族中的词条与该词族的中心词的相似度。
由于有些词条虽然形式比较相似,但是其词义或者读法相差较大,如果将这些词条组合为同一词族,不仅不能帮助学习者理解和记忆,反而会导致学习者记忆混淆,因此,需要将形式上相似但是词义或读法上相差加大的词条划分为不同的词族,以方便学习者理解和记忆。出于该目的,本申请实施例通过计算词族中的各个词条与中心词的相似度来判断其是否应该划分在该词族中。在一实施例中,相似度包括语音相似度和/或第一语义相似度,和/或词源相似度。即通过计算词族中的各个词条与中心词的语音相似度和/或语义相似度和/或词源相似度来判断其是否应该划分在该词族中。
步骤1502:判断相似度是否小于第一预设相似度阈值,若是,则转步骤1503,否则结束。
预先设定一个相似度阈值,通过对比词条与中心词的相似度和该预设相似度阈值的大小,来判断该词条是否应该划分在该词族中。
步骤1503:将相似度对应的词条调整至其他词族中。
当某一词条与中心词的相似度小于预设相似度阈值时,说明该词条不应该划入该中心词对应的词族中,则将该词条调整至其他词族中。例如词条“mental”和词条“metal”在形式上非常相似,但是词条“mental”表示精神的、心理的,而词条“metal”表示金属制的、(以金属)覆盖,词义差异较大。如果单纯的根据形式相似性来划分为词族,这两个词条很可能会被划入同一词族,但是明显这两个词条放在一起理解和记忆是不合适的,因此,这两个词条不应该划入同一词族。
在一实施例中,调整的方法可以是顺序将该词条调整至与其形式相似度高的词族中,然后再判断该词条与调整后的词族的中心词的语义和/或语音相似度,若该词条与某一词族的中心词的相似度大于或等于第一预设相似度阈值时,则确定将该词条调整至该词族中;若该词条与所有的词族的中心词的相似度均小于第一预设相似度阈值,则将该词条划入一个新的词族中。应当理解,调整的方法可以其他的任意方法,本申请实施例对于调整的具体方法不做限定。
图5所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。如图5所示,在步骤130之后,该方法还可以包括:
步骤160:根据词族的词源,对选取的词族进行聚类操作。
每个词族和词条都有其历史来源(即词源),通过追溯词族的词源,可以从根源上理解词族和词条,也能够更加方便学习者理解和记忆。因此,本申请实施例通过查找词族的词源,对各词族进行聚类操作,以不同的词源为分类依据,将各词族划分为不同的类。在一实施例中,当学习英文词汇时,词源可以包括美国传统字典的印欧根。其中印欧根主要参考但不限于美国传统字典印欧根目录,印欧根是原始印欧语的词根形式,而原始印欧语是通过历史比较语言学的方法,对现存和古代的400余种印欧语系的语言进行科学考察而生成的构拟语言,它深刻地揭示出占据现代英文词汇90%的四大来源:日耳曼语,希腊文,拉丁文和法文之间的系统性对应关系。。
在一实施例中,步骤160的实现方法可以具体包括:查找选取的词族的中心词的词源,将具有相同词源的中心词对应的词族划分为同一类。
通过查找中心词的词源,从而将具有相同词源的中心词对应的词族划分为同一类,以使得学习者了解各词族的来源以及同一词源的词族之间的连续,方便学习者更进一步理解和记忆。
图6所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。如图6所示,在步骤160之后,该方法还可以包括:
步骤170:将满足预设条件的词族重新划分类。
由于随着语言的发展,很多词条虽然源自同一词源,但是其形式或者语音或者词义有了较大的差异,因此,如果仅仅根据词源来划分类,会出现一些差异较大词族被划入同一类,这样也会导致记忆上的难度加大。
在一实施例中,预设条件可以包括:对应的聚类中包含词族数量低于预设数量阈值,和/或与对应的词源的相似度小于第二预设相似度阈值,和/或未被划分至任何类。对于某一聚类中的词族数量过低(例如低于5个)、词族的词源不明、词源过于复杂(即词族与词源的相似度较低)的情况,为了提高学习者记忆的效率,可以对上述词族重新划分类,以达到最佳的理解和记忆效果。应当理解,本申请实施例为了更好的帮助学习者提高学习和记忆的效果,可以对于满足预设条件的词族进行重新划分,本申请实施例也可以选择不对聚类后的词族进行重新划分。
图7所示为本申请一实施例提供的重新划分类的方法的流程图。如图7所示,重新划分类的方式可以包括:
步骤1701:提取当前词族的中心词的词干。
在一实施例中,提取当前词族的中心词的词干可包括:去除中心词的前缀和后缀,或将合成词拆解出对应的词条。词缀是指粘附在词根上构成新词的语素,其本身不能单独构成词,如前缀、后缀,词根是指词条中主要体现词义的部分。如果中心词是一个合成词,一般选取语义上比较重要的部分,譬如“hairdresser”是一个合成词,去掉后缀会选取“dress”作为词干通过提取中心词的词干,得到能够体现该词族的语义的部分。
步骤1702:计算词干与所有的词源的相似度。
通过计算词干与所有词源的相似度,去除词缀对应中心词的形式干扰,比对中心词的词干的词源,并且可以综合参考语音特征、语义特征、形式特征和词源特征,从而能够更准确的找到该中心词的词源。
步骤1703:当大于第三预设相似度阈值的相似度数量为一个时,将当前词族划分至该相似度对应的词源所在的类。
步骤1704:当大于第三预设相似度阈值的相似度数量为多个时,将当前词族划分至该多个相似度对应的多个词源中词族数量最少的词源所在的类。
当存在多个与大于第三预设相似度阈值的相似度(即存在多个与该词干接近的词源)时,将该词族划分至词族数量较少的词源所在的类中,以提高该类的词族数量,从而可以将一些较小的聚类融合成可以利用的类别。
图8所示为本申请另一实施例提供的词汇学习的词条选取方法的流程图。如图8所示,在步骤160之后,该方法还可以包括:
步骤180:将选取的词条以图表的形式展开显示。
在根据词源将词族通过聚类划分为多个类之后,可以将词条以图表的形式展示,以方便学习者从视觉上更加容易接受和理解词条的来源、分类及词义,也更加有助于学习者提高学习的效果。在一实施例中,图表可以包括思维导图。
在一实施例中,图表可以包括多级节点,其中根节点为词源。在一实施例中,多级节点还可以包括:中心词和对应词族中的其他词条。在一实施例中,多级节点还可以包括:词源,语音特征,语义特征和前缀。如图9所示为本申请一实施例提供的图表的结构示意图,如图9所示,根节点为词源“dhē-”,一级节点为词源的来源(即语音,表明了词源来源对应的音变法则),例如“Germanic”(日耳曼),即该词族来源于日耳曼,意思就是内含格林法则的变化,也可能是对音变的一般描述;二级节点为词族词义,例如“action”表示以下节点的词义为“行动”;三级节点为中心词“do”、“deed”,四级节点为与该中心词对应的词族中的其他词条。应当理解,本申请实施例只是示例性的展示了一种图表的结构,本申请实施例也可以根据实际的应用场景而选取不同的图表结构,例如图表中还可以加入多级节点(词性等),只要所选取的图表结构能够很好的展示需要学习的词条并有助于学习者学习和理解即可,本申请实施例对于图表的具体结构不做限定。
图10所示为本申请一实施例提供的词汇学习的词条选取装置的结构示意图。如图10所示,该词汇学习的词条选取装置包括:获取模块21,用于从语料库中获取词条的词条词频;组合模块22,用于将形式相似度大于预设形式相似度阈值的词条组合为词族,其中词族的词族词频根据词族包含的所有词条的词条词频得到;以及选取模块23,用于选取词族词频排序靠前的部分或全部词族及对应的词条作为当前词汇学习的内容。
在一实施例中,选取模块23进一步配置为:根据当前需要学习的词条数量,选取词族词频排序靠前的词条数量个词族及对应的词条作为词汇学习的内容。
通过将词条组合成词族,并根据语料库中的词条词频得到词族词频,择优选取词族词频高的词族及对应的词条为词汇学习的内容,有效提高了词汇学习的效率和效果,同时通过词族的形式去记忆,相比单个词条记忆更加深刻,也进一步增加了记忆的词汇量。
在一实施例中,语料库包括如下语料库中的一种或多种的组合:美国当代英语语料库,英国国家语料库,中文字頻语料库。
在一实施例中,词族的词族词频为词族包含的所有词条的词条词频求和得到。
图11所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。如图11所示,该装置可以包括中心词选取模块24,用于选取词族的中心词,其中中心词代表词族。
在一实施例中,选取词族的中心词的方法可以是:选取词族中词条词频最大的词条为中心词。优选地,当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时,选取最大的词条词频对应的词条和该其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。
图12所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。如图12所示,该装置可以包括预处理模块25,用于对词族进行预处理。
在一实施例中,预处理模块25可以配置为:删除词族中词条词频小于第一预设词频阈值的词条。
图13所示为本申请一实施例提供的预处理模块的结构示意图。如图13所示,预处理模块25可以包括:第一计算子模块251,用于计算当前词族中的词条与该词族的中心词的相似度;判断子模块252,用于判断相似度是否小于第一预设相似度阈值;调整子模块253,用于当判断结果为相似度小于第一预设相似度阈值,将相似度对应的词条调整至其他词族中。
在一实施例中,相似度包括语音相似度和/或第一语义相似度,和/或词源相似度。
图14所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。如图14所示,该装置可以包括聚类模块26,用于根据词族的词源,对选取的词族进行聚类操作。
在一实施例中,当学习英文词汇时,词源可以包括美国传统字典的印欧根。
图15所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。如图15所示,该装置可以包括重新划分模块27,用于将满足预设条件的词族重新划分类。
在一实施例中,预设条件可以包括:对应的聚类中包含词族数量低于预设数量阈值,和/或与对应的词源的相似度小于第二预设相似度阈值,和/或未被划分至任何类。
图16所示为本申请一实施例提供的重新划分模块的结构示意图。如图16所示,重新划分模块27可以包括:词干提取子模块271,用于提取当前词族的中心词的词干;第二计算子模块272,用于计算词干与所有的词源的相似度;划分子模块273,用于当大于第三预设相似度阈值的相似度数量为一个时,将所述当前词族划分至该相似度对应的词源所在的类,并且当大于所述第三预设相似度阈值的相似度数量为多个时,将当前词族划分至该多个相似度对应的多个词源中词族数量最少的词源所在的类。
在一实施例中,提取当前词族的中心词的词干可包括:去除中心词的前缀和后缀,或将合成词拆解出对应的词条。
图17所示为本申请另一实施例提供的词汇学习的词条选取装置的结构示意图。如图17所示,该装置可以包括展示模块28,用于将选取的词条以图表的形式展开显示。
在一实施例中,图表可以包括多级节点,其中根节点为词源。在一实施例中,多级节点还可以包括:中心词和对应词族中的其他词条。在一实施例中,多级节点还可以包括:词源,语音特征,语义特征和前缀。
下面,参考图18来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图18图示了根据本申请实施例的电子设备的框图。
如图18所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的词汇学习的词条选取方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备或第二设备时,该输入装置13可以是麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图18中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的词汇学习的词条选取方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Python、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的词汇学习的词条选取方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

Claims (24)

1.一种词汇学习的词条选取方法,其特征在于,包括:
从语料库中获取词条的词条词频;
将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及
选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。
2.根据权利要求1所述的方法,其特征在于,在所述将形式相似度大于预设形式相似度阈值的所述词条组合为词族之后,还包括:
选取所述词族的中心词,其中所述中心词代表所述词族。
3.根据权利要求2所述的方法,其特征在于,所述选取所述词族的中心词包括:
选取所述词族中词条词频最大的词条为中心词。
4.根据权利要求3所述的方法,其特征在于,所述选取所述词族中词条词频最大的词条为中心词包括:
判断是否存在其他词条的词条词频与最大的词条词频的差值小于预设差值;
当存在其他词条的词条词频与最大的词条词频的差值小于预设差值时,选取所述最大的词条词频对应的词条和所述其他词条中为动词和/或长度小于预设长度阈值的词条为中心词。
5.根据权利要求1所述的方法,其特征在于,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之前,还包括:
对所述词族进行预处理。
6.根据权利要求5所述的方法,其特征在于,所述对所述词族进行预处理包括:
删除所述词族中词条词频小于第一预设词频阈值的词条。
7.根据权利要求5所述的方法,其特征在于,所述对所述词族进行预处理包括:
计算当前词族中的词条与该词族的中心词的相似度;
判断所述相似度是否小于第一预设相似度阈值;以及
当判断结果为所述相似度小于所述第一预设相似度阈值,将所述相似度对应的所述词条调整至其他词族中。
8.根据权利要求7所述的方法,其特征在于,所述相似度包括语音相似度,和/或第一语义相似度,和/或词源相似度。
9.根据权利要求1所述的方法,其特征在于,所述词族的词族词频根据所述词族包含的所有词条的词条词频得到包括:
所述词族的词族词频为所述词族包含的所有词条的词条词频求得到。
10.根据权利要求1所述的方法,其特征在于,在所述选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容之后,还包括:
根据词族的词源,对选取的词族进行聚类操作。
11.根据权利要求10所述的方法,其特征在于,所述根据词族的词源,对所选取的词族进行聚类操作包括:
查找所述选取的词族的中心词的词源;以及
将具有相同词源的所述中心词对应的所述词族划分为同一类。
12.根据权利要求10所述的方法,其特征在于,所述词源包括美国传统字典的印欧根。
13.根据权利要求10所述的方法,其特征在于,在所述对选取的词族进行聚类操作之后,还包括:
将满足预设条件的词族重新划分类。
14.根据权利要求12所述的方法,其特征在于,所述预设条件包括:
对应的聚类中包含词族数量低于预设数量阈值,和/或与对应的词源的相似度小于第二预设相似度阈值,和/或未被划分至任何类。
15.根据权利要求13所述的方法,其特征在于,所述重新划分类的方式包括:
提取当前词族的中心词的词干;
计算所述词干与所有的词源的相似度;
当大于第三预设相似度的相似度阈值数量为一个时,将所述当前词族划分至该相似度对应的词源所在的类;以及
当大于所述第三预设相似度阈值的相似度数量为多个时,将所述当前词族划分至该多个相似度对应的多个词源中词族数量最少的词源所在的类。
16.根据权利要求15所述的方法,其特征在于,所述提取当前词族的中心词的词干包括:
去除所述中心词的前缀和后缀,和/或将合成词拆解出对应的词条。
17.根据权利要求1所述的方法,其特征在于,在所述选取所述词族词频排序靠前的所述词条数量个词族及对应的词条作为词汇学习的内容之后,还包括:
将选取的词条以图表的形式展开显示。
18.根据权利要求17所述的方法,其特征在于,所述图表包括多级节点,其中根节点为词源。
19.根据权利要求18所述的方法,其特征在于,所述多级节点包括:
中心词和对应词族中的其他词条。
20.根据权利要求19所述的方法,其特征在于,所述多级节点还包括如下节点中的任一个或多个的组合:
词源,语音特征,语义特征和前缀。
21.根据权利要求17所述的方法,其特征在于,所述图表包括思维导图。
22.一种词汇学习的词条选取装置,其特征在于,包括:
获取模块,用于从语料库中获取词条的词条词频;
组合模块,用于将形式相似度大于预设形式相似度阈值的所述词条组合为词族,其中所述词族的词族词频根据所述词族包含的所有词条的词条词频得到;以及
选取模块,用于选取所述词族词频排序靠前的部分或全部所述词族及对应的词条作为当前词汇学习的内容。
23.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-21任一所述的词汇学习的词条选取方法。
24.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-21任一所述的词汇学习的词条选取方法。
CN201910619958.1A 2019-07-10 2019-07-10 词汇学习的词条选取方法、装置、电子设备及存储介质 Active CN110321404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910619958.1A CN110321404B (zh) 2019-07-10 2019-07-10 词汇学习的词条选取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910619958.1A CN110321404B (zh) 2019-07-10 2019-07-10 词汇学习的词条选取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110321404A true CN110321404A (zh) 2019-10-11
CN110321404B CN110321404B (zh) 2021-08-10

Family

ID=68123165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910619958.1A Active CN110321404B (zh) 2019-07-10 2019-07-10 词汇学习的词条选取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110321404B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241831A (zh) * 2020-01-15 2020-06-05 新疆大学 一种基于双向门控神经网络的乌兹别克语词干提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916889A (zh) * 2005-08-19 2007-02-21 株式会社日立制作所 语料库制作装置及其方法
CN101587662A (zh) * 2009-01-20 2009-11-25 郭传喜 基于词频的单词表排序
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
JP5504097B2 (ja) * 2010-08-20 2014-05-28 Kddi株式会社 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN105224664A (zh) * 2015-10-08 2016-01-06 孙继兰 一种数字出版物词汇抽取、显示方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916889A (zh) * 2005-08-19 2007-02-21 株式会社日立制作所 语料库制作装置及其方法
CN101587662A (zh) * 2009-01-20 2009-11-25 郭传喜 基于词频的单词表排序
JP5504097B2 (ja) * 2010-08-20 2014-05-28 Kddi株式会社 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN105224664A (zh) * 2015-10-08 2016-01-06 孙继兰 一种数字出版物词汇抽取、显示方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱伟: "《恋练有词 考研英语词汇识记与应用大全》", 28 February 2015, 北京:群言出版社 *
王珏: "运用思维导图促进高中英语词汇教学", 《基础教育研究》 *
金亚美: "从认知语言学角度看少儿英语词汇教学", 《安徽文学(下半月)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241831A (zh) * 2020-01-15 2020-06-05 新疆大学 一种基于双向门控神经网络的乌兹别克语词干提取方法

Also Published As

Publication number Publication date
CN110321404B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
US11334726B1 (en) Applied artificial intelligence technology for using natural language processing to train a natural language generation system with respect to date and number textual features
CN106847288B (zh) 语音识别文本的纠错方法与装置
CN106649783B (zh) 一种同义词挖掘方法和装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110489538A (zh) 基于人工智能的语句应答方法、装置及电子设备
CN110110041A (zh) 错词纠正方法、装置、计算机装置及存储介质
CN107357772A (zh) 表单填写方法、装置和计算机设备
CN106528532A (zh) 文本纠错方法、装置及终端
JP2005537532A (ja) 自然言語理解アプリケーションを構築するための総合開発ツール
CN111178076A (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
CN115062135B (zh) 一种专利筛选方法与电子设备
CN112380877A (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
CN110413779B (zh) 一种针对电力行业的词向量训练方法及其系统、介质
RU2688758C1 (ru) Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
CN110321404A (zh) 词汇学习的词条选取方法、装置、电子设备及存储介质
CN108920500A (zh) 一种时间解析方法
CN113052544A (zh) 工作流依用户行为智能适配方法、装置以及存储介质
US20220114202A1 (en) Summary generation apparatus, control method, and system
Rofiq Indonesian news extractive text summarization using latent semantic analysis
CN110334215A (zh) 词汇学习框架的构建方法、装置、电子设备及存储介质
CN111243351B (zh) 一种基于分词技术的外语口语训练系统、客户端和服务器
CN109727591B (zh) 一种语音搜索的方法及装置
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant