CN109902295A

CN109902295A - 一种基于网络信息的外语联想词库自训练方法

Info

Publication number: CN109902295A
Application number: CN201910104274.8A
Authority: CN
Inventors: 刘瑜
Original assignee: Hangzhou Jingyi Intelligent Science and Technology Co Ltd
Current assignee: Hangzhou Jingyi Intelligent Science and Technology Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-18

Abstract

涉及一种基于网络信息的外语联想词库自训练方法，包括线性链表L(n)={w,s₁,s₂,...,s_m,...}，w项为外语单词，s_m项为联想单词，还包括网络资源列表S(r)，所述的基于网络信息的外语联想词库构建方法包括以下步骤：S1：登陆外语网站链接S(r)；S2：提取不含标点符号的文本段；S3：提取文本段中的关联单词为word₁,word₂,...,word_p,...；S4：在线性链表L(n)中搜索w项等于word_p的节点，其序号为x；将步骤S3中的其余关联单词word_q，加入节点L(x)中；S5：采用冒泡法对节点L(x)中的关联单词s_m进行重新排序；S6：如果已经完成文本资源搜索，则返回步骤1；否则，返回步骤2。

Description

一种基于网络信息的外语联想词库自训练方法

技术领域

本发明涉及一种基于网络信息的外语联想词库自训练方法。

背景技术

语言是由大量单词组成，因此单词是语言的基础，学习外语大部分精力会用在学习单词上，如何用最少的时间学习最多的单词是提高学习效率的关键。根据人们的认知习惯，相关联的事物和概念最容易记忆下来，那么我们在学习单词的时候，如果能够将相互关联的单词放在一起学习，那么学习会更加轻松和有效。

而单词数量很大，人为建立单词间的关联关系工作量非常大，并且语言一直处在动态发展的，每天都会出现新的应用、新的含义和新的搭配，特别是网络上会出现大量新的应用，因此如何利用网络信息进行自动建立单词之间的关联关系成为一个重要课题。

发明内容

本发明的目的是提供一种基于网络信息的外语联想词库自训练方法，通过自动搜索网络信息，建立外语单词的关联关系，提高学生学习单词的效率。

本发明解决其技术问题所采用的技术方案是：

一种基于网络信息的外语联想词库自训练方法，包括针对特点场合的词库，所述的词库包括大量的外语单词，包括线性链表L(n)={w, s₁, s₂, ..., s_m, ...}，其中，n为链表序号，w项为序号为n的外语单词，s_m项为序号为n的外语单词的联想单词，具体为数据结构，即s_m={sw, c}，其中，sw项为联想单词, c项为相关系数，序号mϵ(1,K)，其中K根据所述的词库的复杂度而设定，还包括网络资源列表S(r)，序号r大于0，S(r)为外语网站链接，所述的基于基于网络信息的外语联想词库构建方法包括以下步骤：

S1：按顺序从网络资源列表S(r)选取一个外语网站链接进行登陆；

S2：搜索当日更新的文本资源；以句号，逗号，分号，冒号，顿号作为分割标记，提取两个分割标记之间的文本段；

S3：去除所述的文本段中的介词，冠词，代词，助动词，数词和连词，得到关联单词为word₁, word₂, ..., word_p, ...；

S4：在线性链表L(n)中搜索w项等于word_p的节点，其序号为x；将步骤S3中的其余关联单词word_q，加入线性链表的节点L(x)中，其中q≠p，此时存在两种情况：1、关联单词word_q已经存在于L(x).s_m中，即word_q等于L(x).s_m.sw，则L(x).s_m.c加1；2、关联单词word_q不存在于L(x).s_m中，则将关联单词word_q加到线性链表的节点L(x)的末端L(x).s_last，即L(x).s_last+ ₁.sw=word_q，L(x).s_last+1.c=1，last=last+1，其中last是指向节点L(x)的末端的临时变量；

S5：采用冒泡法，对线性链表的节点L(x)中的关联单词s_m进行重新排序，按照L(x).s_m.c从大到小进行排列；

S6：如果已经完成步骤S2中文本资源搜索，则返回步骤1，登陆下一外语网站链接；否则，返回步骤2，提取下一个文本段。

本发明的有益效果主要表现在：1、自动在词库中建立单词之间相互关联关系；2、利用网络资源每天进行词库的更新和调整，成为一本活词库。

附图说明

图1是基于网络信息的外语联想词库自训练方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于网络信息的外语联想词库自训练方法，包括针对特点场合的词库，所述的词库包括大量的外语单词。不用的应用目的，所设计的词库是不同的，比如雅思，托福，PETS，CET以及考研等。

为了让所述的词库中的外语单词能够根据其实际用途的相关性进行相互关联，设置线性链表L(n)={w, s₁, s₂, ..., s_m, ...}，其中，n为链表序号，w项为序号为n的外语单词。s_m项为序号为n的外语单词的联想单词，具体为数据结构，即s_m={sw, c}，其中，sw项为联想单词，c项为相关系数，序号mϵ(1,K)，其中K根据所述的词库的复杂度而设定。

包括网络资源列表S(r)，序号r大于0，S(r)为外语网站链接，并且为新闻媒体官网，比如WashingtonPost，Times等，以及政府官网之类的网站。这类网站发布的资源经过严格审核，措辞严谨，不会出现语法错误。

所述的基于基于网络信息的外语联想词库构建方法包括以下步骤：

网络资源列表S(r)可增加可删减，必须注重网站内容对语言的严谨性，但是对语言发展不能过于保守。

可采用爬虫类技术对外语网站的网页进行搜索；然后以句号，逗号，分号，冒号，顿号作为分割标记，提取两个分割标记之间的文本段，以这样的最小文本段作为分析对象，可以保证外语单词之间的强相关性。

因为介词，冠词，代词，助动词，数词和连词是通用的外语单词，组成外语语句的必要元素，与一起使用的外语单词并不具有相关性，因此需要去除。

S4：在线性链表L(n)中搜索w项等于word_p的节点，其序号为x；将步骤S3中的其余关联单词word_q，加入线性链表的节点L(x)中，其中q≠p，此时存在两种情况：1、关联单词word_q已经存在于L(x).s_m中，即word_q等于L(x).s_m.sw，则L(x).s_m.c加1；2、关联单词word_q不存在于L(x).s_m中，则将关联单词word_q加到线性链表的节点L(x)的末端L(x).s_last，即L(x).s_last+1.sw=word_q，L(x).s_last+1.c=1，last=last+1，其中last是指向节点L(x)的末端的临时变量；

在步骤S4中，首先根据word_p定位节点位置，即序号为x。确定了关联单词word_p的节点位置以后，将其余关联单词word_q，加入线性链表的节点L(x)中，此时L(x).s_m.c越大，表明word_q与word_p关联度越大。

排列之后，最前面部分的外语单词就作为联想单词被推荐进行优先学习。

该基于网络信息的外语联想词库自训练方法不仅可以构建一个相互联系的外语词库，让学生在学习外语单词的时候，根据相关性进行扩展学习，同时，利用网络信息资源实时更新词库中外语单词的相互关联系数，成为一个会成长的外语联想词库。

Claims

1.一种基于网络信息的外语联想词库自训练方法，包括针对特点场合的词库，所述的词库包括大量的外语单词，包括线性链表L(n)={w, s₁, s₂, ..., s_m, ...}，其中，n为链表序号，w项为序号为n的外语单词，s_m项为序号为n的外语单词的联想单词，具体为数据结构，即s_m={sw, c}，其中，sw项为联想单词, c项为相关系数，序号mϵ(1,K)，其中K根据所述的词库的复杂度而设定，其特征在于：还包括网络资源列表S(r)，序号r大于0，S(r)为外语网站链接，所述的基于基于网络信息的外语联想词库构建方法包括以下步骤：