CN109902295A - 一种基于网络信息的外语联想词库自训练方法 - Google Patents
一种基于网络信息的外语联想词库自训练方法 Download PDFInfo
- Publication number
- CN109902295A CN109902295A CN201910104274.8A CN201910104274A CN109902295A CN 109902295 A CN109902295 A CN 109902295A CN 201910104274 A CN201910104274 A CN 201910104274A CN 109902295 A CN109902295 A CN 109902295A
- Authority
- CN
- China
- Prior art keywords
- word
- foreign language
- node
- association
- serial number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Machine Translation (AREA)
Abstract
涉及一种基于网络信息的外语联想词库自训练方法,包括线性链表L(n)={w,s1,s2,...,sm,...},w项为外语单词,sm项为联想单词,还包括网络资源列表S(r),所述的基于网络信息的外语联想词库构建方法包括以下步骤:S1:登陆外语网站链接S(r);S2:提取不含标点符号的文本段;S3:提取文本段中的关联单词为word1,word2,...,wordp,...;S4:在线性链表L(n)中搜索w项等于wordp的节点,其序号为x;将步骤S3中的其余关联单词wordq,加入节点L(x)中;S5:采用冒泡法对节点L(x)中的关联单词sm进行重新排序;S6:如果已经完成文本资源搜索,则返回步骤1;否则,返回步骤2。
Description
技术领域
本发明涉及一种基于网络信息的外语联想词库自训练方法。
背景技术
语言是由大量单词组成,因此单词是语言的基础,学习外语大部分精力会用在学习单词上,如何用最少的时间学习最多的单词是提高学习效率的关键。根据人们的认知习惯,相关联的事物和概念最容易记忆下来,那么我们在学习单词的时候,如果能够将相互关联的单词放在一起学习,那么学习会更加轻松和有效。
而单词数量很大,人为建立单词间的关联关系工作量非常大,并且语言一直处在动态发展的,每天都会出现新的应用、新的含义和新的搭配,特别是网络上会出现大量新的应用,因此如何利用网络信息进行自动建立单词之间的关联关系成为一个重要课题。
发明内容
本发明的目的是提供一种基于网络信息的外语联想词库自训练方法,通过自动搜索网络信息,建立外语单词的关联关系,提高学生学习单词的效率。
本发明解决其技术问题所采用的技术方案是:
一种基于网络信息的外语联想词库自训练方法,包括针对特点场合的词库,所述的词库包括大量的外语单词,包括线性链表L(n)={w, s1, s2, ..., sm, ...},其中,n为链表序号,w项为序号为n的外语单词,sm项为序号为n的外语单词的联想单词,具体为数据结构,即sm={sw, c},其中,sw项为联想单词, c项为相关系数,序号mϵ(1,K),其中K根据所述的词库的复杂度而设定,还包括网络资源列表S(r),序号r大于0,S(r)为外语网站链接,所述的基于基于网络信息的外语联想词库构建方法包括以下步骤:
S1:按顺序从网络资源列表S(r)选取一个外语网站链接进行登陆;
S2:搜索当日更新的文本资源;以句号,逗号,分号,冒号,顿号作为分割标记,提取两个分割标记之间的文本段;
S3:去除所述的文本段中的介词,冠词,代词,助动词,数词和连词,得到关联单词为word1, word2, ..., wordp, ...;
S4:在线性链表L(n)中搜索w项等于wordp的节点,其序号为x;将步骤S3中的其余关联单词wordq,加入线性链表的节点L(x)中,其中q≠p,此时存在两种情况:1、关联单词wordq已经存在于L(x).sm中,即wordq等于L(x).sm.sw,则L(x).sm.c加1;2、关联单词wordq不存在于L(x).sm中,则将关联单词wordq加到线性链表的节点L(x)的末端L(x).slast,即L(x).slast+ 1.sw=wordq,L(x).slast+1.c=1,last=last+1,其中last是指向节点L(x)的末端的临时变量;
S5:采用冒泡法,对线性链表的节点L(x)中的关联单词sm进行重新排序,按照L(x).sm.c从大到小进行排列;
S6:如果已经完成步骤S2中文本资源搜索,则返回步骤1,登陆下一外语网站链接;否则,返回步骤2,提取下一个文本段。
本发明的有益效果主要表现在:1、自动在词库中建立单词之间相互关联关系;2、利用网络资源每天进行词库的更新和调整,成为一本活词库。
附图说明
图1是基于网络信息的外语联想词库自训练方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1,一种基于网络信息的外语联想词库自训练方法,包括针对特点场合的词库,所述的词库包括大量的外语单词。不用的应用目的,所设计的词库是不同的,比如雅思,托福,PETS,CET以及考研等。
为了让所述的词库中的外语单词能够根据其实际用途的相关性进行相互关联,设置线性链表L(n)={w, s1, s2, ..., sm, ...},其中,n为链表序号,w项为序号为n的外语单词。sm项为序号为n的外语单词的联想单词,具体为数据结构,即sm={sw, c},其中,sw项为联想单词,c项为相关系数,序号mϵ(1,K),其中K根据所述的词库的复杂度而设定。
包括网络资源列表S(r),序号r大于0,S(r)为外语网站链接,并且为新闻媒体官网,比如WashingtonPost,Times等,以及政府官网之类的网站。这类网站发布的资源经过严格审核,措辞严谨,不会出现语法错误。
所述的基于基于网络信息的外语联想词库构建方法包括以下步骤:
S1:按顺序从网络资源列表S(r)选取一个外语网站链接进行登陆;
网络资源列表S(r)可增加可删减, 必须注重网站内容对语言的严谨性,但是对语言发展不能过于保守。
S2:搜索当日更新的文本资源;以句号,逗号,分号,冒号,顿号作为分割标记,提取两个分割标记之间的文本段;
可采用爬虫类技术对外语网站的网页进行搜索;然后以句号,逗号,分号,冒号,顿号作为分割标记,提取两个分割标记之间的文本段,以这样的最小文本段作为分析对象,可以保证外语单词之间的强相关性。
S3:去除所述的文本段中的介词,冠词,代词,助动词,数词和连词,得到关联单词为word1, word2, ..., wordp, ...;
因为介词,冠词,代词,助动词,数词和连词是通用的外语单词,组成外语语句的必要元素,与一起使用的外语单词并不具有相关性,因此需要去除。
S4:在线性链表L(n)中搜索w项等于wordp的节点,其序号为x;将步骤S3中的其余关联单词wordq,加入线性链表的节点L(x)中,其中q≠p,此时存在两种情况:1、关联单词wordq已经存在于L(x).sm中,即wordq等于L(x).sm.sw,则L(x).sm.c加1;2、关联单词wordq不存在于L(x).sm中,则将关联单词wordq加到线性链表的节点L(x)的末端L(x).slast,即L(x).slast+1.sw=wordq,L(x).slast+1.c=1,last=last+1,其中last是指向节点L(x)的末端的临时变量;
在步骤S4中,首先根据wordp定位节点位置,即序号为x。确定了关联单词wordp的节点位置以后,将其余关联单词wordq,加入线性链表的节点L(x)中,此时L(x).sm.c越大,表明wordq与wordp关联度越大。
S5:采用冒泡法,对线性链表的节点L(x)中的关联单词sm进行重新排序,按照L(x).sm.c从大到小进行排列;
排列之后,最前面部分的外语单词就作为联想单词被推荐进行优先学习。
S6:如果已经完成步骤S2中文本资源搜索,则返回步骤1,登陆下一外语网站链接;否则,返回步骤2,提取下一个文本段。
该基于网络信息的外语联想词库自训练方法不仅可以构建一个相互联系的外语词库,让学生在学习外语单词的时候,根据相关性进行扩展学习,同时,利用网络信息资源实时更新词库中外语单词的相互关联系数,成为一个会成长的外语联想词库。
Claims (1)
1.一种基于网络信息的外语联想词库自训练方法,包括针对特点场合的词库,所述的词库包括大量的外语单词,包括线性链表L(n)={w, s1, s2, ..., sm, ...},其中,n为链表序号,w项为序号为n的外语单词,sm项为序号为n的外语单词的联想单词,具体为数据结构,即sm={sw, c},其中,sw项为联想单词, c项为相关系数,序号mϵ(1,K),其中K根据所述的词库的复杂度而设定,其特征在于:还包括网络资源列表S(r),序号r大于0,S(r)为外语网站链接,所述的基于基于网络信息的外语联想词库构建方法包括以下步骤:
S1:按顺序从网络资源列表S(r)选取一个外语网站链接进行登陆;
S2:搜索当日更新的文本资源;以句号,逗号,分号,冒号,顿号作为分割标记,提取两个分割标记之间的文本段;
S3:去除所述的文本段中的介词,冠词,代词,助动词,数词和连词,得到关联单词为word1, word2, ..., wordp, ...;
S4:在线性链表L(n)中搜索w项等于wordp的节点,其序号为x;将步骤S3中的其余关联单词wordq,加入线性链表的节点L(x)中,其中q≠p,此时存在两种情况:1、关联单词wordq已经存在于L(x).sm中,即wordq等于L(x).sm.sw,则L(x).sm.c加1;2、关联单词wordq不存在于L(x).sm中,则将关联单词wordq加到线性链表的节点L(x)的末端L(x).slast,即L(x).slast+ 1.sw=wordq,L(x).slast+1.c=1,last=last+1,其中last是指向节点L(x)的末端的临时变量;
S5:采用冒泡法,对线性链表的节点L(x)中的关联单词sm进行重新排序,按照L(x).sm.c从大到小进行排列;
S6:如果已经完成步骤S2中文本资源搜索,则返回步骤1,登陆下一外语网站链接;否则,返回步骤2,提取下一个文本段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910104274.8A CN109902295A (zh) | 2019-02-01 | 2019-02-01 | 一种基于网络信息的外语联想词库自训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910104274.8A CN109902295A (zh) | 2019-02-01 | 2019-02-01 | 一种基于网络信息的外语联想词库自训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109902295A true CN109902295A (zh) | 2019-06-18 |
Family
ID=66944596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910104274.8A Withdrawn CN109902295A (zh) | 2019-02-01 | 2019-02-01 | 一种基于网络信息的外语联想词库自训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902295A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101601038A (zh) * | 2007-08-03 | 2009-12-09 | 松下电器产业株式会社 | 关联词语提示装置 |
CN102479236A (zh) * | 2010-11-30 | 2012-05-30 | 成都致远诺亚舟教育科技有限公司 | 一种单词关联库系统及其实现方法和电子学习设备 |
CN102541821A (zh) * | 2010-12-30 | 2012-07-04 | 微软公司 | 交互式多语种语言的带注释显示方法及系统 |
CN103606306A (zh) * | 2013-11-29 | 2014-02-26 | 西安辉盛科技发展有限责任公司 | 一种电子阅读学习机汉字显示方法及实现该方法的系统 |
CN103778223A (zh) * | 2014-01-22 | 2014-05-07 | 河海大学 | 一种基于云平台的普适背单词系统及其构建方法 |
CN106649334A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 关联词语集合的处理方法及装置 |
CN108062373A (zh) * | 2017-12-12 | 2018-05-22 | 焦点科技股份有限公司 | 一种具有纠错功能的关键词下拉联想的方法 |
US10095771B1 (en) * | 2012-03-19 | 2018-10-09 | Amazon Technologies, Inc. | Clustering and recommending items based upon keyword analysis |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
-
2019
- 2019-02-01 CN CN201910104274.8A patent/CN109902295A/zh not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101601038A (zh) * | 2007-08-03 | 2009-12-09 | 松下电器产业株式会社 | 关联词语提示装置 |
CN102479236A (zh) * | 2010-11-30 | 2012-05-30 | 成都致远诺亚舟教育科技有限公司 | 一种单词关联库系统及其实现方法和电子学习设备 |
CN102541821A (zh) * | 2010-12-30 | 2012-07-04 | 微软公司 | 交互式多语种语言的带注释显示方法及系统 |
US10095771B1 (en) * | 2012-03-19 | 2018-10-09 | Amazon Technologies, Inc. | Clustering and recommending items based upon keyword analysis |
CN103606306A (zh) * | 2013-11-29 | 2014-02-26 | 西安辉盛科技发展有限责任公司 | 一种电子阅读学习机汉字显示方法及实现该方法的系统 |
CN103778223A (zh) * | 2014-01-22 | 2014-05-07 | 河海大学 | 一种基于云平台的普适背单词系统及其构建方法 |
CN106649334A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 关联词语集合的处理方法及装置 |
CN108062373A (zh) * | 2017-12-12 | 2018-05-22 | 焦点科技股份有限公司 | 一种具有纠错功能的关键词下拉联想的方法 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
Non-Patent Citations (4)
Title |
---|
JOE A. GUTHRIE 等: "Subject-Dependent Co-Occurrence And Word Sense Disambiguation", 《COMPUTATIONAL LINGUISTICS》 * |
史煜 等: "英语联想词汇记忆法探析", 《山东师范大学外国语学院学报(基础英语教育)》 * |
孙丽娟: "浅析高职高专英语词汇的教学方法", 《今日科苑》 * |
李晓璇: "联想、搭配理论与英语学习", 《宿州学院学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guhr et al. | Training a broad-coverage German sentiment classification model for dialog systems | |
Abouenour et al. | On the evaluation and improvement of Arabic WordNet coverage and usability | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN110569345B (zh) | 一种基于实体链接和关系预测的时政知识智能问答方法 | |
Sidorov et al. | Rule-based system for automatic grammar correction using syntactic n-grams for english language learning (l2) | |
Volodina et al. | Waste not, want not: Towards a system architecture for ICALL based on NLP component re-use | |
Makki | OntoPRiMa: A prototype for automating ontology population | |
Mridha et al. | New approach of solving semantic ambiguity problem of bangla root words using universal networking language (UNL) | |
Dhomne et al. | Accessing database using NLP | |
Liberman et al. | The creation, distribution and use of linguistic data: the case of the linguistic data consortium. | |
Owda et al. | Information extraction for SQL query generation in the conversation-based interfaces to relational databases (C-BIRD) | |
CN109902295A (zh) | 一种基于网络信息的外语联想词库自训练方法 | |
CN110110050B (zh) | 一种新闻事件生成式问答数据集的生成方法 | |
Lewis et al. | Building MT for a severely under-resourced language: White Hmong | |
Skandina | Some Highlights of Human Language Technology in Baltic Countries | |
Simões et al. | Ensinador: corpus-based Portuguese grammar exercises | |
Volodina et al. | Developing an open-source web-based exercise generator for Swedish | |
CN107451295B (zh) | 一种基于文法网络获取深度学习训练数据的方法 | |
Lazic et al. | Terminological and lexical resources used to provide open multilingual educational resources | |
Pakray et al. | Semantic answer validation using universal networking language | |
Pretorius et al. | Finite-state computational morphology-treatment of the zulu noun | |
Blancafort et al. | TTC Web platform: from corpus compilation to bilingual terminologies for MT and CAT tools | |
Zhang et al. | Design and Development of" Virtual AI Teacher" System Based on NLP | |
Masizana-Katongo et al. | Example-based parsing solution for a HIV and AIDS FAQ system | |
Sharma et al. | A new model for question-answer based dialogue system for indian railways in Hindi language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190618 |