CN103116648A

CN103116648A - 基于图形式上下文语境和机器学习的单词记忆方法及其装置

Info

Publication number: CN103116648A
Application number: CN2013100628571A
Authority: CN
Inventors: 魏骁勇; 杨震群
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2013-05-22
Anticipated expiration: 2033-02-28
Also published as: CN103116648B

Abstract

本发明涉及由机器辅助进行的外语学习领域，提供了一种基于上下文语境和机器学习的单词记忆方法及其装置。该系统有两个特点：1.能将每个单词的同义词、反义词、近似词、以及重要程度自动地以图形方式呈现出来，从而为每个单词构建一个上下文相关(Context Related)的语境，帮助用户进行更形象直观的单词记忆；2.该系统能自动地识别用户的记忆能力、记忆周期、以及弱项单词（用户最不容易记住的单词），从而自动地为用户选择需要记忆的单词和制定复习的日程表，达到高效率的记忆。经过40个用户2年的测试表明，使用该系统的用户的年均单词记忆量达到1万个以上，年最高单词记忆量为3万个。

Description

基于图形式上下文语境和机器学习的单词记忆方法及其装置

技术领域

本发明涉及由机器辅助进行的外语学习领域，提供了一种基于上下文语境和机器学习的单词记忆方法及其装置。

背景技术

目前的主流单词记忆系统通常都是以文字的方式来表达单词的意思，忽悠了把单词放在语境下记忆才更加有效这个语言学学者已经得出很多年的结论。本系统采用直观的图形方式对单词的语境进行表达，能更好地帮助用户进行形象的记忆。另外，目前的主流的智能单词记忆系统都是根据Hermann Ebbinghaus遗忘曲线进行开发的。然而，Hermann Ebbinghaus遗忘曲线是1886年根据Hermann Ebbinghaus本人对一组无意义的符号进行记忆得到的模型。所以模型本身只代表Hermann Ebbinghaus本人的记忆能力，忽略了各个用户之间记忆能力的差异。并且，其记忆对象是无意义的符号，没有考虑各单词在实际使用中的重要程度。本系统综合考虑了用户差异和单词差异，因而可以让单词记忆更加有效和更加有针对性。

发明内容

本发明的目的在于提供一种能够自动地为用户选择需要记忆的单词和制定复习的日程表，达到高效率的记忆的基于图形式上下文语境和机器学习的单词记忆方法及其装置。

为实现上述目的本发明采用以下技术方案：

一种基于上下文语境和机器学习的单词记忆方法，其特征在于包括以下步骤：

1）查询不理解单词；

2）系统调用已学习好的数据库，找到所查单词的同义词、反义词、近似词以及重要程度，并以图形化的语境方式展示给用户；

3）将单词加入生词本；

4）在用户需要时，系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习的单词，并提供图形化的复习界面；

5）在用户需要时，系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需测试的单词，并提供图形化的测试界面；

6）系统根据用户在复习和测试中的表现，使用逻辑回归(Logistic Regression)技术自动识别用户的记忆能力、记忆周期、以及弱项单词，作为每次复习和测试的参考。

上述方案中，所述步骤2中数据库的学习采用处理步骤包括：

21）搜集文章；

22）结合现有字典，对每个单词的出现的同义词、反义词、近似词进行记录；

23）搜集考题集合；

24）对每个单词的出现的同义词、反义词、近似词进行筛选，保留常用的、容易被作为考点的单词，同时按照以下公式估计每个单词在各项考试中的重要程度，

Figure 2013100628571100002DEST_PATH_IMAGE001

公式中Imp()为当单词的重要程度，Rep()为当前单词在各项考试中出现的频率，Sy()为同义词个数，Ant()为反义词个数，Ana()为相似词个数，Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度，

Figure 2013100628571100002DEST_PATH_IMAGE002

为一组平衡的系数，该组系数在数据库的基础上使用逻辑回归(Logistic Regression)技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为：首先，选取1万个单词作为训练数据库；对训练数据库每个单词，由专家对Imp(x)进行人工核定；因为Sy(x)，Ant(x)，Ana(x)和Novelty(x)都可以通过统计得到，核定后的数据库就够成了1万个以

为未知数的方程，解这1万个方程就可以得到

的最优值。

上述方案中，所述步骤2中图形化的复习界面的图形化语境展示方法采用处理步骤包括：

31）查询步骤2中所述的数据库，获得每个单词的同义词、反义词、近似词、并计算其重要程度：

32）以当前单词为中心，将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境，以达到直观记忆的目的。

上述方案中，所述步骤4中选择所需复习的单词采用处理步骤包括：

41）按以下公式计算每个单词的需复习权重Rew(x)，

Figure 2013100628571100002DEST_PATH_IMAGE003

公式中，公式中Imp()为当单词的重要程度，Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度，Accur(x)为用户在测试中对x表现出的正确率，

Figure 2013100628571100002DEST_PATH_IMAGE004

为平衡因子，通过使用逻辑回归(Logistic Regression)技术自动获取；使用逻辑回归(Logistic Regression)技术学习过程为：首先，选取1万个单词作为训练数据库；对训练数据库每个单词，由专家对Rew(x)进行人工核定；因为Imp(x)已经由24）中方法算出，Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算，Accur(x)可以通过统计得到，核定后的数据库就够成了1万个以

为未知数的方程，解这1万个方程就可以得到

Figure 2013100628571100002DEST_PATH_IMAGE005

的最优值。

42）根据各单词的需复习权重对单词进行排序，选取权重高于0.8的词推荐用户进行复习。

上述方案中，所述步骤5中选择所需测试的单词采用处理步骤包括：

51）按以下公式计算每个单词的需测试权重Test(x),

Figure 2013100628571100002DEST_PATH_IMAGE006

公式中，公式中Imp()为当单词的重要程度，Accur(x)为用户在测试中对x表现出的正确率，Span(x)为当前单词上次被测试时距现在的时间跨度；

52）根据各单词的需测试权重对单词进行排序，选取权重高于0.8的词推荐用户进行测试；

53）测试完成后更新每个单词的测试正确率Accur(x)。

本发明还提供了一种基于上下文语境和机器学习的单词记忆装置，其特征在于包括：

数据库学习模块：对每个单词的出现的同义词、反义词、近似词进行筛选记录；

图形化的复习界面模块：根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习（Review）的单词或测试（Test）的单词，并提供图形化的复习界面；

复习单词处理模块：筛选出并对单词排序；

测试单词处理模块：筛选出所需测试的单词，并对单词进行测试，记录测试正确率。

上述的一种基于上下文语境和机器学习的单词记忆装置，所述数据库学习模块的处理步骤包括：

71）搜集文章；

72）结合现有字典，对每个单词的出现的同义词、反义词、近似词进行记录；

73）搜集考题集合；

74）对每个单词的出现的同义词、反义词、近似词进行筛选，保留常用的、容易被作为考点的单词，同时按照以下公式估计每个单词在各项考试中的重要程度，

为未知数的方程，解这1万个方程就可以得到

的最优值。

上述的一种基于上下文语境和机器学习的单词记忆装置，所述图形化的复习界面模块的图形化语境展示方法采用处理步骤包括：

81）查询数据库学习模块的数据库，获得每个单词的同义词、反义词、近似词、并计算其重要程度：

82）以当前单词为中心，将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境，以达到直观记忆的目的。

上述的一种基于上下文语境和机器学习的单词记忆装置，所述复习单词处理模块的处理步骤包括：

91）按以下公式计算每个单词的需复习权重Rew(x)，

Figure 2013100628571100002DEST_PATH_IMAGE007

为平衡因子，通过使用逻辑回归(Logistic Regression)技术自动获取；使用逻辑回归(Logistic Regression)技术学习过程为：首先，选取1万个单词作为训练数据库；对训练数据库每个单词，由专家对Rew(x)进行人工核定；因为Imp(x)已经由74）中方法算出，Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算，Accur(x)可以通过统计得到，核定后的数据库就够成了1万个以

为未知数的方程，解这1万个方程就可以得到

的最优值。

92）根据各单词的需复习权重对单词进行排序，选取权重高于0.8的词推荐用户进行复习。

上述的一种基于上下文语境和机器学习的单词记忆装置，所述测试单词处理模块的处理步骤包括：

101）按以下公式计算每个单词的需测试权重Test(x),

102）根据各单词的需测试权重对单词进行排序，选取权重高于0.8的词推荐用户进行测试；

103）测试完成后更新每个单词的测试正确率Accur(x)。

因为本发明采用以上技术方案，所以具备以下有益效果：

一、能将每个单词的同义词、反义词、近似词、以及重要程度自动地以图形方式呈现出来，从而为每个单词构建一个上下文相关(Context Related)的语境，帮助用户进行更形象直观的单词记忆。

二、该系统能自动地识别用户的记忆能力、记忆周期、以及弱项单词（用户最不容易记住的单词），从而自动地为用户选择需要记忆的单词和制定复习的日程表，达到高效率的记忆。经过40个用户2年的测试表明，使用该系统的用户的年均单词记忆量达到1万个以上，年最高单词记忆量为3万个。

附图说明

图1为本发明的系统流程方框图。

具体实施方式

本发明可在个人计算机（PC）、手机、或者平板电脑上以任何一种高级编程语言实现。其中单词查询、复习和测试过程的人机交互可以通过鼠标点击、键盘输入、手指划取（手机和平板上）等接口来实现。目前原型版本已经采用C#与C++相结合的方式实现出计算机应用程序，系统后台采用SQLLite数据库存储，人机交互界面如下图所示。

1）查询不理解单词；

3）将单词加入生词本；

上述方案中，所述步骤2中数据库的学习采用处理步骤包括：

21）搜集文章；

23）搜集考题集合；

为一组平衡的系数，该组系数在数据库的基础上使用逻辑回归技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为：首先，选取1万个单词作为训练数据库；对训练数据库每个单词，由专家对Imp(x)进行人工核定；因为Sy(x)，Ant(x)，Ana(x)和Novelty(x)都可以通过统计得到，核定后的数据库就够成了1万个以

为未知数的方程，解这1万个方程就可以得到

的最优值。

41）按以下公式计算每个单词的需复习权重Rew(x)，

公式中，公式中Imp()为当单词的重要程度，Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度，Accur(x)为用户在测试中对x表现出的正确率，为平衡因子，通过使用逻辑回归(Logistic Regression)技术自动获取；使用逻辑回归(Logistic Regression)技术学习过程为：首先，选取1万个单词作为训练数据库；对训练数据库每个单词，由专家对Rew(x)进行人工核定；因为Imp(x)已经由24）中方法算出，Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算，Accur(x)可以通过统计得到，核定后的数据库就够成了1万个以

为未知数的方程，解这1万个方程就可以得到的最优值。

51）按以下公式计算每个单词的需测试权重Test(x),

53）测试完成后更新每个单词的测试正确率Accur(x)。

一种基于上下文语境和机器学习的单词记忆装置，其特征在于包括：

复习单词处理模块：筛选出并对单词排序；

71）搜集文章；

73）搜集考题集合；

公式中Imp()为当单词的重要程度，Rep()为当前单词在各项考试中出现的频率，Sy()为同义词个数，Ant()为反义词个数，Ana()为相似词个数，Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度，为一组平衡的系数，该组系数在数据库的基础上使用逻辑回归(Logistic Regression)技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为：首先，选取1万个单词作为训练数据库；对训练数据库每个单词，由专家对Imp(x)进行人工核定；因为Sy(x)，Ant(x)，Ana(x)和Novelty(x)都可以通过统计得到，核定后的数据库就够成了1万个以

为未知数的方程，解这1万个方程就可以得到

的最优值。

91）按以下公式计算每个单词的需复习权重Rew(x)，

为未知数的方程，解这1万个方程就可以得到

的最优值。

101）按以下公式计算每个单词的需测试权重Test(x),

103）测试完成后更新每个单词的测试正确率Accur(x)。

Claims

1.一种基于上下文语境和机器学习的单词记忆方法，其特征在于包括以下步骤：

1）查询不理解单词；

3）将单词加入生词本；

6）系统根据用户在复习和测试中的表现，使用逻辑回归技术自动识别用户的记忆能力、记忆周期、以及弱项单词，作为每次复习和测试的参考。

2. 根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆方法，其特征在于：所述步骤2中数据库的学习采用处理步骤包括：

21）搜集文章；

23）搜集考题集合；

Figure 2013100628571100001DEST_PATH_IMAGE002

公式中Imp()为当单词的重要程度，Rep()为当前单词在各项考试中出现的频率，Sy()为同义词个数，Ant()为反义词个数，Ana()为相似词个数，Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度，为一组平衡的系数，该组系数在数据库的基础上使用逻辑回归技术通过计算机自动学习到。

3.根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆方法，其特征在于：所述步骤2中图形化的复习界面的图形化语境展示方法采用处理步骤包括：

4.根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆系统，其特征在于：所述步骤4中选择所需复习的单词采用处理步骤包括：

41）按以下公式计算每个单词的需复习权重Rew(x)，

Figure 2013100628571100001DEST_PATH_IMAGE006

公式中，公式中Imp()为当单词的重要程度，Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度，Accur(x)为用户在测试中对x表现出的正确率，为平衡因子，通过使用逻辑回归技术自动获取。42）根据各单词的需复习权重对单词进行排序，选取权重高于0.8的词推荐用户进行复习。

5.根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆系统，其特征在于：所述步骤5中选择所需测试的单词采用处理步骤包括：

51）按以下公式计算每个单词的需测试权重Test(x),