CN103116648A - 基于图形式上下文语境和机器学习的单词记忆方法及其装置 - Google Patents

基于图形式上下文语境和机器学习的单词记忆方法及其装置 Download PDF

Info

Publication number
CN103116648A
CN103116648A CN2013100628571A CN201310062857A CN103116648A CN 103116648 A CN103116648 A CN 103116648A CN 2013100628571 A CN2013100628571 A CN 2013100628571A CN 201310062857 A CN201310062857 A CN 201310062857A CN 103116648 A CN103116648 A CN 103116648A
Authority
CN
China
Prior art keywords
word
test
user
review
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100628571A
Other languages
English (en)
Other versions
CN103116648B (zh
Inventor
魏骁勇
杨震群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310062857.1A priority Critical patent/CN103116648B/zh
Publication of CN103116648A publication Critical patent/CN103116648A/zh
Application granted granted Critical
Publication of CN103116648B publication Critical patent/CN103116648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及由机器辅助进行的外语学习领域,提供了一种基于上下文语境和机器学习的单词记忆方法及其装置。该系统有两个特点:1.能将每个单词的同义词、反义词、近似词、以及重要程度自动地以图形方式呈现出来,从而为每个单词构建一个上下文相关(Context Related)的语境,帮助用户进行更形象直观的单词记忆;2.该系统能自动地识别用户的记忆能力、记忆周期、以及弱项单词(用户最不容易记住的单词),从而自动地为用户选择需要记忆的单词和制定复习的日程表,达到高效率的记忆。经过40个用户2年的测试表明,使用该系统的用户的年均单词记忆量达到1万个以上,年最高单词记忆量为3万个。

Description

基于图形式上下文语境和机器学习的单词记忆方法及其装置
技术领域
本发明涉及由机器辅助进行的外语学习领域,提供了一种基于上下文语境和机器学习的单词记忆方法及其装置。
背景技术
目前的主流单词记忆系统通常都是以文字的方式来表达单词的意思,忽悠了把单词放在语境下记忆才更加有效这个语言学学者已经得出很多年的结论。本系统采用直观的图形方式对单词的语境进行表达,能更好地帮助用户进行形象的记忆。另外,目前的主流的智能单词记忆系统都是根据Hermann Ebbinghaus遗忘曲线进行开发的。然而,Hermann Ebbinghaus遗忘曲线是1886年根据Hermann Ebbinghaus本人对一组无意义的符号进行记忆得到的模型。所以模型本身只代表Hermann Ebbinghaus本人的记忆能力,忽略了各个用户之间记忆能力的差异。并且,其记忆对象是无意义的符号,没有考虑各单词在实际使用中的重要程度。本系统综合考虑了用户差异和单词差异,因而可以让单词记忆更加有效和更加有针对性。
发明内容
本发明的目的在于提供一种能够自动地为用户选择需要记忆的单词和制定复习的日程表,达到高效率的记忆的基于图形式上下文语境和机器学习的单词记忆方法及其装置。
为实现上述目的本发明采用以下技术方案:
一种基于上下文语境和机器学习的单词记忆方法,其特征在于包括以下步骤:
1)查询不理解单词;
2)系统调用已学习好的数据库,找到所查单词的同义词、反义词、近似词以及重要程度,并以图形化的语境方式展示给用户;
3)将单词加入生词本;
4)在用户需要时,系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习的单词,并提供图形化的复习界面;
5)在用户需要时,系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需测试的单词,并提供图形化的测试界面;
6)系统根据用户在复习和测试中的表现,使用逻辑回归(Logistic Regression)技术自动识别用户的记忆能力、记忆周期、以及弱项单词,作为每次复习和测试的参考。
上述方案中,所述步骤2中数据库的学习采用处理步骤包括:
21)搜集文章;
22)结合现有字典,对每个单词的出现的同义词、反义词、近似词进行记录;
23)搜集考题集合;
24)对每个单词的出现的同义词、反义词、近似词进行筛选,保留常用的、容易被作为考点的单词,同时按照以下公式估计每个单词在各项考试中的重要程度, 
Figure 2013100628571100002DEST_PATH_IMAGE001
公式中Imp()为当单词的重要程度,Rep()为当前单词在各项考试中出现的频率,Sy()为同义词个数,Ant()为反义词个数,Ana()为相似词个数,Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度,
Figure 2013100628571100002DEST_PATH_IMAGE002
为一组平衡的系数,该组系数在数据库的基础上使用逻辑回归(Logistic Regression)技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Imp(x)进行人工核定;因为Sy(x),Ant(x),Ana(x)和Novelty(x)都可以通过统计得到,核定后的数据库就够成了1万个以
Figure 190518DEST_PATH_IMAGE002
为未知数的方程,解这1万个方程就可以得到
Figure 107658DEST_PATH_IMAGE002
的最优值。
上述方案中,所述步骤2中图形化的复习界面的图形化语境展示方法采用处理步骤包括:
31) 查询步骤2中所述的数据库,获得每个单词的同义词、反义词、近似词、并计算其重要程度:
32)以当前单词为中心,将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境,以达到直观记忆的目的。
上述方案中,所述步骤4中选择所需复习的单词采用处理步骤包括:
41)按以下公式计算每个单词的需复习权重Rew(x),
Figure 2013100628571100002DEST_PATH_IMAGE003
公式中,公式中Imp()为当单词的重要程度,Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度,Accur(x)为用户在测试中对x表现出的正确率,
Figure 2013100628571100002DEST_PATH_IMAGE004
为平衡因子,通过使用逻辑回归(Logistic Regression)技术自动获取;使用逻辑回归(Logistic Regression)技术学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Rew(x)进行人工核定;因为Imp(x)已经由24)中方法算出,Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算,Accur(x)可以通过统计得到,核定后的数据库就够成了1万个以
Figure 74346DEST_PATH_IMAGE004
为未知数的方程,解这1万个方程就可以得到
Figure 2013100628571100002DEST_PATH_IMAGE005
的最优值。
42)根据各单词的需复习权重对单词进行排序,选取权重高于0.8的词推荐用户进行复习。
上述方案中,所述步骤5中选择所需测试的单词采用处理步骤包括:
51)按以下公式计算每个单词的需测试权重Test(x),
Figure 2013100628571100002DEST_PATH_IMAGE006
       公式中,公式中Imp()为当单词的重要程度,Accur(x)为用户在测试中对x表现出的正确率,Span(x)为当前单词上次被测试时距现在的时间跨度;
        52)根据各单词的需测试权重对单词进行排序,选取权重高于0.8的词推荐用户进行测试;
        53)测试完成后更新每个单词的测试正确率Accur(x)。
本发明还提供了一种基于上下文语境和机器学习的单词记忆装置,其特征在于包括:
数据库学习模块:对每个单词的出现的同义词、反义词、近似词进行筛选记录;
图形化的复习界面模块:根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习(Review)的单词或测试(Test)的单词,并提供图形化的复习界面;
复习单词处理模块:筛选出并对单词排序;
测试单词处理模块:筛选出所需测试的单词,并对单词进行测试,记录测试正确率。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述数据库学习模块的处理步骤包括:
71)搜集文章;
72)结合现有字典,对每个单词的出现的同义词、反义词、近似词进行记录;
73)搜集考题集合;
74)对每个单词的出现的同义词、反义词、近似词进行筛选,保留常用的、容易被作为考点的单词,同时按照以下公式估计每个单词在各项考试中的重要程度, 
Figure 407238DEST_PATH_IMAGE001
公式中Imp()为当单词的重要程度,Rep()为当前单词在各项考试中出现的频率,Sy()为同义词个数,Ant()为反义词个数,Ana()为相似词个数,Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度,
Figure 221610DEST_PATH_IMAGE002
为一组平衡的系数,该组系数在数据库的基础上使用逻辑回归(Logistic Regression)技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Imp(x)进行人工核定;因为Sy(x),Ant(x),Ana(x)和Novelty(x)都可以通过统计得到,核定后的数据库就够成了1万个以
Figure 44073DEST_PATH_IMAGE002
为未知数的方程,解这1万个方程就可以得到
Figure 311106DEST_PATH_IMAGE002
的最优值。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述图形化的复习界面模块的图形化语境展示方法采用处理步骤包括:
81) 查询数据库学习模块的数据库,获得每个单词的同义词、反义词、近似词、并计算其重要程度:
82)以当前单词为中心,将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境,以达到直观记忆的目的。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述复习单词处理模块的处理步骤包括:
91)按以下公式计算每个单词的需复习权重Rew(x),
Figure 720395DEST_PATH_IMAGE003
公式中,公式中Imp()为当单词的重要程度,Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度,Accur(x)为用户在测试中对x表现出的正确率,
Figure 2013100628571100002DEST_PATH_IMAGE007
为平衡因子,通过使用逻辑回归(Logistic Regression)技术自动获取;使用逻辑回归(Logistic Regression)技术学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Rew(x)进行人工核定;因为Imp(x)已经由74)中方法算出,Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算,Accur(x)可以通过统计得到,核定后的数据库就够成了1万个以
Figure 389273DEST_PATH_IMAGE004
为未知数的方程,解这1万个方程就可以得到
Figure 320320DEST_PATH_IMAGE005
的最优值。
92)根据各单词的需复习权重对单词进行排序,选取权重高于0.8的词推荐用户进行复习。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述测试单词处理模块的处理步骤包括:
101)按以下公式计算每个单词的需测试权重Test(x),
       公式中,公式中Imp()为当单词的重要程度,Accur(x)为用户在测试中对x表现出的正确率,Span(x)为当前单词上次被测试时距现在的时间跨度;
102)根据各单词的需测试权重对单词进行排序,选取权重高于0.8的词推荐用户进行测试;
103)测试完成后更新每个单词的测试正确率Accur(x)。
因为本发明采用以上技术方案,所以具备以下有益效果:
一、能将每个单词的同义词、反义词、近似词、以及重要程度自动地以图形方式呈现出来,从而为每个单词构建一个上下文相关(Context Related)的语境,帮助用户进行更形象直观的单词记忆。
二、 该系统能自动地识别用户的记忆能力、记忆周期、以及弱项单词(用户最不容易记住的单词),从而自动地为用户选择需要记忆的单词和制定复习的日程表,达到高效率的记忆。经过40个用户2年的测试表明,使用该系统的用户的年均单词记忆量达到1万个以上,年最高单词记忆量为3万个。
附图说明
图1为本发明的系统流程方框图。
具体实施方式
本发明可在个人计算机(PC)、手机、或者平板电脑上以任何一种高级编程语言实现。其中单词查询、复习和测试过程的人机交互可以通过鼠标点击、键盘输入、手指划取(手机和平板上)等接口来实现。目前原型版本已经采用C#与C++相结合的方式实现出计算机应用程序,系统后台采用SQLLite数据库存储,人机交互界面如下图所示。
一种基于上下文语境和机器学习的单词记忆方法,其特征在于包括以下步骤:
1)查询不理解单词;
2)系统调用已学习好的数据库,找到所查单词的同义词、反义词、近似词以及重要程度,并以图形化的语境方式展示给用户;
3)将单词加入生词本;
4)在用户需要时,系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习的单词,并提供图形化的复习界面;
5)在用户需要时,系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需测试的单词,并提供图形化的测试界面;
6)系统根据用户在复习和测试中的表现,使用逻辑回归(Logistic Regression)技术自动识别用户的记忆能力、记忆周期、以及弱项单词,作为每次复习和测试的参考。
上述方案中,所述步骤2中数据库的学习采用处理步骤包括:
21)搜集文章;
22)结合现有字典,对每个单词的出现的同义词、反义词、近似词进行记录;
23)搜集考题集合;
24)对每个单词的出现的同义词、反义词、近似词进行筛选,保留常用的、容易被作为考点的单词,同时按照以下公式估计每个单词在各项考试中的重要程度, 
Figure 811661DEST_PATH_IMAGE001
公式中Imp()为当单词的重要程度,Rep()为当前单词在各项考试中出现的频率,Sy()为同义词个数,Ant()为反义词个数,Ana()为相似词个数,Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度,
Figure 335047DEST_PATH_IMAGE002
为一组平衡的系数,该组系数在数据库的基础上使用逻辑回归技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Imp(x)进行人工核定;因为Sy(x),Ant(x),Ana(x)和Novelty(x)都可以通过统计得到,核定后的数据库就够成了1万个以
Figure 951842DEST_PATH_IMAGE002
为未知数的方程,解这1万个方程就可以得到
Figure 193467DEST_PATH_IMAGE002
的最优值。
上述方案中,所述步骤2中图形化的复习界面的图形化语境展示方法采用处理步骤包括:
31) 查询步骤2中所述的数据库,获得每个单词的同义词、反义词、近似词、并计算其重要程度:
32)以当前单词为中心,将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境,以达到直观记忆的目的。
上述方案中,所述步骤4中选择所需复习的单词采用处理步骤包括:
41)按以下公式计算每个单词的需复习权重Rew(x),
Figure 468591DEST_PATH_IMAGE003
公式中,公式中Imp()为当单词的重要程度,Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度,Accur(x)为用户在测试中对x表现出的正确率,为平衡因子,通过使用逻辑回归(Logistic Regression)技术自动获取;使用逻辑回归(Logistic Regression)技术学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Rew(x)进行人工核定;因为Imp(x)已经由24)中方法算出,Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算,Accur(x)可以通过统计得到,核定后的数据库就够成了1万个以
Figure 49745DEST_PATH_IMAGE004
为未知数的方程,解这1万个方程就可以得到的最优值。
42)根据各单词的需复习权重对单词进行排序,选取权重高于0.8的词推荐用户进行复习。
上述方案中,所述步骤5中选择所需测试的单词采用处理步骤包括:
51)按以下公式计算每个单词的需测试权重Test(x),
Figure 113833DEST_PATH_IMAGE006
       公式中,公式中Imp()为当单词的重要程度,Accur(x)为用户在测试中对x表现出的正确率,Span(x)为当前单词上次被测试时距现在的时间跨度;
        52)根据各单词的需测试权重对单词进行排序,选取权重高于0.8的词推荐用户进行测试;
        53)测试完成后更新每个单词的测试正确率Accur(x)。
一种基于上下文语境和机器学习的单词记忆装置,其特征在于包括:
数据库学习模块:对每个单词的出现的同义词、反义词、近似词进行筛选记录;
图形化的复习界面模块:根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习(Review)的单词或测试(Test)的单词,并提供图形化的复习界面;
复习单词处理模块:筛选出并对单词排序;
测试单词处理模块:筛选出所需测试的单词,并对单词进行测试,记录测试正确率。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述数据库学习模块的处理步骤包括:
71)搜集文章;
72)结合现有字典,对每个单词的出现的同义词、反义词、近似词进行记录;
73)搜集考题集合;
74)对每个单词的出现的同义词、反义词、近似词进行筛选,保留常用的、容易被作为考点的单词,同时按照以下公式估计每个单词在各项考试中的重要程度, 
公式中Imp()为当单词的重要程度,Rep()为当前单词在各项考试中出现的频率,Sy()为同义词个数,Ant()为反义词个数,Ana()为相似词个数,Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度,为一组平衡的系数,该组系数在数据库的基础上使用逻辑回归(Logistic Regression)技术通过计算机自动学习到。使用逻辑回归(Logistic Regression)技术的学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Imp(x)进行人工核定;因为Sy(x),Ant(x),Ana(x)和Novelty(x)都可以通过统计得到,核定后的数据库就够成了1万个以
Figure 877575DEST_PATH_IMAGE002
为未知数的方程,解这1万个方程就可以得到
Figure 649222DEST_PATH_IMAGE002
的最优值。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述图形化的复习界面模块的图形化语境展示方法采用处理步骤包括:
81) 查询数据库学习模块的数据库,获得每个单词的同义词、反义词、近似词、并计算其重要程度:
82)以当前单词为中心,将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境,以达到直观记忆的目的。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述复习单词处理模块的处理步骤包括:
91)按以下公式计算每个单词的需复习权重Rew(x),
公式中,公式中Imp()为当单词的重要程度,Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度,Accur(x)为用户在测试中对x表现出的正确率,
Figure 420049DEST_PATH_IMAGE007
为平衡因子,通过使用逻辑回归(Logistic Regression)技术自动获取;使用逻辑回归(Logistic Regression)技术学习过程为:首先,选取1万个单词作为训练数据库;对训练数据库每个单词,由专家对Rew(x)进行人工核定;因为Imp(x)已经由74)中方法算出,Forg(x)可以根据Hermann Ebbinghaus遗忘曲线计算,Accur(x)可以通过统计得到,核定后的数据库就够成了1万个以
Figure 772533DEST_PATH_IMAGE004
为未知数的方程,解这1万个方程就可以得到
Figure 715081DEST_PATH_IMAGE005
的最优值。
92)根据各单词的需复习权重对单词进行排序,选取权重高于0.8的词推荐用户进行复习。
上述的一种基于上下文语境和机器学习的单词记忆装置,所述测试单词处理模块的处理步骤包括:
101)按以下公式计算每个单词的需测试权重Test(x),
Figure 339967DEST_PATH_IMAGE006
       公式中,公式中Imp()为当单词的重要程度,Accur(x)为用户在测试中对x表现出的正确率,Span(x)为当前单词上次被测试时距现在的时间跨度;
102)根据各单词的需测试权重对单词进行排序,选取权重高于0.8的词推荐用户进行测试;
103)测试完成后更新每个单词的测试正确率Accur(x)。

Claims (10)

1.一种基于上下文语境和机器学习的单词记忆方法,其特征在于包括以下步骤:
1)查询不理解单词;
2)系统调用已学习好的数据库,找到所查单词的同义词、反义词、近似词以及重要程度,并以图形化的语境方式展示给用户;
3)将单词加入生词本;
4)在用户需要时,系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习的单词,并提供图形化的复习界面;
5)在用户需要时,系统根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需测试的单词,并提供图形化的测试界面;
6)系统根据用户在复习和测试中的表现,使用逻辑回归技术自动识别用户的记忆能力、记忆周期、以及弱项单词,作为每次复习和测试的参考。
2. 根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆方法,其特征在于:所述步骤2中数据库的学习采用处理步骤包括:
21)搜集文章;
22)结合现有字典,对每个单词的出现的同义词、反义词、近似词进行记录;
23)搜集考题集合;
24)对每个单词的出现的同义词、反义词、近似词进行筛选,保留常用的、容易被作为考点的单词,同时按照以下公式估计每个单词在各项考试中的重要程度, 
Figure 2013100628571100001DEST_PATH_IMAGE002
公式中Imp()为当单词的重要程度,Rep()为当前单词在各项考试中出现的频率,Sy()为同义词个数,Ant()为反义词个数,Ana()为相似词个数,Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度,为一组平衡的系数,该组系数在数据库的基础上使用逻辑回归技术通过计算机自动学习到。
3.根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆方法,其特征在于:所述步骤2中图形化的复习界面的图形化语境展示方法采用处理步骤包括:
31) 查询步骤2中所述的数据库,获得每个单词的同义词、反义词、近似词、并计算其重要程度:
32)以当前单词为中心,将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境,以达到直观记忆的目的。
4.根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆系统,其特征在于:所述步骤4中选择所需复习的单词采用处理步骤包括:
41)按以下公式计算每个单词的需复习权重Rew(x),
Figure 2013100628571100001DEST_PATH_IMAGE006
公式中,公式中Imp()为当单词的重要程度,Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度,Accur(x)为用户在测试中对x表现出的正确率,为平衡因子,通过使用逻辑回归技术自动获取。42)根据各单词的需复习权重对单词进行排序,选取权重高于0.8的词推荐用户进行复习。
5.根据权利要求1所述的一种基于上下文语境和机器学习的单词记忆系统,其特征在于:所述步骤5中选择所需测试的单词采用处理步骤包括:
51)按以下公式计算每个单词的需测试权重Test(x),
Figure 2013100628571100001DEST_PATH_IMAGE010
       公式中,公式中Imp()为当单词的重要程度,Accur(x)为用户在测试中对x表现出的正确率,Span(x)为当前单词上次被测试时距现在的时间跨度;
        52)根据各单词的需测试权重对单词进行排序,选取权重高于0.8的词推荐用户进行测试;
        53)测试完成后更新每个单词的测试正确率Accur(x)。
6.一种基于上下文语境和机器学习的单词记忆装置,其特征在于包括:
数据库学习模块:对每个单词的出现的同义词、反义词、近似词进行筛选记录;
图形化的复习界面模块:根据用户的记忆能力、记忆周期、已经弱项单词为其选择所需复习(Review)的单词或测试(Test)的单词,并提供图形化的复习界面;
复习单词处理模块:筛选出并对单词排序;
测试单词处理模块:筛选出所需测试的单词,并对单词进行测试,记录测试正确率。
7.根据权利要求6所述的一种基于上下文语境和机器学习的单词记忆装置,其特征在于:所述数据库学习模块的处理步骤包括:
71)搜集文章;
72)结合现有字典,对每个单词的出现的同义词、反义词、近似词进行记录;
73)搜集考题集合;
74)对每个单词的出现的同义词、反义词、近似词进行筛选,保留常用的、容易被作为考点的单词,同时按照以下公式估计每个单词在各项考试中的重要程度, 
Figure 2013100628571100001DEST_PATH_IMAGE012
公式中Imp()为当单词的重要程度,Rep()为当前单词在各项考试中出现的频率,Sy()为同义词个数,Ant()为反义词个数,Ana()为相似词个数,Novelty()为该单词最后一次在考试中出现的时间距当前时间的跨度,为一组平衡的系数,该组系数在数据库的基础上使用逻辑回归技术通过计算机自动学习到。
8.根据权利要求6所述的一种基于上下文语境和机器学习的单词记忆装置,其特征在于:所述图形化的复习界面模块的图形化语境展示方法采用处理步骤包括:
81) 查询数据库学习模块的数据库,获得每个单词的同义词、反义词、近似词、并计算其重要程度:
82)以当前单词为中心,将其同义词、反义词、近似词按照重要程度由内至外、同时上至下以环状分布在当前单词周围形成一个图形化的语境,以达到直观记忆的目的。
9.根据权利要求6所述的一种基于上下文语境和机器学习的单词记忆装置,其特征在于:所述复习单词处理模块的处理步骤包括:
91)按以下公式计算每个单词的需复习权重Rew(x),
Figure 467282DEST_PATH_IMAGE006
公式中,公式中Imp()为当单词的重要程度,Forg(x)为根据Hermann Ebbinghaus遗忘曲线计算出的遗忘度,Accur(x)为用户在测试中对x表现出的正确率,为平衡因子,通过使用逻辑回归技术自动获取;
92)根据各单词的需复习权重对单词进行排序,选取权重高于0.8的词推荐用户进行复习。
10.根据权利要求6所述的一种基于上下文语境和机器学习的单词记忆装置,其特征在于:所述测试单词处理模块的处理步骤包括:
101)按以下公式计算每个单词的需测试权重Test(x),
Figure 322105DEST_PATH_IMAGE010
       公式中,公式中Imp()为当单词的重要程度,Accur(x)为用户在测试中对x表现出的正确率,Span(x)为当前单词上次被测试时距现在的时间跨度;
102)根据各单词的需测试权重对单词进行排序,选取权重高于0.8的词推荐用户进行测试;
103)测试完成后更新每个单词的测试正确率Accur(x)。 
CN201310062857.1A 2013-02-28 2013-02-28 基于图形式上下文语境和机器学习的单词记忆方法及其装置 Expired - Fee Related CN103116648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310062857.1A CN103116648B (zh) 2013-02-28 2013-02-28 基于图形式上下文语境和机器学习的单词记忆方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310062857.1A CN103116648B (zh) 2013-02-28 2013-02-28 基于图形式上下文语境和机器学习的单词记忆方法及其装置

Publications (2)

Publication Number Publication Date
CN103116648A true CN103116648A (zh) 2013-05-22
CN103116648B CN103116648B (zh) 2016-05-11

Family

ID=48415021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310062857.1A Expired - Fee Related CN103116648B (zh) 2013-02-28 2013-02-28 基于图形式上下文语境和机器学习的单词记忆方法及其装置

Country Status (1)

Country Link
CN (1) CN103116648B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法
CN107402971A (zh) * 2017-06-29 2017-11-28 清远墨墨教育科技有限公司 一种单词助记的创建方法
CN108897594A (zh) * 2018-06-27 2018-11-27 清远墨墨教育科技有限公司 一种根据用户反馈生成单词复习列表的方法,存储设备及移动终端
CN109522560A (zh) * 2018-11-27 2019-03-26 龙马智芯(珠海横琴)科技有限公司 用于单词记忆的方法、计算机可读存储介质及计算机设备
CN111815267A (zh) * 2020-06-19 2020-10-23 北京国音红杉树教育科技有限公司 一种外语学习及复习的方法及装置
CN113705221A (zh) * 2021-08-27 2021-11-26 北京百度网讯科技有限公司 一种单词推送方法、装置、电子设备及存储介质
WO2022088731A1 (zh) * 2020-11-02 2022-05-05 北京搜狗科技发展有限公司 一种数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588339A (zh) * 2004-08-23 2005-03-02 宫雷光 具有可配置的单词标记功能的电子词典
US20050084830A1 (en) * 2003-09-05 2005-04-21 Kaufmann Steven J. Method of teaching a foreign language of a multi-user network requiring materials to be presented in audio and digital text format
CN1963752A (zh) * 2006-11-28 2007-05-16 李博航 基于自然语言的电子设备人机交互操作界面技术
CN102074147A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 以图像界面提供单词学习的系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050084830A1 (en) * 2003-09-05 2005-04-21 Kaufmann Steven J. Method of teaching a foreign language of a multi-user network requiring materials to be presented in audio and digital text format
CN1588339A (zh) * 2004-08-23 2005-03-02 宫雷光 具有可配置的单词标记功能的电子词典
CN1963752A (zh) * 2006-11-28 2007-05-16 李博航 基于自然语言的电子设备人机交互操作界面技术
CN102074147A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 以图像界面提供单词学习的系统及其方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法
CN106897950B (zh) * 2017-01-16 2020-07-28 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法
CN107402971A (zh) * 2017-06-29 2017-11-28 清远墨墨教育科技有限公司 一种单词助记的创建方法
CN107402971B (zh) * 2017-06-29 2020-09-11 清远墨墨教育科技有限公司 一种单词助记的创建方法
CN108897594A (zh) * 2018-06-27 2018-11-27 清远墨墨教育科技有限公司 一种根据用户反馈生成单词复习列表的方法,存储设备及移动终端
CN108897594B (zh) * 2018-06-27 2021-02-23 清远墨墨教育科技有限公司 一种根据用户反馈生成单词复习列表的方法
CN109522560A (zh) * 2018-11-27 2019-03-26 龙马智芯(珠海横琴)科技有限公司 用于单词记忆的方法、计算机可读存储介质及计算机设备
CN111815267A (zh) * 2020-06-19 2020-10-23 北京国音红杉树教育科技有限公司 一种外语学习及复习的方法及装置
CN111815267B (zh) * 2020-06-19 2024-01-19 北京国音红杉树教育科技有限公司 一种外语学习及复习的方法及装置
WO2022088731A1 (zh) * 2020-11-02 2022-05-05 北京搜狗科技发展有限公司 一种数据处理方法及装置
CN113705221A (zh) * 2021-08-27 2021-11-26 北京百度网讯科技有限公司 一种单词推送方法、装置、电子设备及存储介质
CN113705221B (zh) * 2021-08-27 2023-11-10 北京百度网讯科技有限公司 一种单词推送方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103116648B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN103116648A (zh) 基于图形式上下文语境和机器学习的单词记忆方法及其装置
CN104090890B (zh) 关键词相似度获取方法、装置及服务器
CN106127634B (zh) 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
CN106650780A (zh) 数据处理方法及装置、分类器训练方法及系统
CN102214246B (zh) 一种互联网上汉语电子文档阅读分级的方法
CN105761567A (zh) 动态推荐习题的方法和装置
CN105005563B (zh) 一种摘要生成方法及装置
CN110674271A (zh) 一种问答处理方法及装置
CN104809503A (zh) 一种基于神经网络深度学习的心理顾问机器人系统
CN109522560A (zh) 用于单词记忆的方法、计算机可读存储介质及计算机设备
CN103745423A (zh) 一种口型示教系统与示教方法
CN103869998A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN105069647A (zh) 一种改进的抽取中文商品评论中评价对象的方法
CN106202034A (zh) 一种基于依存约束和知识的形容词词义消歧方法和装置
CN106202377A (zh) 一种基于随机梯度下降的在线协同排序方法
CN109242323A (zh) 一种汽车维修厂评分方法及相关装置
CN113918806A (zh) 自动推荐培训课程的方法及相关设备
CN103577557A (zh) 一种确定网络资源点的抓取频率的装置和方法
CN107688621A (zh) 一种文案的优化方法和系统
CN101140560A (zh) 一种单词记忆系统及方法
CN111797258B (zh) 基于美感评价的图像推送方法、系统、设备及存储介质
CN103810210A (zh) 搜索结果显示方法及装置
CN105929944A (zh) 一种三维人机交互方法
CN105893363A (zh) 一种获取知识点的相关知识点的方法及系统
CN103019924A (zh) 输入法智能性评测系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160511

CF01 Termination of patent right due to non-payment of annual fee