CN111126552A

CN111126552A - 一种智能学习内容推送方法及系统

Info

Publication number: CN111126552A
Application number: CN201911362530.XA
Authority: CN
Inventors: 裴正奇; 段必超; 朱斌斌; 黄梓忱
Original assignee: Shenzhen Qianhai Heidun Technology Co Ltd
Current assignee: Shenzhen Qianhai Heidun Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-08
Anticipated expiration: 2039-12-26
Also published as: CN111126552B

Abstract

本发明提出一种智能学习内容推送方法和系统，引入了机器学习的先进算法，将单词特征，用户特征，外部特征，以及记忆特征等变量进行训练，得出一套机器学习模型，实时更新用户的学习推送方案。对每个人因材施教，实时动态推送最适合该用户的个性化定制记单词方案以及规划。

Description

一种智能学习内容推送方法及系统

技术领域

本发明涉及人工智能领域，尤其涉及一种智能学习内容推送方法及系统。

技术背景

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息进行模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。人工智能是一门极富挑战性的科学，其是十分广泛的科学，它由不同的领域组成，如机器学习、深度学习等等，总的来说，人工智能研究的一个目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。

机器学习和深度学习是人工智能的核心学科，某种程度上来讲深度学习也属于机器学习的范畴，机器学习是人工智能研究发展到一定阶段的必然产物，其专门研究通过计算机学习场景数据中内在的规律性信息，模拟或实现人类的学习行为，以获取新的知识或经验，重新组织已有的知识结构然后不断改善系统自身的性能，最后使计算机能够像人类一样做智能决策。在现在这个大数据时代，机器学习已经成为了人工智能领域的热门方向，随着各个行业领域产生的数据量急剧增多，因此对处理和分析数据的效率要求变高，一系列的机器学习算法以及相应的系统应运而生，并且其作用及功能被极大化。正是因为大数据使得机器学习可以在大量的经验中进行学习，从而不断地提升自身的性能。

对于词汇的学习，最早学习者基本都是通过多次的没有规则的死记硬背，这样的学习效率低下，而且容易遗忘。后来越来越多的人开始研究如何有效地学习词汇，因此很多的学习词汇的方法以及辅助学习词汇的装置也应运而生。目前学习词汇的方法和装置(比如学习词汇的软件或者电子产品)仅仅是从数据库中随机的挑选词汇推送给用户学习，然后当学习完词汇后，接着从用户没有记住的词汇的数据库中再次随机挑选词汇推送给用户学习，但是这样会忽略一个很重要的问题，那就是用户在当下记住的词汇，在之后的一段时间内可能会遗忘掉，这主要是没有考虑用户本身的记忆画像和词汇的记忆画像，因此这种简单的随机挑选词汇的方式并不能有效地判断用户对词汇的学习程度。如此会产生恶性的后果，那就是用户会以为自身已经记住了推送的词汇，严重的误导用户。

不仅如此，目前的学习词汇的方法和装置不能对不同的用户实现个性化的辅助学习，不同的用户在学习能力、词汇基础以及年龄等方面存在很大的差异，因此仅仅使用单一的方式帮助用户学习词汇，并不能有效地帮助多数用户学习词汇。

除此以外，每个单词之间也存在着不同层次的关联关系，有的是近义关系，有的是联想关系，有的是词素构成关系，有的是记忆辅助关系，这一系列的关联关系难以用传统算法进行精准量化及处理，很容易被简单的统计学处理方法带来误导或不完备。

综上所述，如何提出一种通用的并且智能化的方法和辅助学习的装置可以帮助学习者有效地学习词汇是本领域亟需解决的技术问题。

发明内容

为了实现一种智能学习内容推送方法及系统，本申请实施例提供的技术方案如下：

提出了一种智能学习内容推送方法，包括以下步骤：

步骤S101、对语言词汇学习场景进行建模，创建特定的可量化的特征对象；特定的可量化的特征对象包括：用户特征、词汇特征、外部特征、学习特征；

步骤S102、通过深度学习和/或先验算法训练人工智能算法模型组，对同一组输入得到多组输出，并将其输出进行汇总与融合，得到预期记忆程度；

步骤S103、在用户每次发起学习请求时，借助步骤S102生成的人工智能算法模型组对所有词汇先进行记忆程度的预测，生成遗忘曲线，按照预定筛选原则筛选词汇；

步骤S104、根据词汇的当前记忆程度衰减速率和当前记忆程度计算得到各个词汇被推荐的概率(1-M_t)*V_t；其中，M_t为词汇的当前记忆程度；V_t为词汇的当前记忆程度衰减速率，V_t＝(M_t-M_(t’))/(t’-t)；t为当前时间,t’为下一时间；

步骤S105、按照记忆程度大小优先推送记忆程度较低的词汇，或者如果记忆程度均较低且数值接近，则优先推送衰减速率较大的词汇。

又提出了一种智能学习内容推送系统，包括：

建模单元，用于对语言词汇学习场景进行建模，创建特定的可量化的特征对象；特定的可量化的特征对象包括：用户特征、词汇特征、外部特征、学习特征；

训练单元，用于通过深度学习和/或先验算法训练人工智能算法模型组，对同一组输入得到多组输出，并将其输出进行汇总与融合，得到预期记忆程度；

预测单元，用于在用户每次发起学习请求时，借助训练单元的人工智能算法模型组对所有词汇先进行记忆程度的预测，生成遗忘曲线，按照预定筛选原则筛选词汇；

计算单元，用于根据词汇的当前记忆程度衰减速率和当前记忆程度计算得到各个词汇被推荐的概率(1-M_t)*V_t；其中，M_t为词汇的当前记忆程度；V_t为词汇的当前记忆程度衰减速率，V_t＝(M_t-M_(t’))/(t’-t)；t为当前时间,t’为下一时间；

推荐单元，用于按照记忆程度大小优先推送记忆程度较低的词汇，或者如果记忆程度均较低且数值接近，则优先推送衰减速率较大的词汇。

根据本发明的一个方面，所述用户特征包括用户自身的属性以及用户对当前词库的基本掌握情况。

根据本发明的一个方面，所述用户对当前词库的基本掌握情况的获取方式为随机从待学习词库中抽取N个词汇，作为先行测试集，由用户在正式学习之前对此进行测试，其测试结果会以N维向量的形式储存，并将该向量作为该用户的属性之一；其中，N为自然数。

根据本发明的一个方面，所述词汇特征包括词向量和先验属性。

根据本发明的一个方面，所述深度学习包括：将大量的历史数据作为训练数据，用户特征、词汇特征、外部特征、学习特征四个特征作为输入，该用户的历史测试结果作为输出。

根据本发明的一个方面，所述先验算法包括：将每个词汇的遗忘程度以艾宾浩斯遗忘曲线的形式来表达，词汇w的自然遗忘曲线的基本表达式(变量为时间t)可简化为：

F(w,t)＝B(w)+(1-B(w))/(1+k/A)^t

其中，B(w)为一种根据词汇的难度而自行调整的映射函数，k为常数，A根据该用户对词汇w的历史学习及测试情况而定。

根据本发明的一个方面，所述预定筛选原则设为：一部分的陌生词汇，一部分的已学习词汇，一部分的随机词汇。

根据本发明的一个方面，预测单元中，还包括将词汇分为：未学习、学过未掌握，完全掌握三类；以预定比例推送词汇集合。

根据本发明的一个方面，又提出了一种智能学习内容推送系统，包括：所述系统包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，执行智能学习内容推送方法。

根据本发明的一个方面，又提出了一种计算机可读存储介质，其上存储计算机程序，该程序被处理器执行时实现智能学习内容推送方法。

与现有技术相比，本发明具有如下有益效果：

1.对每个人因材施教，实时动态推送最适合该用户的个性化定制记单词方案以及规划。

2.不仅仅只是考虑记单词时单词本身的属性，而是同时考虑到了用户本身的用户特征，外部特征，以及用户的记忆特征，综合这些特征为用户推荐最适合的记单词方案。

3.不再拘泥于传统的统计学方法，而是引入机器学习的先进算法，将单词特征，用户特征，外部特征，以及记忆特征等变量进行训练，得出一套机器学习模型，实时更新用户的学习推送方案。

4.能够将用户对每一个单词的遗忘曲线展现给用户，让用户能够直观可量化的了解自己对某一个单词的记忆属性，从而根据自己的需求针对性的记忆单词。

5.能够对单词的内在属性进行分析及处理，并得到不同于传统的统计学方法实现的效果。例如，根据遗忘曲线哪些单词与哪些单词适合同组记忆、这些单词学习完之后会与哪些单词产生记忆混淆等等。

附图说明

图1为本发明的一种智能学习内容推送方法的原理框图；

图2为本发明的单条训练数据样例图；

图3为本发明的人工智能算法模型原理图；

图4为本发明的智能学习内容推送方法及系统的运行结果示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明的技术方案做详细描述。

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

如图1所示为本发明的一种智能学习内容推送方法的原理框图，将词汇静态数据和用户数据及其学习测试记录输入智能算法得到量身定制的学习内容及规划，具体地，包括以下步骤：

步骤S101、对语言词汇学习场景进行建模，创建特定的可量化的特征对象。特定的可量化的特征对象包括：用户特征、词汇特征、外部特征、学习特征。

可量化的特征对象能够根据用户的对语言词汇的学习情况实时地动态地为用户生成量身定制的学习内容及学习计划。用户对语言词汇的学习情况可以为词汇测试情况或掌握情况。

a).用户特征：包括用户自身的属性以及用户对当前词库的基本掌握情况。

用户自身的属性为年龄、性别、受教育程度、期望学习紧迫度等等。

用户对当前词库的基本掌握情况的获取方式为随机从待学习词库中抽取N个词汇，作为先行测试集，由用户在正式学习之前对此进行测试，其测试结果会以N维向量的形式储存，并将该向量作为该用户的属性之一。其中，N为自然数。

b).词汇特征：包括词向量和先验属性。

词向量(Word Embedding)技术是将自然语言中的词转化为稠密的向量，词向量是用来表示原始的词，也可被认为是词的特征向量，语义相似的词会有相似的向量表示。生成词向量的方法主要分为两类：一类是基于统计方法，例如：基于共现矩阵、奇异值分解SVD。另外一类是基于语言模型，例如：word2vec、glove、ELMo、BERT。本发明在模型搭建时，先利用词向量技术将词汇转化为词向量，然后将词向量作为模型的输入。

先验属性是根据语言学知识整理得到的，如该词的词性、词根词缀等等。

c).外部特征：已建的模型拟运行时的外部特征，例如时间。

d).学习特征：以单个词汇为单位，描述该用户在特定时间的操作和对应的学习记录。例如在测试时，该用户当时是否答对，分数如何。

根据上述的特定的可量化的特征对象得到的本发明的单条训练数据样例图如图2所示。

步骤S102、通过深度学习和/或先验算法训练人工智能算法模型组，对同一组输入得到多组输出，并将其输出进行汇总与融合，得到预期记忆程度。

步骤S102中人工智能算法模型的输入包括用户特征x、词汇特征y、外部特征t、学习特征L。输出为具备学习特征L的用户x，在外部条件t的时候，对词汇y的预期记忆程度。

如图3所示为本发明的人工智能算法模型原理图。步骤S102中深度学习包括：将大量的历史数据作为训练数据，每条训练数据的构成为“输入-输出”的形式。其中，用户特征、词汇特征、外部特征、学习特征四个特征作为输入，模型的输出为该用户的历史测试结果。该输出结果为已知的数值，因此可以作为供训练的数据。具体来说，可将该用户的历史学习记录中，每一个真实发生过的“测试”作为数据生成的基准，根据该次“测试”的情况去换算得到对应该次“测试”结果的输入特征的数值。一般来说，使用典型的前馈式神经网络，借助反向传播算法，各别词级别的输入以词嵌入的方式进行量化，即可实现此类模型的训练及生成。

步骤S102中先验算法包括：将每个词汇的遗忘程度以艾宾浩斯遗忘曲线的形式来表达，词汇w的自然遗忘曲线的基本表达式(变量为时间t)可简化为：

F(w,t)＝B(w)+(1-B(w))/(1+k/A)^t

其中，B(w)为一种根据词汇的难度而自行调整的映射函数，k为常数，系数A根据该用户对词汇w的历史学习及测试情况而定，因为A直接决定了曲线F(w,t)的变化率，其核心思想为，用户对该词汇的历史学习及测试情况，直接决定了该用户对该词汇w的敏感度，历史测试结果越差，则F(w,t)的下降速率越大，从而表明记忆程度衰减越快，如果该用户对词汇w的历史学习及测试情况有所好转，则A变低，导致F(w,t)的下降速率变缓。

艾宾浩斯遗忘曲线由德国心理学家艾宾浩斯(H.Ebbinghaus)研究提出的，描述了人类大脑对新鲜事物遗忘的规律。人体大脑对新事物遗忘的循序渐进的直观描述，人们可以从遗忘曲线中掌握遗忘规律并加以利用，从而提升自我记忆能力。本发明对每个词汇建立一条遗忘曲线，用于描述词汇的记忆画像。

根据深度学习和/或先验算法，能够得到多组不同的人工智能算法模型组，最终可对同一组输入得到多组输出，并将其输出进行汇总与融合，得到预期记忆程度。深度学习和先验算法可以独立存在并独立运行。对输出进行汇总与融合可以采用投票机制。例如采用深度学习算法预测出用户对某个词汇的记忆程度为0.5。采用先验算法预测的结果是0.6，对二者取平均值得到0.55作为输出结果。由此可以使得输出结果更精确。总体而言，该模型组的作用是能够预测用户对每个词汇未来任意时刻的记忆程度。

步骤S103、在用户每次发起学习请求时，借助步骤S102生成的人工智能算法模型组对所有词汇先进行记忆程度的预测，生成遗忘曲线，按照预定筛选原则筛选词汇。

预定筛选原则可以灵活设置，根据本发明的一个方面，筛选原则设为：一部分的陌生词汇，一部分的已学习词汇，一部分的随机词汇。已学习词汇按照预测的记忆度排序，优先推送预期记忆度较低的词汇。随机词汇能够防止算法形成偏差而导致个别词汇多次或从不出现的问题。

词汇还可根据用户的掌握情况进行分类，根据本发明的一个方面，将词汇分为：未学习、学过未掌握，完全掌握三类。词汇的推送可依据词汇的分类情况，以预定比例进行灵活地组合。与此同时，根据模型预测的记忆程度，以及通过真实发生的测试衡量出来的记忆程度，为每个词汇绘制实时动态的遗忘曲线，供用户实时参考。

步骤S104、根据词汇的当前记忆程度衰减速率和当前记忆程度计算得到各个词汇被推荐的概率(1-M_t)*V_t。其中，M_t为词汇的当前记忆程度。V_t为词汇的当前记忆程度衰减速率，V_t＝(M_t-M_(t’))/(t’-t)。t为当前时间,t’为下一时间。

以下将以高考词汇为例来说明本发明的一种智能学习内容推送方法的具体步骤：

首先由专业人士采集并整理词汇库，本实施例选择高考词汇，总共约3500词，每个单词配备典型的学习内容与先验属性。学习内容包括释义、例句、词根词缀、词汇背景、测试题等等。先验属性包括词性、词频等等。此词汇库将以json格式储存在特定的词汇数据库上。

利用常用的用来训练词向量的方法获取词汇库每个单词所对应的词向量，并将词向量以list或numpy vector的形式储存在词汇库里。词向量与各词汇一一对应。其中，训练词向量的方法例如为word2vec、GloVe等。

在词汇库里，按照词频分布，随机抽取N个单词作为先行测试集，要求先行测试集里面的词汇的词频分布较均匀，避免出现低频词占多数或者高频词占多数的不均匀情况。此先行测试集独立于词汇库储存在服务器里，并为此搭建相应的测试系统，能够随时接收来自客户前端的交互指令并将其结果进行匹配得到测试结果，并将测试结果储存在针对用户的数据格式里。先行测试集的单词数量可以自由调整，本实施例中N＝50。

由用户先在先行测试集上面作答，其作答结果会以N个单词对应的N维向量的形式储存在用户数据结构的用户特征模块里，作为该用户的词汇掌握情况。

采用深度学习模型和/或先验算法模型来预测输出特征。深度学习模型、先验算法模型已事先训练好，其训练数据的采集一般来说独立于该产品的使用，由大量与场景相关的志愿者进行线上或线下的词汇测试与学习，得到大量的原始训练数据，再经过适当的数据清洗，得到规范的训练数据，并以此训练得到相应的深度学习模型和先验算法模型。其中输入特征包括词汇特征、用户特征、外部特征、学习特征。输出特征包括具备特定学习特征的特定用户在特定外部条件下对特定词汇的预期记忆程度。

已备妥的深度学习模型与先验算法模型独立储存及运算，每次的调用指令由用户发出，当用户决定“学习”时，系统立刻采集当时所对应的外部特征，并回调该用户的用户特征，之后再按照预设方式对词汇库里所有词汇进行遍历。预设方式可根据词汇分类情况进行灵活遍历，例如，优先遍历未学过的词汇，再遍历学过但未掌握的词汇。遍历的同时，调用各个词汇的词汇特征，并从用户数据库里回调对应该词汇的用户学习特征(即用户对该词汇的历史学习记录)，借助深度学习模型与先验算法模型计算得到各个词汇的输出值，并将输出值及其所对应的词汇储存在短期记忆数据库里。

依据灵活的学习内容分配方法，根据短期记忆数据库里的词汇内容进行词汇筛选，其筛选方法可以为：优先筛选预期记忆程度较低且其预测出来的遗忘曲线在当前的外部条件下，下降速率最快的单词，例如，根据算法可以绘制出所有单词的遗忘曲线；词汇“abandon”在当前的记忆程度为0.25，再使用模型预测得到该词汇若自然遗忘的话，记忆程度会在1天后下降到0.15，则其当前的遗忘曲线下降速率为0.1/天；词汇“convention”的当前记忆程度为0.3，下降速率为0.2/天，词汇“gigantic”的当前记忆程度为0.24，下降速率为0.05/天。因此，“abandon”被推送的概率为(1-0.25)*0.1＝0.075，“convention”为0.14，“gigantic”为0.038。

具体的词汇推送构成可灵活配置，举例，当前词汇库的词汇主要分为三类：未学过，学过未掌握，已掌握。判断一个单词是否完全掌握取决于该单词是否连续两次测试中都答对，且两次测试的时间间隔超过2天。词汇库的所有单词在当前的外部条件下的预测记忆程度已储存在短期记忆数据库里。已知用户期望每次推送20个单词，那么会从“未学过”里挑选7个记忆程度较低的，3个记忆程度较高的；再从“学过未掌握”里挑选7个记忆程度较低的；再从“已掌握”里挑选2个记忆程度较低的；再从整个词汇库里随机挑选一个单词。

每次用户点击进入任意词汇的学习界面时，系统会读取当前的外部特征，以及对应的其他特征，生成针对该词汇的最新的词汇遗忘曲线，曲线的构成包括实际发生的测试点，以及由模型进行预测得到的预测点。预测点主要用于填充曲线的各空白部分，保证曲线足够均匀。本发明的智能学习内容推送方法及系统的运行结果如图4所示。

将理解，当据称将部件“连接”到另一个部件时，它可以直接连接到另一个部件或可以存在中间部件。本发明未详细描述的部分属于本领域技术人员的公知常识。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种智能学习内容推送方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的智能学习内容推送方法，其特征在于：所述用户特征包括用户自身的属性以及用户对当前词库的基本掌握情况。

3.根据权利要求2所述的智能学习内容推送方法，其特征在于：所述用户对当前词库的基本掌握情况的获取方式为随机从待学习词库中抽取N个词汇，作为先行测试集，由用户在正式学习之前对此进行测试，其测试结果会以N维向量的形式储存，并将该向量作为该用户的属性之一；其中，N为自然数。

4.根据权利要求1所述的智能学习内容推送方法，其特征在于：所述词汇特征包括词向量和先验属性。

5.根据权利要求1所述的智能学习内容推送方法，其特征在于：步骤S102中深度学习包括：将大量的历史数据作为训练数据，用户特征、词汇特征、外部特征、学习特征四个特征作为输入，该用户的历史测试结果作为输出。

6.根据权利要求1所述的智能学习内容推送方法，其特征在于：步骤S102中先验算法包括：将每个词汇的遗忘程度以艾宾浩斯遗忘曲线的形式来表达，词汇w的自然遗忘曲线的基本表达式(变量为时间t)可简化为：

F(w,t)＝B(w)+(1-B(w))/(1+k/A)^t

7.根据权利要求1所述的智能学习内容推送方法，其特征在于：步骤S103中，所述预定筛选原则设为：一部分的陌生词汇，一部分的已学习词汇，一部分的随机词汇。

8.根据权利要求1所述的智能学习内容推送方法，其特征在于：步骤S103中，还包括将词汇分为：未学习、学过未掌握，完全掌握三类，以预定比例推送词汇集合。

9.一种智能学习内容推送系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，执行如权利要求1-8中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任意一项所述的方法。