CN109918568B

CN109918568B - 个性化学习方法、装置、电子设备及存储介质

Info

Publication number: CN109918568B
Application number: CN201910189450.2A
Authority: CN
Inventors: 万星; 熊皓; 杨娜; 周洁; 张伯英; 宋晓雯; 赵静璇; 金灿; 马庆然; 董云姗; 佘俏俏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2021-06-01
Anticipated expiration: 2039-03-13
Also published as: CN109918568A

Abstract

本申请提出一种个性化学习方法、装置、电子设备及存储介质，属于计算机应用技术领域。其中，该方法包括：在目标用户使用应用时，获取目标用户当前的使用数据；根据目标用户当前的使用数据，确定当前目标用户使用应用的场景；利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容；根据目标学习模式，向目标用户展示目标学习内容。由此，通过这种个性化学习方法，实现了为用户自动推荐符合用户个性化需求的学习模式与学习内容，操作简单，效率高，改善了用户体验。

Description

个性化学习方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机应用技术领域，尤其涉及一种个性化学习方法、装置、电子设备及存储介质。

背景技术

目前，英语学习得到了越来越多人的重视，从幼儿时期的启蒙到工作中的进修，英语学习无论是在学习还是在工作阶段，均占据着一定比例的时间。幼儿时期的学习比较系统，学生有专门的学习时间和空间，但是对于想要进修和充电的上班族来说，英语学习的条件就相当有限。因此，为满足用户随时进行英语学习的需求，许多可安装在移动终端中的英语学习应用应运而生。

相关技术中，各种英语学习应用通常通过设置多种学习资源，以供用户根据自身的学习需求自行选择相应的资源进行学习。但是，这种由用户自行选择学习资源的方式，用户通常需要经过繁琐的操作才能获取到适合自己的内容，学习资源获取过程耗时长、效率低，影响了用户体验。

发明内容

本申请提出的个性化学习方法、装置、电子设备及存储介质，用于解决相关技术中，由用户自行选择学习资源的方式，通常需要用户经过繁琐的操作才能获取到适合自己的内容，学习资源获取过程耗时长、效率低，影响了用户体验的问题。

本申请一方面实施例提出的个性化学习方法，包括：在目标用户使用应用时，获取所述目标用户当前的使用数据；根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景；利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容；根据所述目标学习模式，向所述目标用户展示所述目标学习内容。

本申请另一方面实施例提出的个性化学习装置，包括：第一获取模块，用于在目标用户使用应用时，获取所述目标用户当前的使用数据；确定模块，用于根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景；第二获取模块，用于利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容；展示模块，用于根据所述目标学习模式，向所述目标用户展示所述目标学习内容。

本申请再一方面实施例提出的电子设备，其包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如前所述的个性化学习方法。

本申请再一方面实施例提出的计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如前所述的个性化学习方法。

本申请又一方面实施例提出的计算机程序，该程序被处理器执行时，以实现本申请实施例所述的个性化学习方法。

本申请实施例提供的个性化学习方法、装置、电子设备、计算机可读存储介质及计算机程序，可以在目标用户使用应用时，获取目标用户当前的使用数据，并根据目标用户当前的使用数据，确定当前目标用户使用应用的场景，之后利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容，进而根据目标学习模式，向目标用户展示目标学习内容。由此，通过利用与用户对应的推荐模型，确定与用户当前使用应用的场景相符的学习模式与学习内容，从而实现了为用户自动推荐符合用户个性化需求的学习模式与学习内容，操作简单，效率高，改善了用户体验。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种个性化学习方法的流程示意图；

图2为本申请实施例所提供的另一种个性化学习方法的流程示意图；

图3-1为本申请实施例所提供的一种推荐模型的示意图；

图3-2为本申请实施例所提供的一种场景和对应学习模式的Action列表及对应的Reward获取机制的示意图；

图4为本申请实施例所提供的一种个性化学习装置的结构示意图；

图5为本申请实施例所提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请实施例针对相关技术中，由用户自行选择学习资源的方式，通常需要用户经过繁琐的操作才能获取到适合自己的内容，学习资源获取过程耗时长、效率低，影响了用户体验的问题，提出一种个性化学习方法。

本申请实施例提供的个性化学习方法，可以在目标用户使用应用时，获取目标用户当前的使用数据，并根据目标用户当前的使用数据，确定当前目标用户使用应用的场景，之后利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容，进而根据目标学习模式，向目标用户展示目标学习内容。由此，通过利用与用户对应的推荐模型，确定与用户当前使用应用的场景相符的学习模式与学习内容，从而实现了为用户自动推荐符合用户个性化需求的学习模式与学习内容，操作简单，效率高，改善了用户体验。

下面参考附图对本申请提供的个性化学习方法、装置、电子设备、存储介质及计算机程序进行详细描述。

图1为本申请实施例所提供的一种个性化学习方法的流程示意图。

如图1所示，该个性化学习方法，包括以下步骤：

步骤101，在目标用户使用应用时，获取所述目标用户当前的使用数据。

其中，目标用户，是指当前正在使用应用的任一用户。本申请实施例中的应用，是指可以为用户提供任何类型学习资源的应用，比如，可以为用户提供语言类学习资源的应用，或者，也可以为用户提供财务类学习资源的应用等等，本实施例对此不做限定。为方便说明，本申请以下部分均以该应用为英语学习应用为例进行说明。

其中，目标用户当前的使用数据，可以包括以下信息中的至少一个：目标用户当前输入的查询语句、目标用户当前所在的位置、目标用户当前启动的应用功能、目标用户当前的运动状态等。

具体的，目标用户当前输入的查询语句，是指目标用户在该应用的搜索界面输入的查询语句。举例来说，对英语类学习应用而言，该查询语句可以为一个词语、也可以为一个完整的句子。

通常，英语类学习应用中可以包括多种功能模块，用户在使用时，可以根据需要选择对应的功能模块使用，本申请实施例中还可以实时监测目标用户在使用应用过程中，启动的应用的功能。

另外，还可以通过调用应用所在的电子设备中的定位组件(如GPS定位组件)，获取用户当前所在的位置；或者，还可以通过利用应用所在的电子设备中的加速度计或陀螺仪的反馈信息，获取目标用户当前的运动状态；或者根据应用所在的电子设备在连续时间段内的定位信息，获取目标用户当前的运动状态；或者根据应用所在的电子设备中具有计步器功能的应用的反馈信息，确定目标用户当前的运动状态等等。

需要说明的是，目标用户当前的使用数据中包括的信息类型，以及使用数据的获取方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要预设使用数据中包括的信息类型，以及各信息的获取方式，本申请实施例对此不做限定。

步骤102，根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景。

可以理解的是，不同的使用场景下，用户的学习需求不同，而目标用户当前的使用数据，可以反映出用户当前使用应用的场景，进而反映用户的使用需求及偏好。因此，在本申请实施例一种可能的实现形式中，可以首先根据获取的目标用户当前的使用数据，确定当前目标用户使用应用的场景。

作为一种可能的实现方式，可以预设使用数据与场景的映射关系，之后即可根据获取的目标用户当前的使用数据，以及预设的使用数据与场景的映射关系，将与目标用户当前的使用数据相符的场景，确定为当前目标用户使用应用的场景。

可选的，使用数据与场景的映射关系，可以为应用通过对大数据进行训练后确定的；或者，也可以是通过对目标用户使用应用的历史使用数据及反馈数据确定的，本实施例对此不做限定。

需要说明的是，上述举例仅为示例性的，不能视为对本申请的限制，确定使用数据与场景的映射关系的方式可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要预设使用数据与场景的映射关系，本申请实施例对此不做限定。

步骤103，利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容。

其中，对于英语类学习应用而言，学习模式，可以包括双语句对阅读、跟读、视频讲解、配音、表演等模式；学习内容，是指学习的知识点，比如词汇、语法、句法等等。目标学习模式及目标学习内容，是指与目标用户当前的使用数据相符的学习模式及学习内容。

可以理解的是，不同目标用户的使用习惯及偏好不同，因此，对于当前的使用数据相同的不同的目标用户，符合其使用习惯及偏好的学习模式及学习内容，也可能是不同的。因此，在本申请实施例一种可能的实现形式中，可以提前训练推荐模型，并且不同目标用户对应的推荐模型，可以是不同的，进而可以根据目标用户对应的推荐模型，对确定的当前目标用户使用应用的场景进行解析处理，以确定与当前目标用户使用应用的场景相符的、与目标用户对应的目标学习模式及目标学习内容。

作为一种可能的实现方式，在已知各种学习模式和学习内容的情况下，可以采用深度增强式学习(Deep Reinforcement Learning，简称DeepRL)算法对目标用户的学习过程进行建模，通过增强式学习机制，逐步掌握目标用户的行为习惯和用户的学习能力，并建立目标用户的学习行为和学习能力与学习模式及学习内容的对应关系，即建立目标用户对应的推荐模型。

需要说明的是，在采用深度增强式学习算法训练推荐模型时，选取的具体算法可以包括深度Q-Learning(Deep Q-Learing，简称DQN)算法、策略梯度(PolicyGradient)算法、Actor-Critic算法等，但不仅限于此。实际使用时，可以根据实际需要选取合适的深度增强式学习算法，本申请实施例对此不做限定。

或者，应用在上线之前，还可以通过对大量标注数据进行训练，以生成通用的推荐模型，进而在应用使用过程中，根据各个用户的实际使用信息，对通用推荐模型进行修正，以生成与每个用户对应的个性化推荐模型。即本申请中，与目标用户对应的推荐模型，可以通过以下方式得到：

根据所述目标用户的历史使用信息，对预设的推荐模型进行修正训练，生成与所述目标用户对应的推荐模型。

其中，预设的推荐模型，为应用预先训练得到的通用的推荐模型。目标用户的历史使用信息，可以包括历史学习内容、学习过程中执行的操作、在各学习内容中停留的时长、对各学习内容重复的次数等信息。

作为一种可能的实现方式，可以预设一个初始的推荐模型，以在目标用户首次使用应用时，利用预设的推荐模型为首次使用应用的目标用户推荐目标学习模式及目标学习内容，并在目标用户在使用应用的过程中，不断获取目标用户的使用信息，比如执行的操作、对该学习内容学习的时长、重复的次数等等。从而根据获取的目标用户的历史使用信息、及该学习模式及学习内容对应的预期使用信息，不断对预设的推荐模型进行修正训练，以生成与目标用户对应的推荐模型，并使得目标用户对应的推荐模型越来越符合目标用户的使用习惯和偏好，提高用户体验。

其中，学习模式及学习内容对应的预期使用信息，是指该学习模式及学习内容与用户个性化需求匹配时，用户的使用信息。即当用户的实际使用信息与预期使用信息匹配时，说明该学习模式及学习内容适合用户需求，从而可以达到较好的学习效果。

举例来说，在目标用户A首次使用应用的场景为场景I时，根据预设的推荐模型确定的目标学习模式为X、目标学习内容为Y。其中，学习内容Y对应的预期使用信息为：在学习过程中执行5次词语查询操作、停留时长为10分钟。而在学习内容Y以X的模式进行展示的过程中，获取的目标用户A的使用信息为：执行了10次词语查询操作、在学习内容Y中停留时长为5分钟。从而可以确定当前的学习模式或学习内容，并不适合用户需求，比如难度较大(用户执行了10次词语查询操作，而预期操作为5次)，从而即可根据该结果对预设的推荐模型进行修正训练，以使修正后的推荐模型调整与当前的场景I，对应的学习模式和/或学习内容，从而使最终确定的学习模式及学习内容对应的预期使用信息，与用户实际产生的使用信息匹配，从而得到与该用户对应的推荐模型。

步骤104，根据所述目标学习模式，向所述目标用户展示所述目标学习内容。

在本申请实施例中，确定出当前与目标用户对应的目标学习模式及目标学习内容之后，即可以根据目标学习模式，向目标用户展示目标学习内容。

举例来说，确定的当前与目标用户对应的目标学习模式为“视频讲解”，目标学习内容为单词“Agree”，则可以通过视频的方式，播放与单词“Agree”对应的视频讲解内容，其中，视频讲解内容中可以包括单词“Agree”的发音、释义、用法、具体语境示范等。

在本申请一种可能的实现形式中，还可以通过与目标用户对应的推荐模型，确定目标用户当前使用应用的场景，即目标用户对应的推荐模型可以包括两级预测，可以在第一级预测中，首先根据目标用户当前的使用数据，预测出当前目标用户使用应用的场景，进而在下一级预测中根据当前目标用户使用应用的场景，预测目标用户对应的目标学习模式及目标学习内容。

下面结合图2，对本申请实施例提供的个性化学习方法进行进一步说明。

图2为本申请实施例所提供的另一种个性化学习方法的流程示意图。

如图2所示，该个性化学习方法，包括以下步骤：

步骤201，在目标用户使用应用时，获取所述目标用户当前的使用数据。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，利用与所述目标用户对应的推荐模型，对所述目标用户当前的使用数据进行识别处理，以确定当前所述目标用户使用所述应用的场景。

作为一种可能的实现方式，目标用户对应的推荐模型可以包括两级预测，第一级预测用于根据目标用户当前的使用数据，确定当前目标用户使用应用的场景。具体的，可以将获取的目标用户当前的使用数据输入目标用户对应的推荐模型，以使目标用户对应的推荐模型对目标用户当前的使用数据进行识别处理，从而确定当前目标用户使用应用的场景。

优选的，可以首先将目标用户当前的使用数据输入推荐模型的输入层，之后推荐模型的输入层可以输出目标用户当前的使用数据对应的向量，之后将目标用户当前的使用数据对应的向量输入叠加在输入层之后的若干层循环神经网络(Recurrent NeuralNetwork，简称RNN)层，用于更加丰富的语义信息，以使得根据用户当前的使用数据，识别出的场景类型更加准确，之后在RNN层之后叠加多层感知器(Multi-Layer Perceptron，简称MLP)层，并通过MLP层输出场景识别结果。

如图3-1所示，为本申请实施例所提供的一种推荐模型的示意图。其中，EmbeddingLayer为输入层，RNN Layer为循环神经网络层，MLP Layer为多层感知器层(MLP层)，第一个MLPLayer用于场景预测，第二个MLPLayer用于根据第一个MLP Layer的场景识别结果，预测当前目标用户对应的目标学习模式及目标学习内容。

具体的，Embedding Layer的输出为输入的目标用户当前的使用数据对应的向量X，RNN Layer的输出为O_rnn＝f(h,X)，其中，O_rnn为RNN Layer的输出，f为GRU(GatedRecurrent Unit)记忆单元，h为隐藏层的状态值；第一个MLP Layer的输出为O_mlp1＝w_mlp1O_rnn+b_mlp1，其中，O_mlp1为第一个MLP Layer的输出，w_mlp1、b_mlp1为第一个MLP Layer的网络参数，可以在推荐模型训练的过程中确定并不断优化；在获得第一个MLP Layer的输出之后，可以根据第一个MLP Layer的输出进行第一次预测：p(s|O_mlp1,O_rnn,X)，即确定当前目标用户使用应用的场景。

需要说明的是，由于不同用户的使用习惯和偏好不同，因此在当前的使用数据相同的情况下，不同用户习惯使用的学习模式及学习内容也可能不同，即不同用户在当前的使用数据相同时，适用的场景可能不同。因此，为了提高推荐的准确性和可靠性，本申请实施例中还可以根据目标用户的属性信息、历史使用信息、当前的使用数据等数据，共同确定当前目标用户使用应用的场景。即在本申请实施例一种可能的实现形式中，上述步骤202之前，还可以包括：

获取所述目标用户的属性信息、历史学习内容及与所述历史学习内容对应的操作数据；

相应的，上述步骤202，可以包括：

利用与所述目标用户对应的推荐模型，对所述目标用户的属性信息、历史学习内容、与所述历史学习内容对应的操作数据及当前的使用数据进行识别处理，以确定当前所述目标用户使用所述应用的场景。

其中，目标用户的属性信息，可以包括目标用户的姓名、性别、年龄、职业、学历等个性化信息；历史学习内容，可以包括目标用户学习过的学习内容，及学习内容对应的难度系数等信息；历史学习内容对应的操作数据，可以包括目标用户在学习相应的学习内容时，对学习内容中的单词的查询次数、学习时长、重复次数等信息。

需要说明的是，目标用户的属性信息、历史学习内容、与历史学习内容对应的操作数据中包括的具体内容，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要预设上述数据中分别包括的具体内容，本申请实施例对此不做限定。

作为一种可能的实现方式，可以首先对目标用户对应的属性信息、历史学习内容、与历史学习内容对应的操作数据及当前的使用数据，分别进行向量映射，以确定各项数据分别对应的向量，之后可以将各项数据分别对应的向量之和，作为推荐模型的输入层，或者将各项数据分别第一的向量进行拼接之后对应的向量，作为模型的输入层，以使推荐模型可对输入的向量进行识别处理，以确定当前目标用户使用应用的场景。

举例来说，目标用户的属性信息对应的向量为X1，历史学习内容对应的向量为X2，与历史学习内容对应的操作数据对应的向量为X3，当前的使用数据对应的向量为X4，则推荐模型的输入层向量可以为X＝X1+X2+X3+X4，或者推荐模型的输入层向量也可以为X＝[X1,X2,X3,X4]。

作为一种可能的实现方式，输入层的向量还可以包括预先学习的一些通用特征对应的向量，即每个目标用户对应的输入层向量中均包括通用特征对应的向量。比如，通用特征对应的向量为Y，则在上例中，推荐模型的输入层向量可以为X＝X1+X2+X3+X4+Y，或者推荐模型的输入层向量也可以为X＝[X1,X2,X3,X4,Y]。

作为一种可能的实现方式，输入层向量中还可以包括一部分无意义的空闲位，以便于后期可以对推荐模型进行扩展或完善。比如，假设输入层向量为一个N维向量，则可以将输入层向量的第M维至第N维预设为空闲位，可以用0、1或者其他无具体意义的符号填充空闲位。

需要说明的是，输入层向量的确定方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要预设输入层向量的确定方式，本申请实施例对此不做限定。

步骤203，利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容。

步骤204，根据所述目标学习模式，向所述目标用户展示所述目标学习内容。

上述步骤204-205的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

进一步的，在将目标学习内容根据目标学习模式展示给目标用户之后，以使目标用户可以对目标学习内容进行学习之后，还可以根据目标用户对目标学习内容的实际操作，对目标用户对应的推荐模型进行调整，以使调整后的推荐模型更加符合目标用户的使用习惯及偏好，进一步改善用户体验。即在本申请实施例一种可能的实现形式中，上述步骤205之后，还可以包括：

获取所述目标用户在所述目标学习内容展示过程中的实际操作数据；

根据与所述目标学习内容对应的预设操作数据及所述实际操作数据的差异，对与所述目标用户对应的推荐模型进行调整，以获取与所述目标用户对应的调整后的推荐模型。

在本申请实施例一种可能的实现形式中，采用DeepRL技术来实现推荐模型的训练时，需要建立合理的场景和对应学习模式的Action列表，以及对应的Reward获取机制，并根据目标用户在目标学习内容展示过程中的实际操作数据，确定目标用户在目标学习内容展示过程中的Reward值，进而根据获取的Reward值对推荐模型的权重进行调整，以获取与目标用户对应的调整后的推荐模型。如图3-2所示，为本申请实施例所提供的一种场景和对应学习模式的Action列表及对应的Reward获取机制的示意图。

作为一种可能的实现方式，Reward获取机制，可以是首先预设每个学习模式中的每个学习内容的操作数据，并根据目标用户在目标学习内容展示过程中的实际操作数据与实际操作数据的差异，对目标用户对应的推荐模型进行调整。具体的，目标用户在目标学习内容展示过程中的实际操作数据与实际操作数据的差异越大，则目标用户对应的推荐模型越不符合用户的使用习惯及偏好，即需要对推荐模型的权重进行较大调整，以使调整后的推荐模型更加符合目标用户的使用习惯及偏好；目标用户在目标学习内容展示过程中的实际操作数据与实际操作数据的差异越小，则目标用户对应的推荐模型越符合用户的使用习惯及偏好，即需要对推荐模型的权重进行较小调整，或不调整。

举例来说，根据目标用户对应的推荐模型，确定的目标学习模式为“双语句对阅读”，目标学习内容为“一篇难度适中的双语文章”，该目标学习内容对应的预设操作数据为“查询m次词典”。在目标用户阅读的过程中，获取到用户进行了n次单词查询操作，则此次推荐操作产生的Reward为(n-m)，之后即可将获得的Reward值(n-m)反馈给推荐模型，以根据Reward值进行权重调整。比如，若目标用户频繁的查询单词，即n与m的差值较大，则表明当前推荐的双语阅读难度超过了用户的学习水平，可以通过对推荐模型的动态调整，根据调整后的推荐模型下次推荐给目标用户的文章难度则会降低。

在本申请实施例中，在通过推荐模型的第一级预测，确定出当前目标用户使用应用的场景之后，可以利用推荐模型的第二级预测根据确定出的场景，确定当前目标用户对应的目标学习模式及目标学习内容。

如图3-1所示的推荐模型，在确定当前目标用户使用应用的场景之后，可以通过第二个MLP Layer层对确定的场景进行深层表示：O_mlp2＝w_mlp2e_s+b_mlp2，其中，e_s为对第一次预测出的场景进行Embedding的结果，w_mlp2、b_mlp2为第二个MLP Layer的网络参数。根据第二个MLPLayer的输出，可以通过第二次预测确定当前目标用户对的目标学习模式及目标学习内容：p(c|O_mlp2，e_s，O_mlp1，O_rnn，X)。根据预测的结果c，可以按照上述阐述的方式获得预测的目标学习模式及目标学习内容对应的Reward，进而根据获取的Reward对推荐模型进行调整。

举例来说，第二个MLP Layer的梯度可以直接根据Policy Gradient进行调整：

但是，由于传统方法预测的结果是离散的，不可导，从而导致对于第一次预测之前的结果无法进行更新。因此，对于第一次预测的结果，可以不使用softmax进行表示，而是采用gumbel-softmax进行reparameter重采样获得，这样对于第一次预测的结果是一个可导的过程，可以对后续参数的梯度进行反向梯度传播操作。例如，可以采用多次gumbel-softmax的结果进行平均化。

本申请实施例提供的个性化学习方法，可以在目标用户使用应用时，获取目标用户当前的使用数据，并根据目标用户的历史使用信息，对预设的推荐模型进行修正训练，生成与目标用户对应的推荐模型，之后利用与目标用户对应的推荐模型，对目标用户当前的使用数据进行识别处理，以确定当前目标用户使用应用的场景，进而利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容，并根据目标学习模式，向目标用户展示目标学习内容。由此，通过具有两级预测的推荐模型分别对当前用户使用应用的场景以及对应的目标学习模式及目标学习内容进行预测，不仅实现了为用户自动推荐符合用户个性化的学习模式与学习内容操作效率高，而且进一步提高了推荐的准确性，进一步改善了用户体验。

为了实现上述实施例，本申请还提出一种个性化学习装置。

图4为本申请实施例提供的一种个性化学习装置的结构示意图。

如图4所示，该个性化学习装置30，包括：

第一获取模块31，用于在目标用户使用应用时，获取所述目标用户当前的使用数据；

确定模块32，用于根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景；

第二获取模块33，用于利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容；

展示模块34，用于根据所述目标学习模式，向所述目标用户展示所述目标学习内容。

在实际使用时，本申请实施例提供的个性化学习装置，可以被配置在任意电子设备中，以执行前述个性化学习方法。

本申请实施例提供的个性化学习装置，可以在目标用户使用应用时，获取目标用户当前的使用数据，并根据目标用户当前的使用数据，确定当前目标用户使用应用的场景，之后利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容，进而根据目标学习模式，向目标用户展示目标学习内容。由此，通过利用与用户对应的推荐模型，确定与用户当前使用应用的场景相符的学习模式与学习内容，从而实现了为用户自动推荐符合用户个性化需求的学习模式与学习内容，操作简单，效率高，改善了用户体验。

在本申请一种可能的实现形式中，上述个性化学习装置30，还包括：

生成模块，用于根据所述目标用户的历史使用信息，对预设的推荐模型进行修正训练，生成与所述目标用户对应的推荐模型。

进一步的，在本申请另一种可能的实现形式中，上述个性化学习装置30，还包括：

第三获取模块，用于获取所述目标用户在所述目标学习内容展示过程中的实际操作数据；

第四获取模块，用于根据与所述目标学习内容对应的预设操作数据及所述实际操作数据的差异，对与所述目标用户对应的推荐模型进行调整，以获取与所述目标用户对应的调整后的推荐模型。

在本申请一种可能的实现形式中，上述确定模块32，包括：

第一确定单元，用于利用与所述目标用户对应的推荐模型，对所述目标用户当前的使用数据进行识别处理，以确定当前所述目标用户使用所述应用的场景。

第五获取模块，用于获取所述目标用户的属性信息、历史学习内容及与所述历史学习内容对应的操作数据；

相应的，上述确定模块32，还包括：

第二确定单元，用于利用与所述目标用户对应的推荐模型，对所述目标用户的属性信息、历史学习内容、与所述历史学习内容对应的操作数据及当前的使用数据进行识别处理，以确定当前所述目标用户使用所述应用的场景。

进一步的，在本申请再一种可能的实现形式中，上述目标用户当前的使用数据，包括以下信息中的至少一个：所述目标用户当前输入的查询语句、所述目标用户当前所在的位置、所述目标用户当前启动的应用功能、所述目标用户当前的运动状态。

需要说明的是，前述对图1、图2所示的个性化学习方法实施例的解释说明也适用于该实施例的个性化学习装置30，此处不再赘述。

本申请实施例提供的个性化学习装置，可以在目标用户使用应用时，获取目标用户当前的使用数据，并根据目标用户的历史使用信息，对预设的推荐模型进行修正训练，生成与目标用户对应的推荐模型，之后利用与目标用户对应的推荐模型，对目标用户当前的使用数据进行识别处理，以确定当前目标用户使用应用的场景，进而利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容，并根据目标学习模式，向目标用户展示目标学习内容。由此，通过具有两级预测的推荐模型分别对当前用户使用应用的场景以及对应的目标学习模式及目标学习内容进行预测，不仅实现了为用户自动推荐符合用户个性化的学习模式与学习内容操作效率高，而且进一步提高了推荐的准确性，进一步改善了用户体验。

为了实现上述实施例，本申请还提出一种电子设备。

图5为本发明一个实施例的电子设备的结构示意图。

如图5所示，上述电子设备200包括：

存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的个性化学习方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被电子设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。电子设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

电子设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，电子设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的电子设备的实施过程和技术原理参见前述对本申请实施例的个性化学习方法的解释说明，此处不再赘述。

本申请实施例提供的电子设备，可以执行如前所述的个性化学习方法，在目标用户使用应用时，获取目标用户当前的使用数据，并根据目标用户当前的使用数据，确定当前目标用户使用应用的场景，之后利用与目标用户对应的推荐模型，对当前目标用户使用应用的场景进行解析处理，以获取当前与目标用户对应的目标学习模式及目标学习内容，进而根据目标学习模式，向目标用户展示目标学习内容。由此，通过利用与用户对应的推荐模型，确定与用户当前使用应用的场景相符的学习模式与学习内容，从而实现了为用户自动推荐符合用户个性化需求的学习模式与学习内容，操作简单，效率高，改善了用户体验。

为了实现上述实施例，本申请还提出一种计算机可读存储介质。

其中，该计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，以实现本申请实施例所述的个性化学习方法。

为了实现上述实施例，本申请再一方面实施例提供一种计算机程序，该程序被处理器执行时，以实现本申请实施例所述的个性化学习方法。

一种可选实现形式中，本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种个性化学习方法，其特征在于，包括：

在目标用户使用应用时，获取所述目标用户当前的使用数据；

根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景；

利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容；

根据所述目标学习模式，向所述目标用户展示所述目标学习内容；

2.如权利要求1所述的方法，其特征在于，所述利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理之前，还包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景，包括：

利用与所述目标用户对应的推荐模型，对所述目标用户当前的使用数据进行识别处理，以确定当前所述目标用户使用所述应用的场景。

4.如权利要求3所述的方法，其特征在于，所述确定当前所述目标用户使用所述应用的场景之前，还包括：

所述确定当前所述目标用户使用所述应用的场景，包括：

5.如权利要求1-4任一所述的方法，其特征在于，所述目标用户当前的使用数据，包括以下信息中的至少一个：所述目标用户当前输入的查询语句、所述目标用户当前所在的位置、所述目标用户当前启动的应用功能、所述目标用户当前的运动状态。

6.一种个性化学习装置，其特征在于，包括：

第一获取模块，用于在目标用户使用应用时，获取所述目标用户当前的使用数据；

确定模块，用于根据所述目标用户当前的使用数据，确定当前所述目标用户使用所述应用的场景；

第二获取模块，用于利用与所述目标用户对应的推荐模型，对当前所述目标用户使用所述应用的场景进行解析处理，以获取当前与所述目标用户对应的目标学习模式及目标学习内容；

展示模块，用于根据所述目标学习模式，向所述目标用户展示所述目标学习内容；

7.如权利要求6所述的装置，其特征在于，还包括：

8.如权利要求6所述的装置，其特征在于，所述确定模块，包括：

9.如权利要求8所述的装置，其特征在于，还包括：

所述确定模块，包括：

10.如权利要求6-9任一所述的装置，其特征在于，所述目标用户当前的使用数据，包括以下信息中的至少一个：所述目标用户当前输入的查询语句、所述目标用户当前所在的位置、所述目标用户当前启动的应用功能、所述目标用户当前的运动状态。

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1-5中任一所述的个性化学习方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的个性化学习方法。