CN114723591A

CN114723591A - 基于增量式张量Tucker分解的教育推荐方法及系统

Info

Publication number: CN114723591A
Application number: CN202210389002.9A
Authority: CN
Inventors: 周亚建; 岳宗乾
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-08
Anticipated expiration: 2042-04-13
Also published as: CN114723591B

Abstract

本发明公开了基于增量式张量Tucker分解的教育推荐方法；获取t时刻的教育用户数据、教育资源数据和教育轨迹数据；分别对教育用户数据、教育资源数据和教育轨迹数据进行张量表示，获得教育用户张量、教育资源张量和教育轨迹张量；对教育用户张量、教育资源张量和教育轨迹张量进行融合，获得t时刻的教育融合张量；对t时刻的教育融合张量进行Tucker分解，获得t时刻的因子矩阵和t时刻的核心张量；根据增量式张量Tucker分解算法对t时刻的因子矩阵和t时刻的核心张量进行更新；获得更新之后的因子矩阵和核心张量；通过该方法可以大大提高推荐过程中的计算效率，并为教育用户提供精准的推荐服务。

Description

基于增量式张量Tucker分解的教育推荐方法及系统

技术领域

本发明属于分解和推荐技术领域，特别是基于增量式张量Tucker分解的教育推荐方法及系统。

背景技术

当前数据具有来源广泛且相互交织的特性，因此大数据具有数据规模大、类型多样、产生速度快以及价值密度不均匀的特征；基于以上特征，在进行大数据分析时需要充分考虑不同领域数据之间的关联。张量是高维数据的自然表达形式，而张量分解可以有效挖掘大数据场景中的隐含表示。在推荐服务场景中，例如在教育推荐场景中，基于张量分解可以对学习者的过往行为和相似用户的行为进行分析，得到学习者所需求的内容，并以此为学习者提供精准推荐服务。

但是现实生活中的应用，无时无刻不在产生大量的增量式数据，单机远远无法应对动态增长的大量数据场景；因此，如何提高张量分解的效率，成为当前研究的关键问题。

发明内容

鉴于上述问题，本发明提供一种至少解决上述部分技术问题的基于增量式张量Tucker分解的教育推荐方法，通过该方法可以大大提高推荐过程中的计算效率，并为教育用户提供精准的推荐服务。

本发明实施例提供了基于增量式张量Tucker分解的教育推荐方法，包括：

S1、获取t时刻的教育用户数据、教育资源数据和教育轨迹数据；

S2、分别对所述教育用户数据、教育资源数据和教育轨迹数据进行张量表示，获得教育用户张量、教育资源张量和教育轨迹张量；

S3、对所述教育用户张量、教育资源张量和教育轨迹张量进行融合，获得t时刻的教育融合张量；

S4、对所述t时刻的教育融合张量进行Tucker分解，获得t时刻的因子矩阵和t时刻的核心张量；

S5、根据增量式张量Tucker分解算法对所述t时刻的因子矩阵和t时刻的核心张量进行更新；获得更新之后的因子矩阵和核心张量；

S6、根据所述更新之后的因子矩阵和核心张量，进行教育资源的推荐。

进一步地，所述S2具体包括：

S21、对教育用户数据进行张量表示，获得教育用户张量；

S22、对教育资源数据进行张量表示，获得教育资源张量；

S23、对教育轨迹数据进行张量表示，获得教育轨迹张量。

进一步地，所述S21具体包括：

S211、根据所述教育用户数据的特征数量，确定所述教育用户张量的阶数；

S212、根据所述教育用户数据的数量，确定所述教育用户张量的维度；

S213、根据所述教育用户张量的阶数和所述教育用户张量的维度，确定所述教育用户张量。

进一步地，所述S22具体包括：

S221、根据所述教育资源数据的特征数量，确定所述教育资源张量的阶数；

S222、根据所述教育资源数据的数量，确定所述教育资源张量的维度；

S223、根据所述教育资源张量的阶数和所述教育资源张量的维度，确定所述教育资源张量。

进一步地，所述S23具体包括：

S231、根据所述教育轨迹数据的特征数量，确定所述教育轨迹张量的阶数；

S232、根据所述教育轨迹数据的数量，确定所述教育轨迹张量的维度；

S233、根据所述教育资源张量的阶数和所述教育轨迹张量的维度，确定所述教育轨迹张量。

进一步地，所述S3具体包括：对具有相同阶数的教育用户张量、教育资源张量和教育轨迹张量进行融合，获得所述t时刻的教育融合张量。

进一步地，所述S5具体包括：

S51、基于对t+1时刻的教育融合张量，对所述t时刻的因子矩阵进行更新，获得更新后的因子矩阵；

S52、通过更新公式对所述t+1时刻的核心张量进行更新，获得更新后的核心张量；所述更新公式表示为：

其中，G^(t+1)表示t+1时刻的核心张量；G^(t)表示t时刻的核心张量；x表示教育融合张量；T表示时间序列；其中i₁i₂…i_N表示分块的教育融合张量下标；(i₁i₂…i_N)∈Θ\(0…0)表示i₁i₂…i_N的取值均不为0；

表示t时刻的因子矩阵；

表示更新后的因子矩阵；

和

均表示将更新后的因子矩阵拆分后所获得的矩阵；Θ表示N项二元组。

进一步地，所述S51具体包括：

S511、根据t+1时刻的新增的教育融合张量相对于t时刻的教育融合张量的位置，对所述t+1时刻的教育融合张量进行分块，获得多个分块张量；

S512、按照预设规则对所述分块张量进行划分，获得N类分块张量；

S513、根据子张量划分算法分别对所述N类分块张量进行计算，之后通过分布式算法再次进行计算，获得所述t+1时刻的教育融合张量的因子矩阵。记作t+1时刻的因子矩阵；

S514、将所述t+1时刻的因子矩阵与t时刻的因子矩阵进行拼接，对拼接结果进行施密特正交化处理，获得所述更新后的因子矩阵。

进一步地，所述S6具体包括：

S61、基于截断后的因子矩阵和核心张量进行重构，获得多个近似张量；

S62、根据用户的相对访问次数，对所述多个近似张量进行排序，生成教育资源推荐列表。

与现有技术相比，本发明记载的基于增量式张量Tucker分解的教育推荐方法，具有如下有益效果：

本发明中，增量式张量Tucker分解处理的对象是融合和的张量，能更准确的挖掘隐含信息；

本发明的分解过程中去除较小的奇异值及其对应特征(通常是一些噪音数据)，从而保留最主要的特征，可以大大提供推荐过程中的计算效率；

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于增量式张量Tucker分解的教育推荐方法流程图。

图2为本发明实施例提供的教育用户张量、教育资源张量和教育轨迹张量的结构示意图。

图3为本发明实施例提供的简化后的教育融合张量的结构示意图。

图4为本发明实施例提供的N阶张量Tucker分解算法流程图。

图5为本发明实施例提供的教育资源推荐过程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参见图1所示，本发明实施例提供了基于增量式张量Tucker分解的教育推荐方法，具体包括如下步骤：

下面分别对上述各个步骤进行详细的说明。

在上述步骤S2中，根据学号、学习偏好、学习风格和学习目标等特征构建教育用户张量；根据资源号、难度、类型和媒体等特征构建教育资源张量；根据学号、时间、资源号和地点等构建教育轨迹张量，教育用户张量、教育资源张量和教育轨迹张量的结构示意图如图2所示；接下来对具体的构建过程做进一步说明：

S21、对教育用户数据进行张量表示，获得教育用户张量；具体为：

S211、根据教育用户数据的特征数量，确定教育用户张量的阶数；例如，如果设定教育用户数据包括学号、学习偏好、学习风格和学习目标这四个特征，则教育用户张量的阶数即为四阶张量；

S212、根据教育用户数据的数量，确定教育用户张量的维度；例如，如果教育用户数据一共有100个数据，其中学号、学习偏好、学习风格和学习目标这四个特征，所对应的取值依次分别为3、5、4、2；则对应的教育用户张量的维度为100×3×5×4×2；

S213、根据教育用户张量的阶数和教育用户张量的维度，确定教育用户张量。

S22、对教育资源数据进行张量表示，获得教育资源张量；具体为：

S221、根据教育资源数据的特征数量，确定教育资源张量的阶数；

S222、根据教育资源数据的数量，确定教育资源张量的维度；

S223、根据教育资源张量的阶数和教育资源张量的维度，确定教育资源张量。

S23、对教育轨迹数据进行张量表示，获得教育轨迹张量；具体为：

S231、根据教育轨迹数据的特征数量，确定教育轨迹张量的阶数；

S232、根据教育轨迹数据的数量，确定教育轨迹张量的维度；

S233、根据教育资源张量的阶数和教育轨迹张量的维度，确定教育轨迹张量。

由于教育用户数据、教育资源数据和教育轨迹数据的数量均为多个，且每个数据均对应一个张量，所以在该步骤中，所获得的教育用户张量、教育资源张量和教育轨迹张量的数量均为多个，其中每个张量均可称之为子张量。

在上述步骤S3中，为了更精确的挖掘数据之间的关联，实现更精准的教育资源推荐，考虑将各个子张量进行关联融合；具体做法是首先通过张量连接操作将具有相同阶数的不同张量进行融合，然后将两个子张量的相同阶数进行合并，其他阶数都各自保留，融合后所获得的教育融合张量中的元素为原有张量中相对应元素之积。例如，给定学习者张量A，学习资源张量B，学习轨迹张量AB；由于学习者张量A和学习轨迹张量AB都有学号特征，因此可以首先将学习者张量A和学习轨迹张量AB按照学号阶进行张量连接操作得到临时张量M，然后再将临时张量M和学习资源张量B按照资源号阶进行张量连接得到融合张量T。

教育融合张量可能会存在冗余元素，导致教育融合张量消耗的存储空间比较大，同时在对教育融合张量进行计算时的时间复杂度和硬件资源要求比较高，因此本发明实施例中进一步考虑对教育融合张量进行简化操作，简化操作主要时依据学习者、学习时间、学习地点、使用设备、资源等五个维度进行简化，简化之后可以得到简化张量，在简化张量的基础上进行计算和分析。简化操作的具体过程为：首先给定一个N阶的张量

其中，R代表实数集；I₁,I₂,…,I_N为张量每一阶的大小，然后沿着pth,(p+1)th,…,qth从张量χ中抽取一部分元素，抽取出的该部分元素记为张量

其中p、p+1、q均代表抽取的元素的张量维度；该张量的元素组成为：

其中，N代表张量的阶数；I代表每一阶的大小；i为I的取值；

该步骤中对教育融合张量进行处理时，主要按照学习者、学习时间、学习地点、使用设备和学习资源进行抽取。简化后的教育融合张量如图3所示。

在上述步骤S4-S5中，为了实现对教育资源的推荐，需要通过张量Tucker分解来对教育融合张量进行分析；由于教育用户数据、教育资源数据和教育轨迹数据会不间断产生，因此教育融合张量也是不断变化的；如果每次有新数据产生后都生成新的教育融合张量，然后对新的教育融合张量重新进行一次Tucher分解，那么这种方式会做大量重复计算，浪费大量的计算资源和存储空间。

因此本发明实施例中采用增量式的张量Tucker分解，在上一次Tucker分解的基础上直接对分解结果进行更新，节约计算时间，提高分析效率；但是教育应用中会产生海量的数据，单机环境无法处理这种复杂的局面，张量Tucker分解从单机环境向并行、分布式方向发展。

本发明实施例提出使用分布式的增量式的张量Tucker分解来实现对教育资源的推荐。对于分布式的增量式的张量Tucker分解方法，在获得t时刻的因子矩阵和t时刻的核心张量后，根据增量式张量Tucker分解算法对t时刻的因子矩阵和t时刻的核心张量进行更新；获得更新之后的因子矩阵和核心张量；具体更新方式如下：

首先对t时刻的的因子矩阵进行更新，因子矩阵的更新根据新增子张量来决定。这里对任意N阶增量式张量的Tucker分解的过程进行分析。首先给定t时刻的教育融合张量

当有新增数据到来时，对新增数据进行表示即可得到t+1时刻的教育融合张量

其中t+1时刻的教育融合张量χ^(t+1)可以看作

上式中，Θ为N项二元组

当t+1时刻的教育融合张量

的下标全为0时有

即下标全为0时为t时刻的张量。根据全量式张量分解算法可以得到t时刻的教育融合张量的Tucker分解结果：核心张量G^(t)和因子矩阵

首先输入t时刻张量的Tucker分解结果G^(t)和

t+1时刻的教育融合张量

以及划分数量p_n；其中划分数量即为算法运行的并行度，算法将输出t+1时刻的核心张量G^(t+1)以及因子矩阵

算法具体执行流程如图4所示。

对于t+1时刻的教育融合张量为N阶的情况，首先根据t+1时刻的教育融合张量相对于t时刻的教育融合张量的位置，对t+1时刻的教育融合张量进行分块，获得多个分块张量；位置不同，新增张量对原始张量分解出的银子矩阵和核心张量更新规则也不同；然后根据这多个分块张量中下标中含1的个数将分块张量分为N类；最后对每一个分块张量按照子张量划分算法进行划分，获得上述提到的划分数量p_n。子张量的划分完成以后，以分布式算法再次进行计算，获得t+1时刻的教育融合张量的因子矩阵。记作t+1时刻的因子矩阵；更新过程中对因子矩阵进行施密特正交化处理，直到所有的因子矩阵更新循环完成。

上一步骤完成以后，将t+1时刻的因子矩阵与t时刻的因子矩阵进行拼接，并对拼接结果再次进行施密特正交化处理，完成因子矩阵的更新。

在对因子矩阵更新完成以后，需要继续对t时刻的核心张量进行更新，更新公式如下：

上式中，

G^(t+1)表示t+1时刻的核心张量；G^(t)表示t时刻的核心张量；x表示教育融合张量；T表示时间序列；其中i₁i₂…i_N表示分块的教育融合张量下标；(i₁i₂…i_N)∈Θ\(0…0)表示i₁i₂…i_N的取值均不为0；

表示t时刻的因子矩阵；

表示更新后的因子矩阵；

和

均表示将更新后的因子矩阵拆分后所获得的矩阵；其中，下标0表示因子矩阵拆分后的第一部分，下标1表示因子矩阵拆分后的第二部分；Θ表示N项二元组。在进行更新张量划分、因子矩阵更新、核心张量更新操作时都以分布式的形式进行计算，避免大数据量的情况下，单机无法处理影响分析效率。至此，算法完成了t+1时刻增量式的分布式的张量Tucker分解。

在得到更新后的因子矩阵和核心张量后，为进一步提高处理速度可以根据推荐精度对因子矩阵和核心张量进行截断，然后基于截断后的因子矩阵和核心张量进行重构得到近似张量；该部分内容具体在本发明实施例的步骤S6中执行。

在上述步骤S6中，对更新后的因子矩阵和核心张量进行截断；即按照目标精度进行截断；基于截断后的因子矩阵和核心张量进行重构，获得多个近似张量；其中，重构具体为将核心张量与因子矩阵做张量模n乘运算；首先按照教育用户的维度对这多个近似张量进行处理，即根据教育用户在不同教育轨迹中学习的学习资源次数进行排序，得到Top-K个教育资源，进而可以得到推荐资源张量；然后对上述获得的多个近似张量按照教育资源的维度进行处理，根据每个资源在不同轨迹下学习过的教育用户进行排序，可以得到Top-K个教育用户，并基于此构建推荐教育用户张量。

对于有历史学习记录的教育用户，通过本发明所提供的方法可以根据对教育融合张量简化后的张量，以及历史学习记录为教育用户推荐教育资源，实现基于学习行为的资源推荐；对于新用户或者没有历史学习记录的教育用户，通过本发明所提供的方法可以根据资源推荐张量和相似教育用户的学习记录来填充推荐张量，进而实现对新用户的教育资源推荐。

例如，如果第i个教育用户在第k个环境下需要获得推荐资源，那么根据这第i个教育用户和第k个环境来获取子张量，同时获取剩余资源情境的资源张量；然后根据不同剩余情境下对该资源进行访问的相对次数对资源进行排序，即根据相对访问次数对资源进行排序，然后选择前K个资源拼接成为资源推荐张量；接下来如果学习者只要求推荐最后的资源号，那么这时候求解资源推荐张量的资源纤维，然后根据相对访问次数进行排序，进而生成推荐资源列表。同理，我们可根据上述过程生成推荐学习者列表。

图5为一个5阶张量的教育资源推荐过程示意图；图5(a)表示的是t时刻的教育融合张量和第l个教育用户在第t个时刻的融合子张量的示意图；图5(b)是对t时刻的教育融合张量进行增长量式张量Tucker分解之后重构的近似张量示意图；图5(c)是基于近似张量执行推荐算法得到的推荐结果，因为给定情境只指定了所有情境中时间，所以得到的推荐资源张量中，包含剩余情境下的推荐结果，即在不同地点，采用不同设备的推荐结果是不同的；如果不考虑剩余情境，只需要最后总的推荐资源列表，那么可以对子张量进行简化，然后得到只含有资源的纤维，最后将Top-P个资源进行推荐。

本发明实施例中，为了实现教育推荐系统，构建了“教育用户-教育资源-教育轨迹”的张量模型来表示教育大数据；张量表示模型可能存在缺少元素的情况，基于此，可以通过张量分解对数据进行分解进而得到数据中隐含的表示信息，在此基础上补全缺失数据；经过上述过程可以实现基于张量分解的教育资源推荐。在教育大数据场景中，不同的教育用户在不同的情境中可能具有不同的学习习惯或者行为，为了给教育用户推荐在某一场景下相似的学习伙伴，本文提出基于张量分解的推荐方法；在使用张量对数据进行表示的场景中，随着张量的阶数的增大，可能会存在张量模型中数据稀疏的问题，直接对原始张量数据进行分析会大大影响分析性能；因此，本文提出对张量数据进行融合，进而高效挖掘数据中的关键特征信息。必须考虑对张量进行分布式计算提高分析效率。本文提出一种高效的分布式的增量式张量Tucker分解方法，借助Spark框架对海量新增数据进行处理，提高数据计算和分析效率

其中，增量式张量Tucker分解处理的对象是融合和的张量，能更准确的挖掘隐含信息；分解过程中去除较小的奇异值及其对应特征(通常是一些噪音数据)，从而保留最主要的特征，可以大大提供推荐过程中的计算效率；重构后得到的近似张量可以将原始张量中的零数据通过整体数据关联分析转变成非零数据，这些非零数据正好代表当前学习记录发生的相对可能性，从而挖掘原始张量中潜在的学习关联。基于增量式张量Tucker分解的关联分析方法可以完整地维持高维空间的信息表征结构，并从多个维度进行分析以挖掘数据之间潜在的关联关系，实现更加精准的推荐效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。