CN113010687A

CN113010687A - 一种习题标签预测方法、装置、存储介质以及计算机设备

Info

Publication number: CN113010687A
Application number: CN202110242808.0A
Authority: CN
Inventors: 陈静
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-22
Anticipated expiration: 2041-03-03
Also published as: CN113010687B

Abstract

本申请公开了一种习题标签预测方法、装置、存储介质和计算机设备，其中方法包括：获取待预测习题，并从异构图神经网络中抽取与所述待预测习题对应的习题向量，计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量，将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。采用本申请，基于一种半监督分类的异构图神经网络获取待预测习题和标签实体的向量表示，通过计算待预测习题和各标签实体之间的距离，并根据所述距离为习题打上的习题标签。

Description

一种习题标签预测方法、装置、存储介质以及计算机设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种习题标签预测方法、装置、存储介质和计算机设备。

背景技术

随着在线教育行业的蓬勃发展，构建一个高质量习题库逐渐成为在线教育的重要基础。一个高质量的习题库除了要求习题本身没有错误、尽可能是新题之外，还有一个额外的要求就是习题需要有丰富的标签。常见的标签有章节、知识点、解题方法、考察要素等。对于在线题库场景，往往需要学生自行选择需要学习的章节或知识点，如果习题库的习题本身没有这些标签，学生无法找到自己需要学习的习题；对于自适应学习场景，往往需要结合学生的水平给学生推荐合适的习题，如果习题没有解题方法、考察要素等标签，无法根据学生水平推荐合适的习题。因此，如何给习题打上丰富的标签是一个待解决的难题。

发明内容

本申请提供一种习题标签预测方法、装置、存储介质以及计算机设备，可以解决如何为海量的习题打上丰富的习题标签的技术问题。

第一方面，本申请实施例提供一种习题标签预测方法，该方法包括：

获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素之间的关联关系生成；

计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，所述标签向量包括章节向量、知识点向量、解题方法向量和考察要素向量；

在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量；

将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。

第二方面，本申请实施例提供一种习题标签预测装置，包括：

习题获取模块，用于获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素之间的关联关系生成；

距离计算模块，用于计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，所述标签向量包括章节向量、知识点向量、解题方法向量和考察要素向量；

距离筛选模块，用于在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量；

标签确定模块，用于将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。

第三方面，本申请实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行上述方法的步骤。

第四方面，本申请实施例提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。

在本申请实施例中，通过获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，并计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，进而在所述距离中筛选出小于距离阈值的目标距离，通过确定所述目标距离指示的目标标签向量，并将所述目标标签向量对应的标签作为所述待预测习题的习题标签，所述标签类型丰富，可以为习题打上丰富的习题标签。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种习题标签预测方法的流程示意图；

图2为本申请实施例提供的一种习题标签预测方法的流程示意图；

图3为本申请实施例提供的一种生成习题向量和知识点向量的举例示意图；

图4为本申请实施例提供的一种生成第一关联关系的流程示意图；

图5为本申请实施例提供的一种部分第一关联关系的举例示意图；

图6为本申请实施例提供的一种习题标签预测的流程示意图；

图7为本申请实施例提供的一种习题标签预测结果的举例示意图；

图8为本申请实施例提供的一种习题标签预测装置的结构示意图；

图9为本申请实施例提供的一种习题标签预测装置的结构示意图；

图10为本申请实施例提供的一种关联关系模块的结构示意图；

图11为本申请实施例提供的一种图谱训练模块的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使得本申请的特征和优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。附图中所示的流程图仅是示例性说明，不是必须按照所示步骤执行。例如，有的步骤是并列的，在逻辑上并没有严格的先后关系，因此实际执行顺序是可变的。另外，术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”、“第八”仅是为了区分的目的，不应作为本公开内容的限制。

本申请实施例公开的习题标签预测方法和习题标签预测装置可以应用于在线教育领域，例如在线题库的习题标签预测、教育APP中的习题标签预测等，也可以应用于线下习题的习题标签预测，通过将线下习题的文本信息输入到所述习题标签预测装置即可预测习题的习题标签。所述习题标签预测装置，可以包括但不限于手机、个人电脑、笔记本电脑等智能终端。

在本申请实施例中，习题标签预测装置可以基于一种半监督分类的图注意力神经网络获取待预测习题和标签实体的向量表示，所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素之间的关联关系生成，所述习题标签预测装置计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，并在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量，然后将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。

下面将结合图1～图7，对本申请实施例提供的习题标签预测方法进行详细介绍。

请参见图1，为本申请实施例提供了一种习题标签预测方法的流程示意图。如图1所示，所述方法可以包括以下步骤S101～步骤S104。

S101，获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素之间的关联关系生成；

具体的，所述待预测习题包括线上习题和线下习题，所述线上习题可以是在线题库、教育APP中的缺少习题标签的习题，所述线下习题可以是书本上的习题。

所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素等实体之间的关联关系生成，所述异构图神经网络中包含有大量的习题向量、章节向量、知识点向量、解题方法向量以及考察要素向量，采用文本匹配的方式从所述异构图神经网络中找到与所述待预测习题对应的目标样本习题，从所述异构图神经网络中抽取与所述目标样本习题对应的习题向量。

所述样本章节是指所述样本习题在学生课本教材中所属的章节，所述样本知识点是指所述样本习题包含的以及想要考察的知识点，所述样本解题方法是指所述样本习题要考察的解题方法，所述考察要素是指所述样本习题所要考察的学生能力，例如逻辑能力、空间能力、理解能力、计算能力等。

S102，计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，所述标签向量包括章节向量、知识点向量、解题方法向量和考察要素向量；

具体的，依次计算所述习题向量与所述异构图神经网络中每个标签向量之间的距离，所述距离可以是余弦相似度、欧氏距离、曼哈顿距离、切比雪夫距离等。

在本申请实施例中，可优先采用余弦相似度进行计算。所述余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度，通常用于正空间，两个向量夹角的余弦值越趋近于1，说明夹角角度越接近0°，也就是两个向量越接近。

S103，在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量；

具体的，预先设置距离阈值，若习题向量与标签向量之间的距离小于距离阈值，说明所述习题向量与所述标签向量足够接近，则将所述习题向量与所述标签向量之间的距离作为目标距离，所述标签向量即为目标距离对应的目标标签向量。

所述距离阈值具体作用是，若习题向量和标签向量之间的距离大于距离阈值，则所述标签向量与所述习题向量之间的距离不能作为目标距离，若习题向量与标签向量之间的距离小于目标距离，则将所述标签向量与所述习题向量之间的距离作为目标距离。

S104，将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。

所述标签实体包括样本章节、样本知识点、样本解题方法和样本考察要素。

在本申请实施例中，通过获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，并计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，进而在所述距离中筛选出小于距离阈值的目标距离，通过确定所述目标距离指示的目标标签向量，并将所述目标标签向量对应的标签作为所述待预测习题的习题标签，所述标签种类丰富，可以为习题打上丰富的习题标签。

请参见图2，为本申请实施例提供了一种习题标签预测方法的流程示意图。如图2所示，所述方法可以包括以下步骤S201～步骤S209。

S201，获取样本数据，所述样本数据包括样本习题、所述样本习题在文本中所属的样本章节、样本知识点、所述样本习题的样本解题方法和所述样本习题对应的样本考察要素；

具体的，从一些在线习题库中获取样本习题，以及与样本习题关联的标签数据，所述标签数据包括样本章节、样本知识点、样本解题方法以及样本考察要素。

从一些知识库或知识图谱中获取样本知识点和样本章节，以得到较为全面的知识点和章节信息。

S202，采用预训练语言模型分别将各类型实体转换为对应的实体向量，所述类型实体包括样本习题、样本章节、样本知识点、样本解题方法和样本考察要素，所述实体向量包括习题向量、章节向量、知识点向量、解题方法向量以及考察要素向量；

所述预训练语言模型可以是BERT模型，所述BERT模型已在外部的数据集上经过训练，具有较好的语义信息，但是所述语义信息不是教育领域，为了使所述BERT模型更契合教育领域，采用所述样本习题、样本章节、样本知识点、样本解题方法、样本考察要素对所述预训练语言模型进行迁移训练，然后用所述BERT模型将样本习题转换为习题向量、采用所述BERT模型将所述样本章节转换为章节向量、采用所述BERT模型将所述样本知识点转换为知识点向量、采用所述BERT模型将所述样本解题方法转换为解题方法向量以及采用所述BERT模型将所述样本考察要素转换为考察要素向量。

请一并参见图3，本申请实施例提供的一种生成习题向量和知识点向量的举例示意图。其余三种类型向量的生成过程可一并参照图3，在此不一一列举，所述其余三种类型向量包括章节向量、解题方法向量和考察要素向量。

S203，获取所述样本数据中各类型实体之间的关联关系，所述关联关系包括所述样本习题之间的第一关联关系、所述样本章节之间的第二关联关系、所述样本知识点之间的第三关联关系、所述样本知识点与所述样本章节之间的第四关联关系、所述样本习题与所述样本章节之间的第五关联关系、所述样本习题与所述样本知识点之间的第六关联关系、所述样本习题与所述样本解题方法之间的第七关联关系、所述样本习题与所述样本考察要素之间的第八关联关系；

具体的，计算与所述样本习题对应的习题向量之间的第一相似度，并基于所述第一相似度生成所述样本习题之间的第一关联关系，具体是指从所述习题向量中选取目标习题向量，接着计算所述目标习题向量与除所述目标习题向量以外的所有习题向量之间的第一相似度，并按照第一相似度的高低顺序从各所述第一相似度中选取排列在前的预设个数的目标第一相似度，将各所述目标第一相似度对应的习题向量作为所述目标习题向量的相似习题向量，然后确定所述习题向量中的下一个习题向量，将所述下一个习题向量作为所述目标习题向量，并执行所述计算所述目标习题向量与除所述目标习题以外的所有习题向量之间的第一相似度，按照第一相似度的高低顺序从各所述第一相似度中选取排列在前的预设个数的目标第一相似度，将各所述目标第一相似度对应的习题向量作为所述目标习题向量的相似习题向量的步骤，当不存在下一个习题向量时，基于各所述习题向量以及各所述习题向量的相似习题向量生成第一关联关系。

计算与所述样本章节对应的章节向量之间的第二相似度，并基于所述第二相似度生成所述样本章节之间的第二关联关系，具体是指从各所述章节向量中选取目标章节向量，接着计算所述目标章节向量与除所述目标章节向量以外的所有章节向量之间的第二相似度，按照第二相似度的高低顺序从各所述第二相似度中选取排列在前的预设个数的目标第二相似度，将各所述目标第二相似度对应的章节向量作为所述目标章节向量的相似章节向量，然后确定所述章节向量中的下一个章节向量，将所述下一个章节向量作为所述目标章节向量，并执行所述计算所述目标章节向量与除所述目标章节向量以外的所有章节向量之间的第二相似度，按照第二相似度的高低顺序从各所述第二相似度中选取排列在前的预设个数的目标第二相似度，将各所述目标第二相似度对应的章节向量作为所述目标章节向量的相似章节向量的步骤，当不存在下一个章节向量时，基于各所述章节向量以及各所述章节向量的相似章节向量生成第二关联关系。

从知识点知识图谱中获取所述样本知识点之间的第一对应关系，基于所述第一对应关系生成所述样本知识点之间的第三关联关系。

从知识库中获取所述样本知识点与所述样本章节之间的第二对应关系，基于所述第二对应关系生成样本知识点与所述样本章节之间的第四关联关系。

从在线习题库中获取所述样本习题与所述样本章节之间的第三对应关系，基于所述第三对应关系生成所述样本习题与所述样本章节之间的第五关联关系。

从在线习题库中获取所述样本习题与所述样本知识点之间的第四对应关系，基于所述第四对应关系生成所述样本习题与所述样本知识点之间的第六关联关系。

从在线习题库中获取所述样本习题与所述样本解题方法之间的第五对应关系，基于所述第五对应关系生成所述样本习题与所述样本解题方法之间的第七关联关系。

从在线习题库中获取所述样本习题与所述样本考察要素之间的第六对应关系，基于所述第六对应关系生成所述样本习题与所述样本考察要素之间的第八关联关系。

所述第一相似度和所述第二相似度均可采用计算余弦相似度的方式。所述余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度，通常用于正空间，两个向量夹角的余弦值越趋近于1，说明夹角角度越接近0°，也就是两个向量越接近。

请一并参见图4，为本申请实施例提供的一种生成第一关联关系的流程示意图。如图4所示，将习题向量1作为目标习题向量，计算目标习题向量与除习题向量1以外的其余所有习题向量之间的余弦相似度，然后按照相似度的高低顺序从各所述相似度中选取排列在前的5个目标余弦相似度，将5个目标余弦相似度对应的习题向量作为习题向量1的相似习题向量，然后可以得到习题1的5个关联习题，可以参见图5，为本申请实施例提供的一种的部分第一关联关系的举例示意图。

所述第二关联关系的生成过程与所述第一关联关系的生成过程类似，可一并参见图4和图5，在此不一一赘述。

S204，基于所述习题向量、章节向量、知识点向量、解题方法向量、考察要素向量以及所述关联关系生成习题、章节、知识点、解题方法和考察要素的异构关系图谱；

具体的，所述异构关系图谱是指基于习题、章节、知识点、解题方法和考察要素之间的交互关系生成的结构化网络，所述结构化网络中的数据是以向量形式保存的。

S205，采用自注意力机制和损失函数训练所述异构关系图谱，生成异构图神经网络；

具体的，从所述关系图谱中选取目标节点向量，然后采用自注意力机制和损失函数训练所述目标节点向量，得到更新的最终节点向量，接着确定所述关系图谱中的下一个节点向量，将所述下一个节点向量作为目标节点向量，并执行所述采用自注意力机制和损失函数训练所述目标节点向量，得到更新的最终节点向量的步骤，当不存在下一个节点向量时，基于各所述最终节点向量得到最终的异构图神经网络。

所述采用多头自注意力机制和损失函数训练所述目标节点向量，得到更新的最终节点向量，具体包括计算所述目标节点向量对于除所述目标节点向量以外的所有节点向量的权重系数，可参照如下公式进行计算：

h′_i＝M_Φi*h_i

其中，h_i是第i个节点的向量，Φi表示第i个节点的元路径，M_Φi是权重矩阵，a_Φi是权重向量，σ是一个非线性激活函数。最终学习到的

就是在Φi这个元路径下，第i个节点对第j个节点的权重系数。

对各所述权重系数进行加权求和并进行非线性映射，得到第i个节点在Φi元路径下的第一向量表征，具体公式如下：

通过如上所示公式可以得到第i个节点在Φi元路径下的第一向量表征

接下来通过如下公式计算第i个节点的每条元路径的重要程度：

其中，q和W都是对应的参数矩阵，b是偏置项，

表示元路径的数量.

是每条元路径的重要程度。进一步对

做归一化操作，可以得到第i个节点的每条元路径的重要程度权重

最后根据元路径的重要程度权重与第一节点表征进行加权求和，就可以得到最后的向量表征Z，具体公式如下：

所述损失函数可以使用如下所示的交叉熵损失函数：

其中y_L是有标签的节点集合，Y^l是真实的标签，Z^l是最后得到的节点表征，C是参数。这里的Y^l我们使用的是一级知识点，使用一级知识点给所有节点进行分类，基于节点分类任务完成异构图神经网络的训练。

S206，获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素之间的关联关系生成；

具体的，从在线题库中获取待预测习题，从所述异构图神经网络中抽取与所述待预测习题对应的习题向量。

S207，计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，所述标签向量包括章节向量、知识点向量、解题方法向量和考察要素向量；

具体的，在本申请实施例中优先采用计算余弦相似度的方式依次计算所述习题向量与所述异构图神经网络中每个标签向量之间的距离。

所述余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度，通常用于正空间，两个向量夹角的余弦值越趋近于1，说明夹角角度越接近0°，也就是两个向量越接近。

S208，在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量；

S209，将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。

具体的，所述标签实体包括样本章节、样本知识点、样本解题方法和样本考察要素。

步骤S206到步骤S209可一并参见图6，为本申请实施例提供的一种习题标签预测的流程示意图。如图6所示，从异构图神经网路中获取与待预测习题对应的习题向量，计算所述习题向量与所有标签向量的余弦相似度，从所述各余弦相似度中筛选出小于预设余弦相似度阈值的目标余弦相似度，如图所示目标余弦相似度包括：余弦相似度5、余弦相似度9、余弦相似度14和余弦相似度35。确定各所述目标余弦相似度对应的目标标签向量，确定各所述目标标签向量对应的目标标签，如图所示目标标签包括知识点5、章节9、解题方法14和考察要素35。综上，可以得到待预测习题的习题标签包括知识点5、章节9、解题方法14和考察要素35。请一并参见图7，为本申请实施例提供的一种习题标签预测结果的举例示意图。

在本申请实施例中，通过获取样本数据，并使用BERT语言模型将所述样本数据中的各类型实体转换成向量，考虑了丰富的语义信息，提高了习题标签预测的准确性；通过获取所述样本数据中各类型实体之间的关联关系，考虑了习题与习题、习题与知识点、知识点与知识点、章节与章节、章节与知识点、习题与章节、习题与解题方法、习题与考察要素这八个维度的关联关系，所涉及的维度较多，进一步提升习题标签预测的效果；然后基于所述习题向量、章节向量、知识点向量、解题方法向量、考察要素向量以及所述关联关系生成习题、章节、知识点、解题方法和考察要素的异构关系图谱，并采用自注意力机制和损失函数训练所述异构关系图谱，生成异构图神经网络，有效避免节点表征方差过大的问题，进一步提升模型对习题标签预测的准确效果；另外，获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，并计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，进而在所述距离中筛选出小于距离阈值的目标距离，通过确定所述目标距离指示的目标标签向量，并将所述目标标签向量对应的标签作为所述待预测习题的习题标签，可以为习题打上丰富的习题标签。

下面将结合附图8～附图11本申请实施例提供的习题标签预测装置进行详细介绍。需要说明的是，附图8～附图11习题标签预测装置，用于执行本申请图1～图7所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图1～图7所示的实施例。

请参见图8，为本申请实施例提供了一种习题标签预测装置的结构示意图。如图8所示，本申请实施例的所述习题标签预测装置1可以包括：习题获取模块101、距离计算模块102、距离筛选模块103、标签确定模块104。

习题获取模块101，用于获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量，所述异构图神经网络基于对习题、所述习题在文本中所属的章节、知识点、所述习题的解题方法和所述习题对应的考察要素的异构关系图谱的训练生成，所述异构关系图谱基于样本习题、样本章节、样本知识点、样本解题方法和样本考察要素之间的关联关系生成；

距离计算模块102，用于计算所述习题向量与所述异构图神经网络中所有标签向量之间的距离，所述标签向量包括章节向量、知识点向量、解题方法向量和考察要素向量；

距离筛选模块103，用于在所述距离中筛选出小于距离阈值的目标距离，确定所述目标距离指示的目标标签向量；

标签确定模块104，用于将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签。

请参见图9，为本申请实施例提供了一种习题标签预测装置的结构示意图。如图9所示，本申请实施例的所述习题标签预测装置1可以包括：习题获取模块101、距离计算模块102、距离筛选模块103、标签确定模块104、数据获取模块105、迁移训练模块106、向量转换模块107、关联关系模块108、图谱构建模块109以及图谱训练模块110。

标签确定模块104，用于将所述目标标签向量对应的标签实体作为所述待预测习题的习题标签；

数据获取模块105，获取样本数据，所述样本数据包括样本习题、所述习题在文本中所属的样本章节、样本知识点、所述习题的样本解题方法和所述习题对应的样本考察要素；

迁移训练模块106，用于采用所述样本习题、样本章节、样本知识点、样本解题方法、样本考察要素对所述预训练语言模型进行迁移训练；

向量转换模块107，用于采用预训练语言模型分别将各类型实体转换为对应的实体向量，所述类型实体包括样本习题、样本章节、样本知识点、样本解题方法和样本考察要素，所述实体向量包括习题向量、章节向量、知识点向量、解题方法向量以及考察要素向量；

关联关系模块108，获取所述样本数据中各类型实体之间的关联关系，所述关联关系包括所述样本习题之间的第一关联关系、所述样本章节之间的第二关联关系、所述样本知识点之间的第三关联关系、所述样本知识点与所述样本章节之间的第四关联关系、所述样本习题与所述样本章节之间的第五关联关系、所述样本习题与所述样本知识点之间的第六关联关系、所述样本习题与所述样本解题方法之间的第七关联关系、所述样本习题与所述样本考察要素之间的第八关联关系；

请一并参见图10，为本申请实施例提供了一种关联关系模块的结构示意图。如图10所示，所述关联关系模块108可以包括：

第一单元1081，用于计算与所述样本习题对应的习题向量之间的第一相似度，并基于所述第一相似度生成所述样本习题之间的第一关联关系；

第二单元1082，用于计算与所述样本章节对应的章节向量之间的第二相似度，并基于所述第二相似度生成所述样本章节之间的第二关联关系；

第三单元1083，用于获取所述样本知识点之间的第一对应关系，基于所述第一对应关系生成所述样本知识点之间的第三关联关系；

第四单元1084，用于获取所述样本知识点与所述样本章节之间的第二对应关系，基于所述第二对应关系生成样本知识点与所述样本章节之间的第四关联关系；

第五单元1085，用于获取所述样本习题与所述样本章节之间的第三对应关系，基于所述第三对应关系生成所述样本习题与所述样本章节之间的第五关联关系；

第六单元1086，用于获取所述样本习题与所述样本知识点之间的第四对应关系，基于所述第四对应关系生成所述样本习题与所述样本知识点之间的第六关联关系；

第七单元1087，用于获取所述样本习题与所述样本解题方法之间的第五对应关系，基于所述第五对应关系生成所述样本习题与所述样本解题方法之间的第七关联关系；

第八单元1088，用于获取所述样本习题与所述样本考察要素之间的第六对应关系，基于所述第六对应关系生成所述样本习题与所述样本考察要素之间的第八关联关系。

图谱构建模块109，用于基于所述习题向量、章节向量、知识点向量、解题方法向量、考察要素向量以及所述关联关系生成习题、章节、知识点、解题方法和考察要素的异构关系图谱；

图谱训练模块110，用于采用自注意力机制和损失函数训练所述异构关系图谱，生成异构图神经网络。

请一并参见图11，为本申请实施例提供了一种图谱训练模块的结构示意图。如图11所示，所述图谱训练模块108可以包括：

向量选取单元1101，用于从所述关系图谱中选取目标节点向量；

向量训练单元1102，用于采用自注意力机制和损失函数训练所述目标节点向量，得到更新的最终节点向量；

步骤执行单元1103，用于确定所述关系图谱中的下一个节点向量，将所述下一个节点向量作为目标节点向量，并执行所述采用自注意力机制和损失函数训练所述目标节点向量的步骤；

网络生成单元1104，用于当不存在下一个节点向量时，基于各所述最终节点向量得到最终的异构图神经网络。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条程序指令，所述程序指令适于由处理器加载并执行如上述图1～图7所示实施例的方法步骤，具体执行过程可以参见图1～图7所示实施例的具体说明，在此不进行赘述。

请参见图12，为本申请实施例提供了一种计算机设备的结构示意图。如图12所示，所述计算机设备1000可以包括：至少一个处理器1001，至少一个存储器1002，至少一个网络接口1003，至少一个输入输出接口1004，至少一个通讯总线1005和至少一个显示单元1006。其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个计算机设备1000内的各个部分，通过运行或执行存储在存储器1002内的指令、程序、代码集或指令集，以及调用存储在存储器1002内的数据，执行终端1000的各种功能和处理数据。存储器1002可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1002可选的还可以是至少一个位于远离前述处理器1001的存储装置。其中，网络接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。通信总线1005用于实现这些组件之间的连接通信。如图12所示，作为一种终端设备存储介质的存储器1002中可以包括操作系统、网络通信模块、输入输出接口模块以及习题标签预测程序。

在图12所示的计算机设备1000中，输入输出接口1004主要用于为用户以及接入设备提供输入的接口，获取用户以及接入设备输入的数据。

在一个实施例中。

处理器1001可以用于调用存储器1002中存储的习题标签预测程序，并具体执行以下操作：

可选的，所述处理器1001在执行所述获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量之前，还执行以下操作：

获取样本数据，所述样本数据包括样本习题、所述习题在文本中所属的样本章节、样本知识点、所述习题的样本解题方法和所述习题对应的样本考察要素；

采用预训练语言模型分别将各类型实体转换为对应的实体向量，所述类型实体包括样本习题、样本章节、样本知识点、样本解题方法和样本考察要素，所述实体向量包括习题向量、章节向量、知识点向量、解题方法向量以及考察要素向量；

获取所述样本数据中各类型实体之间的关联关系，所述关联关系包括所述样本习题之间的第一关联关系、所述样本章节之间的第二关联关系、所述样本知识点之间的第三关联关系、所述样本知识点与所述样本章节之间的第四关联关系、所述样本习题与所述样本章节之间的第五关联关系、所述样本习题与所述样本知识点之间的第六关联关系、所述样本习题与所述样本解题方法之间的第七关联关系、所述样本习题与所述样本考察要素之间的第八关联关系；

基于所述习题向量、章节向量、知识点向量、解题方法向量、考察要素向量以及所述关联关系生成习题、章节、知识点、解题方法和考察要素的异构关系图谱；

采用自注意力机制和损失函数训练所述异构关系图谱，生成异构图神经网络。

可选的，所述处理器1001在执行所述采用预训练语言模型分别将各类型实体转换为对应的实体向量，所述类型实体包括样本习题、样本章节、样本知识点、样本解题方法和样本考察要素，所述实体向量包括习题向量、章节向量、知识点向量、解题方法向量以及考察要素向量之前，还执行以下操作：

采用所述样本习题、样本章节、样本知识点、样本解题方法、样本考察要素对所述预训练语言模型进行迁移训练。

可选的，所述处理器1001在执行所述获取所述样本数据中各类型实体之间的关联关系时，具体执行以下操作：

计算与所述样本习题对应的习题向量之间的第一相似度，并基于所述第一相似度生成所述样本习题之间的第一关联关系；

计算与所述样本章节对应的章节向量之间的第二相似度，并基于所述第二相似度生成所述样本章节之间的第二关联关系；

获取所述样本知识点之间的第一对应关系，基于所述第一对应关系生成所述样本知识点之间的第三关联关系；

获取所述样本知识点与所述样本章节之间的第二对应关系，基于所述第二对应关系生成样本知识点与所述样本章节之间的第四关联关系；

获取所述样本习题与所述样本章节之间的第三对应关系，基于所述第三对应关系生成所述样本习题与所述样本章节之间的第五关联关系；

获取所述样本习题与所述样本知识点之间的第四对应关系，基于所述第四对应关系生成所述样本习题与所述样本知识点之间的第六关联关系；

获取所述样本习题与所述样本解题方法之间的第五对应关系，基于所述第五对应关系生成所述样本习题与所述样本解题方法之间的第七关联关系；

获取所述样本习题与所述样本考察要素之间的第六对应关系，基于所述第六对应关系生成所述样本习题与所述样本考察要素之间的第八关联关系。

可选的，所述处理器1001在执行所述采用自注意力机制和损失函数训练所述异构关系图谱，生成异构图神经网络时，具体执行以下操作：

从各所述章节向量中选取目标章节向量；

计算所述目标章节向量与除所述目标章节向量以外的所有章节向量之间的第二相似度，按照第二相似度的高低顺序从各所述第二相似度中选取排列在前的预设个数的目标第二相似度，将各所述目标第二相似度对应的章节向量作为所述目标章节向量的相似章节向量；

确定所述章节向量中的下一个章节向量，将所述下一个章节向量作为所述目标章节向量，并执行所述计算所述目标章节向量与除所述目标章节以外的所有章节向量之间的第二相似度的步骤；

当不存在下一个章节向量时，基于各所述章节向量以及各所述章节向量的相似章节向量生成第二关联关系。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的一种习题标签预测方法、装置、存储介质及设备的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种习题标签预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的习题标签预测方法，其特征在于，所述获取待预测习题，从异构图神经网络中抽取与所述待预测习题对应的习题向量之前，还包括：

3.根据权利要求2所述的习题标签预测方法，其特征在于，所述采用预训练语言模型分别将各类型实体转换为对应的实体向量，所述类型实体包括样本习题、样本章节、样本知识点、样本解题方法和样本考察要素，所述实体向量包括习题向量、章节向量、知识点向量、解题方法向量以及考察要素向量之前，还包括：

4.根据权利要求2所述的习题标签预测方法，其特征在于，所述获取样本数据中各类型实体之间的关联关系，所述关联关系包括所述样本习题之间的第一关联关系、所述样本章节之间的第二关联关系、所述样本知识点之间的第三关联关系、所述样本知识点与所述样本章节之间的第四关联关系、所述样本习题与所述样本章节之间的第五关联关系、所述样本习题与所述样本知识点之间的第六关联关系、所述样本习题与所述样本解题方法之间的第七关联关系、所述样本习题与所述样本考察要素之间的第八关联关系，包括：

5.根据权利要求4所述的习题标签预测方法，其特征在于，所述计算与所述样本习题对应的习题向量之间的第一相似度，并基于所述第一相似度生成所述样本习题之间的第一关联关系，包括：

从各所述习题向量中选取目标习题向量；

计算所述目标习题向量与除所述目标习题以外的所有习题向量之间的第一相似度，按照第一相似度的高低顺序从各所述第一相似度中选取排列在前的预设个数的目标第一相似度，将各所述目标第一相似度对应的习题向量作为所述目标习题向量的相似习题向量；

确定所述习题向量中的下一个习题向量，将所述下一个习题向量作为所述目标习题向量，并执行所述计算所述目标习题向量与除所述目标习题以外的所有习题向量之间的第一相似度的步骤；

当不存在下一个习题向量时，基于各所述习题向量以及各所述习题向量的相似习题向量生成第一关联关系。

6.根据权利要求4所述的习题标签预测方法，其特征在于，所述计算与所述样本章节对应的章节向量之间的第二相似度，并基于所述第二相似度生成所述样本章节之间的第二关联关系，包括：

从各所述章节向量中选取目标章节向量；

7.根据权利要求2所述的习题标签预测方法，其特征在于，所述采用自注意力机制和损失函数训练所述异构关系图谱，生成异构图神经网络，包括：

从所述关系图谱中选取目标节点向量；

采用自注意力机制和损失函数训练所述目标节点向量，得到更新的最终节点向量；

确定所述关系图谱中的下一个节点向量，将所述下一个节点向量作为目标节点向量，并执行所述采用自注意力机制和损失函数训练所述目标节点向量的步骤；

当不存在下一个节点向量时，基于各所述最终节点向量得到最终的异构图神经网络。

8.一种习题标签预测装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任一项所述的习题标签预测方法。

10.一种计算机设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项所述方法的步骤。