CN111563166B

CN111563166B - 一种针对数学问题分类的预训练模型方法

Info

Publication number: CN111563166B
Application number: CN202010470913.5A
Authority: CN
Inventors: 王伟松; 于业江; 郑欢; 阮涛
Original assignee: Zhejiang Xuehai Education Technology Co ltd
Current assignee: Zhejiang Xuehai Education Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2024-02-13
Anticipated expiration: 2040-05-28
Also published as: CN111563166A

Abstract

本发明公开了一种针对数学问题分类的预训练模型方法，包括如下步骤：构建数学知识点关系的知识图谱，根据每个知识点之间的关系，对知识图谱中的每个知识点生成知识点向量；分别根据训练集和验证集中的数学问题生成文本向量，将文本向量和知识点向量导入并构建文本预训练模型，包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练；将测试集导入预训练模型，对处理后的数学题目进行预测和输出结果。本发明集成了知识图谱，并提出了新颖的掩蔽和预测策略来增强知识点表示，使预测效果更加准确；模型使用知识嵌入算法编码知识图谱的图结构，并将多信息嵌入作为模型的输入，大大提高了预训练的准确度。

Description

一种针对数学问题分类的预训练模型方法

技术领域

本发明涉及一种数学问题预测技术，尤其涉及一种针对数学问题分类的预训练模型方法。

背景技术

如何教授数学中的概念性和过程性知识是教学的热点。程序性知识是“仅涉及记忆操作而不了解基本含义的学习”；概念知识是“对管辖领域的原理以及领域中知识之间的相互关系的明确或隐含的理解”。根据数学知识，我们可以设计基于过程知识或基于概念知识的问题。因此，在教与学方面，知识点具有许多优势，例如开发自动生成测试系统，测量学生的学习能力或影响基于实践的数学知识教学理论（MKT）。

预测合适的知识指向问题并非易事，这主要有三个挑战：（1）短上下文分类：对于给定的数学问题，上下文的长度通常比原始文本分类任务短，如何在如此短的文本中学习，尤其是在预培训过程中，是一个重要的问题；（2）数学知识点编码：在语言模型问题分类任务中，应提取数学知识图中的知识点和关系并进行编码；（3）异构信息学习：数学问题既包含正常内容又包含数学关键词，导致两个单独的向量空间。在一个问题中将数学的词汇、句法和关键词与正常上下文区分开，并且在预训练和微调过程中将这两个不同的内容融合在一起是非常困难的。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种针对数学问题分类的预训练模型方法，其能解决预测效果不准确的问题。

本发明的目的之一采用以下技术方案实现：

一种针对数学问题分类的预训练模型方法，包括如下步骤：

构建数学知识点关系的知识图谱，根据每个知识点之间的关系，对知识图谱中的每个知识点生成知识点向量；

分别根据训练集和验证集中的数学问题生成文本向量，将文本向量和知识点向量导入并构建文本预训练模型，包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练；

将测试集导入预训练模型，对处理后的数学题目进行预测和输出结果。

进一步地，对知识图谱中的每个知识点生成知识点向量，步骤包括：根据输入知识图谱内容，将知识点与知识之间的关系通过向量来表示，当关系成立时，通过平移距离模型将相同空间R^d中将关系转化为向量，得到向量关系句子公式为：

e_i + r≈e_j，其中，e_i为知识点头向量，e_j为知识点尾向量，r为关系向量。

进一步地，平移距离模型为TransE、TransH、TransR或KG2E。

进一步地，语义掩码语言模型训练包括：

获取测试集中数学问题内容，对于数学问题中的词汇进行分解；

根据替换规则，将内容中的词汇进行遮盖，并将处理好的向量关系句子带入到词汇被遮盖的位置，使用交叉熵损失函数对替换的词汇和预测填充词汇之间差异进行计算，得到第一损失值。

进一步地，替换规则为：使用随机函数生成范围为0~1的随机值，如该随机值小于0.5，则对知识点进行全部遮盖，如该随机值大于或等于0.5，则使用如下策略：80%的内容对知识点进行全部遮盖，10%的内容使用词表中的词来替换该知识点，10%的内容用于语句通顺替换。

进一步地，相关问题预测模型训练包括：

对测试集内所有问题根据内容设置标签进行分类；

对测试集内所有问题进行两两遍历组合，计算出每组问题之间的相似度值；

对每组中的问题均根据替换规则进行遮盖操作，完成遮盖操作后将两个问题首尾相连，并添加占位符来区分两个问题，形成的组合问题；

判断每组问题的标签是否存在相同，如不相同，则跳出；如相同，则获取两个问题的相似度和相同的标签带入交叉熵损失函数计算损失，得出第二损失值。

进一步地，相似度的计算过程为：分别提取组合内两个问题的所有知识点，分别形成知识点集合，通过相似度函数对两者的知识点集合相似度进行计算，得到组合内两个问题之间的相似度。

进一步地，问题相关性排序训练，步骤包括：

在测试集每个批处理操作中，选择n对问题每对记为<q_i，q_j>，并通过相似度函数函数计算它们的相似度值；

通过Transformer模型的输入集合为{<q₁，q₂，v_（1,2）>，<q₁，q₃，v_（1,3）>，...，<q_i，q_j，v_（i，j）>} ，其中v_（i，j）是相似度值，并看做每对问题的相似得分，根据得分进行排序，得到集合L；

使用归一化折损累计增益作为损失函数，对集合L进行损失计算，得到第三损失值。

进一步地，集合L中，相似度值v_（i，j）为一对问题的皮尔森相关系数ρ，并将t设置为集合的索引位置，D为排序相关指标，计算公式如下：

。

进一步地，根据文本预训练模型，对处理后的数学题目进行预测和输出结果，步骤包括：

获取输入的数学问题，根据预训练获得模型参数，根据计算第一损失值、第二损失值和第三损失值之和获得预测值，对测试集数据进行分类，分类层为每个标签用线性分类器进行二分类，计算得到准确率，输出预测值和准确率结果。

相比现有技术，本发明的有益效果在于：

本发明集成了知识图谱，并提出了新颖的掩蔽和预测策略来增强知识点表示，使预测效果更加准确；模型使用知识嵌入算法编码知识图谱的图结构，并将多信息嵌入作为模型的输入；相对比于BERT模型，本方案针对数学问题的特异性，提供了新的预训练任务，大大提高了预训练的准确度。

附图说明

图1为本发明的一种针对数学问题分类的预训练模型方法的运行流程示意图。

具体实施方式

以下将结合附图，对本发明进行更为详细的描述，需要说明的是，以下参照附图对本发明进行的描述仅是示意性的，而非限制性的。各个不同实施例之间可以进行相互组合，以构成未在以下描述中示出的其他实施例。

实施例一

如图1所示，一种针对数学问题分类的预训练模型方法，包括如下步骤：

实施例二

一种针对数学问题分类的预训练模型方法，包括如下步骤：

构建数学知识点关系的知识图谱，根据每个知识点之间的关系，对知识图谱中的每个知识点生成知识点向量；其中，知识图谱是用来描述各种知识点之间关系的图，知识点与知识点之间的关系通过三元组（知识点-关系-知识点）来表示，存在包含、属于、相关三种关系。在知识图谱中，每个节点是一个知识点，每条边是一种关系，可以从语义层次理解实际问题中的各种关系，描述能力比较强。为了解决多关系数据，可以将知识图谱中的三元组关系转换为向量表示。

本实施例通过构建数学知识点关系的知识图谱，确定每个知识点之间的关系，并对图谱中的每个知识点生成向量值，步骤包括：根据输入知识图谱内容，将知识点与知识之间的关系通过向量来表示，当关系成立时，通过平移距离模型将相同空间R^d中将关系转化为向量，得到向量关系句子公式为：

本实施例的平移距离模型可以为TransE、TransH、TransR或KG2E。

分别根据训练集和验证集中的数学问题生成文本向量，将文本向量和知识点向量导入并构建文本预训练模型，包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练；预训练模型是为了用训练集数据离线训练出合适的参数值，预训练模型最为关键的损失值主要由三部分组成：（1）语义掩码语言模型产生的损失，记为第一损失值；（2）相关问题预测模型产生的损失，记为第二损失值；（3）问题相关性排序产生的损失，记为第三损失值。也就是说，预训练模型的损失值为上述三者损失值的和，这三部分是预训练模型的关键所在。

本实施例中，语义掩码语言模型训练包括：

其中，替换规则为：使用随机函数生成范围为0~1的随机值，如该随机值小于0.5，则对知识点进行全部遮盖，如该随机值大于或等于0.5，则使用如下策略：80%的内容对知识点进行全部遮盖，10%的内容使用词表中的词来替换该知识点，10%的内容用于语句通顺替换。

本实施例中相关问题预测模型训练包括：

对测试集内所有问题根据内容设置标签进行分类；

其中，相似度的计算过程为：分别提取组合内两个问题的所有知识点，分别形成知识点集合，通过相似度函数对两者的知识点集合相似度进行计算，得到组合内两个问题之间的相似度。

问题相关性排序训练，步骤包括：

通过Transformer模型的输入集合为{<q₁，q₂，v_（1,2）>，<q₁，q₃，v_（1,3）>，...，<q_i，q_j，v_（i，j）>} ，其中v_（i，j）是相似度值，并看做每对问题的相似得分，根据得分进行排序，得到集合L；使用Transformer模型的目标是重建词汇的向量，并在训练后使具有近似的数学语义的两个问题变得更“相似”；

其中，Transformer模型中使用的编码器是由其相关知识点进行的问题语义编码，由一个多头注意力层和一个前馈神经网络组成。为简单起见，在这里，使用均值函数来计算问题的向量空间e_j ^（i）：

；

其中，为数学题目的文本向量，MH-ATT为多头注意力（multi-head self- attentions的缩写），该文本向量对应的知识点向量；

在信息融合转换层（Transformer）中，将词汇序列和语义向量进行集成，并如下计算每个词汇和知识点的输出嵌入于问题开头的标记中：

；

其中，为知识点向量平均值，h_j、W_j 、e_k是整合文本和知识点后的内部隐层状态系数，σ是非线性函数GELU，W是权值，b是偏置下标，t、e表示两个不同的偏置；

将文本向量（也叫token向量）和知识点向量相互整合，为下一层提供新的文本向量和知识点向量。

为了使词汇和知识点在相关问题中更接近，使用归一化折损累计增益作为损失函数，对集合L进行损失计算，得到第三损失值。

集合L中，相似度值v_（i，j）为一对问题的皮尔森相关系数ρ，并将t设置为集合的索引位置，D为排序相关指标，计算公式如下：

。

为简单起见，将排名函数f’定义为ρ（q_i，q_j）下降的排名集合L，让理想的DCG（IDCG）由其原始相似度值定义如下：

；

n为集合文档个数， r表示的是每一项的评分值，y表示的是排序方法；

在此，函数f'不会生成为集合的最大DCG值，而是被设计为以代表（q_i，q_j）原始相似性的v（q_i，q_j）值对集合L进行排序。

最后，在每一层中用于训练的损失函数定义为：

NDCG(L) = ；

根据文本预训练模型，对处理后的数学题目进行预测和输出结果，步骤包括：

在完全连接层之前使用sigmoid输出函数，并利用二进制交叉熵作为损失函数：

；

对于多标签二进制分类，其中Ln为损失函数，c是类别，p_c是该类别的权重，y是真实值，σ()是预测值。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种针对数学问题分类的预训练模型方法，其特征在于，包括如下步骤：

分别根据训练集和验证集中的数学问题生成文本向量，将文本向量和知识点向量导入并构建文本预训练模型，包括语义掩码语言模型训练、相关问题预测模型训练和问题相关性排序训练；其中，语义掩码语言模型训练包括：获取测试集中数学问题内容，对于数学问题中的词汇进行分解；根据替换规则，将内容中的词汇进行遮盖，并将处理好的向量关系句子带入到词汇被遮盖的位置，使用交叉熵损失函数对替换的词汇和预测填充词汇之间差异进行计算，得到第一损失值，所述向量关系句子公式为：ei + r≈ej，其中，ei为知识点头向量，ej为知识点尾向量，r为关系向量；相关问题预测模型训练包括：对测试集内所有问题根据内容设置标签进行分类，对测试集内所有问题进行两两遍历组合，计算出每组问题之间的相似度值，对每组中的问题均根据替换规则进行遮盖操作，完成遮盖操作后将两个问题首尾相连，并添加占位符来区分两个问题，形成的组合问题，判断每组问题的标签是否存在相同，如不相同，则跳出，如相同，则获取两个问题的相似度和相同的标签带入交叉熵损失函数计算损失，得出第二损失值；相似度的计算过程为：分别提取组合内两个问题的所有知识点，分别形成知识点集合，通过相似度函数对两者的知识点集合相似度进行计算，得到组合内两个问题之间的相似度；问题相关性排序训练，步骤包括：在测试集每个批处理操作中，选择n对问题每对记为<q_i，q_j>，并通过相似度函数计算它们的相似度值，通过Transformer模型的输入集合为{<q₁，q₂，v_（1,2）>，<q₁，q₃，v_（1,3）>，...，<q_i，q_j，v_（i，j）>} ，其中v_（i，j）是相似度值，并看做每对问题的相似得分，根据得分进行排序，得到集合L，使用归一化折损累计增益作为损失函数，对集合L进行损失计算，得到第三损失值；

将测试集导入预训练模型，对处理后的数学题目进行预测和输出结果，其中，将测试集导入预训练模型，对处理后的数学题目进行预测和输出结果包括：获取输入的数学问题，根据预训练获得模型参数，根据计算第一损失值、第二损失值和第三损失值之和获得预测值，对测试集数据进行分类，分类层为每个标签用线性分类器进行二分类，计算得到准确率，输出预测值和准确率结果。

2.如权利要求1所述的一种针对数学问题分类的预训练模型方法，其特征在于：对知识图谱中的每个知识点生成知识点向量，步骤包括：根据输入知识图谱内容，将知识点与知识之间的关系通过向量来表示，当关系成立时，通过平移距离模型将相同空间R^d中将关系转化为向量，得到向量关系句子公式为：

3.如权利要求2所述的一种针对数学问题分类的预训练模型方法，其特征在于：平移距离模型为TransE、TransH、TransR或KG2E。

4.如权利要求3所述的一种针对数学问题分类的预训练模型方法，其特征在于：替换规则为：使用随机函数生成范围为0~1的随机值，如该随机值小于0.5，则对知识点进行全部遮盖，如该随机值大于或等于0.5，则使用如下策略：80%的内容对知识点进行全部遮盖，10%的内容使用词表中的词来替换该知识点，10%的内容用于语句通顺替换。

5.如权利要求1所述的一种针对数学问题分类的预训练模型方法，其特征在于：集合L中，相似度值v_（i，j）为一对问题的皮尔森相关系数ρ，并将t设置为集合的索引位置，D为排序相关指标，计算公式如下：

。