CN113420543A

CN113420543A - 基于改进Seq2Seq模型的数学试题自动标注方法

Info

Publication number: CN113420543A
Application number: CN202110509310.6A
Authority: CN
Inventors: 刘志锋; 唐天; 周从华
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-09-21
Anticipated expiration: 2041-05-11
Also published as: CN113420543B

Abstract

本发明涉及一种基于改进Seq2Seq模型的数学试题自动标注方法，该方法包括以下步骤：采集数学试题数据；对数据进行预处理；构建基于改进的Seq2Seq模型；训练模型网络参数，并对未标记数学试题进行知识点预测标注。本发明能解决现有的人工标注数学试题费时费力，而且对于知识点会存在漏标、误标等问题，改进了传统的Seq2Seq模型，使之在预测知识点标签时更加关注数学试题中的关键部分以及相关知识点标签信息，从而进一步提高模型预测数学试题多个知识点标签的正确率。

Description

基于改进Seq2Seq模型的数学试题自动标注方法

技术领域

本发明属于大数据以及人工智能教育技术领域，具体涉及一种基于改进Seq2Seq模型的数学题目自动标注方法。

背景技术

随着互联网教育规模的不断扩大和学生学习需求的深化，中国在线教育在现阶段已经进入了学习方式丰富多样、资源开放共享的智能教育时代，互联网、大数据和教育的有机结合成为时代发展的必然趋势。利用人工智能技术取代重复的人力劳动、提高效率，已是各行业明显的趋势，作为人口素质和国家储备力量的重要保证，教育领域在人工智能的应用与研究已成为学界和工业界研究的一个热点。

在智能教育的大环境下，需要对试题自动打标签，比如题库自动构建、易错点分析、相关题推荐、自动组卷等。但是在诸多应用场景下手动标注标签费时费力，自动标注系统可以省时省力的完成这一体力脑力活动。数学试题专业性强，包含多个知识点标签，手动标注知识点会存在漏标、误标等情况。因此需要设计一种良好的数学题目自动标注方法，来解决上述出现的问题。

现有技术中，将数学题目自动标注视为数学领域短文本多标签分类任务，方法主要有基于机器学习的与基于深度学习两类。基于传统的机器学习的方法，需要人为设定数学试题文本特征，且设定的文本特征的好坏将会直接影响到分类效果。基于深度学习的方法，采用NLP中具有良好自然语言表达的词向量，无需人为设定文本特征，是一种端到端的输出结构。但是现有的方法中，往往一道数学试题只打上一个标签，以及未能关注数学试题中对分类有重要帮助的关键词部分，还有未能考虑数学知识点中常常会有伴随知识点同步出现的情况。

发明内容

针对上述问题，本发明提出了一种基于改进Seq2Seq模型的数学题目自动标注方法，利用改进的Seq2Seq模型提取数学试题文本的浅层与深层数据特征，使得在生成数学知识点标签时，更多考虑到试题文本中关键词部分以及相关知识点标签信息，从而进一步提高模型预测数学试题多个知识点的正确率。

为了实现上述发明目的，本发明提出一种基于改进Seq2Seq模型的数学题目自动标注方法的技术方案，包括以下步骤：

S1:采集数学试题数据，形成数学试题数据集，所述数学试题数据集格式为通用自然语言文本、Latex表达的数学符号及表达式，所述每条数学试题数据包含一至多个知识点标签，所述知识点标签采用通用自然语言文本；

S2:对数学试题数据进行数据预处理，包括分词、去停用词、Latex字符串的正则表达式语义转换；

S3：将预处理后的数学试题数据送入ERNIE词向量提取层，将通用自然语言文本转换为数学试题词向量，所述ERNIE词向量提取层采用基于BERT_BASE版本，由12层Transformer编码器构成；

S4:将转换后的数学试题词向量送入关键词突出的DPCNN编码器，提取数学文本语义信息；

S5：将S1中采集的带知识点标签的数学试题数据送入FSLLDA监督主题模型中，获得数学试题数据所属知识点标签的主题分布信息STM；

S6：解码器通过DPCNN编码器与注意力层提供的上下文语义向量C、解码器隐藏单元状态Z、上一个时刻预测最大概率标签向量g(y_t-1)、S5中提供的主题分布信息STM，计算当前时刻的解码器输出状态o_t；

S7：将当前时刻的解码器输出状态o_t通过掩码层，防止重复预测已经生成的标签，通过softmax函数，生成当前时刻的标签概率分布向量y_t；

S8:将标签概率分布向量y_t通过词向量嵌入层,获得最大概率标签向量g(y_t)，该最大概率标签向量g(y_t)将用来计算下一个时刻的标签概率分布向量y_t+1；

S9:直到预测的最大概率标签向量为<EOS>，此时模型预测结束，在开始标记向量<SOS>与结束标记向量<EOS>中间生成的数学知识点标签向量，即为这道数学试题打上知识点标签。

进一步地，上述步骤S3中将通用自然语言文本转换为数学试题词向量包括以下具体步骤：

S3.1：将数学试题数据集的通用自然语言文本设定最大长度为n个字，长截断、短填充；

S3.2：通用自然语言文本X＝[x₁,......,x_i,......,x_n]通过基于BERT_BASE版包含了12层Transformer编码器层后获得的数学试题词向量矩阵E＝[e₁,......,e_i,......,e_n]，其中x_i表示通用自然语言文本的第i个单词，e_i为对应单词的词向量。

进一步地，上述步骤S4中DPCNN编码器进行关键词突出的方法为：

S4.1:通过步骤S3中获得的数学试题词向量矩阵E＝[e₁,...,e_i,...,e_n]∈R^1×n，并且设一个初始值全为1的单词权重向量矩阵α∈R^m×n，按行复制m次数学试题词向量矩阵E，得到新的矩阵E_new∈R^m×n，其中，m为卷积核个数,n为数学文本向量长度；

S4.2:将单词权重向量矩阵α与E_new矩阵元素相乘得到加权词向量矩阵

其中，Q∈R^m×n，

为元素相乘，n为数学文本词向量长度；

S4.3:设立新矩阵H保存初始加权词向量矩阵Q的值：H＝Q，H∈R^m×n；

S4.4:循环m次，根据DPCNN编码器的每一个卷积核求出Q_m的目标语义向量T_m：T_m＝DPCNN(Q_m)，自顶向下的迭代P次，通过计算初始词向量H_m与目标语义向量T_m的相似度，归一化更新权重向量α_m：

α_m＝[α_m1,...,α_mi,...,α_mn]；

其中

W_a,Z_a为权重参数，b_a是偏置参数，H_m是矩阵H的第m行,Q_m是加权词向量矩阵Q的第m行，T_m是根据DPCNN求出的基于Q_m的第m行目标语义向量，α_m为第m行权重向量，n为数学文本词向量长度,e_mi为m行第i个单词的相似度分数，α_mj为第m行第j个单词的权重；

S4.5:m个卷积核分别迭代更新后，对赋予新值的单词权重向量矩阵α进行列向量的加权平均，得出根据不同卷积核提取的不同的词向量的关键词权重系数矩阵β∈R^1×n；

S4.6:将求出的关键词权重系数矩阵β乘以数学试题词向量矩阵E完成编码器关键词突出的作用：

为元素相乘；

S4.7:将关键词突出的数学试题文本词向量E_weight继续送入DPCNN编码器，根据不同的卷积核提取出的不同的试题文本语义目标向量S＝[s₁,s₂,...,s_m]，m为卷积核个数。

进一步地，上述步骤S5中FSLLDA监督主题模型生成关于数学试题文本所属的知识点标签主题分布信息STM的方法为：

S5.1:将带有知识点标签的数学试题数据集进行学习，训练生成FSLLDA监督主题模型；

S5.2:根据数学试题文本内容，利用FSLLDA监督主题模型当前的文档-主题分布

和主题-单词分布

计算出一个文档中每一个单词或者字对应一个主题的概率:

并更新该词对应的知识点标签主题，同时更新

和

信息:

上述过程不断重复，最终收敛结果即为FSLLDA模型的输出：

和

其中，z_i＝k表示将词语i分配给知识点标签主题

表示除去词语i的其他单词，

表示除词项i外其它单词的主题，

表示除去单词i的词向量，t表示某一个具体的单词，

表示统计第k个主题下词汇表中除了词项i其它词项出现的个数，

表示文档m中除了词项i分配主题为k的词项数，

为主题k在文档m中出现的先验概率，

为词项i在知识点主题k中出现的先验概率；

S5.3:根据训练好的FSLLDA监督主题模型的文档-主题分布

与主题-单词分布

采用Gibbs采样算法，对测试数学试题文本进行主题推断，生成测试数学试题文本所属的知识点标签主题分布信息STM。

进一步地，上述FSLLDA模型生成过程包括如下步骤：

S5.1.1:统计数学试题数据集中的数据，构建标签共现矩阵：

其中Label_i表示标签i,Label_j表示标签j,Count函数表示记录标签出现次数；F_i,j为标签i与标签j共现频率相关性矩阵；

S5.1.2:统计数学试题数据集中，所有标签i对应的文本，求出对应的平均字向量作为标签i在训练集中文本空间的特征表示；同理，求出标签j在数学试题数据集中文本空间的特征表示，构建标签语义相关性矩阵：

其中S_i,j为标签i和标签j的语义相关性矩阵，cos函数为余弦函数；

S5.1.3:权重参数λ₁，λ₂表示考虑两部分信息的重要性，λ₁，λ₂∈[0,1]andλ₁+λ₂＝1计算标签与标签之间的相关性矩阵：

Corrleation(Label_i,Label_j)＝λ₁*F_i,j+λ₂*S_i,j∈R^L×L；

其中，F_i,j为标签i与标签j共现频率相关性矩阵；S_i,j为标签i和标签j的语义相关性矩阵；

S5.1.4:根据数学试题数据集真实标签集计算文档标签相关性系数矩阵DLRLCE：

DLRLCE＝Y*Corrleation∈R^N×L；

其中，Y为数学试题数据集真实知识点标签矩阵，Corrleation矩阵为标签与标签之间的加权相关性系数矩阵；

S5.1.5:将此文档标签相关性系数矩阵用于计算Dirichlet先验参数向量

其中η表示权重参数，γ代表平滑系数，DLRLCE为文档标签相关性系数矩阵；

S5.1.6:对于每一个标签c：选择标签单词分布

from Dirchlet

其中

为主题-单词狄利克雷先验分布系数；

S5.1.7:对于每一个文档d,在文档d相关标签集合中选择文档-标签分布：

fromDirchlet

其中

为文档-主题狄利克雷先验分布系数；

S5.1.8:对于文档d中的每个单词w_m,n：

选择一个标签z_m,n from Multinomial

选择一个单词w_m,n from Multinomial

其中w_m,n表示第m篇文档中第n个单词，z_m,n表示第m篇文档中第n个单词所属的主题，

为文档-主题分布，

为主题-单词分布。

进一步地，上述S5.3中Gibbs采样算法，对测试数学试题文本进行主题推断包括以下步骤：

S5.3.1：根据训练好的FSLLDA监督主题模型提供的文档-主题分布

与主题-单词分布

信息，采用Gibbs采样算法首先对需要进行主题推断的数学试题文本中的每个单词进行主题概率预测：

其中，z_i＝k表示将词语i分配给知识点标签主题

表示除去词语i的其他单词，

表示所有单词的词向量，

表示除去单词i的词向量，

表示与词项w_i分配相同主题k的词项数，

表示文档m中分配主题为k的词项数，K表示主题个数，α_k为主题k在文档m中出现的先验概率，β_w为词语w在知识点主题k中出现的先验概率；

S5.3.2：根据狄利克雷分布的期望公式，最终推测出测试数学试题文本主题推断分布向量STM:

其中

表示文档m中分配主题为k的词项数，K表示主题个数，α_k为主题k在文档m中出现的先验概率。

进一步地，上述步骤S6中上下文语义向量C和解码器输出状态o_t的计算方法为：

S6.1:根据编码器不同卷积核提取的数学文本语义向量S＝[s₁,s₂,...,s_n]与解码器端t时刻的隐藏单元向量z_t，通过注意力机制动态的选取当前时刻数学文本上下文语义向量c_t；

S6.2:根据得到的数学试题文本所属的知识点标签主题分布信息STM、数学文本上文语义向量c_t、解码器端t-1时刻隐藏单元状态z_t-1、上一个时刻预测最大概率标签向量g(y_t-1)，综合以上信息计算t时刻的解码器输出状态o_t；计算公式如下：

t时刻解码器端隐藏单元向量：z_t＝f(z_t-1,g(y_t-1),c_t,STM)；

t时刻的输出向量：o_t＝h(z_t,c_t,STM)。

进一步地，当前时刻数学文本语义向量c_t的选取包括如下步骤：

S6.1.1:计算t时刻解码器端隐藏单元向量z_t与编码器端所有的数学文本语义向量s_i的相似度：e_ti＝a(z_t,s_i)；

其中e_ti表示解码器端隐藏单元向量z_t与数学文本语义向量s_i的一个相似度分数；

S6.1.2:根据t时刻解码器端z_t重点关注编码器提取的数学文本语义向量s_i部分分配权重：

其中α_ti表示编码器端第i个语义向量端权重系数，e_ti表示解码器端隐藏单元向量z_t与编码器端数学文本语义向量s_i的一个相似度分数；

S6.1.3:计算t时刻的数学文本上下文语义向量：

其中α_ti表示编码器端第i个语义向量的权重系数，s_i表示编码器端第i个数学语义向量；

进一步地，上述步骤S7中生成当前时刻的标签概率分布向量y_t的方法为：

S7.1:构造蒙面掩码向量I_t，公式如下：

其中l_i表示第i个标签；

S7.2:将t时刻输出向量o_t通过掩码层，通过softmax函数计算得出标签概率分布向量y_t：y_t＝softmax(o_t+I_t)，其中I_t为t时刻的蒙面掩码向量。

本发明的有益效果如下：

本发明可以解决现有的手动标注数学试题知识点标签费时费力的问题，而且基于改进的Seq2Seq模型，使之在预测多个知识点标签时更多考虑到试题文本中促进生成知识点标签的关键部分，以及知识点与知识点同时出现的情况，从而使之预测知识点标签时更加全面与准确。

附图说明

图1为本发明的方法流程图。

图2为改进Seq2Seq模型的网络结构图。

具体实施方式

为使本发明的技术方案更加清晰明确，下面结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明公开了一种基于改进Seq2Seq模型的数学题目自动标注方法，具体步骤如下:

作为本发明的优选实施例，本发明中的数学试题数据来源于组卷网，对其上的数学试题文本，总共采集了2025条数学试题数据，包含初中数学下知识点135个，每道数学试题包含一至多个知识点标签。

作为本发明的优选实施例，本发明中的分词采用ERNIE自带分词工具包；停用词根据我们事先设定的停用词词典进行去除停用词，数学文本中的停用词具体包括“如图”、“以下”、“()”等对知识点标注无意义的字词；Latex字符串的正则表达式语义转换例如：将“∧”符号转换为“指数幂”、将“cos”转换为余弦三角函数、将“||”转换为绝对值等等。

作为本发明的优选实施例，将通用自然语言文本转换为数学试题词向量包括以下具体步骤：

作为本发明的优选实施例，DPCNN编码器进行关键词突出的方法为：

其中，Q∈R^m×n，

为元素相乘，n为数学文本词向量长度；

α_m＝[α_m1,...,α_mi,...,α_mn]；

其中

为元素相乘；

作为本发明的优选实施例，FSLLDA监督主题模型生成关于数学试题文本所属的知识点标签主题分布信息STM的方法为：

和主题-单词分布

计算出一个文档中每一个单词或者字对应一个主题的概率:

并更新该词对应的知识点标签主题，同时更新

和

信息:

上述过程不断重复，最终收敛结果即为FSLLDA模型的输出：

和

其中，z_i＝k表示将词语i分配给知识点标签主题

表示除去词语i的其他单词，

表示除词项i外其它单词的主题，

表示除去单词i的词向量，t表示某一个具体的单词，

表示文档m中除了词项i分配主题为k的词项数，

为主题k在文档m中出现的先验概率，

为词项i在知识点主题k中出现的先验概率；

S5.3:根据训练好的FSLLDA监督主题模型的文档-主题分布

与主题-单词分布

作为本发明的优选实施例，上述FSLLDA模型生成过程包括如下步骤：

S5.1.1:统计数学试题数据集中的数据，构建标签共现矩阵：

Corrleation(Label_i,Label_j)＝λ₁*F_i,j+λ₂*S_i,j∈R^L×L；

DLRLCE＝Y*Corrleation∈R^N×L；

S5.1.6:对于每一个标签c：选择标签单词分布

from Dirchlet

其中

为主题-单词狄利克雷先验分布系数；

fromDirchlet

其中

为文档-主题狄利克雷先验分布系数；

S5.1.8:对于文档d中的每个单词w_m,n：

选择一个标签z_m,n from Multinomial

选择一个单词w_m,n from Multinomial

为文档-主题分布，

为主题-单词分布。

作为本发明的优选实施例，上述S5.3中Gibbs采样算法，对测试数学试题文本进行主题推断包括以下步骤：

S5.3.1：根据训练好的FSLLDA监督主题模型提供的文档-主题分布

与主题-单词分布

其中，z_i＝k表示将词语i分配给知识点标签主题

表示除去词语i的其他单词，

表示所有单词的词向量，

表示除去单词i的词向量，

表示与词项w_i分配相同主题k的词项数，

其中

作为本发明的优选实施例，上下文语义向量C和解码器输出状态o_t的计算方法为：

t时刻解码器端隐藏单元向量：z_t＝f(z_t-1,g(y_t-1),c_t,STM)；

t时刻的输出向量：o_t＝h(z_t,c_t,STM)。

S6.1.3:计算t时刻的数学文本上下文语义向量：

其中α_ti表示编码器端第i个语义向量的权重系数，s_i表示编码器端第i个数学语义向量。

作为本发明的优选实施例，上述步骤S7中生成当前时刻的标签概率分布向量y_t的方法为：

S7.1:构造蒙面掩码向量I_t，公式如下：

其中l_i表示第i个标签；

本发明所提出的基于改进Seq2Seq模型的数学题目自动标注方法，相比于传统的手动标注数学知识点，节省了大量的人力物力，而且基于改进Seq2Seq模型使得比原模型更加关注数学试题中促进生成数学知识点标签的关键部分，以及更多的考虑数学试题中会出现的知识点与知识点伴随出现的自然现象，可以使得生成的数学知识点标签更加全面与准确。

以上所述，仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。