CN112231491B

CN112231491B - 基于知识结构的相似试题识别方法

Info

Publication number: CN112231491B
Application number: CN202011125402.6A
Authority: CN
Inventors: 佟威; 刘淇; 陈恩红; 童世炜; 何理扬; 黄威
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-04-02
Anticipated expiration: 2040-10-20
Also published as: CN112231491A

Abstract

本发明公开了一种基于知识结构的相似试题识别方法，综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算，可以提升相似试题识别的效果；此外，在建模过程中，通过综合考虑文本和图片特征来获取语义表示，再利用知识结构获得基于知识结构的语义表示，在改进模型效果的同时，还具有高度的可解释性。

Description

基于知识结构的相似试题识别方法

技术领域

本发明涉及机器学习和教育数据挖掘技术领域，尤其涉及一种基于知识结构的相似试题识别方法。

背景技术

识别相似试题(FSE)是在线教育系统的一项基本且具有挑战性的任务，它可以用于试题检索和学生能力建模等在线教育系统。近年来，在线教育系统的研究和应用蓬勃发展，这些系统不仅可以帮助老师有针对性地给学生布置试题，还能协助学生巩固自己学习到的知识点；其中相似试题识别任务在这里面扮演着至关重要的角色。

知识点的结构信息储存在知识结构中，知识结构解释了一个领域中的知识概念是如何相互关联的，它可以用来建模知识之间的关联概念从而进一步帮助识别相似的试题。

目前，相似试题识别的相关工作大多是利用试题的相似文本、图片或者知识点标签特征，但是忽略了知识点的结构信息，因此，相似试题识别的效果还有待提升。

发明内容

本发明的目的是提供一种基于知识结构的相似试题识别方法，引入了知识点的结构信息，相较于现有方案而言，考虑因素更加全面，对数据的理解更加深入，可以准确高效地判断题对之间的相似程度，有效提升相似试题识别的效果。

本发明的目的是通过以下技术方案实现的：

一种基于知识结构的相似试题识别方法，包括：

获取试题集合与待识别的试题，试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构；

构建基于知识结构的多模态模型，其包含内容表示层、结构融合层及相似度得分层；其中，内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量；结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量；相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。

由上述本发明提供的技术方案可以看出，综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算，可以提升相似试题识别的效果；此外，在建模过程中，通过综合考虑文本和图片特征来获取语义表示，再利用知识结构获得基于知识结构的语义表示，在改进模型效果的同时，还具有高度的可解释性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于知识结构的相似试题识别方法的原理图；

图2为本发明实施例提供的内容表示层及结构融合层的原理图；

图3为本发明实施例提供的试题通过KnowNet模型学习到的注意力权重热力图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于知识结构的相似试题识别方法，包括：

本发明实施例中，所述的相似试题是具有相同的考查目的，或者说有相似语义的试题。将相似试题识别任务定义为：给定一个试题的集合以及每个试题对应的内容信息EC(比如试题的文本信息ET，图片信息EI)和知识点信息KC以及知识点的层级结构KS(也称为知识结构)，目标是利用这些异构信息去学得一个基于知识结构的多模态模型模型/>可以用来评估题对的相似度得分并且可以通过对候选试题集合R的相似度得分排序来找到试题E的相似试题集合：

其中的Θ表示模型的参数，R＝(E₁，E₂，E₃...)是试题E的候选试题列表，/> 表示根据相似度得分排序后的候选试题列表，E的相似试题就是候选集合中相似度得分最高的试题。

图1示出了本发明的主要原理，其中的(a)部分表示主要的步骤流程，CRL、SFL、SSL分别为内容表示层、结构融合层及相似度得分层，FC Layer为全连接层。(b)部分为试题所包含的信息内容，即文本信息ET，图片信息EI、知识点信息KC。(c)、(d)部分别为CRL、SFL内部结构，(e)部分为SFL的输出结果(r^E、)，(f)为SFL中自注意力机制的原理，使用的是著名的scaled-dot product attention(缩放点乘注意力)结构，用于输出语义和知识点的融合表示。

本发明实施例中，从数据处理层面进行了改进，考虑了多方面的因素，来提升相似试题识别的效果；具体来说，构建的模型中引入了知识点结构，改进了模型效果，可以加深对数据的理解，从而准确高效地判断试题对之间的相似程度。

下面针对本发明实施例上述方案做详细的介绍。

一、数据收集与预处理。

1.数据收集。

使用了真实的教育平台数据集，数据集包括由知识点间关系组成的知识结构和试题的内容信息，其中试题的内容包括试题的文本，试题包含的图片，此外标注了试题所考查的知识点。

2.数据预处理。

在训练模型之前，需要对数据集进行预处理来提升模型的效果。1)对试题的文本进行处理，用正则匹配删除一些无用符号后进行分词，再删除停止词和低频词；2)把所有试题的图像缩放到大小一致，这样方便输入到模型中。

二、构建基于知识结构的多模态模型(KnowNet)。

KnowNet模型，它利用了知识点所具有的图结构性质，并通过三个阶段来实现题对相似度得分的评估，KnowNet的架构如图1的(a)部分所示。为了处理不同类型的数据，使用了多种子模块来获取文本和图片的向量表示，并在不同阶段采用不同的注意力机制对各类型的数据进行融合处理。

1、内容表示层(Content Representation Layer，CRL)。

内容表示层的目的是输出每个试题的图文联合语义表示，架构如图1的(c)部分所示，主要包括：图卷积网络(Image CNN)、基于注意力机制的长短记忆模型(Attention-based LSTM，ALSTM)。首先，内容信息中的图像输入至图卷积网络，提取出固定长度的特征向量；然后，将图像的特征向量处理为联合表示向量后与文本进行拼接，再输出至基于注意力机制的长短记忆模型，寻找文本与图像之间的关联，获得试题的联合语义表示向量。

1)Image CNN。

如图2左上方所示，对于试题q的图像数据EI，使用一个拥有五层卷积网络和最大值池化层(max pooling)的lmage CNN(ImCNN)来获取每个图像的特征向量。每一试题包含若干图像，对于EI中的第i张图像p_i，ImCNN将它转化为一个固定长度的向量g_i，可以表示为：

g_i＝σ(ImCNN(p_i))

其中，σ表示激活函数。

2)ALSTM。

如图2左下方所示，ALSTM的目标在于找到试题文本和图片之间的关联信息。由于长短期记忆模型(Long Short Term Memory networks，LSTM)可以处理任何长度的序列，并学习序列的长期依赖关系，因此采用了一个基于LSTM的结构来学习任意长度试题的语义表示，不失一般性的，把各个试题不同类型数据的结合序列x＝(x₁，x₂，x₃，...x_T)输入到这个LSTM结构中，并且第t个时间步的隐藏层状态h_t按照如下公式更新：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b₀)

m_t＝f_tm_t-1+i_ttanh(W_xmx_t+W_hmh_t-1+b_m)

h_t＝o_ttanh(m_t)

其中i.，f.，m.，o.分别表示LSTM的输入门、遗忘门、记忆单元和输出门，W.和b.是相应门或者单元中待学习的权重矩阵和偏差。在每个时间步的输入阶段，文本和图像数据组合成一个多模态的输入向量x_t：

其中，w_t为文本中的第t个分词，一个分词对应一个时刻；为图像的联合表示向量，通过下述方式得到：

其中，I表示试题q中图片的总数，α_j为第j个图像的注意力权重；h_t-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态；g_j、g_i分别表示第j个、第i个图像的特征向量；W_ai表示待学习的参数，表示g_j的转置。

2、结构融合层(Structure Fusion Layer，SFL)。

结构融合层的目标是将知识点的结构信息整合到试题的语义表示中。如图2的右侧所示，为了建模试题内容与知识点的内在联系，将著名的scaled-dot productattention应用在CKA(Content Knowledge Attention，知识与内容注意力机制)模块Content中。为了描述结构关系，提出了一个新的算法：树卷积网络Tree ConvolutionalNetwork(TCN)，如图2的右下所示。下面分别介绍结构融合层SFL的两个重要子模块。

1)CKA模块。

因为由one-hot表示的知识点向量过于稀疏，因此首先使用嵌入的方法把知识点向量转换成低纬度的向量(即降维处理)。从形式上来说，对于试题q的第c个知识点向量k_c，转化后的向量u_c可以表示为：

u_c＝k_cW_u

其中，是嵌入层的参数，d_k是降维后知识点向量u_c的元素数目，n为知识点向量k_c的元素数目。

然后，将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量输入至Scaled-dot product attention，降维后的知识点向量u作为注意力机制中的Q值，联合语义表示向量/>作为注意力机制中的V值与K值，得到基于知识点注意力的语义表示向量/>

其中，U_c表示第c个知识点基于知识点注意力的语义表示。

2)树卷积网络。

Tree Convolutional Network的目的是在获取到向量后，将知识点的结构关系融合到语义表示中。受到Tree-LSTM和GCN的启发，本发明实施例提出了一个新的采用自底向上方式的算法去获取知识点的层级结构信息。

在所述树卷积网络中，由于知识结构对应的树结构作为数据输入，不需要重新构建，因此，可以直接将基于知识点注意力的语义表示向量映射到知识结构对应的叶子结点上，其他叶子结点特征设置为0；如图2右部所示，在树卷积网络每层的计算过程中，第l层的第x个知识点/>聚集了其所有子结点/>的特征，使用下述的公式来获取知识点/>新的表示向量：

其中，W_l和b_l是待学习的参数，表示知识点/>在树结构中对应的特征向量。

当结点特征聚集到顶层树结点时，最终，得到一个综合表示向量以及一个总体表示向量/>其中，ln表示知识点树结构第l层结点的总数，L表示知识点树的总层数，综合表示r^E是树结构第0层结点聚集底层结点特征得到的向量，它是一个整体的基于知识结构语义的表示，即统一的结构感知语义表示(unified structure-aware semantics representation)，总体表示/>是对知识结构中所有知识点基于知识结构语义表示向量的组合，即分布式结构感知语义表示(distributedstructure-aware semantics representation)；L为树卷积网络层数。

3、相似度得分层(Similarity Score Layer，SSL)。

如图1的(a)部分所示，每个试题的输入数据通过CRL和SFL层后，将获得r^E向量和向量，相似度得分层将利用这两个向量来计算题对的相似度，这样就能通过对候选试题排序来识别相似试题。前文提到评估试题相似性的一个关键是知识结构的关系，因此，对于待识别的试题E_a以及试题集合中的任意试题E_b，先计算一个矩阵/>来表示试题对的知识点相似性：

其中，c＝1，2，...，n；n为知识点总数，等于前文提到的知识点向量k_c的元素数目；表示在试题对在第c个知识点上的语义相似性，并且为结构的相似性提供了一个可解释的视图，可解释性将在后文进行说明。

再将矩阵与试题对各自对应的综合表示向量/>与/>拼接，并通过全连接层得到相似度得分S(E_a，E_b)：

其中，W_s和b_s是全连接层的参数。

4、模型的可解释性。

通过前述Att(Q，K，V)计算公式，KnowNet模型能够获取知识结构和试题的语义表示之间的注意力信息，这是该模型的一个重要能力特点。图3是一个试题通过KnowNet模型学习到的注意力权重热力图，颜色越深表示注意力权重越大，其中KC-1～4依次表示直线的斜率，直线相对圆的位置，圆的参数方程，点到直线的距离这四个知识点概念；左侧一列：line、centre、....，表示试题中文本分词。从图3中可以看到KnowNet模型学会了怎么去获取和知识点相关的关键词。这说明KnowNet模型提供了一个很好的方式(通过CKA模块)来获取一个试题的知识点和内容的关联情况，提供了一定的可解释性。

三、损失函数和模型训练。

本发明实施例采用一种pairwise loss function来训练KnowNet模型，对于一个试题E，将E_s表示为它的相似试题集合，把Eds表示为它的不相似试题集合，考虑到相似试题对(E，E_s)应该比题对(E，E_ds)的得分更高，因此，基于知识结构的多模态模型的损失函数为：

其中，μ是一个边界值，保证S(E，E_s)大于S(E，E_ds)，S(.)表示试题对的相似度得分，Θ表示基于知识结构的多模态模型中所有待学习的参数，λ_Θ是正则化超参数。

KnowNet模型具有完全可微的性质，可以通过Adam算法进行有效的训练。

在完成模型训练后，将一道试题和它的候选相似试题集合成对输入模型，这样可以按照它们之间的相似试题得分进行排序，从而找到试题的TOP N个最相似的试题。

本发明实施例上述方案，通过将知识结构考虑到模型的构建中，从而改进识别相似试题的效果。在建模过程中，通过综合考虑文本和图片特征来获取语义表示，再利用知识结构获得基于知识结构的语义表示，在改进模型效果的同时，还具有高度的可解释性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于知识结构的相似试题识别方法，其特征在于，包括：

构建基于知识结构的多模态模型，其包含内容表示层、结构融合层及相似度得分层；其中，内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量；结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量；相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分；

所述内容表示层包括：图卷积网络、基于注意力机制的长短记忆模型；内容信息中的图像输入至图卷积网络，提取出固定长度的特征向量；将图像的特征向量处理为联合表示向量后与文本进行拼接，再输出至基于注意力机制的长短记忆模型，获得试题的联合语义表示向量H^R；

联合表示向量与文本进行拼接公式为：

其中，I表示试题q中图片的总数，α_j为第j个图像的注意力权重；h_t-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态；g_j、g_i分别表示第j个、第i个图像的特征向量；W_ai表示待学习的参数，表示g_j的转置；

所述结构融合层包括：CKA模块与树卷积网络；其中：

所述CKA模块中：先使用嵌入的方法将知识点向量进行降维，表示为：u_c＝k_cW_u；其中，是嵌入层的参数，d_k是降维后知识点向量u_c的元素数目，n为知识点向量k_c的元素数目；然后，将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量输入至Scaled-dot product attention，降维后的知识点向量u作为注意力机制中的Q值，联合语义表示向量/>作为注意力机制中的V值与K值，得到基于知识点注意力的语义表示向量/>

在所述树卷积网络中，先将基于知识点注意力的语义表示向量映射到知识结构对应的叶子结点上，其他叶子结点特征设置为0；在树卷积网络每层的计算过程中，第l层的第x个知识点/>聚集了其所有子结点/>的特征，使用下述的公式来获取知识点/>新的表示向量：

其中，W_l和b_l是待学习的参数，表示知识点/>在树结构中对应的特征向量；

当结点特征聚集到顶层树结点时，最终，得到一个综合表示向量r^E、以及一个总体表示向量其中，综合表示r^E是一个整体的基于知识结构语义的表示向量，总体表示/>是对知识结构中所有知识点基于知识结构语义表示向量的组合；ln表示树结构第l层结点的总数，L为树卷积网络层数。

2.根据权利要求1所述的一种基于知识结构的相似试题识别方法，其特征在于，内容信息包括：试题文本以及相应的图像；

对于试题文本，利用正则匹配删除无用符号后进行分词，再删除停止词和低频词；

对于各试题的图像，进行尺寸调节，使得所有试题的大小一致。

3.根据权利要求1所述的一种基于知识结构的相似试题识别方法，其特征在于，对于待识别的试题E_a以及试题集合中的任意试题E_b，先计算一个矩阵来表示试题对的知识点相似性：

其中，c＝1,2,...,n，n为知识点总数，等于知识点向量k_c的元素数目；表示在试题对在第c个知识点上的语义相似性；

再将矩阵与试题对各自对应的综合表示向量/>与/>拼接，并通过全连接层得到相似度得分S(E_a,E_b)：

其中，w_s和b_s是全连接层的参数。

4.根据权利要求1所述的一种基于知识结构的相似试题识别方法，其特征在于，训练阶段，对于一个试题E，将E_s表示为它的相似试题集合，把E_ds表示为它的不相似试题集合，基于知识结构的多模态模型的损失函数为：

其中，μ是一个边界值，保证S(E,E_s)大于S(E,E_ds)，S(.)表示试题对的相似度得分，Θ表示基于知识结构的多模态模型中所有待学习的参数，λ_Θ是正则化超参数。