CN112231491A - 基于知识结构的相似试题识别方法 - Google Patents

基于知识结构的相似试题识别方法 Download PDF

Info

Publication number
CN112231491A
CN112231491A CN202011125402.6A CN202011125402A CN112231491A CN 112231491 A CN112231491 A CN 112231491A CN 202011125402 A CN202011125402 A CN 202011125402A CN 112231491 A CN112231491 A CN 112231491A
Authority
CN
China
Prior art keywords
knowledge
test question
vector
test
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011125402.6A
Other languages
English (en)
Other versions
CN112231491B (zh
Inventor
佟威
刘淇
陈恩红
童世炜
何理扬
黄威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011125402.6A priority Critical patent/CN112231491B/zh
Publication of CN112231491A publication Critical patent/CN112231491A/zh
Application granted granted Critical
Publication of CN112231491B publication Critical patent/CN112231491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识结构的相似试题识别方法,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。

Description

基于知识结构的相似试题识别方法
技术领域
本发明涉及机器学习和教育数据挖掘技术领域,尤其涉及一种基于知识结构的相似试题识别方法。
背景技术
识别相似试题(FSE)是在线教育系统的一项基本且具有挑战性的任务,它可以用于试题检索和学生能力建模等在线教育系统。近年来,在线教育系统的研究和应用蓬勃发展,这些系统不仅可以帮助老师有针对性地给学生布置试题,还能协助学生巩固自己学习到的知识点;其中相似试题识别任务在这里面扮演着至关重要的角色。
知识点的结构信息储存在知识结构中,知识结构解释了一个领域中的知识概念是如何相互关联的,它可以用来建模知识之间的关联概念从而进一步帮助识别相似的试题。
目前,相似试题识别的相关工作大多是利用试题的相似文本、图片或者知识点标签特征,但是忽略了知识点的结构信息,因此,相似试题识别的效果还有待提升。
发明内容
本发明的目的是提供一种基于知识结构的相似试题识别方法,引入了知识点的结构信息,相较于现有方案而言,考虑因素更加全面,对数据的理解更加深入,可以准确高效地判断题对之间的相似程度,有效提升相似试题识别的效果。
本发明的目的是通过以下技术方案实现的:
一种基于知识结构的相似试题识别方法,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。
由上述本发明提供的技术方案可以看出,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于知识结构的相似试题识别方法的原理图;
图2为本发明实施例提供的内容表示层及结构融合层的原理图;
图3为本发明实施例提供的试题通过KnowNet模型学习到的注意力权重热力图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于知识结构的相似试题识别方法,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。
本发明实施例中,所述的相似试题是具有相同的考查目的,或者说有相似语义的试题。将相似试题识别任务定义为:给定一个试题的集合以及每个试题对应的内容信息EC(比如试题的文本信息ET,图片信息EI)和知识点信息KC以及知识点的层级结构KS(也称为知识结构),目标是利用这些异构信息去学得一个基于知识结构的多模态模型
Figure BDA0002733451360000037
模型
Figure BDA0002733451360000034
可以用来评估题对的相似度得分并且可以通过对候选试题集合R的相似度得分排序来找到试题E的相似试题集合:
Figure BDA0002733451360000031
其中的Θ表示模型
Figure BDA0002733451360000036
的参数,R=(E1,E2,E3...)是试题E的候选试题列表,
Figure BDA0002733451360000032
Figure BDA0002733451360000033
表示根据相似度得分排序后的候选试题列表,E的相似试题就是候选集合中相似度得分最高的试题。
图1示出了本发明的主要原理,其中的(a)部分表示主要的步骤流程,CRL、SFL、SSL分别为内容表示层、结构融合层及相似度得分层,FC Layer为全连接层。(b)部分为试题所包含的信息内容,即文本信息ET,图片信息EI、知识点信息KC。(c)、(d)部分别为CRL、SFL内部结构,(e)部分为SFL的输出结果(rE
Figure BDA0002733451360000035
),(f)为SFL中自注意力机制的原理,使用的是著名的scaled-dot product attention(缩放点乘注意力)结构,用于输出语义和知识点的融合表示。
本发明实施例中,从数据处理层面进行了改进,考虑了多方面的因素,来提升相似试题识别的效果;具体来说,构建的模型中引入了知识点结构,改进了模型效果,可以加深对数据的理解,从而准确高效地判断试题对之间的相似程度。
下面针对本发明实施例上述方案做详细的介绍。
一、数据收集与预处理。
1.数据收集。
使用了真实的教育平台数据集,数据集包括由知识点间关系组成的知识结构和试题的内容信息,其中试题的内容包括试题的文本,试题包含的图片,此外标注了试题所考查的知识点。
2.数据预处理。
在训练模型之前,需要对数据集进行预处理来提升模型的效果。1)对试题的文本进行处理,用正则匹配删除一些无用符号后进行分词,再删除停止词和低频词;2)把所有试题的图像缩放到大小一致,这样方便输入到模型中。
二、构建基于知识结构的多模态模型(KnowNet)。
KnowNet模型,它利用了知识点所具有的图结构性质,并通过三个阶段来实现题对相似度得分的评估,KnowNet的架构如图1的(a)部分所示。为了处理不同类型的数据,使用了多种子模块来获取文本和图片的向量表示,并在不同阶段采用不同的注意力机制对各类型的数据进行融合处理。
1、内容表示层(Content Representation Layer,CRL)。
内容表示层的目的是输出每个试题的图文联合语义表示,架构如图1的(c)部分所示,主要包括:图卷积网络(Image CNN)、基于注意力机制的长短记忆模型(Attention-based LSTM,ALSTM)。首先,内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;然后,将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,寻找文本与图像之间的关联,获得试题的联合语义表示向量
Figure BDA0002733451360000041
1)Image CNN。
如图2左上方所示,对于试题q的图像数据EI,使用一个拥有五层卷积网络和最大值池化层(max pooling)的lmage CNN(ImCNN)来获取每个图像的特征向量。每一试题包含若干图像,对于EI中的第i张图像pi,ImCNN将它转化为一个固定长度的向量gi,可以表示为:
gi=σ(ImCNN(pi))
其中,σ表示激活函数。
2)ALSTM。
如图2左下方所示,ALSTM的目标在于找到试题文本和图片之间的关联信息。由于长短期记忆模型(Long Short Term Memory networks,LSTM)可以处理任何长度的序列,并学习序列的长期依赖关系,因此采用了一个基于LSTM的结构来学习任意长度试题的语义表示,不失一般性的,把各个试题不同类型数据的结合序列x=(x1,x2,x3,...xT)输入到这个LSTM结构中,并且第t个时间步的隐藏层状态ht按照如下公式更新:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+b0)
mt=ftmt-1+ittanh(Wxmxt+Whmht-1+bm)
ht=ottanh(mt)
其中i.,f.,m.,o.分别表示LSTM的输入门、遗忘门、记忆单元和输出门,W.和b.是相应门或者单元中待学习的权重矩阵和偏差。在每个时间步的输入阶段,文本和图像数据组合成一个多模态的输入向量xt
Figure BDA0002733451360000051
其中,wt为文本中的第t个分词,一个分词对应一个时刻;
Figure BDA0002733451360000057
为图像的联合表示向量,通过下述方式得到:
Figure BDA0002733451360000052
Figure BDA0002733451360000053
其中,I表示试题q中图片的总数,αj为第j个图像的注意力权重;ht-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态;gj、gi分别表示第j个、第i个图像的特征向量;Wai表示待学习的参数,
Figure BDA0002733451360000054
表示gj的转置。
2、结构融合层(Structure Fusion Layer,SFL)。
结构融合层的目标是将知识点的结构信息整合到试题的语义表示中。如图2的右侧所示,为了建模试题内容与知识点的内在联系,将著名的scaled-dot productattention应用在CKA(Content Knowledge Attention,知识与内容注意力机制)模块Content中。为了描述结构关系,提出了一个新的算法:树卷积网络Tree ConvolutionalNetwork(TCN),如图2的右下所示。下面分别介绍结构融合层SFL的两个重要子模块。
1)CKA模块。
因为由one-hot表示的知识点向量过于稀疏,因此首先使用嵌入的方法把知识点向量转换成低纬度的向量(即降维处理)。从形式上来说,对于试题q的第c个知识点向量kc,转化后的向量uc可以表示为:
uc=kcWu
其中,
Figure BDA0002733451360000055
是嵌入层的参数,dk是降维后知识点向量uc的元素数目,n为知识点向量kc的元素数目。
然后,将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量
Figure BDA0002733451360000058
输入至Scaled-dot product attention,降维后的知识点向量u作为注意力机制中的Q值,联合语义表示向量
Figure BDA0002733451360000059
作为注意力机制中的V值与K值,得到基于知识点注意力的语义表示向量
Figure BDA00027334513600000510
Figure BDA0002733451360000056
其中,Uc表示第c个知识点基于知识点注意力的语义表示。
2)树卷积网络。
Tree Convolutional Network的目的是在获取到向量
Figure BDA00027334513600000612
后,将知识点的结构关系融合到语义表示中。受到Tree-LSTM和GCN的启发,本发明实施例提出了一个新的采用自底向上方式的算法去获取知识点的层级结构信息。
在所述树卷积网络中,由于知识结构对应的树结构作为数据输入,不需要重新构建,因此,可以直接将基于知识点注意力的语义表示向量
Figure BDA00027334513600000614
映射到知识结构对应的叶子结点上,其他叶子结点特征设置为0;如图2右部所示,在树卷积网络每层的计算过程中,第l层的第x个知识点
Figure BDA0002733451360000061
聚集了其所有子结点
Figure BDA0002733451360000062
的特征,使用下述的公式来获取知识点
Figure BDA0002733451360000063
新的表示向量:
Figure BDA0002733451360000064
其中,Wl和bl是待学习的参数,
Figure BDA0002733451360000065
表示知识点
Figure BDA0002733451360000066
在树结构中对应的特征向量。
当结点特征聚集到顶层树结点时,最终,得到一个综合表示向量
Figure BDA0002733451360000067
以及一个总体表示向量
Figure BDA0002733451360000068
其中,ln表示知识点树结构第l层结点的总数,L表示知识点树的总层数,综合表示rE是树结构第0层结点聚集底层结点特征得到的向量,它是一个整体的基于知识结构语义的表示,即统一的结构感知语义表示(unified structure-aware semantics representation),总体表示
Figure BDA00027334513600000613
是对知识结构中所有知识点基于知识结构语义表示向量的组合,即分布式结构感知语义表示(distributedstructure-aware semantics representation);L为树卷积网络层数。
3、相似度得分层(Similarity Score Layer,SSL)。
如图1的(a)部分所示,每个试题的输入数据通过CRL和SFL层后,将获得rE向量和
Figure BDA00027334513600000615
向量,相似度得分层将利用这两个向量来计算题对的相似度,这样就能通过对候选试题排序来识别相似试题。前文提到评估试题相似性的一个关键是知识结构的关系,因此,对于待识别的试题Ea以及试题集合中的任意试题Eb,先计算一个矩阵
Figure BDA00027334513600000611
来表示试题对的知识点相似性:
Figure BDA0002733451360000069
其中,c=1,2,...,n;n为知识点总数,等于前文提到的知识点向量kc的元素数目;
Figure BDA00027334513600000610
表示在试题对在第c个知识点上的语义相似性,并且为结构的相似性提供了一个可解释的视图,可解释性将在后文进行说明。
再将矩阵
Figure BDA0002733451360000073
与试题对各自对应的综合表示向量
Figure BDA0002733451360000074
Figure BDA0002733451360000075
拼接,并通过全连接层得到相似度得分S(Ea,Eb):
Figure BDA0002733451360000071
其中,Ws和bs是全连接层的参数。
4、模型的可解释性。
通过前述Att(Q,K,V)计算公式,KnowNet模型能够获取知识结构和试题的语义表示之间的注意力信息,这是该模型的一个重要能力特点。图3是一个试题通过KnowNet模型学习到的注意力权重热力图,颜色越深表示注意力权重越大,其中KC-1~4依次表示直线的斜率,直线相对圆的位置,圆的参数方程,点到直线的距离这四个知识点概念;左侧一列:line、centre、....,表示试题中文本分词。从图3中可以看到KnowNet模型学会了怎么去获取和知识点相关的关键词。这说明KnowNet模型提供了一个很好的方式(通过CKA模块)来获取一个试题的知识点和内容的关联情况,提供了一定的可解释性。
三、损失函数和模型训练。
本发明实施例采用一种pairwise loss function来训练KnowNet模型,对于一个试题E,将Es表示为它的相似试题集合,把Eds表示为它的不相似试题集合,考虑到相似试题对(E,Es)应该比题对(E,Eds)的得分更高,因此,基于知识结构的多模态模型的损失函数为:
Figure BDA0002733451360000072
其中,μ是一个边界值,保证S(E,Es)大于S(E,Eds),S(.)表示试题对的相似度得分,Θ表示基于知识结构的多模态模型中所有待学习的参数,λΘ是正则化超参数。
KnowNet模型具有完全可微的性质,可以通过Adam算法进行有效的训练。
在完成模型训练后,将一道试题和它的候选相似试题集合成对输入模型,这样可以按照它们之间的相似试题得分进行排序,从而找到试题的TOP N个最相似的试题。
本发明实施例上述方案,通过将知识结构考虑到模型的构建中,从而改进识别相似试题的效果。在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种基于知识结构的相似试题识别方法,其特征在于,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。
2.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,内容信息包括:试题文本以及相应的图像;
对于试题文本,利用正则匹配删除无用符号后进行分词,再删除停止词和低频词;
对于各试题的图像,进行尺寸调节,使得所有试题的大小一致。
3.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,所述内容表示层包括:图卷积网络、基于注意力机制的长短记忆模型;
内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;
将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,获得试题的联合语义表示向量
Figure FDA0002733451350000016
4.根据权利要求3所述的一种基于知识结构的相似试题识别方法,其特征在于,联合表示向量与文本进行拼接公式为:
Figure FDA0002733451350000011
其中,wt为文本中的第t个分词,一个分词对应一个时刻;
Figure FDA0002733451350000012
为图像的联合表示向量,通过下述方式得到:
Figure FDA0002733451350000013
Figure FDA0002733451350000014
其中,I表示试题q中图片的总数,αj为第j个图像的注意力权重;ht-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态;gj、gi分别表示第j个、第i个图像的特征向量;Wai表示待学习的参数,
Figure FDA0002733451350000015
表示gj的转置。
5.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,所述结构融合层包括:CKA模块与树卷积网络;其中:
所述CKA模块中:先使用嵌入的方法将知识点向量进行降维,表示为:uc=kcWu;其中,
Figure FDA00027334513500000216
是嵌入层的参数,dk是降维后知识点向量uc的元素数目,n为知识点向量kc的元素数目;然后,将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量
Figure FDA00027334513500000217
输入至Scaled-dot product attention,降维后的知识点向量u作为注意力机制中的Q值,联合语义表示向量
Figure FDA00027334513500000218
作为注意力机制中的V值与K值,得到基于知识点注意力的语义表示向量
Figure FDA00027334513500000219
Figure FDA0002733451350000021
在所述树卷积网络中,先将基于知识点注意力的语义表示向量
Figure FDA00027334513500000220
映射到知识结构对应的叶子结点上,其他叶子结点特征设置为0;在树卷积网络每层的计算过程中,第l层的第x个知识点
Figure FDA0002733451350000022
聚集了其所有子结点
Figure FDA0002733451350000023
的特征,使用下述的公式来获取知识点
Figure FDA0002733451350000024
新的表示向量:
Figure FDA0002733451350000025
其中,Wl和bl是待学习的参数,
Figure FDA0002733451350000026
表示知识点
Figure FDA0002733451350000027
在树结构中对应的特征向量;
当结点特征聚集到顶层树结点时,最终,得到一个综合表示向量rE、以及一个总体表示向量
Figure FDA0002733451350000028
其中,综合表示rE是一个整体的基于知识结构语义的表示向量,总体表示HE是对知识结构中所有知识点基于知识结构语义表示向量的组合;ln表示树结构第l层结点的总数,L为树卷积网络层数。
6.根据权利要求5所述的一种基于知识结构的相似试题识别方法,其特征在于,对于待识别的试题Ea以及试题集合中的任意试题Eb,先计算一个矩阵
Figure FDA0002733451350000029
来表示试题对的知识点相似性:
Figure FDA00027334513500000210
其中,c=1,2,...,n,n为知识点总数,等于知识点向量kc的元素数目;
Figure FDA00027334513500000211
表示在试题对在第c个知识点上的语义相似性;
再将矩阵
Figure FDA00027334513500000212
与试题对各自对应的综合表示向量
Figure FDA00027334513500000213
Figure FDA00027334513500000214
拼接,并通过全连接层得到相似度得分S(Ea,Eb):
Figure FDA00027334513500000215
其中,Ws和bs是全连接层的参数。
7.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,训练阶段,对于一个试题E,将Es表示为它的相似试题集合,把Eds表示为它的不相似试题集合,基于知识结构的多模态模型的损失函数为:
Figure FDA0002733451350000031
其中,μ是一个边界值,保证S(E,Es)大于S(E,Eds),S(.)表示试题对的相似度得分,Θ表示基于知识结构的多模态模型中所有待学习的参数,λΘ是正则化超参数。
CN202011125402.6A 2020-10-20 2020-10-20 基于知识结构的相似试题识别方法 Active CN112231491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011125402.6A CN112231491B (zh) 2020-10-20 2020-10-20 基于知识结构的相似试题识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011125402.6A CN112231491B (zh) 2020-10-20 2020-10-20 基于知识结构的相似试题识别方法

Publications (2)

Publication Number Publication Date
CN112231491A true CN112231491A (zh) 2021-01-15
CN112231491B CN112231491B (zh) 2024-04-02

Family

ID=74119181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011125402.6A Active CN112231491B (zh) 2020-10-20 2020-10-20 基于知识结构的相似试题识别方法

Country Status (1)

Country Link
CN (1) CN112231491B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988844A (zh) * 2021-03-31 2021-06-18 东北大学 一种基于学生练习序列的知识概念表示学习方法
CN113505246A (zh) * 2021-09-11 2021-10-15 腾讯科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质
CN114282531A (zh) * 2021-08-24 2022-04-05 腾讯科技(深圳)有限公司 一种题目检测方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060099222A (ko) * 2005-03-11 2006-09-19 인하대학교 산학협력단 이메일 분류 시스템 및 방법
CN108376132A (zh) * 2018-03-16 2018-08-07 中国科学技术大学 相似试题的判定方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060099222A (ko) * 2005-03-11 2006-09-19 인하대학교 산학협력단 이메일 분류 시스템 및 방법
CN108376132A (zh) * 2018-03-16 2018-08-07 中国科学技术大学 相似试题的判定方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何彬;李心宇;陈蓓蕾;夏盟;曾致中;: "基于属性关系深度挖掘的试题知识点标注模型", 南京信息工程大学学报(自然科学版), no. 06 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988844A (zh) * 2021-03-31 2021-06-18 东北大学 一种基于学生练习序列的知识概念表示学习方法
CN114282531A (zh) * 2021-08-24 2022-04-05 腾讯科技(深圳)有限公司 一种题目检测方法、装置、电子设备和存储介质
CN113505246A (zh) * 2021-09-11 2021-10-15 腾讯科技(深圳)有限公司 数据处理方法、装置、终端设备以及存储介质

Also Published As

Publication number Publication date
CN112231491B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN107230174B (zh) 一种基于网络的在线互动学习系统和方法
WO2021031480A1 (zh) 文本生成方法和装置
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112231491A (zh) 基于知识结构的相似试题识别方法
WO2022161470A1 (zh) 内容的评价方法、装置、设备及介质
Li et al. Multimodal architecture for video captioning with memory networks and an attention mechanism
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111222049A (zh) 语义增强的异构信息网络上Top-k相似度搜索方法
CN104376010A (zh) 用户推荐方法和装置
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN112257441A (zh) 一种基于反事实生成的命名实体识别增强方法
Chung et al. Inventor group identification approach for selecting university-industry collaboration partners
Sinha et al. NLP-based automatic answer evaluation
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN115617960A (zh) 一种岗位推荐方法及装置
CN117370736A (zh) 一种细粒度情感识别方法、电子设备及存储介质
Murdick et al. AI Definitions Affect Policymaking
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
Chaudhuri et al. Automating assessment of design exams: a case study of novelty evaluation
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN113515935B (zh) 一种标题生成方法、装置、终端及介质
CN114429822A (zh) 病历质检方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant