CN112231491B - 基于知识结构的相似试题识别方法 - Google Patents
基于知识结构的相似试题识别方法 Download PDFInfo
- Publication number
- CN112231491B CN112231491B CN202011125402.6A CN202011125402A CN112231491B CN 112231491 B CN112231491 B CN 112231491B CN 202011125402 A CN202011125402 A CN 202011125402A CN 112231491 B CN112231491 B CN 112231491B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- test question
- vector
- layer
- questions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 60
- 239000013604 expression vector Substances 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 208000037957 feline spongiform encephalopathy Diseases 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识结构的相似试题识别方法,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。
Description
技术领域
本发明涉及机器学习和教育数据挖掘技术领域,尤其涉及一种基于知识结构的相似试题识别方法。
背景技术
识别相似试题(FSE)是在线教育系统的一项基本且具有挑战性的任务,它可以用于试题检索和学生能力建模等在线教育系统。近年来,在线教育系统的研究和应用蓬勃发展,这些系统不仅可以帮助老师有针对性地给学生布置试题,还能协助学生巩固自己学习到的知识点;其中相似试题识别任务在这里面扮演着至关重要的角色。
知识点的结构信息储存在知识结构中,知识结构解释了一个领域中的知识概念是如何相互关联的,它可以用来建模知识之间的关联概念从而进一步帮助识别相似的试题。
目前,相似试题识别的相关工作大多是利用试题的相似文本、图片或者知识点标签特征,但是忽略了知识点的结构信息,因此,相似试题识别的效果还有待提升。
发明内容
本发明的目的是提供一种基于知识结构的相似试题识别方法,引入了知识点的结构信息,相较于现有方案而言,考虑因素更加全面,对数据的理解更加深入,可以准确高效地判断题对之间的相似程度,有效提升相似试题识别的效果。
本发明的目的是通过以下技术方案实现的:
一种基于知识结构的相似试题识别方法,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。
由上述本发明提供的技术方案可以看出,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于知识结构的相似试题识别方法的原理图;
图2为本发明实施例提供的内容表示层及结构融合层的原理图;
图3为本发明实施例提供的试题通过KnowNet模型学习到的注意力权重热力图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于知识结构的相似试题识别方法,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。
本发明实施例中,所述的相似试题是具有相同的考查目的,或者说有相似语义的试题。将相似试题识别任务定义为:给定一个试题的集合以及每个试题对应的内容信息EC(比如试题的文本信息ET,图片信息EI)和知识点信息KC以及知识点的层级结构KS(也称为知识结构),目标是利用这些异构信息去学得一个基于知识结构的多模态模型模型/>可以用来评估题对的相似度得分并且可以通过对候选试题集合R的相似度得分排序来找到试题E的相似试题集合:
其中的Θ表示模型的参数,R=(E1,E2,E3...)是试题E的候选试题列表,/> 表示根据相似度得分排序后的候选试题列表,E的相似试题就是候选集合中相似度得分最高的试题。
图1示出了本发明的主要原理,其中的(a)部分表示主要的步骤流程,CRL、SFL、SSL分别为内容表示层、结构融合层及相似度得分层,FC Layer为全连接层。(b)部分为试题所包含的信息内容,即文本信息ET,图片信息EI、知识点信息KC。(c)、(d)部分别为CRL、SFL内部结构,(e)部分为SFL的输出结果(rE、),(f)为SFL中自注意力机制的原理,使用的是著名的scaled-dot product attention(缩放点乘注意力)结构,用于输出语义和知识点的融合表示。
本发明实施例中,从数据处理层面进行了改进,考虑了多方面的因素,来提升相似试题识别的效果;具体来说,构建的模型中引入了知识点结构,改进了模型效果,可以加深对数据的理解,从而准确高效地判断试题对之间的相似程度。
下面针对本发明实施例上述方案做详细的介绍。
一、数据收集与预处理。
1.数据收集。
使用了真实的教育平台数据集,数据集包括由知识点间关系组成的知识结构和试题的内容信息,其中试题的内容包括试题的文本,试题包含的图片,此外标注了试题所考查的知识点。
2.数据预处理。
在训练模型之前,需要对数据集进行预处理来提升模型的效果。1)对试题的文本进行处理,用正则匹配删除一些无用符号后进行分词,再删除停止词和低频词;2)把所有试题的图像缩放到大小一致,这样方便输入到模型中。
二、构建基于知识结构的多模态模型(KnowNet)。
KnowNet模型,它利用了知识点所具有的图结构性质,并通过三个阶段来实现题对相似度得分的评估,KnowNet的架构如图1的(a)部分所示。为了处理不同类型的数据,使用了多种子模块来获取文本和图片的向量表示,并在不同阶段采用不同的注意力机制对各类型的数据进行融合处理。
1、内容表示层(Content Representation Layer,CRL)。
内容表示层的目的是输出每个试题的图文联合语义表示,架构如图1的(c)部分所示,主要包括:图卷积网络(Image CNN)、基于注意力机制的长短记忆模型(Attention-based LSTM,ALSTM)。首先,内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;然后,将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,寻找文本与图像之间的关联,获得试题的联合语义表示向量。
1)Image CNN。
如图2左上方所示,对于试题q的图像数据EI,使用一个拥有五层卷积网络和最大值池化层(max pooling)的lmage CNN(ImCNN)来获取每个图像的特征向量。每一试题包含若干图像,对于EI中的第i张图像pi,ImCNN将它转化为一个固定长度的向量gi,可以表示为:
gi=σ(ImCNN(pi))
其中,σ表示激活函数。
2)ALSTM。
如图2左下方所示,ALSTM的目标在于找到试题文本和图片之间的关联信息。由于长短期记忆模型(Long Short Term Memory networks,LSTM)可以处理任何长度的序列,并学习序列的长期依赖关系,因此采用了一个基于LSTM的结构来学习任意长度试题的语义表示,不失一般性的,把各个试题不同类型数据的结合序列x=(x1,x2,x3,...xT)输入到这个LSTM结构中,并且第t个时间步的隐藏层状态ht按照如下公式更新:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+b0)
mt=ftmt-1+ittanh(Wxmxt+Whmht-1+bm)
ht=ottanh(mt)
其中i.,f.,m.,o.分别表示LSTM的输入门、遗忘门、记忆单元和输出门,W.和b.是相应门或者单元中待学习的权重矩阵和偏差。在每个时间步的输入阶段,文本和图像数据组合成一个多模态的输入向量xt:
其中,wt为文本中的第t个分词,一个分词对应一个时刻;为图像的联合表示向量,通过下述方式得到:
其中,I表示试题q中图片的总数,αj为第j个图像的注意力权重;ht-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态;gj、gi分别表示第j个、第i个图像的特征向量;Wai表示待学习的参数,表示gj的转置。
2、结构融合层(Structure Fusion Layer,SFL)。
结构融合层的目标是将知识点的结构信息整合到试题的语义表示中。如图2的右侧所示,为了建模试题内容与知识点的内在联系,将著名的scaled-dot productattention应用在CKA(Content Knowledge Attention,知识与内容注意力机制)模块Content中。为了描述结构关系,提出了一个新的算法:树卷积网络Tree ConvolutionalNetwork(TCN),如图2的右下所示。下面分别介绍结构融合层SFL的两个重要子模块。
1)CKA模块。
因为由one-hot表示的知识点向量过于稀疏,因此首先使用嵌入的方法把知识点向量转换成低纬度的向量(即降维处理)。从形式上来说,对于试题q的第c个知识点向量kc,转化后的向量uc可以表示为:
uc=kcWu
其中,是嵌入层的参数,dk是降维后知识点向量uc的元素数目,n为知识点向量kc的元素数目。
然后,将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量输入至Scaled-dot product attention,降维后的知识点向量u作为注意力机制中的Q值,联合语义表示向量/>作为注意力机制中的V值与K值,得到基于知识点注意力的语义表示向量/>
其中,Uc表示第c个知识点基于知识点注意力的语义表示。
2)树卷积网络。
Tree Convolutional Network的目的是在获取到向量后,将知识点的结构关系融合到语义表示中。受到Tree-LSTM和GCN的启发,本发明实施例提出了一个新的采用自底向上方式的算法去获取知识点的层级结构信息。
在所述树卷积网络中,由于知识结构对应的树结构作为数据输入,不需要重新构建,因此,可以直接将基于知识点注意力的语义表示向量映射到知识结构对应的叶子结点上,其他叶子结点特征设置为0;如图2右部所示,在树卷积网络每层的计算过程中,第l层的第x个知识点/>聚集了其所有子结点/>的特征,使用下述的公式来获取知识点/>新的表示向量:
其中,Wl和bl是待学习的参数,表示知识点/>在树结构中对应的特征向量。
当结点特征聚集到顶层树结点时,最终,得到一个综合表示向量以及一个总体表示向量/>其中,ln表示知识点树结构第l层结点的总数,L表示知识点树的总层数,综合表示rE是树结构第0层结点聚集底层结点特征得到的向量,它是一个整体的基于知识结构语义的表示,即统一的结构感知语义表示(unified structure-aware semantics representation),总体表示/>是对知识结构中所有知识点基于知识结构语义表示向量的组合,即分布式结构感知语义表示(distributedstructure-aware semantics representation);L为树卷积网络层数。
3、相似度得分层(Similarity Score Layer,SSL)。
如图1的(a)部分所示,每个试题的输入数据通过CRL和SFL层后,将获得rE向量和向量,相似度得分层将利用这两个向量来计算题对的相似度,这样就能通过对候选试题排序来识别相似试题。前文提到评估试题相似性的一个关键是知识结构的关系,因此,对于待识别的试题Ea以及试题集合中的任意试题Eb,先计算一个矩阵/>来表示试题对的知识点相似性:
其中,c=1,2,...,n;n为知识点总数,等于前文提到的知识点向量kc的元素数目;表示在试题对在第c个知识点上的语义相似性,并且为结构的相似性提供了一个可解释的视图,可解释性将在后文进行说明。
再将矩阵与试题对各自对应的综合表示向量/>与/>拼接,并通过全连接层得到相似度得分S(Ea,Eb):
其中,Ws和bs是全连接层的参数。
4、模型的可解释性。
通过前述Att(Q,K,V)计算公式,KnowNet模型能够获取知识结构和试题的语义表示之间的注意力信息,这是该模型的一个重要能力特点。图3是一个试题通过KnowNet模型学习到的注意力权重热力图,颜色越深表示注意力权重越大,其中KC-1~4依次表示直线的斜率,直线相对圆的位置,圆的参数方程,点到直线的距离这四个知识点概念;左侧一列:line、centre、....,表示试题中文本分词。从图3中可以看到KnowNet模型学会了怎么去获取和知识点相关的关键词。这说明KnowNet模型提供了一个很好的方式(通过CKA模块)来获取一个试题的知识点和内容的关联情况,提供了一定的可解释性。
三、损失函数和模型训练。
本发明实施例采用一种pairwise loss function来训练KnowNet模型,对于一个试题E,将Es表示为它的相似试题集合,把Eds表示为它的不相似试题集合,考虑到相似试题对(E,Es)应该比题对(E,Eds)的得分更高,因此,基于知识结构的多模态模型的损失函数为:
其中,μ是一个边界值,保证S(E,Es)大于S(E,Eds),S(.)表示试题对的相似度得分,Θ表示基于知识结构的多模态模型中所有待学习的参数,λΘ是正则化超参数。
KnowNet模型具有完全可微的性质,可以通过Adam算法进行有效的训练。
在完成模型训练后,将一道试题和它的候选相似试题集合成对输入模型,这样可以按照它们之间的相似试题得分进行排序,从而找到试题的TOP N个最相似的试题。
本发明实施例上述方案,通过将知识结构考虑到模型的构建中,从而改进识别相似试题的效果。在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种基于知识结构的相似试题识别方法,其特征在于,包括:
获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;
构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分;
所述内容表示层包括:图卷积网络、基于注意力机制的长短记忆模型;内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,获得试题的联合语义表示向量HR;
联合表示向量与文本进行拼接公式为:
其中,wt为文本中的第t个分词,一个分词对应一个时刻;为图像的联合表示向量,通过下述方式得到:
其中,I表示试题q中图片的总数,αj为第j个图像的注意力权重;ht-1表示第t-1时刻基于注意力机制的长短记忆模型的隐藏层状态;gj、gi分别表示第j个、第i个图像的特征向量;Wai表示待学习的参数,表示gj的转置;
所述结构融合层包括:CKA模块与树卷积网络;其中:
所述CKA模块中:先使用嵌入的方法将知识点向量进行降维,表示为:uc=kcWu;其中,是嵌入层的参数,dk是降维后知识点向量uc的元素数目,n为知识点向量kc的元素数目;然后,将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量输入至Scaled-dot product attention,降维后的知识点向量u作为注意力机制中的Q值,联合语义表示向量/>作为注意力机制中的V值与K值,得到基于知识点注意力的语义表示向量/>
在所述树卷积网络中,先将基于知识点注意力的语义表示向量映射到知识结构对应的叶子结点上,其他叶子结点特征设置为0;在树卷积网络每层的计算过程中,第l层的第x个知识点/>聚集了其所有子结点/>的特征,使用下述的公式来获取知识点/>新的表示向量:
其中,Wl和bl是待学习的参数,表示知识点/>在树结构中对应的特征向量;
当结点特征聚集到顶层树结点时,最终,得到一个综合表示向量rE、以及一个总体表示向量其中,综合表示rE是一个整体的基于知识结构语义的表示向量,总体表示/>是对知识结构中所有知识点基于知识结构语义表示向量的组合;ln表示树结构第l层结点的总数,L为树卷积网络层数。
2.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,内容信息包括:试题文本以及相应的图像;
对于试题文本,利用正则匹配删除无用符号后进行分词,再删除停止词和低频词;
对于各试题的图像,进行尺寸调节,使得所有试题的大小一致。
3.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,对于待识别的试题Ea以及试题集合中的任意试题Eb,先计算一个矩阵来表示试题对的知识点相似性:
其中,c=1,2,...,n,n为知识点总数,等于知识点向量kc的元素数目;表示在试题对在第c个知识点上的语义相似性;
再将矩阵与试题对各自对应的综合表示向量/>与/>拼接,并通过全连接层得到相似度得分S(Ea,Eb):
其中,ws和bs是全连接层的参数。
4.根据权利要求1所述的一种基于知识结构的相似试题识别方法,其特征在于,训练阶段,对于一个试题E,将Es表示为它的相似试题集合,把Eds表示为它的不相似试题集合,基于知识结构的多模态模型的损失函数为:
其中,μ是一个边界值,保证S(E,Es)大于S(E,Eds),S(.)表示试题对的相似度得分,Θ表示基于知识结构的多模态模型中所有待学习的参数,λΘ是正则化超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011125402.6A CN112231491B (zh) | 2020-10-20 | 2020-10-20 | 基于知识结构的相似试题识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011125402.6A CN112231491B (zh) | 2020-10-20 | 2020-10-20 | 基于知识结构的相似试题识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231491A CN112231491A (zh) | 2021-01-15 |
CN112231491B true CN112231491B (zh) | 2024-04-02 |
Family
ID=74119181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011125402.6A Active CN112231491B (zh) | 2020-10-20 | 2020-10-20 | 基于知识结构的相似试题识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231491B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112988844B (zh) * | 2021-03-31 | 2022-09-27 | 东北大学 | 一种基于学生练习序列的知识概念表示学习方法 |
CN114282531B (zh) * | 2021-08-24 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 一种题目检测方法、装置、电子设备和存储介质 |
CN113505246B (zh) * | 2021-09-11 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、终端设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060099222A (ko) * | 2005-03-11 | 2006-09-19 | 인하대학교 산학협력단 | 이메일 분류 시스템 및 방법 |
CN108376132A (zh) * | 2018-03-16 | 2018-08-07 | 中国科学技术大学 | 相似试题的判定方法及系统 |
-
2020
- 2020-10-20 CN CN202011125402.6A patent/CN112231491B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060099222A (ko) * | 2005-03-11 | 2006-09-19 | 인하대학교 산학협력단 | 이메일 분류 시스템 및 방법 |
CN108376132A (zh) * | 2018-03-16 | 2018-08-07 | 中国科学技术大学 | 相似试题的判定方法及系统 |
Non-Patent Citations (1)
Title |
---|
何彬 ; 李心宇 ; 陈蓓蕾 ; 夏盟 ; 曾致中 ; .基于属性关系深度挖掘的试题知识点标注模型.南京信息工程大学学报(自然科学版).2019,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112231491A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111415740B (zh) | 问诊信息的处理方法、装置、存储介质及计算机设备 | |
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN112231491B (zh) | 基于知识结构的相似试题识别方法 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
WO2022161470A1 (zh) | 内容的评价方法、装置、设备及介质 | |
CN111263238B (zh) | 基于人工智能的生成视频评论的方法及设备 | |
CN112966074A (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN112989033B (zh) | 基于情绪类别描述的微博情绪分类方法 | |
CN111814454A (zh) | 一种社交网络上的多模态网络欺凌检测模型 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN116029306A (zh) | 一种限定域文科简答题自动评分方法 | |
CN115617960A (zh) | 一种岗位推荐方法及装置 | |
Stella et al. | Mental lexicon growth modelling reveals the multiplexity of the English language | |
CN117521814A (zh) | 一种基于多模态输入和知识图谱的问答方法及装置 | |
CN112417155A (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
ALSaad et al. | Unsupervised Approach for Modeling Content Structures of MOOCs. | |
Ermatita et al. | Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks. | |
Chaudhuri et al. | Automating assessment of design exams: A case study of novelty evaluation | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
Luo | Automatic short answer grading using deep learning | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning | |
Combs et al. | A preliminary look at generative AI for the creation of abstract verbal-to-visual analogies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |