CN114579706A - 一种基于bert神经网络和多任务学习的主观题自动评阅方法 - Google Patents
一种基于bert神经网络和多任务学习的主观题自动评阅方法 Download PDFInfo
- Publication number
- CN114579706A CN114579706A CN202210222404.XA CN202210222404A CN114579706A CN 114579706 A CN114579706 A CN 114579706A CN 202210222404 A CN202210222404 A CN 202210222404A CN 114579706 A CN114579706 A CN 114579706A
- Authority
- CN
- China
- Prior art keywords
- bert
- neural network
- pronoun
- student
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 50
- 238000011156 evaluation Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008030 elimination Effects 0.000 claims abstract description 26
- 238000003379 elimination reaction Methods 0.000 claims abstract description 26
- 238000012552 review Methods 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000009833 condensation Methods 0.000 claims description 3
- 230000005494 condensation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于BERT神经网络和多任务学习的主观题自动评阅方法,涉及人工智能与智慧教育的交叉领域。首先,使用经过大规模语料预训练的BERT神经网络进行编码,有效解决主观题自动评阅任务中语料过小的问题,并联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型。其次,使用所训练的多任务神经网络模型,从题干中提取代词成分来替换学生答案中的代词,确保学生答案语义的完整性。然后,将消代后的学生答案与标准答案形成句子对,送入BERT神经网络进行分类,得到学生答案的评分等级。通过消除学生答案中的代词,以更有效的方法解决主观题自动评阅问题。
Description
技术领域
本发明涉及人工智能与智慧教育的交叉领域,尤其是一种基于BERT神经网络和多任务学习的主观题自动评阅方法,可广泛应用于各个学科的主观题计算机自动阅卷系统中。
背景技术
考试试卷中的试题从答案组成的形式上,被普遍分为客观题与主观题两大类。答案以选项编号表示的单选题、多选题、判断题等试题被称为客观题,而答案采用自然语言表示的简答题、名词解释和论述题等试题被称为主观题。由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示,目前计算机对于此类题型进行自动阅卷时,只需将标准答案的选项编号与学生答案的选项编号进行简单的匹配运算,匹配成功则答案正确,该处理技术已经取得较好的成果。但对于答案采用自然语言表示的主观题自动阅卷技术,如:对简答题、名词解释和论述题等自动评卷,由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不是很理想。
在传统的主观题计算机自动阅卷系统中,普遍采用关键字匹配技术进行主观题自动阅卷,即在答案中标注出若干关键字或关键词,将其与学生答案进行匹配,并根据匹配成功的多少对学生答案进行评卷,由于自然语言的时序性、多样性与随意性,这种方法的评卷准确率非常低。为提高评卷的准确率,出现了一些基于句法分析与语义分析的主观题自动阅卷方法,这类评卷方法虽然可以在评卷过程中融入语义分析,提高了评卷的准确率,但由于句法分析自身的准确率不高,以及语义分析无法处理句子的时序性,这极大地限制了这类系统的应用范围与实用性。
随着人工神经网络技术的不断发展,许多深度学习模型如基于LSTM的模型、基于CNN&LSTM的模型和基于Transformer的模型被应用于主观题评卷。这些深度学习模型利用不同的神经网络从答案文本中自动提取语义特征,从而提供一种无需任何人工特征工程的端到端方法。然而,主观题自动评卷的深度学习方法仍然具有挑战性,主要有两个原因:首先,学生通常使用不同的自由文本来回答同一个问题,学生的答案在句子结构、语言风格和文本长度上可能存在显著差异,并且在答案文本中往往使用了一些代词。因此,有必要利用先进的学习技术在主观题自动评卷任务中结合题干文本,消除答案文本中的代词,从而确保学生答案语义的完整性;其次,主观题自动评卷的深度学习方法是一种全监督机器学习,需要为训练语料中的每个学生答案分配一个标签分数。但是,为自由表达的学生答案人工标注分数是一项费时的工作,因而主观题自动评卷的训练语料库通常很小。因此,如何在小语料库上训练出稳定有效的深度神经网络模型是主观题自动评卷深度学习方法面临的另一大挑战。
发明内容
本发明公开了一种基于BERT神经网络和多任务学习的主观题自动评阅方法,使用经过大规模语料预训练的BERT神经网络进行编码,有效解决主观题自动评阅任务中语料过小的问题,并联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型,以更有效的方法解决主观题自动评阅问题。
为实现上述目的,本发明的技术方案为:
一种基于BERT神经网络和多任务学习的主观题自动评阅方法,其特征在于包括以下步骤:
S1.以题干作为知识源,使用共享的BERT神经网络和多头注意力进行编码,对学生答案的代词进行消代;
S2.将标准答案和消代后的学生答案形成的句对,作为自动评阅学习任务的输入序列,使用共享的BERT神经网络进行编码和分类,得到学生答案的评分等级;
S3.通过联合计算步骤S1和步骤S2的损失函数,联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型;
S4.使用步骤S3训练成型的多任务神经网络模型,对任意的学生答案进行消代与评阅;
所述共享的BERT神经网络是指步骤S1和步骤S2中共享参数的BERT神经网络;
所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。
进一步的,所述步骤S1具体包括:
S1.1以由等待消代的代词p、包含代词的学生答案S={s1,s2,…,sm1}与BERT编码符号所组成的句对1序列SP1作为代词语义提取的输入序列,将题干T={t1,t2,…,tn1}与BERT 编码符号所组成的题干序列ST作为题干语义生成的输入序列,如下所示:
SP1={[CLS],s1,s2,…,sm1,[SEP],p,[SEP]} (1)
ST={[CLS],t1,t2,…,tn1,[SEP]} (2)
其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,p∈S是学生答案S中等待消代的代词,n1是题干T的长度,m1是学生答案S的长度;
S1.2将题干序列ST和句对1序列SP1分别送入共享的BERT神经网络进行编码,得到题干语义表示CST、句对1语义表示CSP1和代词语义向量vp,计算过程如下所示:
其中,BERT(·)表示共享的BERT神经网络,hcls、hsep分别是编码[CLS]和[SEP]在BERT 中对应的隐藏状态,分别是题干序列ST和学生答案S中的词在BERT中对应的隐藏状态,hp是代词p在BERT中对应的隐藏状态,d是共享的BERT神经网络的隐藏单元数,k1是题干序列ST的长度且有k1=n1+2,k2是句对1序列SP1的长度且有k2=m1+4;
其中,FTP是连接代词语义向量后的题干语义连接表示,fi是FTP中的第i个元素,是CST中的第i个元素,符号“;”表示连接运算,是一个权重矩阵,是一个偏置向量;是将FTP线性变换后的题干语义浓缩表示;表示输入的多头注意力MHA(Q,K,V);
其中,为用于计算开始位置概率的权重向量,为用于计算结束位置概率的权重向量,b1、为两个偏置参数,为中所有隐藏状态的开始位置的概率向量,为中所有隐藏状态的结束位置的概率向量,softmax(·)为用于计算概率的归一化函数;
最后,按照us和ue在题干序列ST中的对应位置,从题干序列ST中提取代词成分E,如下所示:
S1.5使用代词成分E替换学生答案S中的代词p,得到消代后的学生答案Sp,如下所示:
其中,m2为消代后的学生答案Sp的长度。
进一步的,所述步骤S2具体包括:
S2.1以标准答案A={a1,a2,…,an2}、消代后的学生答案Sp与BERT编码符号所组成的句对2序列SP2,作为主观题自动评阅学习任务的输入序列,如下所示:
其中,n2是标准答案A的长度;
S2.2将句对2序列SP2送入共享的BERT神经网络进行处理,得到句对2语义表示CSP2,如下所示:
S2.3对句对2语义表示CSP2执行最大值池化操作,得到句对2分类向量Z,计算过程如下所示:
S2.4对句对2分类向量Z执行softmax的线性变换,进行评分等级的概率计算,并得出最终的评分等级,计算过程如下:
o=MZT+bo (20)
其中,是评分等级表示矩阵,ZT表示对Z进行转置,是一个偏置向量,dy是评分等级的个数,是表示所有评分等级置信分数的向量,y为一个评分等级, oy表示标注为评分等级y的样本的置信分数,oi表示样本在第i个评分等级上的置信分数, P(y|Z)表示给定句对2分类向量Z在评分等级y上的预测概率,Y是所有评分等级的集合, y*为最终评定的评分等级,表示返回使得P(y|Z)为最大值的评分等级,exp(·)表示以自然常数e为底的指数函数。
更进一步的,所述步骤S3具体包括:
S3.1分别使用交叉熵损失误差计算学生答案代词消代的损失函数和主观题自动评阅的损失函数,计算过程如下:
其中,Ω是学生答案代词消代与主观题自动评阅多任务的训练集,|Ω|表示训练集Ω的大小,分别表示Ω中第i个训练样本开始位置和结束位置的概率向量,是Ω中第i个训练样本的代词成分在题干中的真实开始位置,是Ω中第i个训练样本的代词成分在题干中的真实结束位置,分别是关于真实开始位置与真实结束位置的one-hot独热向量,是Ω中第i个训练样本的真实评分等级,Zi是Ω中第i个训练样本的句对2分类向量,Υ1是进行学生答案代词消代训练时使用的损失函数,Υ2是进行主观题自动评阅训练时使用的损失函数;
其中,λ和β是两个权重参数;
S3.3联合训练目标是最小化公式(25)计算的联合损失误差。
为消除答案文本中的代词,确保学生答案语义的完整性,本发明提出一种基于BERT神经网络和多任务学习的主观题自动评阅方法,通过消除学生答案中的代词,以更有效的方法解决主观题自动评阅问题。首先,使用所训练的多任务神经网络模型,从题干中提取代词成分来替换学生答案中的代词,确保学生答案语义的完整性。然后,将消代后的学生答案与标准答案形成句子对,送入BERT神经网络进行分类,得到学生答案的评分等级。
本发明具有以下优点:
(1)使用经过大规模语料预训练的BERT神经网络进行编码,有效地解决主观题自动评阅任务中语料过小的问题;
(2)通过从题干中提取代词成分来替换学生答案中的代词,确保了学生答案语义的完整性;
(3)通过与学生答案代词消代的联合训练,可进一步地提高主观题自动评阅的精度。
附图说明
图1是本发明的方法流程示意图。
具体实施方式
以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
设题干T={t1,t2,…,tn1}、学生答案S={s1,s2,…,sm1}、等待消代的代词为p且有p∈S,则按照图1所示的本发明方法流程图,通过以下步骤对学生答案进行消代和自动评阅:
S1.以题干作为知识源,使用共享的BERT神经网络和多头注意力进行编码,对学生答案的代词进行消代;
S2.将标准答案和消代后的学生答案形成的句对,作为自动评阅学习任务的输入序列,使用共享的BERT神经网络进行编码和分类,得到学生答案的评分等级;
S3.通过联合计算步骤S1和步骤S2的损失函数,联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型;
S4.使用步骤S3训练成型的多任务神经网络模型,对任意的学生答案进行消代与评阅;
所述共享的BERT神经网络是指步骤S1和步骤S2中共享参数的BERT神经网络;
所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。
进一步的,所述步骤S1具体包括:
S1.1以由等待消代的代词p、包含代词的学生答案S={s1,s2,…,sm1}与BERT编码符号所组成的句对1序列SP1作为代词语义提取的输入序列,将题干T={t1,t2,…,tn1}与BERT 编码符号所组成的题干序列ST作为题干语义生成的输入序列,如下所示:
SP1={[CLS],s1,s2,…,sm1,[SEP],p,[SEP]} (1)
ST={[CLS],t1,t2,…,tn1,[SEP]} (2)
其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,p∈S是学生答案S中等待消代的代词,n1是题干T的长度,m1是学生答案S的长度;
S1.2将题干序列ST和句对1序列SP1分别送入共享的BERT神经网络进行编码,得到题干语义表示CST、句对1语义表示CSP1和代词语义向量vp,计算过程如下所示:
其中,BERT(·)表示共享的BERT神经网络,hcls、hsep分别是编码[CLS]和[SEP]在BERT 中对应的隐藏状态,分别是题干序列ST和学生答案S中的词在BERT中对应的隐藏状态,hp是代词p在BERT中对应的隐藏状态,d是共享的BERT神经网络的隐藏单元数,k1是题干序列ST的长度且有k1=n1+2,k2是句对1序列SP1的长度且有k2=m1+4;
其中,FTP是连接代词语义向量后的题干语义连接表示,fi是FTP中的第i个元素,是CST中的第i个元素,符号“;”表示连接运算,是一个权重矩阵,是一个偏置向量;是将FTP线性变换后的题干语义浓缩表示;表示输入的多头注意力MHA(Q,K,V);
其中,为用于计算开始位置概率的权重向量,为用于计算结束位置概率的权重向量,b1、为两个偏置参数,为中所有隐藏状态的开始位置的概率向量,为中所有隐藏状态的结束位置的概率向量,softmax(·)为用于计算概率的归一化函数;
最后,按照us和ue在题干序列ST中的对应位置,从题干序列ST中提取代词成分E,如下所示:
S1.5使用代词成分E替换学生答案S中的代词p,得到消代后的学生答案Sp,如下所示:
其中,m2为消代后的学生答案Sp的长度。
进一步的,所述步骤S2具体包括:
S2.1以标准答案A={a1,a2,…,an2}、消代后的学生答案Sp与BERT编码符号所组成的句对2序列SP2,作为主观题自动评阅学习任务的输入序列,如下所示:
其中,n2是标准答案A的长度;
S2.2将句对2序列SP2送入共享的BERT神经网络进行处理,得到句对2语义表示CSP2,如下所示:
S2.3对句对2语义表示CSP2执行最大值池化操作,得到句对2分类向量Z,计算过程如下所示:
S2.4对句对2分类向量Z执行softmax的线性变换,进行评分等级的概率计算,并得出最终的评分等级,计算过程如下:
o=MZT+bo (20)
其中,是评分等级表示矩阵,ZT表示对Z进行转置,是一个偏置向量,dy是评分等级的个数,是表示所有评分等级置信分数的向量,y为一个评分等级, oy表示标注为评分等级y的样本的置信分数,oi表示样本在第i个评分等级上的置信分数, P(y|Z)表示给定句对2分类向量Z在评分等级y上的预测概率,Y是所有评分等级的集合, y*为最终评定的评分等级,表示返回使得P(y|Z)为最大值的评分等级,exp(·)表示以自然常数e为底的指数函数。
更进一步的,所述步骤S3具体包括:
S3.1分别使用交叉熵损失误差计算学生答案代词消代的损失函数和主观题自动评阅的损失函数,计算过程如下:
其中,Ω是学生答案代词消代与主观题自动评阅多任务的训练集,|Ω|表示训练集Ω的大小,分别表示Ω中第i个训练样本开始位置和结束位置的概率向量,是Ω中第i个训练样本的代词成分在题干中的真实开始位置,是Ω中第i个训练样本的代词成分在题干中的真实结束位置,分别是关于真实开始位置与真实结束位置的one-hot独热向量,是Ω中第i个训练样本的真实评分等级,Zi是Ω中第i个训练样本的句对2分类向量,Υ1是进行学生答案代词消代训练时使用的损失函数,Υ2是进行主观题自动评阅训练时使用的损失函数;
其中,λ和β是两个权重参数;
S3.3联合训练目标是最小化公式(25)计算的联合损失误差。
应用实例
1.实例环境
本实例的BERT神经网络使用Google AI Language在文献“Devlin J,Chang MW,Lee K, Toutanova K(2019)BERT:Pre-training of Deep Bidirectional Transformersfor Language Understanding.In:Proceedings of the 2019Conference of NAACL,pp4171–4186”中提出并开发的BERT-BASE版本,该BERT-BASE版本包括12层Transformers,768个隐藏单元,12个多头,以及总参数=110M);本实例采用的多头注意力来源于文献“Vaswani A, Shazeer N,Parmar N,Uszkoreit J,Jones L,Gomez AN,Kaiser L,Polosukhin I(2017) Attention Is All You Need.In:31st Conference on NeuralInformation Processing Systems(NIPS 2017),pp 5998–6008”,设置注意力的头数为8;为了最小化损失值,本实例使用了Adam Optimizer优化器,并将学习率设置为2e-5,batchsize大小设置为16;在训练期间,本实例将epochs设置为5。
2.数据集
文献17.Dzikovska MO,Nielsen RD,Brew C,Leacock C,Giampiccolo D,Bentivogli L,Clark P,Dagan I,Dang HT(2013)SemEval-2013task 7:The JointStudent Response Analysis and 8th Recognizing Textual EntailmentChallenge.In:ACL Second Joint Conference on Lexical and ComputationalSemantics,Vol.2,pp 263–274中提出的 SemEval-2013数据集和文献2.Mohler M,BunescuR,Mihalcea R(2011)Learning to Grade Short Answer Questions Using SemanticSimilarity Measures and Dependency Graph Alignments.In:ACL,pp 752–762中提出的Mohler数据集是在国际上广泛使用的短答案主观题评测基准。本实例从这两个数据集中抽取了3386要包含代词的学生答案和试题作为评测语料,并采用12折交叉验证进行评测。
3.实例对比结果
本实例通过在数据集上报告关于消代的准确度Accuracy(Acc)和关于评卷的Pearson相关系数(Pearson's r)、平均绝对误差(MAE)和均方根误差(RMSE)来评估各种模型。
表1实验结果
表1的实验结果表明,本发明提出的一种基于BERT神经网络和多任务学习的主观题自动评阅方法,在独立评卷和多任务两种情况下性能都显著超过了目前广泛使用的LSTM(Long Short-Term Memory)模型,这充分说明了本发明方法是可行和优秀的。
4.示例
题干:When a seed germinates,why does the root grow first?
标准答案:The root grows first so the root can take up water for theplant.
学生答案:So it can suck up water to grow.
(1)消代标志:When a seed germinates,why does[the root]grow first?
(2)消代结果:it=the root
(3)评卷输入:[CLS]The root grows first so the root can take up waterfor the plant[SEP]So the root can suck up water to grow[SEP]。
Claims (4)
1.一种基于BERT神经网络和多任务学习的主观题自动评阅方法,包含学生答案消代和主观题自动评阅两种任务的学习,其特征在于包括以下步骤:
S1.以题干作为知识源,使用共享的BERT神经网络和多头注意力进行编码,对学生答案的代词进行消代;
S2.将标准答案和消代后的学生答案形成的句对,作为自动评阅学习任务的输入序列,使用共享的BERT神经网络进行编码和分类,得到学生答案的评分等级;
S3.通过联合计算步骤S1和步骤S2的损失函数,联合训练一个具有学生答案代词消代与主观题自动评阅的多任务神经网络模型;
S4.使用步骤S3训练成型的多任务神经网络模型,对任意的学生答案进行消代与评阅;
所述共享的BERT神经网络是指步骤S1和步骤S2中共享参数的BERT神经网络;
所述BERT神经网络是指Google AI Language提出的Bidirectional EncoderRepresentations from Transformers(BERT)语言模型。
2.根据权利要求1所述的一种基于BERT神经网络和多任务学习的主观题自动评阅方法,其特征在于:
所述步骤S1具体包括:
S1.1以由等待消代的代词p、包含代词的学生答案S={s1,s2,…,sm1}与BERT编码符号所组成的句对1序列SP1作为代词语义提取的输入序列,将题干T={t1,t2,…,tn1}与BERT编码符号所组成的题干序列ST作为题干语义生成的输入序列,如下所示:
SP1={[CLS],s1,s2,…,sm1,[SEP],p,[SEP]} (1)
ST={[CLS],t1,t2,…,tn1,[SEP]} (2)
其中,[CLS]是BERT分类符的编码,[SEP]是BERT结束符的编码,p∈S是学生答案S中等待消代的代词,n1是题干T的长度,m1是学生答案S的长度;
S1.2将题干序列ST和句对1序列SP1分别送入共享的BERT神经网络进行编码,得到题干语义表示CST、句对1语义表示CSP1和代词语义向量vp,计算过程如下所示:
其中,BERT(·)表示共享的BERT神经网络,hcls、hsep分别是编码[CLS]和[SEP]在BERT中对应的隐藏状态,分别是题干序列ST和学生答案S中的词在BERT中对应的隐藏状态,hp是代词p在BERT中对应的隐藏状态,d是共享的BERT神经网络的隐藏单元数,k1是题干序列ST的长度且有k1=n1+2,k2是句对1序列SP1的长度且有k2=m1+4;
其中,FTP是连接代词语义向量后的题干语义连接表示,fi是FTP中的第i个元素,是CST中的第i个元素,符号“;”表示连接运算,是一个权重矩阵,是一个偏置向量;是将FTP线性变换后的题干语义浓缩表示;表示输入的多头注意力MHA(Q,K,V);
其中,为用于计算开始位置概率的权重向量,为用于计算结束位置概率的权重向量,b1、为两个偏置参数,为中所有隐藏状态的开始位置的概率向量,为中所有隐藏状态的结束位置的概率向量,softmax(·)为用于计算概率的归一化函数;
最后,按照us和ue在题干序列ST中的对应位置,从题干序列ST中提取代词成分E,如下所示:
S1.5使用代词成分E替换学生答案S中的代词p,得到消代后的学生答案Sp,如下所示:
其中,m2为消代后的学生答案Sp的长度。
3.根据权利要求1所述的一种基于BERT神经网络和多任务学习的主观题自动评阅方法,其特征在于:
所述步骤S2具体包括:
S2.1以标准答案A={a1,a2,…,an2}、消代后的学生答案Sp与BERT编码符号所组成的句对2序列SP2,作为主观题自动评阅学习任务的输入序列,如下所示:
其中,n2是标准答案A的长度;
S2.2将句对2序列SP2送入共享的BERT神经网络进行处理,得到句对2语义表示CSP2,如下所示:
S2.3对句对2语义表示CSP2执行最大值池化操作,得到句对2分类向量Z,计算过程如下所示:
S2.4对句对2分类向量Z执行softmax的线性变换,进行评分等级的概率计算,并得出最终的评分等级,计算过程如下:
o=MZT+bo (20)
4.根据权利要求1所述的一种基于BERT神经网络和多任务学习的主观题自动评阅方法,其特征在于:
所述步骤S3具体包括:
S3.1分别使用交叉熵损失误差计算学生答案代词消代的损失函数和主观题自动评阅的损失函数,计算过程如下:
其中,Ω是学生答案代词消代与主观题自动评阅多任务的训练集,|Ω|表示训练集Ω的大小,分别表示Ω中第i个训练样本开始位置和结束位置的概率向量,是Ω中第i个训练样本的代词成分在题干中的真实开始位置,是Ω中第i个训练样本的代词成分在题干中的真实结束位置,分别是关于真实开始位置与真实结束位置的one-hot独热向量,是Ω中第i个训练样本的真实评分等级,Zi是Ω中第i个训练样本的句对2分类向量,Υ1是进行学生答案代词消代训练时使用的损失函数,Υ2是进行主观题自动评阅训练时使用的损失函数;
其中,λ和β是两个权重参数;
S3.3联合训练目标是最小化公式(25)计算的联合损失误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210222404.XA CN114579706B (zh) | 2022-03-07 | 2022-03-07 | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210222404.XA CN114579706B (zh) | 2022-03-07 | 2022-03-07 | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114579706A true CN114579706A (zh) | 2022-06-03 |
CN114579706B CN114579706B (zh) | 2023-09-29 |
Family
ID=81772554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210222404.XA Active CN114579706B (zh) | 2022-03-07 | 2022-03-07 | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579706B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252739A (zh) * | 2023-11-17 | 2023-12-19 | 山东山大鸥玛软件股份有限公司 | 一种评卷方法、系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823794A (zh) * | 2014-02-25 | 2014-05-28 | 浙江大学 | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 |
WO2021143056A1 (zh) * | 2020-01-16 | 2021-07-22 | 平安科技(深圳)有限公司 | 文本结论智能推荐方法、装置、计算机设备及计算机可读存储介质 |
CN113392629A (zh) * | 2021-06-29 | 2021-09-14 | 哈尔滨工业大学 | 基于预训练模型的人称代词消解方法 |
US20210294972A1 (en) * | 2019-04-19 | 2021-09-23 | Tencent Technology (Shenzhen) Company Limited | Data processing method and pronoun resolution neural network training method |
CN113935459A (zh) * | 2021-09-23 | 2022-01-14 | 广西师范大学 | 一种基于bert的深度神经网络模型的自动评卷方法 |
CN113947069A (zh) * | 2021-10-20 | 2022-01-18 | 前海企保科技(深圳)有限公司 | 一种端到端的多任务学习的对话指代消解方法及系统 |
-
2022
- 2022-03-07 CN CN202210222404.XA patent/CN114579706B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823794A (zh) * | 2014-02-25 | 2014-05-28 | 浙江大学 | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 |
US20210294972A1 (en) * | 2019-04-19 | 2021-09-23 | Tencent Technology (Shenzhen) Company Limited | Data processing method and pronoun resolution neural network training method |
WO2021143056A1 (zh) * | 2020-01-16 | 2021-07-22 | 平安科技(深圳)有限公司 | 文本结论智能推荐方法、装置、计算机设备及计算机可读存储介质 |
CN113392629A (zh) * | 2021-06-29 | 2021-09-14 | 哈尔滨工业大学 | 基于预训练模型的人称代词消解方法 |
CN113935459A (zh) * | 2021-09-23 | 2022-01-14 | 广西师范大学 | 一种基于bert的深度神经网络模型的自动评卷方法 |
CN113947069A (zh) * | 2021-10-20 | 2022-01-18 | 前海企保科技(深圳)有限公司 | 一种端到端的多任务学习的对话指代消解方法及系统 |
Non-Patent Citations (1)
Title |
---|
杨启萌 等: "基于多注意力机制的维吾尔语人称代词指代消解", 《自动化学报》, vol. 47, no. 6, pages 1412 - 1421 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252739A (zh) * | 2023-11-17 | 2023-12-19 | 山东山大鸥玛软件股份有限公司 | 一种评卷方法、系统、电子设备及存储介质 |
CN117252739B (zh) * | 2023-11-17 | 2024-03-12 | 山东山大鸥玛软件股份有限公司 | 一种评卷方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114579706B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781680B (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN107798624B (zh) | 一种软件问答社区中的技术标签推荐方法 | |
CN112818691A (zh) | 命名实体识别模型训练方法及装置 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN108717413B (zh) | 一种基于假设性半监督学习的开放领域问答方法 | |
Sanborn et al. | Deep learning for semantic similarity | |
CN110851599A (zh) | 一种中文作文自动评分方法及教辅系统 | |
CN110232113B (zh) | 一种提高知识库问答准确度的方法及系统 | |
CN111309891B (zh) | 一种阅读机器人进行自动问答的系统及其应用方法 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN113935459B (zh) | 一种基于bert的深度神经网络模型的自动评卷方法 | |
CN114969260A (zh) | 一种联合试题分类与评分学习的主观题自动评阅深度学习方法 | |
CN113971394A (zh) | 文本复述改写系统 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN113011196B (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 | |
CN114579706B (zh) | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 | |
CN115795018B (zh) | 一种面向电网领域的多策略智能搜索问答方法及系统 | |
CN116775846A (zh) | 领域知识问答方法、系统、设备及介质 | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
Alwaneen et al. | Stacked dynamic memory-coattention network for answering why-questions in Arabic | |
Nandwalkar et al. | Descriptive Handwritten Paper Grading System using NLP and Fuzzy Logic | |
Ghasemi et al. | FarSick: A Persian Semantic Textual Similarity And Natural Language Inference Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |