CN112085985A

CN112085985A - 一种面向英语考试翻译题目的学生答案自动评分方法

Info

Publication number: CN112085985A
Application number: CN202010842832.3A
Authority: CN
Inventors: 段庆龙; 程建; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Day Education Technology Co ltd
Current assignee: Anhui Seven Day Education Technology Co ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-12-15
Anticipated expiration: 2040-08-20
Also published as: CN112085985B

Abstract

本发明公开了一种面向英语考试翻译题目的学生答案自动评分方法，涉及主观题自动评分领域。针对中学英语考试中的翻译题目，提出一种结合机器翻译技术，从汉语和英语两个方向对学生翻译答案进行相似度计算的自动评分的方法。本发明主要包含以下步骤：数据预处理，翻译模型训练，特征抽取及评分。利用本发明可以构建一种适合英语翻译题目的学生答案评分模型。

Description

一种面向英语考试翻译题目的学生答案自动评分方法

技术领域

本发明属于主观题自动评分领域。具体为一种面向英语考试翻译题目的学生答案自动评分方法。

背景技术

自动评分作为自然语言处理技术在教育领域的一个重要的应用领域，是学生知识状态追踪，学习资源推荐，个性化学习指导的基础性工作。随着英语在线教育的普及，越来越多的学生开始在网上进行英语的学习和测验。一方面教师在评分过程中，耗费较多的时间和精力。影响教师教学，教研环节的改善；另一方面，教师的主观性较强，很容易出现评分偏差，造成评分的不一致，不利于教育公平。因此如何自动化的为学生答案进行评分成为教育领域学术界和工业界关注的焦点。

目前在英语考试当中，英语翻译题目是一类常见的考察方式，翻译过程中语言表述方式多种多样，学生答案文本较短，以往针对每道题目在自动评分中可使用的特征主要是单一语言上特征，抽取参考答案和学生答案之间的相似度特征，然后利用机器学习模型进行建模，评分的准确性较低，并没有充分对题目进行理解。如何更好的模拟真实人类老师的评分过程，对学生翻译题目进行评分是当前亟需解决的问题。

针对以上现状，本方法提出一种新颖的结合双向语言特征匹配的自动评分方法。本方法主要针对中学英语评测当中的翻译题目进行自动评分。使用神经网络机器翻译模型对学生答案进行翻译，抽取翻译的结果与题目之间匹配特征，同时结合学生答案和参考答案之间的匹配特征。通过对抽取出的特征和学生评分进行建模，训练自动评分模型，从而改善英语翻译题目的自动评分效果。

发明内容

本发明的目的在于：针对中学英语评测中的翻译题目提供一种新思路和解决方法。

本发明采用的技术方案如下：

一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，该方法基于机器翻译模型从汉语和英语两个方向对学生答案进行特征抽取，使用抽取的特征训练机器学习模型进行评分。该方法主要包含数据预处理，翻译模型训练，特征抽取及评分。

其中，数据预处理过程具体描述为：通过本方法中的数据预处理流程，中英文双语平行语料从翻译句子的长度、去停用词、英文翻译中所包含的考试要求英文词汇数量，进行双语语料的筛选。然后将双语语料分词，经过预处理的语料与英语考试内容相关性较高。

其中，所述翻译模型训练过程具体描述为：使用Transformer的网络结构，Transformer是一种基于自注意力机制和前馈神经网络进行文本表示的语言模型，其模型可以同时做分类和生成任务，Transformer的网络结构可以并行训练，加快翻译模型训练速度。本方法对其进行改进，去掉原始的网络中随机生成词嵌入层的参数，改用大规模语料下训练的无监督语言表示模型Bert对词汇进行词嵌入表示。通过这种方式可以将大规模单语语料中的词汇特征引入到机器翻译模型的训练当中，获取更多语言语义特性，得到更为准确的机器翻译模型。

其中，所述特征抽取及评分具体描述为：第一个方向为抽取学生答案S和参考英文答案R之间的文本匹配特征，第二个方向为抽取学生答案经机器翻译得到的学生答案S_译与题干中文本Q之间的文本匹配特征，抽取的匹配特征可以使用多种相似度进行计算。然后使用机器学习模型对抽取的匹配特征进行建模，得到最终的题目评分模型用于最终评分。

其中，所述的一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，包括以下具体步骤：

步骤一、双语平行语料预处理：本方法为一种面向英语考试翻译题目的学生答案自动评分方法，本方法的目标是设计一种面向英语考试翻译题目的学生答案自动评分方法。由于本方法中自动评分方法主要针对中学英语考试中的翻译题目，所选取的双语平行语料应与中学常见表达方式和词汇使用方法类似的语料，才能提高翻译的准确性，因此在训练英语汉译英和英译汉的翻译模型之前，需要对语料中学英语进行相关性的处理，筛选的过程如下，首先使用停用词表，对英语中的停用词进行去除，停用词为英语或中文中常见的无实际意义的非法字符，比如'*'、'％'、'@'、'('、')'等。然后计算去停用词后的英文句子中，中学英语词汇的比值和英文句子的长度。同时满足比值大于0.8和句子长度在10到50词之间的英文句子将被保留用于翻译模型训练。

步骤二、翻译模型训练：将筛选后的中学双语平行语料进行BPE分词处理，BPE分词处理的方式可以减少翻译过程中所要搜索的词表大小，同时可以提高对未见过词汇的翻译准确性。Transformer是一种基于自注意力机制和前馈神经网络进行文本表示的语言模型，其模型可以同时做分类和生成任务，Transformer的网络结构可以并行训练，加快翻译模型训练速度。本方法对其进行改进，去掉原始的网络中随机生成词嵌入层的参数，改用大规模语料下训练的无监督语言表示模型Bert对词汇进行词嵌入表示。通过这种方式可以将大规模单语语料中的词汇特征引入到机器翻译模型的训练当中，获取更多语言语义特性，得到更为准确的机器翻译模型，使用Bert训练好的词表和预处理过的中学双语平行语料训练，机器翻译模型网络的参数设置如下：

1)学习率：初始学习率设置为0.01，每训练10轮减小10％。

2)优化器：使用adam或sgd优化器(实施过程根据模型训练情况决定)。

3)其它：batchsize大小设置为4096，与显存容量有关，总共训练轮数为20。

4)Transformer的层数设置为12层，与显存容量有关。

步骤三、特征抽取与评分模型训练：特征的抽取主要包括两部分一部分将学生的答案S作为翻译模型的输入，输出翻译后的学生答案S_译，抽取S_译与题干中文本Q之间的文本匹配特征，另一部分为抽取学生答案S和参考英文答案R之间的文本匹配特征。其中抽取的特征可以是多种相似度衡量的结果，如WMD(Word Move Distance)，BLEU,Accuracy等。将抽取的特征进行拼接，使用xgboost分类模型对抽取的特征与学生答案得分进行建模，训练学生答案评分模型。

附图说明

图1为本发明的整体实施流程图；

图2为本发明整体实施流程中的数据预处理结构图；

图3为本发明整体实施流程中的Transformer机器翻译模型结构图；

图4为本发明整体实施流程中的特征抽取及评分模型训练结构图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参阅图1，一种面向英语考试翻译题目的学生答案自动评分方法，主要包含数据预处理，翻译模型训练，特征抽取及评分。

数据预处理部分：如图2所示，准备英文和中文双语对照平行语料，作为训练翻译模型的基础数据。首先对双语平行语料进行停用词处理，在翻译任务中的停用词定义为除英文和中文以及标点符号之外的其他字符数据，比如'*'、'％'、'@'、'('、')'等。通过编写正则表达式的方式对双语对照平行语料进行停用词处理。然后对使用中学英语词汇数据中的词和双语对照语料中的英文句子中的词进行匹配，匹配之前需要使用NLTK¹(全称“Natural Language Toolkit”，自然语言处理工具包，在自然语言处理领域中，最常使用的一个Python库。)包中的词形还原工具，对句子中含有时态，大小写的单词进行词形恢复，如下例中“Have”->“have”，“shined”->“shine”，“shoes”->“shoe”。当单词匹配的数量s和句子总单词数量w的比值>0.8时，保留此英文句子以及对应的中文译文。将上述保留的句子进行句子长度的检测，句子长度{L|5≤L≤50}到50词之间的英文句子，保留此英文句子以及对应的中文译文。以下为满足上述三个条件保留中英对照语料的例子如下：

使用subword-nmt²编码工具分别对剩下的中文数据和英文数据分别进行BPE分词处理。首先需要使用单一语言的语料训练subword-nmt中的BPE分词模型。然后将训练的单一语言BPE分词模型用于分割相应的单一语言数据。分词后的例子如下：

翻译模型训练部分：如图3所示，准备大规模的中文百科知识和英文百科知识语料，使用数据预处理中训练的分词模型，对中文百科知识和英文百科知识语料进行分词，训练基于Bert³(Bidirectional Encoder Representations from Transformers)的词表示模型。Bert是谷歌提出的用于词汇向量化的预训练模型，能够对每个词针对特定任务进行向量表示的优化。将Bert预训练模型的训练参数词汇维度设置为768维，得到基于Bert训练后的词表。使用基于Transformer的Encoder和Decoder网络训练机器翻译模型，不同于以往机器翻译模型使用随机向量初始化词表，本方法使用Bert预训练的词表作为机器翻译中使用的词汇向量表，能获取更多语言结构方面的信息。结合经过预处理的双语平行语料数据，更适用于训练中学英译汉和汉译英的机器翻译模型。其中基于Transformer的神经网络机器翻译模型的参数设置如下：

1)学习率：初始学习率设置为0.01，每训练10轮减小10％。

4)Transformer的层数设置为12层，与显存容量有关。

特征抽取与评分模型训练部分：如图4所示，首先抽取计算学生答案A和参考答案R之间的相似度特征，主要包括BLEU，Accuracy，WMD(word move distance)以及编辑距离。

1)BLEU使用NLTK中实现的接口进行计算，在计算的过程中将1-gram和2-gram的比重分别设置为0.5。

2)Accuracy为学生答案A中词在标准答案中出现的数量C和参考答案R中词的数量S_标的比值，计算的公式如下所示：

3)WMD为gensim⁴包中提供文本相似度的计算过程，首先使用gensim提供的word2vector工具，训练词汇表示，然后基于训练的词汇表示，计算学生答案和参考答案之间相似度值。

4)编辑距离为即将一个字符串转换成另一个字符串所需要的最少修改次数，一般的修改指的是对字符的3种操作：删除、修改、增加这三种操作。该相似度计算可以使用python-Levenshtein包中的计算方法进行实现。

然后将学生答案A作为输入，输入到第二部分训练的机器翻译模型中得到新的语言方向的学生答案A_译，抽取计算A_译与翻译题目的题干Q之间的相似度特征，主要包括BLEU，Accuracy，WMD(word move distance)以及编辑距离。与以上计算过程相似，其中Accuracy的计算过程为学生答案A_译中词在题干Q中出现的数量C_译和题干Q中词的数量S_题干的比值，计算的公式如下所示：

通过以上步骤可以得到一个学生答案针对题干以及标准答案从两个语言方向上的相似度特征，将两者进行拼接可以得到基于多种相似度的学生答案表示结果，将答案和对应的分值作为机器学习模型的输入，训练自动评分模型。本发明使用xgboost⁵方法训练自动评分模型，一个学生答案的表示结果的例子如下所示：

本发明针对翻译题目的自动评分，通过深度学习的方法，实现一种可以从更多语言相似度的方向上对学生的翻译题目答案进行自动评分的方法，能够减少教师批阅所花费的时间精力，并为后续大规模的题目评分提供了新的思路和基础工作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，该方法基于机器翻译模型从汉语和英语两个方向对学生答案进行特征抽取，使用抽取的特征训练机器学习模型进行评分，该方法主要包含数据预处理，翻译模型训练，特征抽取及评分。

2.如权利要求1所述一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，所述数据预处理过程具体描述为：通过本方法中的数据预处理流程，对中英文双语平行语料从翻译句子的长度、去停用词、英文翻译中所包含的考试要求英文词汇数量，进行双语语料的筛选，然后将双语语料分词，经过预处理的语料与英语考试内容相关性较高。

3.如权利要求1所述的一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，所述翻译模型训练过程具体描述为：使用Transformer的网络结构，Transformer是一种基于自注意力机制和前馈神经网络进行文本表示的语言模型，其模型可以同时做分类和生成任务，Transformer的网络结构可以并行训练，加快翻译模型训练速度；本方法对其进行改进，去掉原始的网络中随机生成词嵌入层的参数，改用大规模语料下训练的无监督语言表示模型Bert对词汇进行词嵌入表示；通过这种方式可以将大规模单语语料中的词汇特征引入到机器翻译模型的训练当中，获取更多语言语义特性，得到更为准确的机器翻译模型。

4.如权利要求1所述的一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，所述特征抽取及评分具体描述为：第一个方向为抽取学生答案S和参考英文答案R之间的文本匹配特征，第二个方向为抽取学生答案经机器翻译得到的学生答案S_译与题干中文本Q之间的文本匹配特征，抽取的匹配特征可以使用多种相似度进行计算。然后使用机器学习模型对抽取的匹配特征进行建模，得到最终的题目评分模型用于最终评分。

5.如权利要求1所述的一种面向英语考试翻译题目的学生答案自动评分方法，其特征在于，包括以下具体步骤：

步骤一、双语平行语料预处理：本方法为一种面向英语考试翻译题目的学生答案自动评分方法，本方法的目标是设计一种面向英语考试翻译题目的学生答案自动评分方法。由于本方法中自动评分方法主要针对中学英语考试中的翻译题目，所选取的双语平行语料应与中学常见表达方式和词汇使用方法类似的语料，才能提高翻译的准确性，因此在训练英语汉译英和英译汉的翻译模型之前，需要对语料中学英语进行相关性的处理，筛选的过程如下，首先使用停用词表，对英语中的停用词进行去除，停用词为英语中常见的无实际意义的词汇，比如'*'、'％'、'@'、'('、')'等。然后计算去停用词后的英文句子中，中学英语词汇的比值和英文句子的长度。同时满足比值大于0.8和句子长度在10到50词之间的英文句子将被保留用于翻译模型训练；

步骤二、翻译模型训练：将筛选后的中学双语平行语料进行BPE分词处理，BPE分词的方式可以减少翻译过程中所要搜索的词表大小，同时可以提高对未见过词汇的翻译准确性。Transformer是一种基于自注意力机制和前馈神经网络进行文本表示的语言模型，其模型可以同时做分类和生成任务，Transformer的网络结构可以并行训练，加快翻译模型训练速度；本方法对其进行改进，去掉原始的网络中随机生成词嵌入层的参数，改用大规模语料下训练的无监督语言表示模型Bert对词汇进行词嵌入表示；通过这种方式可以将大规模单语语料中的词汇特征引入到机器翻译模型的训练当中，获取更多语言语义特性，得到更为准确的机器翻译模型，使用Bert训练好的词表和预处理过的中学双语平行语料训练，机器翻译模型网络的参数设置如下：

1)学习率：初始学习率设置为0.01，每训练10轮减小10％；

2)优化器：使用adam或sgd优化器(实施过程根据模型训练情况决定)；

3)其它：batchsize大小设置为4096，与显存容量有关，总共训练轮数为20；

4)Transformer的层数设置为12层，与显存容量有关；

步骤三、特征抽取与评分模型训练：特征的抽取主要包括两部分一部分将学生的答案S作为翻译模型的输入，输出翻译后的学生答案S_译，抽取S_译与题干中文本Q之间的文本匹配特征，另一部分为抽取学生答案S和参考英文答案R之间的文本匹配特征。其中抽取的特征可以是多种相似度衡量的结果，如WMD(Word Move Distance)，BLEU,Accuracy，编辑距离等。将抽取的特征进行拼接，使用xgboost分类模型对抽取的特征与学生答案得分进行建模，训练学生答案评分模型。