CN111160000A

CN111160000A - 作文自动评分方法、装置终端设备及存储介质

Info

Publication number: CN111160000A
Application number: CN201911260895.1A
Authority: CN
Inventors: 夏林中; 罗德安; 张春晓; 管明祥; 刘明俊; 张振久; 龚爱平; 吴舟
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-15
Anticipated expiration: 2039-12-10
Also published as: CN111160000B

Abstract

本申请适用于自动评分技术领域，提供了作文自动评分方法、装置终端设备及存储介质，通过对预测的目标文本进行预处理，得到目标文本中各个词的词向量数据，而后输入至训练好的第一模型中，获取相应的预测分数，使得英语学习者写的大量英语作文，可以通过作文评分装置及时对其进行有效的评分，且快速反馈给英语学习者，更好地起到促进英语学习者的学习效率和学习水平的作用。

Description

作文自动评分方法、装置终端设备及存储介质

技术领域

本申请属于自动评分技术领域，尤其涉及作文自动评分方法、装置终端设备及存储介质。

背景技术

英语作文，是指用英语针对某一内容写出一篇文章，是英语考试最常见的一种题目类型，英语作文要求阅读、写作比较高，也是考生最容易失分的题型。但是一般的英语作文阅卷评分多为人工评分，人工评分的过程中容易掺杂个人情感，阅卷数量较多使得阅卷不够准确，对于相似作文难以找出。而且，对于英语学习者写的大量英语作文很难及时对其进行有效的评分，不能快速反馈给英语学习者，无法更好地起到促进英语学习者的学习效率和学习水平的作用。

发明内容

本申请实施例提供了作文自动评分方法、装置终端设备及存储介质，可以解决现有对英文作文评分不及时，评分准确度不高的问题。

第一方面，本申请实施例提供了一种作文自动评分方法，包括：

获取目标文本，对所述目标文本进行预处理，得到词干化文本；

获取所述词干化文本中各个词的词向量数据；

将所有所述词向量数据输入第一模型获取预测分数；其中，所述第一模型是基于训练数据中的词向量数据进行训练得到的。

在一实施例中，所述将所有所述词向量数据输入第一模型获取预测分数，包括：

输入所述词向量数据至所述第一模型中的第一隐藏层，得到第一隐藏层状态；

输入所述第一隐藏层状态至所述第一模型中的第二隐藏层，得到第二隐藏层状态；

输入所述第二隐藏层状态至所述第一模型中的注意力层，得到注意力分布值；

根据所述注意力分布值计算所述预测分数。

在一实施例中，所述获取目标文本，对所述目标文本进行预处理，得到词干化文本，包括：

将所述目标文本的文本格式转换为目标格式；

清除所述目标文本中标点、数字和非字母字符；

基于语言库对所述目标文本进行文本分词和词干化，得到词干化文本。

在一实施例中，所述获取所述词干化文本中各个词的词向量数据，包括：

获取目标向量库，通过所述目标向量库对所述词干化文本进行词嵌入，得到各个词的词向量数据；所述词嵌入用于根据所述目标向量库，获取词干化文本中各个词的词向量数据。

在一实施例中，所述作文自动评分方法还包括第一模型的训练步骤，所述第一模型的训练步骤如下：

获取训练数据，所述训练数据包括用于训练预测模型的各个训练文本的训练词向量数据；

输入所述训练词向量数据至初始预测模型进行正向传播训练，得到所述训练文本的第一预测分数；

获取所述训练文本的真实分数，并根据所述第一预测分数获取所述训练文本的训练损失；

根据所述训练损失进行反向传播训练，迭代更新所述初始预测模型的模型参数；

若迭代更新过程所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型；

若迭代更新过程所述训练损失未收敛，则调整所述初始预测模型的模型参数，并返回执行所述输入所述训练词向量数据至初始预测模型进行正向传播训练，得到所述训练文本的第一预测分数及所述训练文本的训练损失以及后续步骤。

在一实施例中，所述若迭代更新过程所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型，包括：

判断迭代过程中所述训练损失输出值是否连续发生改变；

若迭代过程中所述训练损失输出值未连续发生改变，则判定所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型。

在一实施例中，所述训练数据包括若干个维度的词向量数据；

所述若迭代更新过程所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型之后，还包括：

获取各所述维度的词向量数据进行训练后，得到的各个所述维度的词向量数据对应的第一模型；

获取测试数据，并输入所述测试数据的词向量数据至各个所述第一模型，对应获取基于各个所述第一模型进行预测后的第二预测分数，所述训练数据包括用于测试第一模型的测试文本的词向量数据；

根据各个所述第二预测分数，获取最优的第一模型作为目标第一模型。

第二方面，本申请实施例提供了一种作文自动评分装置，包括：

第一获取模块，用于获取目标文本，对所述目标文本进行预处理，得到词干化文本；

第二获取模块，用于获取所述词干化文本中各个词的词向量数据；

第一输入模块，用于将所有所述词向量数据输入第一模型获取预测分数；其中，所述第一模型是基于训练数据中的词向量数据进行训练得到的。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的作文自动评分方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的作文自动评分方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的作文自动评分方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：通过对预测的目标文本进行预处理，得到目标文本中各个词的词向量数据，而后输入至训练好的第一模型中，获取相应的预测分数，使得英语学习者写的大量英语作文，可以通过作文评分装置及时对其进行有效的评分，且快速反馈给英语学习者，更好地起到促进英语学习者的学习效率和学习水平的作用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的作文自动评分方法的一种实现流程示意图；

图2是本申请实施例提供的作文自动评分方法的一种实现流程示意图；

图3是本申请实施例提供的作文自动评分方法中获取目标向量库的示意图；

图4是本申请实施例提供的作文自动评分方法中的训练第一模型的步骤示意图；

图5是本申请实施例提供的作文自动评分方法中的训练第一模型的流程示意图；

图6是本申请实施例提供的作文自动评分装置中的一种结构示意图；

图7是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的作文自动评分方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。图1示出了本发明实施例提供的作文自动评分方法的实现流程图，详述如下：

S101、获取目标文本，对所述目标文本进行预处理，得到词干化文本。

在应用中，上述目标文本包括但不限于英文文本、中文文本或其他语言的文本，在本实施例中，为了说明，限定目标文本为英文文本。上述预处理包括但不限于对英文文本进行格式转换、清楚标点、对文本进行分词等处理操作，最后得到对应的词干化文本。上述词干化文本为将英文文本的单词对应恢复为正常状态，例如，将时态改为正常时态、单词复数恢复为单数。示例性的，英文文本包括“did”，进行预处理之后则得到“do”，对此不作限定。

S102、获取所述词干化文本中各个词的词向量数据。

在应用中，上述词向量数据为对应词的维度特征向量，其中使用特征向量表示对应单词的词向量。在应用中，上述单词的词向量数据可借用已在数据库建立或存储的单词的词向量，对此不作详细介绍。其中，每个英文单词的特征向量可表示为

L为英文文本中选定的单词个数，D为特征维度数。示例性的，对于多篇由不同个数单词组成的英文文本，其中，每个单词的特征维度均选用300维的特征向量进行表达，而对于其中一篇英文文本进行预测时，为使得多篇英文文本的预测分数更为真实、可靠，可综合选取所有英文文本单词个数的平均长度来。例如，两篇英文文本，A篇是100个英文单词，B篇是80个英文单词，可以每篇均选用90个英文单词的词向量数据进行预测，即A篇选取前90个单词的词向量数据进行预测分数，B篇选取前80个单词的词向量数据并加上10个为0向量的词向量数据进行预测；或者取平均长度的125％进行预测，其对多篇不同单词个数的英文作文进行预测时，为保证各个英文作文的预测的可靠性，选取的英文文本单词个数的平均长度可以更改，对此不作限定。

S103、将所有所述词向量数据输入第一模型获取预测分数；其中，所述第一模型是基于训练数据中的词向量数据进行训练得到的。

在应用中，上述第一模型可以为基于注意力机制的神经网络模型、例如基于注意力机制的双层长短期记忆网络模型(LSTM)，或者基于注意力机制的马尔可夫模型(RNN)，对此不作限定。为解释说明，本实施例中，选用基于注意力机制的双层长短期记忆网络模型进行预测分数，对获取的词向量数据进行双层处理，并将处理之后的结果输入注意力机制获取对应的预测分数。其中，LSTM神经网络由输入门、遗忘门、输出门和单元状态组成，输入门：决定当前时刻神经网络的输入数据有多少需要保存到单元状态；遗忘门：决定上一时刻的单元状态有多少需要保留到当前时刻；输出门：控制当前单元状态有多少需要输出到当前的输出值。

在应用中，上述第一模型为根据预先选定的多个用于训练的英文文本的词向量数据，进行训练得到的，在训练过程中逐步更新第一模型的模型参数，最终迭代得到第一模型。

在本实施例中，通过获取英文文本，对英文文本进行预处理操作，得到英文文本中各个单词的词向量数据，并使用预先训练得到的第一模型进行预测，对应得到英文文本的预测分数，可随时有效地对用户输入的英文文本进行有效的评分。

参照图2，在一实施例中，步骤S103包括：

S201、输入所述词向量数据至所述第一模型中的第一隐藏层，得到第一隐藏层状态。

在应用中，上述词向量数据具体可以为D维度的数据，其中，若选择用于预测的英文文本的长度为L，则该英文文本的词向量数据则具有L×D维词向量数据，具体可参照图3。上述第一模型为LSTM(双层长短期记忆神经网络)模型，将L×D维词向量数据作为基于注意力机制的LSTM模型的输入值，该数据在每个时间步t(共有L步)上，得到双层LSTM模型中第一隐藏层状态

具体的，参照图4，图4最底层为对英文文本进行预处理之后的各个单词进行词嵌入得到的词向量数据，LSTM第一层为第一模型中的第一隐藏层，计算过程如下：

其中，

是LSTM网络t-1时刻第一层长时记忆的隐藏状态，

是LSTM网络t时刻第一层长时记忆的隐藏状态，

是LSTM网络t-1时刻第一层短时记忆的隐藏状态，

是LSTM网络t时刻第一层短时记忆的隐藏状态，即第一隐藏层状态，x_t是LSTM网络t时刻第一层的输入，即第t个单词的词向量数据，

是LSTM网络t时刻第一层的输入门，

是LSTM网络t时刻第一层的遗忘门，

是LSTM网络t时刻第一层的输出门，

是LSTM网络t时刻第一层的激活向量，W、U和b分别是LSTM网络第一层学习权值矩阵和偏置向量，σ是Sigmoid激活函数，tanh是双曲正切激活函数，*是哈达玛积。

S202、输入所述第一隐藏层状态至所述第一模型中的第二隐藏层，得到第二隐藏层状态。

在应用中，上述第二隐藏层状态为将第一隐藏层作为输入值进行计算得到的。具体的，参照图4，LSTM第二层为第一模型中的第二隐藏层，计算过程如下：

其中，

是LSTM网络t-1时刻第二层长时记忆的隐藏状态，

是LSTM网络t时刻第二层长时记忆的隐藏状态，

是LSTM网络t-1时刻第二层短时记忆的隐藏状态，

是LSTM网络t时刻第二层短时记忆的隐藏状态，即第二隐藏层状态，此时，

是LSTM网络t时刻第二层的输入，

是LSTM网络t时刻第二层的输入门，

是LSTM网络t时刻第二层的遗忘门，

是LSTM网络t时刻第二层的输出门，

是LSTM网络t时刻第二层的激活向量，W、U和b分别是LSTM网络第二层的学习权值矩阵和偏置向量，σ是Sigmoid激活函数，tanh是双曲正切激活函数，*是哈达玛积。

S203、输入所述第二隐藏层状态至所述第一模型中的注意力层，得到注意力分布值。

在应用中，上述注意力分布值当前预测的英文作文相邻单词之间的注意力分布值。具体的，参照图4的注意力层，其计算过程如下：

其中，S_i是i时刻第二隐藏层状态h_i ²与注意力层的状态h'的相似度，W和b分别是注意力层的学习权值矩阵和偏置向量，a_i注意力概率，v为当前预测的英文作文相邻单词之间的注意力分布值，exp是指数函数。上述注意力层的状态h'可以为用户预先设置的参数，也可以为根据神经网络训练得到的状态参数，对此，不作限定。

S204、根据所述注意力分布值计算所述预测分数。

在应用中，上述预测分数为LSTM神经网络根据上一层获取的注意力分布值得到的。具体的，参照图4的softmax层，其计算过程如下：可将注意力分布值输入至激活函数中，例如，y_score＝softmax(W_v·v+b_v)；其中，softmax为激活函数，y_score为预测分数，W_v为当前预测层的学习权值矩阵和b_v为当前预测层的偏置向量。

在本实施例中，通过选用具有双层的长短期记忆神经网络模型对英文文本进行预测分数，其模型具有判断信息有用与否的处理操作，会将符合算法认证的信息留下，不符合算法认证的信息进行遗忘，具有在反复运算下长时间记忆重要信息，忘记不重要信息的作用，使其在预测过程中，可以提高对长度不固定的英文文本进行预测的可靠性。

在一实施例中，步骤S101包括：

将所述目标文本的文本格式转换为目标格式。

在应用中，上述文本格式包括但不限于ASCII字符集、MIME、.txt。其中，本实施例中的目标格式采用UTF-8格式。

清除所述目标文本中标点、数字和非字母字符。

在应用中，上述语言库为基于自然语言处理工具集(Natural Language ToolkitNLTK)形成的NLTK库，其内部可对上传的英文文本进行分词。上述分词为将英文文本中的每个单词进行分隔，将每个单词作为一个字符进行处理。上述词干化包括将不同时态的单词恢复为正常时态、将复数形式的单词恢复为单数等，对此不作限定。

在本实施例中，通过对获取的英文文本进行格式处理和对单词的形式进行恢复，获取处理后的英文文本进行预测，增加其对英文文本预测分数的可靠性。

在一实施例中，步骤S102包括：

在应用中，上述目标词向量库可以为预先设置的词向量库，在对英文文本进行预测时，设备可以根据服务端接口自动调用该词向量库，或者为用户根据多个英文文本自设的词向量，并存储在设备中。具体的，参照图3，本实施例中，目标词向量库为谷歌词向量库(Google word vector)，其每个单词的维度(D)为300维。

在应用中，上述词嵌入是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，使单词与单词之间形成一定的依赖关系。示例性的：“Have a good day”和“Have a great day”，意思相同。预先构建词汇表V，则V＝{have，a，good，great，day}。之后限定每个单词的向量维度为5维特征向量，则会得到一个除了表示词汇表V中相应单词的索引处的元素，如将词的存在标记为布尔值，0表示缺席，1表示存在。

则有：Have＝[1，0，0，0，0]；a＝[0，1，0，0，0]；good＝[0，0，1，0，0]；great＝[0，0，0，1，0]；day＝[0，0，0，0，1]；对各个单词的编码进行可视化并映射到5维空间中，则每个单词占据一个维度，而与其他维度无关(没有沿其他维度的投影)。在5维度空间中“good”和“great”的不一样的程度与“day”和“have”的不一样的程度是相同的，之后可根据神经网络模型进行训练，引入great对good的依赖关系。

在本实施例中，通过对英文文本中各个单词进行词嵌入处理，来获取英文文本中某个单词的上下文、语义和句法相似性、与其他单词的关系等，而后对词嵌入后的英文文本进行预测，可提高预测分数的准确性。

参照图5，在一实施例中，第一模型的训练步骤如下：

S501、获取训练数据，所述训练数据包括用于训练预测模型的各个训练文本的训练词向量数据。

在应用中，上述训练数据为用于进行模型训练的数据。具体的，对选定的英文文本均进行步骤S101-S103处理，得到英文文本中各个单词的词向量数据，其中，每个英文文本的词向量数据即为训练数据。上述英文文本可以是服务器或设备获取的历史英文文本，也可是是用户输入的由用户设定的英文文本，对此不作限定。

S502、输入所述训练词向量数据至初始预测模型进行正向传播训练，得到所述训练文本的第一预测分数。

S503、获取所述训练文本的真实分数，并根据所述第一预测分数获取所述训练文本的训练损失。

在应用中，上述正向传播为将输入的英文文本的所有词向量数据依次经过LSTM模型的输入层、隐藏层和输出层进行处理，最后得到的结果，为一次正向传播，在一次正向传播过程结束后，可以得到英文文本的第一预测分数。即通过设定LSTM模型中模型参数的初始值来初始化LSTM模型，对初始LSTM模型中的每层的学习权值矩阵和偏置向量赋予随机值，而后输入训练的英文文本的词向量数据到LSTM模型第一层的输入层中，得到第一隐藏层状态，并将中第一隐藏层状态作为第二隐藏层的输入值得到第二隐藏层状态，至根据第二隐藏层状态获取当前预测的英文作文相邻单词之间的注意力分布值，而后根据激活函数得到第一预测分数的输出值，根据第一预测分数和真实分数求出LSTM模型正向传播时的误差，基于误差进行反向传播更新LSTM模型中模型参数(学习权值矩阵和偏置向量)的初始值。其中，根据第一预测分数和真实分数求出训练损失，其计算过程如下：

其中，LOSS_total为i时刻输入的英文文本的词向量数据进行模型训练时得到的训练损失，y_score为预测分数，y'为真实分数。

S504、根据所述训练损失进行反向传播训练，迭代更新所述初始预测模型的模型参数。

在应用中，上述模型参数具体为初始化LSTM模型中的学习权值矩阵w和偏置向量b。具体的，模型参数根据总损失值向后反向求出每一层中词向量数据的学习权值矩阵对总损失值的误差影响，通过误差影响得到当前样层的误差，再乘以上负的学习率，得到样本节点当前层的学习权值矩阵的误差值Δw和偏置向量的误差值Δb，则新的学习权值矩阵为w+Δw，偏置向量为b+Δb。或者，使用优化器来对模型参数进行优化，例如，使用自适应矩估计(Adam stochastic optimizer)优化器对训练损失输出值进行自动求导，迭代更新模型参数，对此不作限定。

S505、若迭代更新过程所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型。

S506、若迭代更新过程所述训练损失未收敛，则调整所述初始预测模型的模型参数，并返回执行所述输入所述训练词向量数据至初始预测模型进行正向传播训练，得到所述训练文本的第一预测分数及所述训练文本的训练损失以及后续步骤。

在应用中，上述迭代更新过程中以得到真实分数与第一预测分数的训练损失判定LSTM模型的收敛情况。具体的，当训练损失小于预先设置的某个数值，或经过一定迭代次数后，得到的训练损失数值均保持不变，或在迭代一定次数后，若训练损失数值持续稳定在一定范围内，不再减小，则判断LSTM模型得到了收敛。否则，在将当前英文文本的词向量数据进行正向传播和反向传播后，将得到的新模型参数更新至初始预测模型中原本的模型参数，再次输入英文文本的词向量数据进行训练，重复上述训练步骤S502-S506。其中，每经历一次正向传播和反向传播即为一次迭代，每次迭代过程中反向传播训练时都会更新初始预测模型(LSTM模型)中原本的模型参数，即为迭代更新。

在本实施例中，通过初始化预测模型，将所有英文文本的词向量数据进行正向传播训练，得到真实分数与预测分数的损失值，再进行反向传播训练更新预测模型，提高了第一模型中分数预测的准确度。

在应用中，步骤S505包括：

判断迭代过程中所述训练损失输出值是否连续发生改变。

在应用中，上述训练损失输出值未连续发生改变可以为，迭代过程中获取的训练损失输出值在连续多次均保持一致，则认为训练损失输出值未连续发生改变；或者，在获得某个训练损失输出值开始，之后获得连续预设个数的训练损失输出值均在其上下波动，则可认为训练损失输出值未连续发生改变；或者，迭代过程中获取的连续预设个数相邻的训练损失输出值，其波动范围处于预设范围内，则认为判定迭代过程中训练损失输出值未连续发生改变。例如，上述预设个数可以为30个，上述预设范围可以为0-0.1之间，对此不作限定。

在具体应用中，若用于训练的英文文本具有1000篇，则可先确定1000篇英文文本中，可对1000篇的文本长度进行求平均文本长度(即平均单词的个数)，并取平均长度的1.25倍来进行训练，即均选用文本长度为L进行模型训练，且设定每个单词的词向量维度为D，进而确定每篇英文文本的词向量数据均为L×D维度的词向量数据。之后每次将一批英文文本的词向量数据依次输入预测模型中进行训练，通过每批训练得到的训练损失输出值更新预测模型的初始模型参数，依次获取每批训练结束时的训练损失输出值。在连续30次得到的训练损失输出值保持不变或连续30次得到的相邻训练损失输出值的波动小于0.1时，则判定训练损失收敛，进而结束模型训练。在30次得到的相邻训练损失输出值中，将数值最小的训练损失值更新后对应的模型作为已训练的第一模型。

在应用中，上述每次将一批英文文本的词向量数据依次输入预测模型中进行训练。具体的可以为，上述一批可以为每次对一篇英文文本的词向量数据进行训练，则得到一个预测分数，根据预测分数和真实分数计算训练损失；或者，上述一批可以为每次将16篇英文文本的词向量数据同时输入至初始预测模型中，则会得到16个英文文本的预测分数，根据16个预测分数与对应的16个真实分数则可以得到16个训练损失，对应获取其平均的训练损失输出值进行更新当前初始预测模型的模型参数，对此不作限定。

在应用中，上述每次将一批英文文本的词向量数据进行训练得到一个训练损失输出值之后，在依次将1000篇英文文本的词向量数据都进行模型训练之后，可更改1000篇英文文本的词向量数据输入至训练模型进行训练的输入顺序。例如，每批将1篇英文文本的词向量数据进行模型训练，在第一轮训练中1000篇英文文本的词向量数据以A1，A2，...，A1000的顺序进行训练，在进行第二轮模型训练时，可以随机打乱1000篇英文文本的词向量数据输入顺序，如先逆向输入上轮训练序列为单数的英文文本的词向量数据，在正向输入上轮训练为双数的英文文本的词向量数据，如A999，A997，...A1，A2，A4，...，A1000，得到第二轮模型训练时各英文文本对应的各训练损失输出值。依次类推可得到每轮模型训练时各英文文本对应的各个训练损失值，在判定训练损失值未连续发生改变时则判定模型收敛，进而结束模型训练。其中，对每轮用于训练的英文文本的词向量数据的输入顺序变化规则不作限定。通过对输入英文文本的词向量数据的顺序进行更改，以使得根据有限的词向量数据训练之后得到的模型不会出现过拟合现象，提高模型预测分数的准确性。

在本实施例中，通过计算连续迭代过程中的训练损失输出值未发生改变，进而判定初始预测模型收敛，且在训练过程中，通过更改英文文本的词向量数据输入至训练模型进行训练的输入顺序，避免对统一输入顺序输入的词向量数据进行训练时出现过拟合现象，提高第一模型的泛化能力，有效提高了第一模型预测分数的可靠性。

在一实施例中，所述训练数据包括若干个维度的词向量数据；步骤S505还包括：

获取各所述维度的词向量数据进行训练后，得到的各个所述维度的词向量数据对应的第一模型。

在应用中，上述训练数据包括若干篇英文文本，每篇英文文本中的词向量数据均用于进行训练，因此，在对上述英文文本进行预处理和词干化时可获取到多个不同维度的词向量数据。例如，通过上述更改每轮训练时的英文文本的长度，进而更改用于训练的词向量文本数据。或者，每次训练时的英文文本的长度固定，更改使用的每个单词的词向量维度，也可起到更改每篇英文文本的词向量数据的维度，对此不作限定。

示例性的，在进行模型训练时，先将每篇L×D维度的词向量数据进行上述迭代训练，在经过多轮模型训练之后，若判定训练损失收敛，则输出当前L×D维度的词向量数据对应的第一模型A；之后更改用于训练的文本长度为M，即可取平均长度的0.75倍来进行训练，此时用于训练的英文文本的词向量数据为M×D维度的词向量数据，再次将每篇M×D维度的词向量数据进行上述迭代训练，在经过多轮模型训练之后，得到该M×D维度的词向量数据对应的第一模型B。依次类推，可对应得到多个不同维度的词向量数据对应的第一模型。其中，更改用于训练的英文文本的长度，或者更改训练的每个单词的词向量维度，进而可更改每篇英文文本的词向量数据的维度，以使得在模型训练的词向量数据有限的情况下，通过改变词向量数据的维度可进一步增加用于训练的训练数据。

在其他应用中，对于上述不同维度的词向量数据，若每次训练时的英文文本的长度或训练的每个单词的词向量维度之一或同时改变，可起到更改每篇英文文本训练的词向量数据。例如，在对于训练时的英文文本的长度变为原来长度的一半，即长度由L变为0.5L，训练时的英文文本的单词的向量维度变为原来维度的一倍，即维度由D维变为2D，虽此时的每篇英文文本的词向量数据的维度不变，但可认为其用于训练的英文文本的词向量数据发生改变，对此不作限定。

获取测试数据，并输入所述测试数据的词向量数据至各个所述第一模型，对应获取基于各个所述第一模型进行预测后的第二预测分数，所述训练数据包括用于测试第一模型的测试文本的词向量数据。

在应用中，上述测试数据用于评估各个第一模型的泛化能力，但不迭代更新模型参数。示例性的，若通过上述不同维度的词向量数据进行训练之后得到第一模型具有三个，如A模型、B模型、C模型，上述测试数据包括10篇英文作文，预先限定用于进行测试的文本长度，及设定每个单词的词向量维度，并将上述10篇英文作文的词向量数据输入至A模型中，得到A模型预测后的10个预测分数，可选用10个预测分数中的平均值，作为A模型的第二预测分数，依此可获得B模型、C模型对应的第二预测分数。

在应用中，在获取到多个第二预测分数后，可获取10篇英文文本真实分数的平均值与各预测分数进行计算，获取各模型的训练损失，选取获得的训练损失值小的模型作为目标第一模型。

在本实施例中，通过更改每次进行训练的词向量数据的维度，进行预测模型训练，增加了用于训练的词向量数据的数量，有效提高了第一模型预测分数的可靠性，且通过获取不同词向量数据维度下的训练模型，进而获取最优模型，进一步提高第一模型训练的可靠性。

如图6所示，本实施例还提供一种作文自动评分装置100，包括：

第一获取模块10，用于获取目标文本，对所述目标文本进行预处理，得到词干化文本。

第二获取模块20，用于获取所述词干化文本中各个词的词向量数据。

第一输入模块30，用于将所有所述词向量数据输入第一模型获取预测分数；其中，所述第一模型是基于训练数据中的词向量数据进行训练得到的。

在一实施例中，第一输入模块30还用于：

根据所述注意力分布值计算所述预测分数。

在一实施例中，所述第一获取模块10还用于：

将所述目标文本的文本格式转换为目标格式；

清除所述目标文本中标点、数字和非字母字符；

在一实施例中，所述第二获取模块20还用于：

在一实施例中，所述作文自动评分装置100还包括以下模块用于训练第一模型：

第三获取模块，用于获取训练数据，所述训练数据包括用于训练预测模型的各个训练文本的训练词向量数据。

第二输入模块，用于输入所述训练词向量数据至初始预测模型进行正向传播训练，得到所述训练文本的第一预测分数。

第四获取模块，用于获取所述训练文本的真实分数，并根据所述第一预测分数获取所述训练文本的训练损失。

训练模块，用于根据所述训练损失进行反向传播训练，迭代更新所述初始预测模型的模型参数。

更新模块，用于若迭代更新过程所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型。

迭代模块，用于若迭代更新过程所述训练损失未收敛，则调整所述初始预测模型的模型参数，并返回执行所述输入所述训练词向量数据至初始预测模型进行正向传播训练，得到所述训练文本的第一预测分数及所述训练文本的训练损失以及后续步骤。

在一实施例中，所述更新模块还用于：

判断迭代过程中所述训练损失输出值是否连续发生改变；

在一实施例中，所述训练数据包括若干个维度的词向量数据；所述作文自动评分装置100还包括：

第五获取模块，用于获取各所述维度的词向量数据进行训练后，得到的各个所述维度的词向量数据对应的第一模型。

第三输入模块，用于获取测试数据，并输入所述测试数据的词向量数据至各个所述第一模型，对应获取基于各个所述第一模型进行预测后的第二预测分数，所述训练数据包括用于测试第一模型的测试文本的词向量数据。

第六获取模块，用于根据各个所述第二预测分数，获取最优的第一模型作为目标第一模型。

在本实施例中，通过对预测的目标文本进行预处理，得到目标文本中各个词的词向量数据，而后输入至训练好的第一模型中，获取相应的预测分数，使得英语学习者写的大量英语作文，可以通过作文评分装置及时对其进行有效的评分，且快速反馈给英语学习者，更好地起到促进英语学习者的学习效率和学习水平的作用。

本申请实施例还提供了一种终端设备，该终端设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时可实现上述各个方法实施例中的步骤。

图7是本申请一实施例提供的终端设备80的示意图。如图7所示，该实施例的终端设备80包括：处理器803、存储器801以及存储在所述存储器801中并可在所述处理器803上运行的计算机程序802。所述处理器803执行所述计算机程序802时实现上述各个方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，所述处理器803执行所述计算机程序802时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序802可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器801中，并由所述处理器803执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序802在所述终端设备80中的执行过程。例如，所述计算机程序802可以被分割成第一获取模块、第二获取模块和第一输入模块，各模块具体功能如下：

第一获取模块，用于获取目标文本，对所述目标文本进行预处理，得到词干化文本。

第二获取模块，用于获取所述词干化文本中各个词的词向量数据。

所述终端设备80可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器803、存储器801。本领域技术人员可以理解，图7仅仅是终端设备80的示例，并不构成对终端设备80的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器803可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器801可以是所述终端设备80的内部存储单元，例如终端设备80的硬盘或内存。所述存储器801也可以是所述终端设备80的外部存储设备，例如所述终端设备80上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。在一个实施例中，所述存储器801还可以既包括所述终端设备80的内部存储单元也包括外部存储设备。所述存储器801用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器801还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、光盘、计算机存储器、随机存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种作文自动评分方法，其特征在于，包括：

获取所述词干化文本中各个词的词向量数据；

2.如权利要求1所述的作文自动评分方法，其特征在于，所述将所有所述词向量数据输入第一模型获取预测分数，包括：

根据所述注意力分布值计算所述预测分数。

3.如权利要求1所述的作文自动评分方法，其特征在于，所述获取目标文本，对所述目标文本进行预处理，得到词干化文本，包括：

将所述目标文本的文本格式转换为目标格式；

清除所述目标文本中标点、数字和非字母字符；

4.如权利要求1所述的作文自动评分方法，其特征在于，所述获取所述词干化文本中各个词的词向量数据，包括：

5.如权利要求1所述的作文自动评分方法，其特征在于，所述第一模型的训练步骤如下：

6.如权利要求5所述的作文自动评分方法，所述若迭代更新过程所述训练损失收敛，则结束训练所述初始预测模型，并将当前所述初始预测模型作为已训练的第一模型，包括：

判断迭代过程中所述训练损失输出值是否连续发生改变；

7.如权利要求6所述的作文自动评分方法，其特征在于，所述训练数据包括若干个维度的词向量数据；

8.一种作文自动评分装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。