CN110162777A

CN110162777A - 一种看图写作型作文自动评分方法和系统

Info

Publication number: CN110162777A
Application number: CN201910255362.8A
Authority: CN
Inventors: 李霞; 陈敏萍
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-08-23
Anticipated expiration: 2039-04-01
Also published as: CN110162777B

Abstract

本发明公开了一种看图写作型作文自动评分方法和系统。所述方法包括获取所述作文文本对应的n‑gram特征，获取作文文本对应的句子表示，获取所述句子表示对应的隐含层输出矩阵，获取所述图片对应的特征向量矩阵，计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵，执行第一注意力操作和第二注意力操作，计算得到交互信息矩阵，以及将所述交互信息矩阵输入到全连接层，输出评分分数等步骤。本发明通过执行co‑attention机制将隐含层输出矩阵中的文本语义信息与特征向量矩阵中的视觉语义信息融合，可以实现针对看图写作型作文的自动评分。本发明广泛应用于看图写作型作文自动评分技术领域。

Description

一种看图写作型作文自动评分方法和系统

技术领域

本发明涉及图像识别和自然语言处理技术领域，尤其是一种看图写作型作文自动评分方法和系统。

背景技术

看图写作是指应试人员根据题目给出的图片进行写作的过程，看图写作型作文的评分标准之一是应试人员所写的作文文本所反映的内容与题目图片所反映的内容的契合程度，即作文文本越能全面准确地反映题目图片的内容，则作文文本的评分分数越高。

现代考试具有规模化和标准化的趋势，这使得人工阅卷的难度越来越大。由于人工阅卷具有很强的主观性，很难在大规模考试中保持稳定的阅卷标准以及较高的阅卷效率。通过计算机阅卷可以在一定程度上解决阅卷公平和阅卷效率的问题。现有的针对作文的计算机自动阅卷技术主要基于传统特征工程或基于神经网络实现，其中基于神经网络的计算机自动阅卷技术具有更优的技术效果。基于神经网络的计算机自动阅卷技术的原理是将作文文本中的词语转换为词向量输入到卷积神经网络或循环神经网络进行句子编码和文章编码，最终得到包含作文高级抽象语义特征的作文表示，但这种技术由于没有获取题目图片中的语义信息，只能应用于话题作文等题型，难以适应看图写作型作文的评分要求。

发明内容

为了解决上述技术问题，本发明的目在于提供一种看图写作型作文自动评分方法和系统。

一方面，本发明实施例包括一种看图写作型作文自动评分方法，所述看图写作型作文包括作为题目的图片和作为作答内容的作文文本，所述方法包括以下步骤：

使用第一卷积神经网络获取所述作文文本句子对应的n-gram特征；

使用注意力机制模型根据所述n-gram特征获取所述作文文本对应句子的隐含表示；

使用长短时记忆网络获取所述作文文本对应的隐含层输出矩阵；

使用第二卷积神经网络获取所述图片对应的特征向量矩阵；

计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵；

执行第一注意力操作和第二注意力操作；所述第一注意力操作用于对所述特征向量矩阵进行线性变换；所述第二注意力操作用于对所述隐含层输出矩阵进行线性变换；

根据所述隐含层输出矩阵、隐含层输出矩阵经过线性变换后的结果以及特征向量矩阵经过线性变换后的结果，计算得到交互信息矩阵；

将所述交互信息矩阵输入到全连接层，输出评分分数。

进一步地，所述使用第一卷积神经网络获取所述作文文本对应的n-gram特征这一步骤，所用的计算公式为：

z_i＝f(W_z·[w_i:w_i+l-1]+b_z)

式中，z_i为n-gram特征，W_z为第一卷积神经网络的权重矩阵，b_z为第一卷积神经网络的偏置，l为第一卷积神经网络的卷积窗口大小，w_i为所述作文文本对应句子中各单词的词向量。

进一步地，所述使用注意力机制模型根据所述n-gram特征获取作文文本对应的句子表示这一步骤，所用的计算公式为：

式中，W_m和w_a为注意力机制模型的参数矩阵，b_m为注意力机制模型的偏置，z_i为所述n-gram特征，s为句子表示。

进一步地，所述计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵这一步骤，所用的计算公式为：

式中，Sim为相似度矩阵，W_sim为权重矩阵，b_sim为偏置，h_t为隐含层输出矩阵H＝{h₁，h₂，...}中的第t行元素，p_t为特征向量矩阵P＝{p₁，p₂，...}中的第t行元素，*表示矩阵中的对应元素相乘，[；]表示向量拼接运算。

进一步地，所述第一注意力操作所用的计算公式为：

式中，Sim为相似度矩阵，P为特征向量矩阵，为特征向量矩阵经过线性变换后的结果。

进一步地，所述第二注意力操作所用的计算公式为：

式中，Sim为相似度矩阵，H为隐含层输出矩阵，用于自身复制多次后得到为特征向量矩阵经过线性变换后的结果。

进一步地，所述根据所述隐含层输出矩阵、隐含层输出矩阵经过线性变换后的结果以及特征向量矩阵经过线性变换后的结果，计算得到交互信息矩阵这一步骤，所用的计算公式为：

式中，H为隐含层输出矩阵，为隐含层输出矩阵经过线性变换后的结果，为特征向量矩阵经过线性变换后的结果，[；]表示向量拼接运算。

另一方面，本发明实施例还包括一种看图写作型作文自动评分系统，包括：

第一卷积神经网络模块，用于所述作文文本对应句子的n-gram特征；

注意力机制模型模块，用于根据所述n-gram特征获取作文文本对应句子的隐含表示；

长短时记忆网络模块，用于获取所述作文文本对应的隐含层输出矩阵；

第二卷积神经网络模块，用于获取所述图片对应的特征向量矩阵；

相似度矩阵计算模块，用于计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵；

注意力操作模块，用于执行第一注意力操作和第二注意力操作；所述第一注意力操作用于对所述特征向量矩阵进行线性变换；所述第二注意力操作用于对所述隐含层输出矩阵进行线性变换；

交互信息矩阵计算模块，用于根据所述隐含层输出矩阵、隐含层输出矩阵经过线性变换后的结果以及特征向量矩阵经过线性变换后的结果，计算得到交互信息矩阵；

全连接层模块，用于将所述交互信息矩阵输入到全连接层，输出评分分数。

本发明的有益效果是：本发明通过执行co-attention机制将隐含层输出矩阵中的文本语义信息与特征向量矩阵中的视觉语义信息融合，可以实现针对看图写作型作文的自动评分。

附图说明

图1为本发明看图写作型作文自动评分方法的实施例流程图；

图2和图3为本发明实施例中长短时记忆网络的原理图；

图4为本发明实施例中第二卷积神经网络的原理图；

图5为本发明实施例中所进行的实验处理的图片。

具体实施方式

本实施例包括一种看图写作型作文自动评分方法，参照图1，所述方法包括以下步骤：

S1.使用第一卷积神经网络获取所述作文文本句子对应的n-gram特征；

S2.使用注意力机制模型根据所述n-gram特征获取所述作文文本对应句子的隐含表示；

S3.使用长短时记忆网络获取所述作文文本对应的隐含层输出矩阵；

S4.使用第二卷积神经网络获取所述图片对应的特征向量矩阵；

S5.计算所述隐含层输出矩阵和特征向量矩阵对应的相似度矩阵；

S6.执行第一注意力操作和第二注意力操作；所述第一注意力操作用于对所述特征向量矩阵进行线性变换；所述第二注意力操作用于对所述隐含层输出矩阵进行线性变换；

S7.根据所述隐含层输出矩阵、隐含层输出矩阵经过线性变换后的结果以及特征向量矩阵经过线性变换后的结果，计算得到交互信息矩阵；

S8.将所述交互信息矩阵输入到全连接层，输出评分分数。

步骤S1中，使用第一卷积神经网络提取作文文本对应句子的n-gram特征信息，这一过程用公式表示为：

z_i＝f(W_z·[w_i:w_i+l-1]+b_z)

其中，在将作文文本输入到第一卷积神经网络前，对作文文本进行了句子划分和单词划分两个处理，使得作文文本表示为m个句子的集合{s₁，s₂，…，s_m}，每个句子表示为n个单词的集合{w₁，w₂，…，w_n}，其中w_n是相应单词的词向量表示。

在步骤S1中，使用tanh函数作为第一卷积神经网络的激活函数，将第一卷积神经网络的权重矩阵设为W_z，偏置设为b_z，卷积窗口大小设为l，可以得到作文文本对应句子的n-gram特征z_i。

在步骤S2中，注意力机制模型对作文文本对应句子的n-gram特征z_i的处理过程可以用公式来表示。其中，注意力机制模型的参数矩阵设为W_m和w_a，偏置设为b_m，最终得到的s为作文文本对应句子的隐含表示。

步骤S1和S2完成了针对作文文本的句子层级的编码，即作文文本{s₁，s₂，…，s_m}中的每个句子S_i根通过步骤S1和S2实现了句子层级的编码结果，并可以进一步执行步骤S3来针对作文文本进行篇章级别的编码。

步骤S3中所用的长短时记忆网络(Long short-term memory，LSTM)被用于学习文档级别的表示。步骤S3中，参照图2和图3，将作文文本句子层级的隐含表示依次输入到长短时记忆网络中，从而获得每个时间戳的隐含层输出矩阵H＝{h₁，h₂，...，h_m}，H为最终学习得到的作文文本的隐含表示。

步骤S4中，参照图4，将题目的图片输入到包含有卷积层(5×5)、池化层、卷积层(3×3)、池化层和两层全连接层的第二卷积神经网络中，第二卷积神经网络输出图片对应的特征向量矩阵。在本实施例中，每一张图片输入到第二卷积神经网络中都将得到一个对应的特征向量，如果将多张图片输入到第二卷积神经网络，所得到的多个特征向量组成的矩阵为特征向量矩阵。部分看图作文型题目提供四张图片，这四张图片输入到第二卷积神经网络中，输出对应的由四个向量组成的特征向量矩阵{p₁，p₂，p₃，p₄}。

步骤S5与S6用于执行Co-attention机制。Co-attention机制包含第一注意力操作和第二注意力操作两部分，其中第一注意力操作的方向是从文本到图像，第二注意力操作的方向是从图像到文本，第一注意力操作和第二注意力操作均基于相似度矩阵实现。相似度矩阵通过步骤S5中如下所示的公式计算得到：

式中，Sim为相似度矩阵，W_sim为权重矩阵，b_sim为偏置，h_t为隐含层输出矩阵H＝{h₁，h₂，...}中的第t行元素，p_t为特征向量矩阵P＝{p₁，p₂，...}中的第t行元素，*表示矩阵中的对应元素相乘，[；]表示向量拼接运算。其中，Sim∈R^m×4。

步骤S6用于执行第一注意力操作和第二注意力操作。第一注意力操作的方向是从文本到图片，第一注意力操作实际上是对特征向量矩阵进行如下线性变换：

式中，Sim为相似度矩阵，P为特征向量矩阵，为特征向量矩阵经过线性变换后的结果。其中，d_H表示长短时记忆网络的隐含层的输出维度。计算得到的所包含的信息反映了计算得到的作文句子表示s与各图片之间的相似程度。

第二注意力操作的方向是从图片到文本，第二注意力操作实际上是对隐含层输出矩阵进行如下线性变换：

式中，Sim为相似度矩阵，H为隐含层输出矩阵，用于自身复制多次后得到为特征向量矩阵经过线性变换后的结果。本实施例中，将复制m次得到计算得到的所包含的信息反映了相应图片与计算得到的句子表示s之间的相似程度。

步骤S7中，将隐含层输出矩阵H、隐含层输出矩阵经过线性变换后的结果以及特征向量矩阵经过线性变换后的结果通过向量拼接运算得到交互信息矩阵G，即

步骤S8中，使用一个平均池化层对交互信息矩阵G中的每一列取平均值，经过取平均值处理后的交互信息矩阵G表示为X，将X输入到参数矩阵为W、偏置为b、使用Sigmoid激活函数的全连接层中。全连接层的处理可以表示为其中为评分分数。

计算所得的评分分数可以直接作为对作文文本的最终评分，也可以进行乘以转换系数等处理，使得可以适应阅卷规则的要求，还可以将加权后作为最终评分的一部分，考虑阅卷规则中的其他规定后计算得到最终评分。

步骤S8中所用的全连接层经过预先的训练，即使用由多个已知交互信息矩阵以及人工评分y组成的训练集对全连接层进行训练。本实施例中使用均方误差(TheMean SquareofError,MSE)作为全连接层的损失函数，即式中N是训练集的样本个数。

本实施例中，步骤S3得到的隐含层输出矩阵带有与作文文本相关的文本语义信息，步骤S4得到的特征向量矩阵带有与图片相关的视觉语义信息，通过步骤S5和S6执行co-attention机制，将文本语义信息与视觉语义信息融合，可以实现针对看图写作型作文的自动评分。

本实施例还包括一种看图写作型作文自动评分系统，包括：

所述各模块可以是具有相应功能的硬件模块，也可以是计算中运行的具有相应功能的软件模块。

本实施例中的看图写作型作文自动评分方法和系统，可以执行本发明的看图写作型作文自动评分方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以下提供一个更为具体的实施例，该实施例使用本发明的方法和系统实现，从而通过定量的数据来展示本发明的有益效果。

本实施例使用2005年中国广东省高考英语入学考试中的看图写作作文数据集CEEE作为本实施例的实验数据，CEEE包含3958篇中国英语学习者所写的作文，该题目的文字描述是“Michael是一名美国中学生，在学校里选修汉语。他利用暑假到中国进修，希望进一步了解中国文化。有一天，他看到下面有关成语的漫画，不大明白其中的意思。请你用英语把漫画所表达的故事和寓意写成一段短文，向他解释。”。该题目的图片描述如图5所示。数据集中的作文平均长度为145个单词，分数范围是0～25分，由当年高考评卷老师评分得到。

本实施例中，采用quadratic weighted kappa(QWK)作为本发明方法的评价度量，QWK也是Kaggle ASAP竞赛和许多前人研究工作中采用的评价度量，其完整定义如下式所示：

其中Oij是人工评分为i和系统评分为j的作文的篇数，矩阵E是人工评分向量(对所有作文的评分组成一个向量)与系统评分向量的外积。E需要标准化使其元素之和与O的元素之和相等。其中quadratic weight矩阵W_ij定义如下式所示：

其中i和j分别是人工评分和系统评分，N是所有可能的分数的个数。

本实施例把数据集的60％作为训练集，20％作为验证集，20％作为测试集，本实施例采用斯坦福的50维GloVe词向量作为单词初始表示。对于题目图片，统一把每张图片的尺寸处理为128*128，其中句子编码的CNN(Text-CNN)的窗口大小为3，卷积核个数为100，图片特征提取的CNN(Image-CNN)窗口大小为3，卷积核个数为8，模型使用了三层CNN层对图片进行特征提取，模型的初始学习率为0.001。本实施例采用50轮中在验证集上表现最好的一轮在测试集上进行测试得到实验结果。

本实施例使用Taghipour等人提出的LSTM-MoT模型、Dong等人提出的LSTM-CNN-attention模型作为实验的基线系统，并在CEEE数据集上给出本实施例模型与基线模型的实验结果对比，模型的实验结果如表1所示。从表1可以看出，本实施例提出的模型很好的学习到了题目的图片语义信息，并获得了比基线系统更高的实验结果。这表明，本实施例题目的模型确实很好地学习了作文文本和题目图片语义信息的一致性关系，并很好地辅助提升了模型的最后评分结果。同时，本实施例模型还表明，对于看图写作类的作文，通过图片信息可以有效辅助学习和指导作文评分系统的模型和结果。

表1

模型	QWK值
		LSTM-MoT	0.709
LSTM-CNN-attention	0.725
		本实施例模型	0.726

以上是对本发明的较佳实施进行了具体说明，但对本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种看图写作型作文自动评分方法，所述看图写作型作文包括作为题目的图片和作为作答内容的作文文本，其特征在于，包括以下步骤：

使用长短时记忆网络获取所述作文文本对应的文档级隐含层输出矩阵；

使用第二卷积神经网络获取所述图片对应的特征向量矩阵；

将所述交互信息矩阵输入到全连接层，输出评分分数。

2.根据权利要求1所述的一种看图写作型作文自动评分方法，其特征在于，所述使用第一卷积神经网络获取所述作文文本句子对应的n-gram特征这一步骤，所用的计算公式为：

z_i＝f(W_z·[w_i：w_i+l-1]+b_z)

式中，z_i为n-gram特征，W_z为第一卷积神经网络的权重矩阵，b_z为第一卷积神经网络的偏置，l为第一卷积神经网络的卷积窗口大小，w_i为所述作文文本句子中各单词对应的词向量。

3.根据权利要求1所述的一种看图写作型作文自动评分方法，其特征在于，所述使用注意力机制模型根据所述n-gram特征获取作文文本对应的句子表示这一步骤，所用的计算公式为：

式中，W_m和w_a为注意力机制模型的参数矩阵，b_m为注意力机制模型的偏置，zi为所述n-gram特征，s为句子表示。

4.根据权利要求1所述的一种看图写作型作文自动评分方法，其特征在于，所述计算所述作文文本隐含层输出矩阵和题目图片特征向量矩阵对应的相似度矩阵这一步骤，所用的计算公式为：

式中，Sim为相似度矩阵，W_sim为权重矩阵，b_sim为偏置，h_t为所述作文文本隐含层输出矩阵H＝{h₁，h₂，...}中的第t行元素，p_t为所述题目图片特征向量矩阵P＝{p₁，p₂，...}中的第t行元素，*表示矩阵中的对应元素相乘，[；]表示向量拼接运算。

5.根据权利要求4所述的一种看图写作型作文自动评分方法，其特征在于，所述第一注意力操作所用的计算公式为：

6.根据权利要求5所述的一种看图写作型作文自动评分方法，其特征在于，所述第二注意力操作所用的计算公式为：

7.根据权利要求6所述的一种看图写作型作文自动评分方法，其特征在于，所述根据所述隐含层输出矩阵、隐含层输出矩阵经过线性变换后的结果以及特征向量矩阵经过线性变换后的结果计算得到交互信息矩阵这一步骤，所用的计算公式为：

8.一种看图写作型作文自动评分系统，其特征在于，包括：

第一卷积神经网络模块，用于所述作文文本句子对应的n-gram特征；

注意力机制模型模块，用于根据所述n-gram特征获取作文文本对应的句子表示；

长短时记忆网络模块，用于获取所述作文文本的隐含层输出矩阵；