CN111581379A

CN111581379A - 一种基于作文扣题度的自动作文评分计算方法

Info

Publication number: CN111581379A
Application number: CN202010352090.6A
Authority: CN
Inventors: 林劼; 党元; 徐佳俊; 桑玉坤; 伍双楠
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-25
Anticipated expiration: 2040-04-28
Also published as: CN111581379B

Abstract

本发明公开了一种基于作文扣题度的自动作文评分计算方法，该方法包括S1：句子预处理和分布式表示；S2：图卷积神经网络构建；S3：图卷积神经网络训练；S4：多层感知机分类器训练预测。本发明应用在自动作文评分领域，实现对非扣题作文的检测和发现，作文参考范文和学生作答作文的文本匹配程度是作文评分的一个重要特征，通过一种新颖的方式构建了图神经网络，综合了各个句子的相似度计算作文扣题度。

Description

一种基于作文扣题度的自动作文评分计算方法

技术领域

本发明属于自动作文评分技术领域，尤其涉及一种基于作文扣题度的自动作文评分计算方法。

背景技术

文本匹配是自然语言理解中的一个核心问题。很多的自然语言处理任务中，比如问答系统、复述问题、信息检索、机器翻译、对话系统等都可以抽象成文本匹配问题，一般都会以文本相似度计算，文本相关性计算等形式出现。根据文本长度的不同，语义匹配可以细分为三类：短文本-短文本语义匹配，短文本-长文本语义匹配和长文本-长文本语义匹配。

文本语义匹配计算方法，目前的方法集中在以下几个方面：

(1)向量空间模型

向量空间模型用高维稀疏向量来表示文档，简单明了。对应维度使用TF-IDF计算，从信息论角度包含了词和文档的点互信息熵，以及文档的信息编码长度。有了文档向量表示，相似度度量的公式有Jaccard、Cosine、Euclidean distance、BM25等。

(2)矩阵分解方法

通过矩阵分解的方法，把高维稀疏矩阵分解成两个狭长小矩阵，而这两个低维矩阵包含了语义信息，这个过程即潜在语义分析。潜在语义分析能对文档或者词做低维度语义表示，在做匹配时其性能较高(比如文档有效词数大于K)，它包含语义信息，对于语义相同的一些文档较准确。

(3)主题模型

PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent DirichletAllocation)等在潜在语义分析之上引入了主题概念，它是一种语义含义，对文档的主题建模不再是矩阵分解，而是概率分布(比如多项式分布)，这样就能解决多义词的分布问题，并且主题是有明确含义的。这些技术对文本的语义表示形式简洁、运算方便，较好的弥补了传统词汇匹配方法的不足。

(4)基于深度学习的方法

通过神经语言模型可以建模词分布式表示和句分布式表示，DSSM、CLSM、LSTM-DSSM等模型通过神经网络建模句子表示层和交互矩阵关系层，可以捕获高维文本语义信息，取得了很好的效果。

发明内容

本发明的目的在于，针对现有技术的不足，提出一种基于作文扣题度的自动作文评分计算方法，通过一种新颖的方式构建了图神经网络，综合了各个句子的相似度计算文档相似度，提高了模型准确性和鲁棒性，同时使用Triplet network引入第三个文档建模句子间相似度。

一种基于作文扣题度的自动作文评分计算方法，包括以下步骤：

S1：句子预处理和分布式表示；

S2：图卷积神经网络构建；

S3：图卷积神经网络训练；

S4：多层感知机分类器训练预测；

所述句子预处理和分布式表示，用于对文档句子进行预处理并形成句向量；

所述图卷积神经网络构建，用于构建图神经网络的顶点和边；

所述图卷积神经网络训练，用于通过图卷积神经网络对顶点特征向量进行训练；所述多层感知机分类器训练预测，用于进行最终文本匹配程度训练和预测。

进一步的，步骤S1具体包括以下子步骤：

S11：输入三个文档，分别为文档A，文档B，文档C，其中当文档A和文档B为相似文本时，文档C为文档A的不相似文本，当文档A和文档B为不相似文本时，文档C为文档A的相似文本，分别对三个文档进行下面的处理；

S12：使用jieba分词对文档中各个句子分词，根据停用词列表去除句子中的停用词；

S13：使用训练好的word2vec模型，对每个句子中的过滤之后的词取出相应的word2vec词向量，句向量为所有词向量的平均值。

进一步的，步骤S2具体包括以下子步骤：

S21：使用K-Means算法根据向量欧氏距离对文档A，文档B，文档C中所有句向量进行聚类处理得到k个簇，其中k选取等于10；

S22：对于文档A聚类结果的十个类中的每个类，分别得到文档B，文档C聚好的十个类中与文档A每个类最相近的类，计算方法为计算余弦相似度的最大值，最终得到十个句子类，每一个类中都包含文档A，文档B，文档C中的句子；

S23：构建一个图，图的顶点为步骤S22得到的十个类，计算十个类每个类中句子的向量平均值，计算任意两个类向量的余弦相似度，如果相似度大于0.5，此两个类在图中的顶点连边，此边的权重值为余弦相似度的值，如果相似度小于0.5，此两个类在图中的顶点不连边；

S24：对于图的顶点，使用Triplet network方式得到顶点的特征向量。

进一步的，步骤S24具体包括以下子步骤：

S241：使用一个Triplet network，对于文档A，如果文档B和文档A为相似文本，此时标记文档B为Positive(x+)，标记文档C为Negative(x-)，如果文档C和文档A为相似文本，此时标记文档C为Positive(x+)，标记文档B为Negative(x-)，由此构成一个(A，Positive，Negative)三元组；(A，Positive，Negative)三元组之间的关系用欧氏距离表示，并通过训练参数使得x向x+靠近，远离x-。

S242：对于顶点代表的三个文档中的句子，首先得到每个文档中此顶点所有句子每个词的word2vec词向量，构建一个Context层，Context层使用lstm对词向量进行建模，下一层使用Triplet loss方式进行网络训练；

S244：拼接|C(A)-C(B)|和C(A)#C(B)得到的两个向量为此顶点的特征向量。

进一步的，步骤S3具体包括以下子步骤：

S31：图的权重邻接矩阵为A∈R^N*N，其中A_ij＝w_ij，w_ij指顶点i和顶点j之间边的权重，D是对角矩阵，即D_ii＝∑_jA_ij，图神经网络的输入层为H⁽⁰⁾＝X，X指初始的图顶点特征向量，

代表隐含层第l层的矩阵特征；

S32：使用如下公式根据上一层矩阵计算下一层的矩阵：

其中

I_N代表单位矩阵，

是对角矩阵，其中

W^(l)代表第l层的可训练矩阵，σ(.)代表激活函数包括sigmoid激活函数和ReLU激活函数；

S33：采用三个隐含层，使用由图上局部频谱滤波器的一阶逼近所推动的图卷积规则，递归地应用来提取顶点之间的交互模式。

进一步的，步骤S4具体包括以下子步骤：

S41：经过图神经网络训练后，得到十个图顶点的特征向量，取十个特征向量的平均值，作为输入层向量输入到多层感知机中；

S42：添加三个全连接层，中间的激活函数采用Relu函数；

S43：最终的输出层激活函数采用Sigmoid函数，输出标签为文档A和文档B的相似度标签，当文档A和文档B为相似文本时，标签为0，当文档A和文档B为不相似文本时，标签为1；

S44：训练结束后将中间网络层参数保存；

S45：对于待测试文本M和文本N，经过前面所有步骤的处理和所保存网络层参数计算，得到最终两个文本的语义匹配相似度；其中M对应于训练过程中的文档A，N对应于训练过程中的文档B。

本发明的有益效果：

(1)本发明提出了将作文扣题程度应用在自动作文评分领域，实现对非扣题作文的检测和发现。作文参考范文和学生作答作文的文本匹配程度是作文评分的一个重要特征，通过一种新颖的方式构建了图神经网络，综合了各个句子的相似度计算作文扣题度。

(2)通过一种新颖的方式构建了图神经网络，综合了各个句子的相似度计算文档相似度，提高了模型准确性和鲁棒性。使用Triplet network引入第三个文档建模句子间相似度。传统方法一般使用孪生网络进行两个句子的相似度匹配，Triplet Network网络训练时损失函数得到的信息更多，得到的向量表示更好。

附图说明

图1为本发明一种基于作文扣题度的自动作文评分计算方法的流程图；

图2为本发明一种基于作文扣题度的自动作文评分计算方法的结构框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示，一种基于作文扣题度的自动作文评分计算方法，其特征在于：包括句子预处理和分布式表示，图卷积神经网络构建，图卷积神经网络训练，多层感知机(MLP)分类器训练预测；

所述图卷积神经网络训练，用于通过图卷积神经网络对顶点特征向量进行训练；

所述多层感知机(MLP)分类器训练预测，用于使用分类器进行最终文本匹配程度训练和预测；

如图2所示，句子预处理和分布式表示，包括以下步骤：

输入三个文档，分别为文档A，文档B，文档C，其中当文档A和文档B为相似文本时，文档C为文档A的不相似文本，当文档A和文档B为不相似文本时，文档C为文档A的相似文本，分别对三个文档进行下面的处理；

使用jieba分词对文档中各个句子分词，根据停用词列表去除句子中的停用词；

使用训练好的word2vec模型，对每个句子中的过滤之后的词取出相应的word2vec词向量，句向量为所有词向量的平均值；

图卷积神经网络构建，其特征在于：包括以下步骤：

使用KMeans算法根据向量欧氏距离对文档A，文档B，文档C中所有句向量进行聚类处理，其中k选取等于10；

对于文档A聚类结果的十个类中的每个类，分别得到文档B，文档C聚好的十个类中与文档A每个类最相近的类，计算方法为计算余弦相似度的最大值，最终得到十个句子类，每一个类中都包含文档A，文档B，文档C中的句子；

构建一个图，图的顶点为步骤S2得到的十个类，计算十个类每个类中句子的向量平均值，计算任意两个类向量的余弦相似度，如果相似度大于0.5，此两个类在图中的顶点连边，此边的权重值为余弦相似度的值，如果相似度小于0.5，此两个类在图中的顶点不连边；

对于图的顶点，使用一种Triplet network方式得到顶点的特征向量；

图卷积神经网络构建，得到顶点的特征向量包括以下子步骤：

使用一个Triplet network，对于文档A，如果文档B和文档A为相似文本，此时标记文档B为Positive(x+)，标记文档C为Negative(x-)，如果文档C和文档A为相似文本，此时标记文档C为Positive(x+)，标记文档B为Negative(x-)，由此构成一个(A，Positive，Negative)三元组。他们之间的关系用欧氏距离表示，并通过训练参数使得x向x+靠近，远离x-，从而实现分类任务。

对于顶点代表的三个文档中的句子，首先得到每个文档中此顶点所有句子每个词的word2vec词向量，构建一个Context层，此层使用lstm对词向量进行建模，下一层使用Triplet loss方式进行网络训练；

拼接|C(A)-C(B)|和C(A)#C(B)得到的两个向量得到此顶点的特征向量；

图卷积神经网络训练，包括以下步骤：

图的权重邻接矩阵为A∈R^N*N，其中A_ij＝w_ij，w_ij指顶点i和顶点j之间边的权重，D是对角矩阵，即D_ii＝∑_jA_ij，图神经网络的输入层为H⁽⁰⁾＝X，X指初始的图顶点特征向量，

代表隐含层第l层的矩阵特征，

使用如下公式根据上一层矩阵计算下一层的矩阵：

其中

I_N代表单位矩阵，

是对角矩阵，其中

采用三个隐含层，使用由图上局部频谱滤波器的一阶逼近所推动的图卷积规则，递归地应用来提取顶点之间的交互模式；

多层感知机(MLP)分类器训练预测，包括以下步骤：

经过图神经网络训练后，得到十个图顶点的特征向量，取十个特征向量的平均值，作为输入层向量输入到多层感知机中；

添加三个全连接层，中间的激活函数采用Relu函数；

最终的输出层激活函数采用Sigmoid函数，输出标签为文档A和文档B的相似度标签，当文档A和文档B为相似文本时，标签为0，当文档A和文档B为不相似文本时，标签为1；

训练结束后将中间网络层参数保存；

对于待测试文本M和文本N，经过前面所有步骤的处理和所保存网络层参数网络计算，得到最终两个文本语义匹配相似度；其中M对应于训练过程中的文档A，N对应于训练过程中的文档B。

对于作文评分，首先选择出若干篇作文范文，通过上述步骤计算学生作文和范文中每一篇的语义匹配度的值，得到其中的最大值作为语义匹配度特征，加上作文长度、标点符号数量、句子数量、平均句子深度等作文特征，在作文评分数据集上使用随机森林算法进行拟合，训练结束后保存模型参数。对待评分作文使用上述算法和保存好的参数进行作文评分。

本发明提出的一种基于作文扣题度的自动作文评分计算方法，将作文扣题程度应用在自动作文评分领域，实现对非扣题作文的检测和发现。作文参考范文和学生作答作文的文本匹配程度是作文评分的一个重要特征，通过一种新颖的方式构建了图神经网络，综合了各个句子的相似度计算作文扣题度。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于作文扣题度的自动作文评分计算方法，其特征在于，包括以下步骤：

S1：句子预处理和分布式表示；

S2：图卷积神经网络构建；

S3：图卷积神经网络训练；

S4：多层感知机分类器训练预测；

所述多层感知机分类器训练预测，用于进行最终文本匹配程度训练和预测。

2.根据权利要求1所述的一种基于作文扣题度的自动作文评分计算方法，其特征在于，所述步骤S1具体包括以下子步骤：

S11：输入三个文档，分别为文档A，文档B，文档C，其中当文档A和文档B为相似文本时，文档C为文档A的不相似文本，当文档A和文档B为不相似文本时，文档C为文档A的相似文本，分别对A、B、C三个文档进行下面的处理；

3.根据权利要求1所述的一种基于作文扣题度的自动作文评分计算方法，其特征在于，所述步骤S2具体包括以下子步骤：

4.根据权利要求3所述的一种基于作文扣题度的自动作文评分计算方法，其特征在于，所述步骤S24具体包括以下子步骤：

S241：使用一个Triplet network，对于文档A，如果文档B和文档A为相似文本，此时标记文档B为Positive(x+)，标记文档C为Negative(x-)，如果文档C和文档A为相似文本，此时标记文档C为Positive(x+)，标记文档B为Negative(x-)，由此构成一个(A，Positive，Negative)三元组；(A，Positive，Negative)三元组之间的关系用欧氏距离表示，并通过训练参数使得x向x+靠近，远离x-；

5.根据权利要求1所述的一种基于作文扣题度的自动作文评分计算方法，其特征在于，所述步骤S3具体包括以下子步骤：

代表隐含层第l层的矩阵特征；

S32：使用如下公式根据上一层矩阵计算下一层的矩阵：

其中

I_N代表单位矩阵，

是对角矩阵，其中

6.根据权利要求1所述的一种基于作文扣题度的自动作文评分计算方法，其特征在于，所述步骤S4具体包括以下子步骤：

S42：添加三个全连接层，中间的激活函数采用Relu函数；

S44：训练结束后将中间网络层参数保存；