CN111581392B

CN111581392B - 一种基于语句通顺度的自动作文评分计算方法

Info

Publication number: CN111581392B
Application number: CN202010350991.1A
Authority: CN
Inventors: 郝玉洁; 徐佳俊; 党元; 桑玉坤; 李继演; 伍双楠
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2022-07-05
Anticipated expiration: 2040-04-28
Also published as: CN111581392A

Abstract

本发明公开了一种基于语句通顺度的自动作文评分计算方法，该方法包括S1：句向量分布式表示；S2：句子特征提取；S3：句子间关系特征提取；S4：多层感知机模型训练预测。本发明提出了将语句通顺度指标应用到自动作文评分领域，用于实现检测发现作文中语义不通顺语句的功能，并且对作文中出现的语义无关词语和病句有更低的打分。

Description

一种基于语句通顺度的自动作文评分计算方法

技术领域

本发明属于自然语言理解技术领域，尤其涉及一种基于语句通顺度的自动作文评分计算方法。

背景技术

连贯文本的结构建模是自然语言处理中的一个重要问题。连贯性是任何组织良好的文本的关键特性，它评估文本的逻辑一致性程度，帮助将一组句子按逻辑一致的顺序记录下来，这是文本生成和多文档摘要等许多文本合成任务的核心。一篇好的文章有一个特殊的高层逻辑和主题结构，实际的单词和句子选择以及它们之间的转换是为了传达文本的目的。由于连贯的概念过于抽象，难以捕捉和衡量，很难明确描述文本连贯的属性，语句通顺度计算模型试图通过学习导致句子以特定顺序出现在人类编写的文本中的高级结构来理解这些属性。

语句通顺度计算方法，目前的方法集中在以下几个方面：

(1)语义中心理论

每一个语段都表现出局部连贯性，即该语段中话语之间的连贯性，以及与语篇中其他语段的连贯性。与这两个连贯水平相对应的是注意状态的两个组成部分：语段内注意状态的局部变化模型和语段间注意状态属性的全局变化模型。中心效应被提出作为注意状态局部成分的模型，局部连贯性与指称表达式选择之间存在相互作用，连贯性的差异在一定程度上对应于特定注意状态下不同类型指称表达式对推理的不同要求。

(2)基于内容的方法

将文本视为主题序列，并在特定领域内进行主题转移，使用HMMs等条件概率模型，可以将文本主题进行建模，并提供全局一致性的支持。

(3)基于传统机器学习的方法

将输入文本编码成一组复杂的词汇和句法特征，然后应用机器学习方法(例如SVM等)来测量基于特征的这些表示之间的相干性。特征包括基于实体的特征、语法特征、命名实体特征等。但是，识别和定义这些特征始终是一个经验过程，需要大量的经验和领域专业知识。

(4)基于深度学习的方法

基于深度学习的方法通过克服传统方法的一些问题获得了显著的进步。通过对句子进行句嵌入和词嵌入编码，句子之间的语义交互作用通过深度神经网络建模，可以实现端到端的操作，自动发现重要特征。目前，包括递归神经网络，循环神经网络，卷积神经网络，基于注意力的神经网络等方法都开始应用在语句通顺度计算中，取得了较好的效果。

发明内容

本发明的目的在于，针对现有技术的不足，提出一种基于语句通顺度的自动作文评分计算方法，通过一种新颖的方式构建了图神经网络，综合了各个句子的相似度计算文档相似度，提高了模型准确性和鲁棒性，同时使用Triplet network引入第三个文档建模句子间相似度。本发明应用到自动作文评分领域，语句通顺度特征是作文评分的一个重要特征，可以对作文中出现的语义无关词语和病句有更低的打分，增加了作文评分的准确性和鲁棒性。

一种基于语句通顺度的自动作文评分计算方法，包括以下步骤：

S1：句向量分布式表示；

S2：句子特征提取；

S3：句子间关系特征提取；

S4：多层感知机模型训练预测；

所述句向量分布式表示，用于通过不同词向量分布式表示方法形成句子表示矩阵；

所述句子特征提取，用于通过卷积层和池化层提取句子特征；

所述句子间关系特征提取，用于通过Self-attention模型提取出句子间关系特征；

所述多层感知机模型训练预测，用于计算最终语句通顺度得分。

进一步的，步骤S1具体包括以下子步骤：

S11：对句子进行分词和去除停用词处理；

S12：将分词和去除停用词的结果形成不同类型的词向量；

S13：设句子分词和去除停用词后包含词语数量为m，词向量的维度为n，形成一个n*m维的矩阵作为句子表示。

进一步的，步骤S12所述不同类型的词向量包含以下四种词向量：

A.使用预训练过后的100维word2vec词向量；

B.使用预训练过后的300维glove词向量；

C.使用基于外部知识库的方法，使用TransE知识库图表示算法，训练wordnet知识库，得到100维wordnet词向量；

D.使用分布式同义词方法，计算向量的余弦相似度，得到词语最相似的3个word2vec词向量，拼接这三个100维的词向量形成代表这个词的300维词向量。

进一步的，基于外部知识库的方法具体包括以下子步骤：

C1：基于wordnet知网数据构建知识图谱；

C2：构建好的知识图谱中，对于一个三元组(h,l,t)，其中h是头实体，t是尾实体，l是头实体和尾实体的关系，通过采样负样本，构造出了如下损失函数：

其中，d表示L1或L2距离；

C3：使用如下方式进行模型的训练：随机初始化实体e和关系l的表示向量正则化关系l；

每一轮训练都重新将实体e正则化；随机采样出一批正例，对每一条正例采样一些负例，用hinge loss更新embedding参数；

进一步的，步骤S2具体包括以下子步骤：

S21：定义一个卷积层，设卷积核的宽度为p，高度为词向量的维度n，则用n*p维的卷积核进行卷积操作，设卷积核数量为w，形成w个(m-p+1)*1维向量；

S22：使用Relu非线性激活函数；

S23：加入一个max pooling池化层形成一个w*1维特征向量。

进一步的，步骤S3具体包括以下子步骤：

S31：输入三个句子，将这三个句子分别进行步骤S1和S2处理，对于每一个句子，有四个不同的句向量矩阵表示，因此一共有12个不同的w*1维特征向量；

S32：对这12个不同的特征向量加入Self-attention层进行处理；

S33：将S2中Self-attention层处理后12个输出向量结果进行拼接，形成一个12*w维的向量。

进一步的，步骤S4具体包括以下子步骤：

S41：对数据训练集进行处理，具体处理方式如下，设一段文字句子数量为k，每三个句子为一组，最终分组情况为<s1,s2,s3>，<s2,s3,s4>……<s(k-2)，s(k-1)，s(k)>共计(k-2)个分组；

S42：对S41中分组，通顺度得分标记为1，然后对每一个分组中的句子随机替换一个或者两个其他分组中的句子，所得的句子分组得分标记为0；

S43：对于每一个分组进行步骤S3的处理；

S44：对经过Self-attention层后形成的12*w维向量添加若干全连接层，中间的激活函数采用Relu函数；

S45：最终的输出层激活函数采用Sigmoid函数，输出标签为步骤S42中的得分标记；

S46：训练结束后将中间网络层参数保存；

S47：对所保存网络层参数网络计算，通过下面的公式计算整个文档的通顺度：

即我们计算文档被分为的所有的组的通顺度概率的乘积来表示整个文档的通顺度，由此得到最终文本的语句通顺度的值。

本发明的有益效果：

(1)提出了将语句通顺度指标应用到自动作文评分领域，用于实现检测发现作文中语义不通顺语句的功能，并且对作文中出现的语义无关词语和病句有更低的打分。

(2)添加了基于外部知识库的词向量表示方法和相似词知识，提高了模型鲁棒性；使用Self-attention网络建模句子间关系，更好地捕获了句子间关系的特征。

附图说明

图1为本发明一种基于语句通顺度的自动作文评分计算方法的流程图；

图2为本发明一种基于语句通顺度的自动作文评分计算方法的结构框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示，一种基于语句通顺度的自动作文评分计算方法，包括句向量分布式表示，句子特征提取，句子间关系特征提取，多层感知机(MLP)模型训练预测；

所述多层感知机(MLP)模型训练预测，用于通过前面步骤处理，计算最终语句通顺度得分；

如图2所示，所述句向量分布式表示，包括以下步骤：

对句子进行分词和去除停用词处理；

对分词和去除停用词结果形成不同类型的词向量；

设句子分词和去除停用词后包含词语数量为m，词向量的维度为n，形成一个n*m维的矩阵作为句子表示；

句向量分布式表示中不同类型的词向量包含以下四种词向量：

使用预训练过后的100维word2vec词向量；

使用预训练过后的300维glove词向量；

使用基于外部知识库的方法，使用TransE知识库图表示算法，训练wordnet知识库，得到100维wordnet词向量；

使用分布式同义词(Distributional Thesaurus)方法，计算向量的余弦相似度，得到词语最相似的3个word2vec词向量，拼接这三个100维的词向量形成代表这个词的300维词向量；

句向量分布式表示，所述不同类型的词向量中基于外部知识库的方法具体包括以下步骤：

基于wordnet知网数据构建知识图谱；

构建好的知识图谱中，对于一个三元组(h,l,t)，其中h是头实体，t是尾实体，l是它们的关系，通过采样负样本，构造出了如下损失函数：

其中，d表示L1或L2距离

使用如下方式进行模型的训练：随机初始化实体e和关系l的表示向量正则化关系l；

每一轮训练都重新将实体e正则化(batch norm)；随机采样出一批正例，对每一条正例采样一些负例，用hinge loss更新embedding参数。

得到每个实体的embedding向量；

所述句子特征提取，对以上四种不同方式形成的句向量矩阵，都分别包括以下步骤：

定义一个卷积层，设卷积核的宽度为p，高度为词向量的维度n，则用n*p维的卷积核进行卷积操作，设卷积核数量为w，形成w个(m-p+1)*1维向量；

使用Relu非线性激活函数；

加入一个max pooling池化层形成一个w*1维特征向量；

根据权利要求所述句子间关系特征提取，包括以下步骤：

输入三个句子，将这三个句子分别进行前面的句向量分布式表示和句子特征处理，对于每一个句子，有四个不同的句向量矩阵表示，因此一共有12个不同的w*1维特征向量；

对这12个不同的特征向量加入Self-attention层进行处理；

将S2中Self-attention层处理后12个输出向量结果进行拼接，形成一个12*w维的向量；

所述多层感知机(MLP)模型训练预测，包括以下步骤：

对数据训练集进行处理，具体处理方式如下，设一段文字句子数量为k，每三个句子为一组，最终分组情况为<s1,s2,s3>,<s2,s3,s4>……<s(k-2),s(k-1),s(k)>共计(k-2)个分组；

对上一步的分组，通顺度得分标记为1，然后对每一个分组中的句子随机替换一个或者两个其他分组中的句子，所得的句子分组得分标记为0；

对于每一个分组进行所述句子间关系特征处理中的操作；

对经过Self-attention层后形成的12*w维向量添加若干全连接层，中间的激活函数采用Relu函数；

最终的输出层激活函数采用Sigmoid函数，输出标签为步骤S2中的得分标记。

训练结束后将中间网络层参数保存；

对所保存网络层参数网络计算，通过下面的公式计算整个文档的通顺度：

本发明应用于作文评分，分别构造包括字符数量、作文长度(词汇总数)、过滤停用词后作文长度、标点符号数量、平均词汇长度、拼写错误单词数量、名词、形容词、动词、介词数量、平均句子长度等特征，加上使用上述步骤计算的语句通顺度特征，在作文评分数据集上使用随机森林算法拟合所有特征，模型训练结束后保存相应的参数。对待评分的作文使用相同的算法和保存好的参数进行评分。

本发明提出的一种语句通顺度计算方法，提出了将语句通顺度指标应用到自动作文评分领域，用于实现检测发现作文中语义不通顺语句的功能，并且对作文中出现的语义无关词语和病句有更低的打分。添加了基于外部知识库的词向量表示方法和相似词知识，提高了模型鲁棒性；使用Self-attention网络建模句子间关系，更好地捕获了句子间关系的特征。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于语句通顺度的自动作文评分计算方法，其特征在于，包括以下步骤：

S1：句向量分布式表示；

步骤S1具体包括以下子步骤：

S11：对句子进行分词和去除停用词处理；

S12：将分词和去除停用词的结果形成不同类型的词向量；

步骤S12所述不同类型的词向量包含以下四种词向量：

A.使用预训练过后的100维word2vec词向量；

B.使用预训练过后的300维glove词向量；

D.使用分布式同义词方法，计算向量的余弦相似度，得到词语最相似的3个word2vec词向量，拼接这三个100维的词向量形成代表这个词的300维词向量；

S13：设句子分词和去除停用词后包含词语数量为m，词向量的维度为n，形成一个n*m维的矩阵作为句子表示；

S2：句子特征提取；

S3：句子间关系特征提取；

S4：多层感知机模型训练预测；

步骤S4具体包括以下子步骤：

S43：对于每一个分组进行步骤S3的处理；

S46：训练结束后将中间网络层参数保存；

即我们计算文档被分为的所有的组的通顺度概率的乘积来表示整个文档的通顺度，由此得到最终文本的语句通顺度的值；

2.根据权利要求1所述的一种基于语句通顺度的自动作文评分计算方法，其特征在于，所述基于外部知识库的方法具体包括以下子步骤：

C1：基于wordnet知网数据构建知识图谱；

其中，d表示L1或L2距离；

每一轮训练都重新将实体e正则化；随机采样出一批正例，对每一条正例采样一些负例，用hinge loss更新embedding参数。

3.根据权利要求1所述的一种基于语句通顺度的自动作文评分计算方法，其特征在于，所述步骤S2具体包括以下子步骤：

S22：使用Relu非线性激活函数；

S23：加入一个max pooling池化层形成一个w*1维特征向量。

4.根据权利要求1所述的一种基于语句通顺度的自动作文评分计算方法，其特征在于，所述步骤S3具体包括以下子步骤：

S32：对这12个不同的特征向量加入Self-attention层进行处理；