CN112686020A

CN112686020A - 作文评分方法、装置、电子设备及存储介质

Info

Publication number: CN112686020A
Application number: CN202011588731.4A
Authority: CN
Inventors: 巩捷甫; 付瑞吉; 宋巍; 王士进; 胡国平; 秦兵; 刘挺
Original assignee: Hebei Xunfei Institute Of Artificial Intelligence; Zhongke Xunfei Internet Beijing Information Technology Co ltd; iFlytek Co Ltd
Current assignee: Hebei Xunfei Institute Of Artificial Intelligence; Zhongke Xunfei Internet Beijing Information Technology Co ltd; iFlytek Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20

Abstract

本发明提供一种作文评分方法、装置、电子设备及存储介质，由于引入分差预测模型，可以预测出待评分作文与作文参考样本之间的分差，只需要通过该分差并结合作文参考样本的分数即可实现对待评分作文的评分结果的准确确定，既可以保证同场考试的评分尺度相同，也可以使用不同场考试的大规模数据进行训练。对于无定标的小规模考试/作业评分场景的应用，可以通过调整作文参考样本来拟合阅卷老师的评分尺度，从而使用分差预测模型对待评分作文进行评分。不仅可以提高大规模考试评分场景下评分结果的稳定性，还可以避免小规模考试/作业评分场景下因评分尺度不同导致的评分人机一致性不高的问题出现，使得评分结果更准确，且适用性更广泛。

Description

作文评分方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种作文评分方法、装置、电子设备及存储介质。

背景技术

目前国内的教育，对一个学生的阶段性学习评价仍然以纸笔考试形式为主，因此需要大量的人工阅卷，但人工阅卷一方面主观性比较强，另一方面人力成本较高。因此，自动阅卷技术可以通过人机耦合的方式部分缓解老师的阅卷压力，既节约了人力成本，也在一定程度上解决了评分主观性大的问题。

作文是学生语文和英语考试的必备题型，目前考试评分场景中已经有一些作文自动评分方法，例如在大规模考试评分场景中的定标评分方案，以及在小规模考试/作业评分场景中的通用评分方案。

但是对于大规模考试评分场景，需要有足够的当次作文数据作为定标集，训练获得的评分模型为定标评分模型，且只能应用于当次考试。而对于小规模考试/作业评分场景，如果没有足够的当次考试或作业数据，则无法训练定标评分模型，只能利用其它多次的考试数据训练通用评分模型，但由于不同次考试的评分尺度不同，与当次考试/作业的要求也有差异，因此评分人机一致性通常不高，导致自动评分的结果不准确。

发明内容

本发明提供一种作文评分方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明提供一种作文评分方法，包括：

获取待评分作文以及作文参考样本；

将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；

基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；

其中，所述分差预测模型基于两两组合的作文训练样本对及其分差训练得到。

根据本发明提供的一种作文评分方法，所述将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差，具体包括：

将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的浅层特征提取层，得到所述浅层特征提取层输出的所述待评分作文的待评分浅层特征以及所述作文参考样本的参考浅层特征；

将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的语义特征提取层，得到所述语义特征提取层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征；

将所述待评分语义特征以及所述参考语义特征，或者将所述待评分浅层特征、所述参考浅层特征、所述待评分语义特征以及所述参考语义特征均输入至所述分差预测模型的分差计算层，得到所述分差计算层输出的所述待评分作文与所述作文参考样本之间的分差。

根据本发明提供的一种作文评分方法，所述将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的语义特征提取层，得到所述语义特征提取层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征，具体包括：

将所述待评分作文以及所述作文参考样本分别输入至所述语义特征提取层的语句编码层，得到所述语句编码层输出的所述待评分作文以及所述作文参考样本的语句特征；

将所述待评分作文以及所述作文参考样本的语句特征分别输入至所述语义特征提取层的篇章编码层，得到所述篇章编码层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征。

根据本发明提供的一种作文评分方法，所述将所述待评分作文以及所述作文参考样本分别输入至所述语义特征提取层的语句编码层，得到所述语句编码层输出的所述待评分作文以及所述作文参考样本的语句特征，具体包括：

将所述待评分作文以及所述作文参考样本分别输入至所述语句编码层的词编码层，由所述词编码层输出所述待评分作文以及所述作文参考样本中的词向量；

将所述待评分作文以及所述作文参考样本中的词向量分别输入至所述语句编码层的词上下文编码层，由所述词上下文编码层输出所述待评分作文以及所述作文参考样本中的词上下文特征；

将所述待评分作文以及所述作文参考样本中的词上下文特征分别输入至所述语句编码层的词自注意力编码层，由所述词自注意力编码层输出所述待评分作文以及所述作文参考样本中的语句特征。

根据本发明提供的一种作文评分方法，所述将所述待评分作文以及所述作文参考样本的语句特征分别输入至所述语义特征提取层的篇章编码层，得到所述篇章编码层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征，具体包括：

将所述待评分作文以及所述作文参考样本中的语句特征分别输入至所述篇章编码层的语句上下文编码层，由所述语句上下文编码层输出所述待评分作文以及所述作文参考样本中的语句上下文特征；

将所述待评分作文以及所述作文参考样本中的语句上下文特征分别输入至所述篇章编码层的语句自注意力编码层，由所述语句自注意力编码层输出所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征。

根据本发明提供的一种作文评分方法，所述作文参考样本具体包括多个；相应地，

所述基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分，具体包括：

基于每个所述作文参考样本对应的分差以及每个所述作文参考样本的分数，确定所述待评分作文基于每个所述作文参考样本的预测分数；

将所述待评分作文基于每个所述作文参考样本的预测分数进行融合，并将融合得到的结果作为所述待评分作文的评分结果。

本发明还提供一种作文评分装置，包括：获取模块、分差预测模块以及评分模块。其中，

获取模块用于获取待评分作文以及作文参考样本；

分差预测模块用于将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；

评分模块用于基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；

根据本发明提供的一种作文评分装置，所述分差预测模块，具体包括：浅层特征提取单元、语义特征提取单元以及分差计算单元。其中，

浅层特征提取单元用于将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的浅层特征提取层，得到所述浅层特征提取层输出的所述待评分作文的待评分浅层特征以及所述作文参考样本的参考浅层特征；

语义特征提取单元用于将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的语义特征提取层，得到所述语义特征提取层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征；

分差计算单元用于将所述待评分语义特征以及所述参考语义特征，或者将所述待评分浅层特征、所述参考浅层特征、所述待评分语义特征以及所述参考语义特征均输入至所述分差预测模型的分差计算层，得到所述分差计算层输出的所述待评分作文与所述作文参考样本之间的分差。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述作文评分方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述作文评分方法的步骤。

本发明提供的作文评分方法、装置、电子设备及存储介质，由于引入分差预测模型，可以预测出待评分作文与作文参考样本之间的分差，只需要通过该分差并结合作文参考样本的分数即可实现对待评分作文的评分结果的准确确定，既可以保证同场考试的评分尺度相同，也可以使用不同场考试的大规模数据进行训练。对于无定标的小规模考试/作业评分场景的应用，可以通过调整作文参考样本来拟合阅卷老师的评分尺度，从而使用分差预测模型对待评分作文进行评分。不同于现有技术中的定标评分模型或通用评分模型的评分策略，不仅可以提高大规模考试评分场景下评分结果的稳定性，还可以避免小规模考试/作业评分场景下因评分尺度不同导致的评分人机一致性不高的问题出现，使得评分结果更准确，且适用性更广泛。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是目前大规模考试评分场景中的作文评分方案的流程示意图；

图2是本发明提供的作文评分方法的流程示意图；

图3是本发明提供的语义特征提取层的结构示意图；

图4是本发明采用的双向GRU模型的结构示意图；

图5是本发明提供的分差预测模型的训练过程示意图；

图6是本发明提供的作文评分方法的流程示意图；

图7是本发明提供的作文评分装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前考试评分场景主要包括大规模考试评分场景以及小规模考试/作业评分场景。在大规模考试评分场景中的作文评分方案如图1所示，对于当前考试的所有待评数据，即所有待评作文，首先通过样本聚类的方式选取代表性样例，提供给专家进行评分，即定标过程，也就是通过专家对选取出的代表性样例进行评分，并将评分后的代表性样例构成定标集。最后基于定标集，采用机器学习算法进行评分模型训练，训练得到的评分模型为定标评分模型，基于该定标评分模型即可对当前考试的所有待评作文进行评分。根据中、高考作文评分标准，定标评分模型通常包括的用于机器学习的特征有字词统计、文采特征、篇章结构、句子通顺度等表达相关的特征，以及主题立意、是否符合题意等内容相关的特征，并综合这些特征对作文进行评分。而在小规模考试/作业评分场景中，由于该场景下不具备定标条件，则作文评分方案中通常会基于多次考试、不同主题的作文及其分数作为训练集，训练通用评分模型用于评分任务。

不管是定标评分模型，还是通用评分模型，本质上都是基于作文及其分数进行训练得到的回归模型，也即将评分问题转化成一个回归预测问题。但是对于大规模考试评分场景，需要有足够的当次作文数据作为定标集，训练获得的评分模型为定标评分模型，且只能应用于当次考试。而对于小规模考试/作业评分场景，只能利用其它多次的考试数据训练通用评分模型，但由于不同次考试的评分尺度不同，与当次考试/作业的要求也有差异，因此评分人机一致性通常不高，导致自动评分的结果不准确。

传统的机器评分，都是通过训练一个回归模型来做分差的预测，而不同场考试的评分尺度不同，同一篇作文，在不同场考试中的分数会有一定偏差，一篇比较好的作文，如果在某场评分尺度比较严的考试中可能会是一篇中等作文，如果将不同场考试数据放在一起训练，就会干扰训练效果，如果不使用所有场考试数据，就会无法适用于大规模不同场考试数据。为此，本发明实施例中提供了一种作文评分方法，以解决现有技术中存在的技术问题。

图2为本发明实施例中提供的一种作文评分方法的流程示意图，如图2所示，该方法包括：

S1，获取待评分作文以及作文参考样本；

S2，将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；

S3，基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；

可以理解的是，本发明实施例中提供的作文评分方法，其执行主体为服务器，该服务器可以为本地服务器或云端服务器，本地服务器可以为计算机、平板电脑以及智能手机等，本发明实施例中对此不作具体限定。

首先执行步骤S1。其中，待评分作文可以是任一需要对其进行评分以确定其分数的作文，该待评分作文既可以是大规模考试评分场景下的作文，也可以是小规模考试/作业评分场景下的作文，本发明实施例中对此不作具体限定。

作文参考样本是分数已知且用于对待评分作文进行评分的作文，作文参考样本的分数可以通过专家打分得到，也可以通过阅卷老师批改得到。作文参考样本的数量可以是一个或多个，作文参考样本的数量越多，得到的待评分作文的评分结果越准确。考虑到作文参考样本占用的存储空间以及评分效率，可以将作文参考样本的数量设定为预设数量，该预设数量基于作文参考样本占用的存储空间以及评分效率确定，本发明实施例中对此不作具体限定。

作文参考样本可以是若干从各分数段选取的、有代表性的范文，这一挑选过程可以根据实际场景需要，调整范文的得分、数量、分数分布比例等，本发明实施例中对此不作具体限定。

然后执行步骤S2。其中，分差预测模型可以基于层级结构的神经网络构建，并用于确定待评分作文与每一作文参考样本之间的分差，由分差预测模型得到的分差可以用于表征待评分作文与每一作文参考样本之间的内在差异，该分差可以是内在差异在分数上的体现。分差预测模型具有两个输入，分别是待评分作文与每一作文参考样本，将待评分作文以及作文参考样本输入至分差预测模型，具体是将待评分作文以及作文参考样本的文本信息输入至分差预测模型，分差预测模型可以分别对待评分作文与每一作文参考样本进行特征提取，以分别得到待评分作文的特征信息与每一作文参考样本的特征信息，待评分作文的特征信息可以用于表征待评分作文，每一作文参考样本的特征信息可以用于表征该作文参考样本。然后可以基于提取的特征信息确定出待评分作文与每一作文参考样本的分差。

分差预测模型可以通过两两组合的作文训练样本对及其分差训练得到。作文训练样本是指分数已知且用于对分差预测模型进行训练的作文，作文训练样本的分数可以通过专家打分得到，也可以通过阅卷老师批改得到。作文训练样本的数量为至少两个，作文训练样本的数量越多，训练得到的分差预测模型的准确性越高。任意两个作文训练样本进行组合可以得到作文训练样本对，且由于每个作文训练样本的分数已知，因此可以知晓每个作文训练样本对的分差，进而可以基于大量的作文训练样本对及其分差实现对分差预测模型进行训练。

在对分差预测模型进行训练时，可以将作文训练样本对作为分差预测模型的输入，由分差预测模型通过对作文训练样本对中每个作文训练样本进行特征信息提取，并根据提取的特征信息得到分差预测结果，然后根据分差预测结果与作文训练样本对的分差之间的差值计算损失函数。采用不同作文训练样本对重复执行上述过程，直至得到的损失函数收敛，则训练结束，得到的分差预测结果可以进行应用。可以理解的是，对分差预测模型的训练过程，相当于是建立作文训练样本对中每一作文训练样本的特征信息以及作文训练样本对的分差之间的定量联系，以便于在应用分差预测模型对两篇作文进行分差预测时，即使其中一篇作文或两篇作文的分数均未知，也可以确定两篇作文之间的分差。

若作文参考样本为X_gold，待评分作文为X_pred，分差预测模型可通过下式对两者分差score_pred进行预测。

score_pred＝W₂sigmoid(W₁[e(X_gold)；e(X_pred)]+b₁)+b₂

其中，e(X_gold)为X_gold的参考浅层特征与参考语义特征的拼接向量，e(X_pred)为X_pred的待评分浅层特征与待评分语义特征的拼接向量，“；”符号表示对两个拼接向量做拼接处理，W₁、W₂、b₁、b₂均为可训练参数。

最后执行步骤S3。根据待评分作文与作文参考样本之间的分差，以及作文参考样本的分数，对待评分作文进行评分。当作文参考样本的数量为一个时，可以直接对作文参考样本的分数以及分差进行求和，然后将该求和结果作为待评分作文的评分结果。当作文参考样本的数量为多个时，可以先确定出待评分作文与每个作文参考样本之间的分差，然后结合每个作文参考样本的分数，确定出待评分作文的评分结果。

由于不同场考试的评分尺度可能会有不同，会导致相同水平作文的分数存在差异，但两篇不同水平的作文之间的差异则基本一致。基于此，本发明实施例中提供了一种基于作文之间比较排序的评分思路，将现有技术中的回归模型评分问题转化为小规模作文参考样本结合的分差预测模型的问题。

对于大规模考试评分场景来说，可以利用除了当前次考试的其他所有场考试数据，训练一个大规模的分差预测模型，充分利用更多不同场考试数据信息，并将部分定标集样本当作带有分数的作文参考样本，待评分作文和作文参考样本比较，并结合分差预测模型，输出待评分作文与作文参考样本的分差，结合作文参考样本的分数，给出待评分作文的评分结果，评分结果确定的稳定性也会增强。

对于无定标的小规模考试评分场景来说，只需要提供几份评分范文样例作为作文参考样本，就可以依赖作文参考样本与分差预测模型实现自动评分，且评分尺度与人工评分基本相似，可以在一定程度上缓解不同场考试评分尺度差异大的问题。

本发明实施例中提供的作文评分方法，首先获取待评分作文以及作文参考样本；然后将待评分作文以及作文参考样本输入至分差预测模型，通过分差预测模型确定待评分作文与作文参考样本之间的分差；最后结合作文参考样本的分数，对待评分作文进行评分。由于引入分差预测模型，可以预测出待评分作文与作文参考样本之间的分差，只需要通过该分差并结合作文参考样本的分数即可实现对待评分作文的评分结果的准确确定，既可以保证同场考试的评分尺度相同，也可以使用不同场考试的大规模数据进行训练。对于无定标的小规模考试/作业评分场景的应用，可以通过调整作文参考样本来拟合阅卷老师的评分尺度，从而使用分差预测模型对待评分作文进行评分。不同于现有技术中的定标评分模型或通用评分模型的评分策略，不仅可以提高大规模考试评分场景下评分结果的稳定性，还可以避免小规模考试/作业评分场景下因评分尺度不同导致的评分人机一致性不高的问题出现，使得评分结果更准确，且适用性更广泛。

在上述实施例的基础上，本发明实施例中提供的作文评分方法，所述将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差，具体包括：

具体而言，一篇作文的特征信息可以包括浅层特征和语义特征，浅层特征可以包括表层特征和主题特征，表层特征可以包括字词统计、文采特征、篇章结构、句子通顺度等特征，主题特征是指用于表征作文主题的特征，语义特征是指用于表征作文的深层语义的特征。相应地，待评分作文的特征信息包括待评分浅层特征以及待评分语义特征，作文参考样本的特征信息包括参考浅层特征以及参考语义特征。因此本发明实施例中的分差预测模型具体可以包括浅层特征提取层、语义特征提取层以及分差计算层，浅层特征提取层和语义特征提取层均与分差计算层连接。浅层特征提取层用于提取待评分浅层特征和参考浅层特征，语义特征提取层用于提取待评分语义特征和参考语义特征，分差计算层用于根据待评分语义特征和参考语义特征，或者待评分语义特征和参考语义特征结合待评分浅层特征和参考浅层特征，对待评分作文以及作文参考样本的分差。

本发明实施例中，浅层特征提取层可以使用特征工程方法，分别从待评分作文以及作文参考样本中抽取字词统计、文采特征、篇章结构、句子通顺度等表层特征，同时使用基于主题模型，从待评分作文以及作文参考样本中抽取主题特征。主题模型可以基于主成分分析法(Principal Component Analysis，PCA)、线性判别分析法(Linear DiscriminantAnalysis，LDA)以及加权主成分分析法(Weighted Principal Component Analysis，WPCA)等方法实现，本发明实施例中对此不作具体限定。浅层特征提取层可以基于预先训练和规则处理好的特征抽取器实现，抽取得到的浅层特征进行归一化处理，可以作为统计先验知识，能够更全面地衡量作文篇章的质量。

将待评分作文以及作文参考样本输入至分差预测模型时，可以先将待评分作文以及作文参考样本分别输入至浅层特征提取层，得到浅层特征提取层输出的待评分浅层特征以及参考浅层特征；然后将待评分作文以及作文参考样本分别输入至语义特征提取层，得到语义特征提取层输出的待评分语义特征以及参考语义特征；最后将待评分语义特征以及参考语义特征，或者将待评分浅层特征、参考浅层特征、待评分语义特征以及参考语义特征均输入至分差计算层，得到分差计算层输出的待评分作文与作文参考样本之间的分差。

由于一篇作文是由词语、句子、段落组成的，前后衔接组织有一定的逻辑与时间顺序，因此语义特征提取层可以使用时序模型对作文进行语义特征提取。需要说明的是，分差计算层在得到待评分浅层特征、参考浅层特征、待评分语义特征以及参考语义特征时，可以将待评分浅层特征以及待评分语义特征进行拼接，使二者共同构成整篇待评分作文的较为完整的表征形式，将参考浅层特征以及参考语义特征进行拼接，使二者共同构成整篇作文参考样本的较为完整的表征形式。然后对两个拼接结果进行分差计算。

本发明实施例中，将待评分作文以及作文参考样本输入至分差预测模型之后，通过分差预测模型的浅层特征提取层、语义特征提取层分别对待评分作文以及作文参考样本进行浅层特征、语义特征提取，得到待评分作文与作文参考样本之间的分差。语义特征的引入，可以使得得到的分差更加准确，进而提高了待评分作文的评分结果的准确性。

在上述实施例的基础上，本发明实施例中提供的作文评分方法，所述将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的语义特征提取层，得到所述语义特征提取层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征，具体包括：

具体而言，分差预测模型的语义特征提取层可以包括语句编码层和篇章编码层。分差预测模型还可以包括分割层，用于分别将待评分作文以及作文参考样本进行分段、分句、分词处理，然后语义特征提取层在进行语义特征提取时，语句编码层可以对分词得到的词语进行向量表示得到词向量，并对词向量进行加权得到语句特征。通过篇章编码层对语句特征进行编码，并进行加权得到待评分语义特征以及参考语义特征，待评分语义特征即为待评分作文的整体篇章特征，参考语义特征即为作文参考样本的完整篇章特征。

本发明实施例中，语义特征提取层在提取待评分语义特征以及参考语义特征时，分为词-语句、语句-篇章两个层次进行特征提取，可以保证提取的特征的完整性。

在上述实施例的基础上，本发明实施例中提供的作文评分方法，所述将所述待评分作文以及所述作文参考样本分别输入至所述语义特征提取层的语句编码层，得到所述语句编码层输出的所述待评分作文以及所述作文参考样本的语句特征，具体包括：

具体而言，语句编码层可以包括词编码层、词上下文编码层以及词自注意力编码层，词编码层、词上下文编码层以及词自注意力编码层依次连接。词编码层用于确定待评分作文以及作文参考样本中的词向量，词上下文编码层用于确定每个词向量的词上下文特征，词自注意力编码层用于确定词上下文特征的权重并对其进行加权，得到语句特征。词编码层可以使用预先训练好的词向量模型对分词得到的词语进行向量表示，将词语映射到高维语义向量空间，得到词向量。词上下文编码层可以通过双向GRU模型对词向量的上下文特征进行编码，得到词上下文特征。词自注意力编码层可以使用自注意力机制对词上下文编码层得到的词上下文特征进行加权，即可分别得到待评分作文以及作文参考样本中的每个语句特征。

本发明实施例中，语句编码层在得到待评分作文以及作文参考样本的语句特征时，分别编码确定词向量以及词上下文特征，并通过自注意力机制对词上下文特征进行加权，使语句特征可以利用词向量以及词上下文特征通过加权进行表征，使得到的语句特征更准确。

在上述实施例的基础上，本发明实施例中提供的作文评分方法，所述将所述待评分作文以及所述作文参考样本的语句特征分别输入至所述语义特征提取层的篇章编码层，得到所述篇章编码层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征，具体包括：

具体而言，篇章编码层可以包括语句上下文编码层以及语句自注意力编码层，词自注意力编码层、语句上下文编码层以及语句自注意力编码层依次连接。词自注意力编码层将语句特征输入至篇章编码层的语句上下文编码层，语句上下文编码层用于分别确定待评分作文以及作文参考样本中的语句上下文特征，语句自注意力编码层用于分别确定语句上下文特征的权重并对其进行加权，得到待评分作文的待评分语义特征以及作文参考样本的参考语义特征。语句上下文编码层可以通过双向GRU模型对语句的上下文特征进行编码，得到语句上下文特征。语句自注意力编码层可以使用自注意力机制对语句上下文编码层得到的语句上下文特征进行加权，即可分别得到待评分语义特征以及参考语义特征。

本发明实施例中，篇章编码层在得到待评分语义特征以及参考语义特征时，分别编码确定待评分作文以及作文参考样本中的语句上下文特征，并通过自注意力机制对语句上下文特征进行加权，使待评分语义特征以及参考语义特征可以分别利用语句特征以及语句上下文特征通过加权进行表征，使得到的待评分语义特征以及参考语义特征更准确。

图3为本发明实施例中提供的语义特征提取层的结构示意图，如图3所述，语义特征提取层包括语句编码层和篇章编码层。语句编码层可以包括词向量编码层、词向量上下文编码层(word encoder)以及词自注意力编码层(word attention)。篇章编码层可以包括语句上下文编码层(sentence encoder)以及语句自注意力编码层(sentence attention)。其中，w_it表示词向量编码层得到的一篇作文中第i(1≤i≤L)个语句的第t(1≤t≤T)个词语的词向量，

表示词向量w_it的下文特征，

表示词向量w_it的上文特征，α_it表示词向量w_it的词注意力权重，u_w表示计算α_it时的查询向量。s_i表示一篇作文中的第i个语句的语句特征，

表示语句特征s_i的下文特征，

表示语句特征s_i的上文特征，α_i表示语句特征s_i的语句注意力权重，u_s表示计算α_i时的查询向量。所有语句特征s_i加权后得到语义特征v，经过softmax层输出。

图4为本发明实施例中采用的双向GRU模型的结构示意图，如图4所示，双向GRU模型有两个门，分别是更新门z与重置门r，

和h分别为记忆向量和最终输出的隐藏向量，IN为输入，OUT为输出。此结构设置克服了循环神经网络(Recurrent Neural Network，RNN)无法很好地解决远距离依赖的问题，对于较长句子的表征能力更强。

双向GRU模型的计算公式如下：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，x_t表示当前时间步的输入，h_t表示当前时间步t的隐藏向量，h_t-1表示上一时间步t-1的隐藏向量，z_t和r_t分别表示当前时间步t的更新门和重置门，W_z、U_z以及b_z分别为更新门的参数，W_r、U_r以及b_r分别为重置门的参数，

表示当前时间步t的记忆向量。

在每个语句内部使用双向GRU模型，则有：

使用双向GRU模型的好处是，每个词语都可以看到左侧与右侧的信息，然后将每个词语的双向GRU模型输出的结果进行合并，从而获取到当前词语的词上下文特征h_it，具体为：

合并双向GRU模型输出的结果之后，使用一个self-attention机制，通过数据的训练，将重要的词语的权重进行加强，从而对重要的词语信息更加地关注，即有：

u_it＝tanh(W_wh_it+b_w)

其中，u_it表示u_w中对应于第i个语句的第t个词语的词注意力权重。h_it为第i个语句的第t个词语的词向量，W_w以及b_w均为计算注意力权重时的参数。

本发明实施例中所采取的语句编码层，以语句为单位，利用了作文中每个词的信息。其中的词自注意力编码层使用句子级别的self-attention机制加强语句中重要的部分，如实词、句子中的主谓结构，而忽略如助词语气词等次要部分，更充分地抓取句子的语义信息。

类似地，本发明实施例中所采取的语句编码层，以整个篇章为单位，利用了作文中所有句子的信息。其中的语句自注意力编码层使用篇章级别的self-attention机制加强篇章中重要的部分。直观来讲，教学中的作文强调“龙头凤尾”，一篇作文的开头和结尾往往对整篇作文的得分起到很大的影响，篇章级别的self-attention机制恰恰可以建模“作文开头结尾的句子重要程度很高”这种先验知识，从而对篇章建立更好的语义表示。因此句子级别的self-attention机制区分了句子中每个词汇的重要程度，而篇章级别的self-attention机制则区分了篇章中每个句子的重要程度。

图5为本发明实施例中提供的分差预测模型的训练过程示意图，如图5所示，对于作文训练样本对中的作文训练样本X₁和作文训练样本X₂，在对分差预测模型进行训练时，利用分差预测模型中的浅层特征提取层、语义特征提取层提取作文训练样本X₁的浅层特征、语义特征，并将作文训练样本X₁的浅层特征、语义特征进行拼接，利用分差预测模型中的浅层特征提取层、语义特征提取层提取作文训练样本X₂的浅层特征、语义特征，并将作文训练样本X₂的浅层特征、语义特征进行拼接。拼接之后，利用分差预测模型中的分差计算层得到待评分作文与作文参考样本之间的分差。

训练过程中，已知作文训练样本X₁的分数为Y₁，作文训练样本X₂的分数为Y₂，作文训练样本X₁、X₂的浅层特征与语义特征的拼接向量分别为e(X₁)、e(X₂)。分差预测模型通过以下方式对作文训练样本X₁、X₂之间的分差进行预测：

score_pred＝W₂sigmoid(W₁[e(X₁)；e(X₂)]+b₁)+b₂

其中，“；”符号表示对两个拼接向量做拼接处理，W₁、W₂、b₁、b₂均为可训练参数。并通过计算与真实分差Y₁-Y₂之间的差距，计算分差预测模型损失，并通过随机梯度下降进行分差预测模型的训练，最终得到分差预测模型，该分差预测模型的输入为任意两篇作文，输出为所预测的两者分差。

实际训练过程中，可以取同场考试的部分数据，抽取浅层特征与语义特征，进行作文对的分差训练，这样会生成一个适用于同场考试的分差预测模型。

在上述实施例的基础上，本发明实施例中提供的作文评分方法，所述作文参考样本具体包括多个；相应地，

所述基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本携带的作文分数标签，对所述待评分作文进行评分，具体包括：

基于每个所述作文参考样本对应的分差以及每个所述作文参考样本携带的作文分数标签，确定所述待评分作文基于每个所述作文参考样本的预测分数；

具体而言，如图6所示，当作文参考样本包括作文参考样本1、2、…、n、…、N(N≥2)时，则可以通过分差预测模型分别确定待评分作文与每个作文参考样本之间的分差，然后可以结合每个作文参考样本的分数，确定待评分作文基于每个作文参考样本的预测分数。例如，对于作文参考样本n，其分数为an，待评分作文与作文参考样本n之间的分差为bn，则待评分作文基于作文参考样本n的预测分数可以表示为an+bn。

然后将待评分作文基于每个作文参考样本的预测分数进行融合，并将融合得到的结果作为待评分作文的评分结果。融合的方式可以是求取均值，也可以进行加权求和，本发明实施例中对此不作具体限定。

综上所述，本发明实施例中提供的作文评分方法中，采用了分差预测模型，该模型结合作文的浅层特征以及语义特征，用以确定任意两篇作文之间的分差。具体来讲，采用字词统计、文采特征、篇章结构、句子通顺度、主题为浅层特征，并将层级self-attention机制抽取的深层的语义特征，与浅层特征进行拼接，共同构成整篇作文的较为完整的表征形式，其中，浅层特征可以基于预先训练和规则处理好的特征抽取器抽取并进行归一化处理得到。这种表征形式不仅利用了分差预测模型自动抽取的语义特征，更结合了统计先验知识，能够更全面地衡量篇章的质量。

如图7所示，在上述实施例的基础上，本发明实施例中提供了一种作文评分装置，包括：获取模块71、分差预测模块72和评分模块73。其中，

获取模块71用于获取待评分作文以及作文参考样本；

分差预测模块72用于将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；

评分模块73用于基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；

在上述实施例的基础上，本发明实施例中提供的作文评分装置，所述分差预测模块，具体包括：浅层特征提取单元、语义特征提取单元以及分差计算单元。其中，

在上述实施例的基础上，本发明实施例中提供的作文评分装置，所述语义特征提取单元，具体包括：

语句编码子单元，用于将所述待评分作文以及所述作文参考样本分别输入至所述语义特征提取层的语句编码层，得到所述语句编码层输出的所述待评分作文以及所述作文参考样本的语句特征；

篇章编码子单元，用于将所述待评分作文以及所述作文参考样本的语句特征分别输入至所述语义特征提取层的篇章编码层，得到所述篇章编码层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征。

在上述实施例的基础上，本发明实施例中提供的作文评分装置，所述语句编码子单元，具体用于：

在上述实施例的基础上，本发明实施例中提供的作文评分装置，所述篇章编码子单元，具体用于：

在上述实施例的基础上，本发明实施例中提供的作文评分装置，所述作文参考样本具体包括多个；相应地，

所述评分模块，具体用于：

具体地，本发明实施例中提供的作文评分装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述各实施例中提供的作文评分方法，该方法包括：获取待评分作文以及作文参考样本；将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；其中，所述分差预测模型基于两两组合的作文训练样本对及其分差训练得到。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例中提供的作文评分方法，该方法包括：获取待评分作文以及作文参考样本；将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；其中，所述分差预测模型基于两两组合的作文训练样本对及其分差训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例中提供的作文评分方法，该方法包括：获取待评分作文以及作文参考样本；将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；其中，所述分差预测模型基于两两组合的作文训练样本对及其分差训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种作文评分方法，其特征在于，包括：

获取待评分作文以及作文参考样本；

2.根据权利要求1所述的作文评分方法，其特征在于，所述将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差，具体包括：

3.根据权利要求2所述的作文评分方法，其特征在于，所述将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的语义特征提取层，得到所述语义特征提取层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征，具体包括：

4.根据权利要求3所述的作文评分方法，其特征在于，所述将所述待评分作文以及所述作文参考样本分别输入至所述语义特征提取层的语句编码层，得到所述语句编码层输出的所述待评分作文以及所述作文参考样本的语句特征，具体包括：

5.根据权利要求3所述的作文评分方法，其特征在于，所述将所述待评分作文以及所述作文参考样本的语句特征分别输入至所述语义特征提取层的篇章编码层，得到所述篇章编码层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征，具体包括：

6.根据权利要求1-5中任一项所述的作文评分方法，其特征在于，所述作文参考样本具体包括多个；相应地，

7.一种作文评分装置，其特征在于，包括：

获取模块，用于获取待评分作文以及作文参考样本；

分差预测模块，用于将所述待评分作文以及所述作文参考样本输入至分差预测模型，得到所述分差预测模型输出的所述待评分作文与所述作文参考样本之间的分差；

评分模块，用于基于所述待评分作文与所述作文参考样本之间的分差，以及所述作文参考样本的分数，对所述待评分作文进行评分；

8.根据权利要求7所述的作文评分装置，其特征在于，所述分差预测模块，具体包括：

浅层特征提取单元，用于将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的浅层特征提取层，得到所述浅层特征提取层输出的所述待评分作文的待评分浅层特征以及所述作文参考样本的参考浅层特征；

语义特征提取单元，用于将所述待评分作文以及所述作文参考样本分别输入至所述分差预测模型的语义特征提取层，得到所述语义特征提取层输出的所述待评分作文的待评分语义特征以及所述作文参考样本的参考语义特征；

分差计算单元，用于将所述待评分语义特征以及所述参考语义特征，或者将所述待评分浅层特征、所述参考浅层特征、所述待评分语义特征以及所述参考语义特征均输入至所述分差预测模型的分差计算层，得到所述分差计算层输出的所述待评分作文与所述作文参考样本之间的分差。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述作文评分方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述作文评分方法的步骤。