CN104364815A

CN104364815A - 用于自动评分的装置和方法

Info

Publication number: CN104364815A
Application number: CN201380031051.4A
Authority: CN
Inventors: 尹钟喆; 尹庆娥
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2012-10-31
Filing date: 2013-06-18
Publication date: 2015-02-18
Also published as: KR20140055442A; KR101616909B1; US20150093737A1; WO2014069741A1

Abstract

本发明涉及用于自动评分的装置和方法。根据本发明：能够通过基于语言教育特性、评估区域特性和考官的回答评估特性生成评估区域之间的相关模型来逼真地对考官的隐式确定准则进行建模；通过对于各个评估区域应用先前生成的评分模型来自动地对用于对目标数据进行评分的一个或更多个评估区域进行评分；以及能够利用各个评估区域的所述相关模型并且针对一个或更多个评估区域来调整自动评分分数而获得可靠的自动评分结果。

Description

用于自动评分的装置和方法

技术领域

本公开涉及通过机器学习来自动地对用户的回答进行评分的自动评分技术，并且更具体地，涉及通过考虑评估区域之间的相关性来自动地对目标数据进行评分的自动评分装置和方法。

背景技术

本部分中的描述仅仅提供关于本发明的背景信息，但是不构成现有技术。

根据通信技术的发展，利用通信技术来执行语言测验和简单水平测验等，并且为此，服务器装置提供测验并且通过对该测验的回答进行评分来提供评分结果。以前，利用了个体直接地对测验进行评分以对该测验的回答进行评分并且该个体将评分数据输入到服务器装置等以便提供评分结果的方法。

然而，这种评分方案需要许多劳动力来对测验的回答进行评分，并且需要相当数量的时间来确认评分结果。

为了改进困难，近年来，正在开发用于通过机器学习而不通过人来自动地对测验的回答进行评分的自动评分系统。常规的自动评分系统通过收集考官对测验的多个回答的主观评分结果、在测验的回答方面通过机器学习来分析可评估项(评估质量)、利用经分析的结果和考官的主观评分结果通过机器学习基于可评估项来生成评分模型、以及通过所生成的评分模型来分析测验的回答的相似性来执行自动评分。

然而，根据语言教育特性，存在评分区域是不完全相互排斥的并且考官的每个评估区域的分数相互影响的特性。已知的自动评分系统不反映这些特性，并且鉴于考官的评分结果和准确性，由已知的自动评分系统执行的自动评分方案的可靠性被认为是低的。

发明内容

技术问题

本发明致力于提供用于在利用机器学习自动地对包括用户的回答的评分目标数据进行评分时通过考虑评估区域之间的相关性来自动地对评分目标数据进行评分的自动评分装置和方法。

此外，本发明致力于提供能够通过生成反映语言教育特性、评估区域特性、考官的回答评估特性等的评估区域之间的相关模型，并且通过应用所生成的相关模型来补偿每个评估区域的评分模型中的差错的自动评分装置和方法。

技术方案

本发明的一个方面提供一种自动评分装置，该自动评分装置包括：自动评分单元，该自动评分单元被配置成应用预先生成的评估区域中的每一个评估区域的评分模型，并且对评分目标数据执行所述评估区域中的每一个评估区域的自动评分；以及分数调整单元，该分数调整单元被配置成根据所述评估区域之间的相关模型来调整所述评估区域中的每一个评估区域相对于从所述自动评分单元输出的所述评分目标数据的自动评分分数，并且计算最终的自动评分分数。

所述自动评分装置还包括以下各项中的一个：评分模型生成单元，该评分模型生成单元被配置为利用通过针对一个或更多个回答以及从所述一个或更多个回答中提取的一个或更多个评估质量来评估所述评估区域中的至少一个评估区域所获得的先前的评分数据、通过机器学习来生成每个所述评估区域的所述评分模型；以及相关模型生成单元，该相关模型生成单元被配置为生成所述评估区域之间的所述相关模型，所述相关模型定义基于所述先前的评分数据生成的所述评估区域中的至少一个评估区域之间的分数中的每个分数的概率。

在所述自动评分装置中，所述分数调整单元对所述每个评估区域的自动评分分数进行比较，选择所述评估区域之间的相关差异具有比预定范围更大的分数的异常评估区域，并且利用所述评估区域之间的所述相关模型来调整所述异常评估区域的自动评分分数。

在所述自动评分装置中，所述分数调整单元利用所述相关模型基于排除所述异常评估区域以外的剩余评估区域的自动评分分数来计算所选择的异常评估区域的分数中的每个分数的生成概率，并且将所述异常评估区域的所述自动评分分数改变成具有最高概率的分数。

本发明的另一方面提供一种自动评分方法，该自动评分方法包括以下步骤：应用先前生成的每个评估区域的评分模型，并且对评分目标数据执行一个或更多个评估区域中的每个评估区域的自动评分；以及利用所述每个评估区域的相关模型来调整所述一个或更多个评估区域中的每个评估区域的自动评分分数。

在所述自动评分方法中，所述自动评分分数的调整包括以下步骤：对所述评估区域之间的自动评分分数进行比较并且选择相关差异具有比预定范围更大的分数的异常评估区域；基于排除所述异常评估区域以外的剩余评估区域的自动评分分数来计算所选择的异常评估区域的分数中的每个分数的生成概率；以及将所述异常评估区域的所述自动评分分数改变成具有最高概率的分数。

所述自动评分方法可以进一步包括以下步骤中的一个：在执行所述自动评分之前，利用通过针对一个或更多个回答和从所述一个或更多个回答中提取的一个或更多个评估质量来评估所述一个或更多个评估区域而获得的先前的评分数据、通过机器学习来生成所述评估区域中的每个评估区域的评分模型；以及生成所述评估区域之间的所述相关模型，所述相关模型定义基于所述先前的评分数据生成的所述评估区域中的一个或更多个评估区域之间的分数中的每个分数的概率。

本发明的再一个方面提供一种计算机可读记录介质，该计算机可读记录介质用于记录用于执行所述自动评分方法的程序。

有益效果

本发明涉及自动地评估用户在包括说、听、写等的一个或更多个语言区域中的回答的技术，并且更具体地，当针对用户的回答来评估一个或更多个评估区域时，本发明能够通过生成反映语言教育特性、评估区域特性、考官的回答评估特性等的评估区域之间的相关模型、针对评估区域来更加逼真地对隐式准则进行建模。

此外，当通过应用能够在评估区域之间发生的相关性从而应用所生成的评估区域之间的相关模型、经由每个评估区域的评分模型来执行自动评分时，本发明能够利用考官的回答评估特性来使差错最小化，并且提高针对评估结果的可靠性。

附图说明

图1是例示了根据本发明的示例性实施方式的自动评分装置的构造的图；

图2是用于描述根据本发明的示例性实施方式的执行应用在评估区域之间的相关模型的自动评分操作的方法的图；

图3是例示了根据本发明的示例性实施方式的自动评分装置应用于的自动评估服务系统的构造的图；

图4是例示了根据本发明的示例性实施方式的自动评分方法应用于的终端设备的图；

图5a至图5c是根据本发明的示例性实施方式的用于描述评估区域之间的相关模型的评估区域之间的相关表；以及

图6至图8是根据本发明的示例性实施方式的用于描述应用评估区域之间的相关模型的自动评分操作的图。

具体实施方式

在下文中，将在下面参照附图更详细地描述本发明的实施方式。将省略能够使本发明在以下描述和附图中的要点混淆的已知功能或配置的详细描述。此外，在所有附图中，应当理解，相同的或相似的元件由同样的附图标记标明。

基于在下面用来描述本说明书和权利要求的术语和词汇不应该被解释为一般意义或词典意义、并且被定义为以最佳方式描述本发明的术语的构思的原理，术语和词汇应该被解释为意义和构思对应于本发明的技术精神。因此，示出了本说明书中所描述的实施方式和附图的构造仅仅是示例性实施方式，并且因为构造未示出本发明的所有技术精神，所以应当理解，存在能够替换它们的各种等同物和修改。

在以下描述中，“评估区域”是用于针对特定评估测验使考官之间的分数标准化的评分准则集，并且被定义为评分区域和所述评分区域的评估内容。例如，在外语的口语测验中，评估区域包括诸如流利、语言使用、组态和发音这样的评分区域。这里，流利是评估口语速度的适当性和毫不犹豫地维持自然口语速度的程度的因素。语言使用是评估表达的精确性和词汇使用的适当性的因素。组态是评估口语的逻辑连接性以及口语内容的一致性和内聚性的因素。发音是评估发音的清晰度和可理解程度的因素。本发明可以针对一个或更多个预定的评估区域实现自动评分装置和方法。

首先，将参照附图详细地描述根据本发明的示例性实施方式的自动评分装置和方法。

图1是例示了根据本发明的示例性实施方式的自动评分装置的构造的图。

参照图1，根据本发明的示例性实施方式的自动评分装置100是根据本发明的用于基于一个或更多个预定评估区域来对应试者针对特定问题的回答自动地进行评分的装置。具体地，自动评分装置100利用一个或更多个预定评估区域中的每个的评分模型来自动地计算一个或更多个一个预定评估区域中的每个针对评分目标数据的分数。接下来，自动评分装置100对由每个评估区域的评分模型利用先前生成的评估区域之间的相关模型进行评分的每个评估区域中的自动评分分数进行比较，并且调整具有超过预定范围的分数的异常评估区域的自动评分分数。

为此，自动评分装置100收集用作针对测验的一个或更多个回答的准则的评分数据，例如，针对由考官直接评分的一个或更多个估计区域的评分数据。此外，自动评分装置100从测验的一个或更多个回答中提取一个或更多个评估质量。而且，自动评分装置100通过利用从测验的一个或更多个回答中的每个中提取的评估质量和先前的评分数据来执行机器学习而生成估计区域中的每个的评分模型。

自动评分装置100自动地计算每个评估区域针对通过每个所生成的评估区域的评分模型所重新输入的评分目标数据的分数。

而且，自动评分装置100利用评分数据来先前生成评估区域之间的相关模型。

自动评分装置100包括评分模型生成单元110、相关模型生成单元120、自动评分单元130和分数调整单元140。评分模型生成单元110、相关模型生成单元120、自动评分单元130和分数调整单元140由硬件、软件或硬件和软件的组合来实现。例如，评分模型生成单元110、相关模型生成单元120、自动评分单元130和分数调整单元140由实现为执行将在下面描述的功能的软件和执行该软件的微处理器的组合来实现。

评分模型生成单元110利用从由考官先前评分的测验的一个或更多个回答中提取的一个或更多个评估质量、通过每个评估区域针对由考官先前评分的测验的一个或更多个回答的评分数据和机器学习来生成每个评估区域的评分模型。

具体地，评分模型生成单元110接收从测验的一个或更多个回答中提取的评估质量，即，自动地可评估的项(例如，单词的数量、形容词的数量、语法错误、拼写错误、时态不符、与模型回答的相似性等)。此外，通过针对评估质量和考官针对测验的一个或更多个回答的每个评估区域的评分数据执行机器学习，来生成定义评估质量与每个评估区域的分数之间的关系的每个评估区域的评分模型。也就是说，可以基于一个或更多个自动地可评估的评估质量对考官的主观评估准则进行建模。

相关模型生成单元120对考官通过反映语言教育特性、评估区域特性、考官的回答评估特性等进行评分的评分数据中的评估区域之间的相关性进行建模。为此，相关模型生成单元120利用用于生成每个评估区域的评分模型的一个或更多个先前的评分数据来分析评估区域之间的相关性，并且生成相关模型。

例如，相关模型生成单元120将影响评估区域之间的分数的特性定义为如图5a至图5c所示的评估区域之间的分数中的每个分数的生成概率表。在实施方式中，当设定了第一评估区域至第四评估区域并且在每个评估区域中对范围从0至5的分数进行评分时，通过分析在作为准则的第四评估区域(类目#4)与其它评估区域(类目#1、类目#2和类目#3)之间的相关性来生成该生成概率表。具体地，图5a是将第一评估区域(类目#1)与第四评估区域(类目#4)之间的相关性例示为分数中的每个分数的生成概率的生成概率表，图5b是将第二评估区域(类目#2)与第四评估区域(类目#4)之间的相关性例示为分数中的每个分数的生成概率的生成概率表，并且图5c是将第三评估区域(类目#3)与第四评估区域(类目#4)之间的相关性例示为分数中的每个分数的生成概率的生成概率表。

利用相关模型来获得评估区域之间的分数的生成概率。例如，参照图5c，当第三评估区域(类目#3)的分数是3时，第四评估区域(类目#4)的分数为0的概率是0％，第四评估区域(类目#4)的分数为1的概率是0.2％，第四评估区域(类目#4)的分数为2的概率是5.6％，第四评估区域(类目#4)的分数为3的概率是16.4％，第四评估区域(类目#4)的分数为4的概率是0.4％，以及第四评估区域(类目#4)的分数为5的概率是0％。因此，当第三评估区域(类目#3)的分数是3时，第四评估区域(类目#4)的分数为3或2的概率是非常高的。此外，当第四评估区域(类目#4)的分数是3时，第三评估区域(类目#3)的分数为0或1的概率是0％，第三评估区域(类目#3)的分数为2的概率是2.8％，第三评估区域(类目#3)的分数为3的概率是16.4％，第三评估区域(类目#3)的分数为4的概率是6.6％，以及第三评估区域(类目#3)的分数为5的概率是0.6％。通过评估区域之间的相关模型，可以看到在第三评估区域(类目#3)中具有高分数的测验的回答具有同样在第四评估区域(类目#4)中具有高分数的高概率，并且在第三评估区域(类目#3)中具有低分数的测验的回答具有在第四评估区域(类目#4)中具有低分数的高概率。这是因为针对特定回答的一个或更多个评估区域彼此不独立并且在语言学教育中是连接的。

自动评分单元130从应试者接收作为测验的回答的新的评分目标数据以用于评分，并且利用在评分模型生成单元110中生成的每个评估区域的评分模型来自动地计算一个或更多个评分区域中的每个评分区域针对评分目标数据的分数。

接下来，分数调整单元140通过在相关模型生成单元120中生成的评估区域之间的相关模型来调整每个评估区域针对从自动评分单元130输出的评分目标数据的自动评分分数。具体地，分数调整单元140对每个评估区域的自动评分分数进行比较，选择相关差异具有比预定范围更大的分数的异常评估区域，并且基于所选的异常评估区域与剩余评估区域之间的相关模型来校准异常评估区域的自动评分分数。

将参照图2详细地描述在具有以上所描述的构造的自动评分装置中执行的根据本发明的实施方式的自动评分方法。

图2是用于描述根据本发明的示例性实施方式的在自动评估服务系统中执行应用评估区域之间的相关模型的自动评分操作的方法的图。

参照图2，在步骤1101中根据本发明的示例性实施方式的自动评分装置100收集由考官先前评分的一个或更多个评分数据。该一个或更多个评分数据包括一个或更多个考官中的每个针对一个或更多个评估区域对测验的一个或更多个回答进行评分的信息。

接下来，在步骤1102中自动评分装置100基于所收集的一个或更多个评分数据通过机器学习来生成每个评估区域的评分模型。更具体地，自动评分装置100根据与每个评估区域的先前的评分数据对应的测验的回答来分析自动地可评估的评估质量(例如，单词的数量、形容词的数量、语法错误、拼写错误、时态不符、与模型回答的相似性等)。自动评分装置100生成每个评估区域的评分模型，该评分模型通过对经分析的评估质量的每个评估区域和一个或更多个评分数据执行机器学习、基于可评估的评估质量来计算每个评估区域的分数。

此外，在步骤1103中，自动评分装置100基于所收集的每个评估区域的评分数据来生成如图5a至图5c所示的评估区域之间的相关模型。评估区域之间的相关模型可以是使两个评估区域之间的相关性结构化的模型。例如，当存在四个评估区域时，可以生成六个相关模型。这里，评估区域之间的相关模型被实现为定义两个评估区域之间的分数中的每个分数的生成概率的类型。

接下来，在步骤1104中自动评分装置100重新接收应试者针对特定问题进行回答的评分目标数据。

当输入了新的评分目标数据时，自动评分装置100应用所生成的每个评估区域的评分模型，并且在步骤1105中计算一个或更多个评估区域中的每个评估区域针对评分目标数据的自动评分分数。具体地，自动评分装置100从新的评分目标数据中提取一个或更多个评估质量，将所提取的评估质量应用于每个评估区域的评分模型，并且计算每个评估区域的自动评分分数。

因为在已计算的每个评估区域的自动评分分数中不反映评估区域之间的相关性，所以已计算的每个评估区域的自动评分分数可能有错误。因此，本发明还利用在下文中所描述的相关模型来执行调整自动评分结果的操作。

具体地，在步骤1106中，自动评分装置100对由自动评分操作计算的每个评估区域的自动评分分数进行比较，并且选择具有相关差异超过预定范围的分数的异常评估区域。这里，相关差异可以被定义为两个评估区域的分数的差或同时生成两个评估区域的自动评分分数的概率。

图6是用于描述根据本发明的示例性实施方式的自动评分方法的表，应试者编号可以是识别每个应试者的信息，考官对每个应试者的测验的回答的主观评分结果被例示在表的左侧中，并且针对测验的相同回答利用每个评估区域的评分模型所计算的自动评分分数被例示在表的右侧中。这里，可以对四个评估区域(类目#1至#4)执行评分。

例如，当利用每个评估区域的评估模型来对具有应试者编号“20121102”的应试者的回答进行评分时，第一评估区域(类目#1)的分数是5，第二评估区域(类目#2)的分数是3，第三评估区域(类目#3)的分数是3，以及第四评估区域(类目#4)的分数是0。在这种情况下，当在步骤1106中选择了具有相关差异超过预定范围的分数的异常评估区域时，因为自动评分结果的第四评估区域(类目#4)的分数是0并且与其它每个评估区域的分数相比有很大不同，所以第四评估区域(类目#4)被选择为异常评估区域。这里，针对每个评估区域，通过剩余评估区域的自动评分分数的平均值与它自己的自动评分分数之间的差来选择异常评估区域。也就是说，异常评估区域是每个评估区域的分数与剩余评估区域的自动评分分数的平均值相比具有超过预定参考值的差异的评估区域。这里，任意地确定异常评估区域的选择准则δ。

接下来，在步骤1107中自动评分装置100调整通过应用评估区域之间的相关模型而选择的所选择的异常评估区域的自动评分分数。具体地，自动评分装置100确认所选择的异常评估区域的自动评分分数和剩余评估区域的自动评分分数，并且通过相关模型基于剩余评估区域的自动评分分数来计算异常评估区域的每个分数(例如，0至5)的生成概率。接下来，自动评分装置100获得其中针对所选择的异常评估区域的分数中的每个分数生成了剩余评估区域的自动评分分数的概率的总和，并且提取其中概率的总和最高的分数。此外，自动评分装置100通过将所选择的异常评估区域的自动评分分数改变为具有最高概率的分数来调整该分数。

参照图6，根据具有应试者编号“20121102”的应试者的自动评分结果，第四评估区域被选择为异常评估区域。这时，剩余评估区域的自动评分分数分别是4、3和3。在这种情况下，如图7所示，自动评分装置100确认第四评估区域的分数(0至5)中的每个在第一评估区域的分数为4时的生成概率、第四评估区域的分数(0至5)中的每个在第二评估区域的分数为3时的生成概率以及第四评估区域的分数(0至5)中的每个在第三评估区域的分数为3时的生成概率。接下来，自动评分装置100获得生成了剩余的第一评估区域、第二评估区域和第三评估区域的自动评分分数的概率的总和，并且提取概率的总和为最高的第四评估区域的分数。参照图7，当第一评估区域至第三评估区域(类目#1至#3)的自动评分分数分别是4、3和3时，在第四评估区域(类目#4)的分数当中的3的生成概率是概率的总和为最高的40.8％。

因此，如图8所示，根据本发明的示例性实施方式的自动评分装置100将选择为异常评估区域的第四评估区域的自动评分分数从0改变为3。

此外，如图8所示，将看到最终的自动评分结果被类似地校准为由考官在自动评分装置100中进行评分的评分结果。

接下来，在步骤1108中，自动评分装置100通过调整分数来计算最终的自动评分结果数据，并且为应试者提供与已计算的最终的自动评分结果数据对应的最终的自动评分结果信息。

根据本发明的示例性实施方式的自动评分装置和方法可以被应用于基于网络的自动评估服务系统。

图3是例示了根据本发明的示例性实施方式的自动评分装置应用于的自动评估服务系统的构造的图。

参照图3，自动评估服务系统包括通过通信网络10连接的多个终端设备20和评估服务服务器30，该评估服务服务器30包括自动评分装置100_1。

该多个终端设备20可以是能够根据用户的键操作通过通信网络10来接收和发送各种数据的终端，并且可以是平板个人计算机(PC)、膝上型计算机、PC、智能电话、个人数字助理(PDA)、智能电视(TV)、移动通信终端等当中的至少一个。此外，终端设备20可以是通过通信网络10来执行语音通信或数据通信的终端，并且可以是包括用于通过通信网络10与评估服务服务器30进行通信的浏览器、用于存储程序和协议的存储器、用于通过执行各种程序来计算和控制的微处理器等的终端。也就是说，终端设备20可以是能够执行与评估服务服务器30的服务器-客户端通信的任何种类的终端，并且可以被定义为包括诸如笔记本计算机、移动通信终端、PDA等的各个通信计算设备的广义概念的终端。同时，可能期望终端设备20被制造为具有包括触摸屏的类型，但是终端设备20不限于此。

具体地，根据本发明的示例性实施方式的该多个终端设备20可以是提供有自动评分服务的终端，并且可以是应试者的终端设备或考官的终端设备。该多个终端设备20通过通信网络10连接至评估服务服务器30，从应试者接收对测验的回答，将测验的回答发送到评估服务服务器30，并且从评估服务服务器30接收针对测验的回答的自动评估结果。具体地，该多个终端设备20提供有通过从评估服务服务器30应用每个评估区域的相关模型自动地评分的评分结果数据，并且为用户提供评分结果数据。

评估服务服务器30可以是用于对从终端设备20发送的对测验的回答执行自动评估操作以及提供评估结果的服务器，并且可以包括应用根据本发明的示例性实施方式的相关模型的自动评分装置100_1。

自动评分装置100_1可以通过经由通信网络10连接至该多个终端设备20来提供自动评分服务。自动评分装置100_1可以从考官收集每个评估区域的评分数据，并且将所收集的每个评估区域的评分数据存储到数据库。这时，每个评估区域的评分数据和评估数据可以从考官直接输入，或者通过通信网络10发送。

此外，自动评分装置100_1可以利用所收集的每个评估区域的评分数据和评估质量通过机器学习来生成每个评估区域的评分模型，并且还通过对评估区域的评分结果进行比较以及反映语言教育特性、评估区域特性、考官的回答评估特性等来生成评估区域之间的相关模型。此外，当从终端设备20接收到新的评分目标数据时，自动评分装置100_1可以从该新的评分目标数据中提取评估质量。自动评分装置100_1可以将所提取的评估质量输入到所生成的每个评估区域的评分模型，并且计算每个评估区域针对该新的评分目标数据的自动评分分数。接下来，自动评分装置100_1可以应用所生成的评估区域之间的相关模型，并且选择相关差异具有比预定参考值更大的分数的异常评估区域。自动评分装置100_1可以基于排除所选择的异常评估区域以外的剩余评估区域的自动评分分数、利用相关模型来计算异常评估区域的分数中的每个分数的生成概率，对这些分数中的每个分数的生成概率进行比较，并且将具有最高概率的分数应用为所选择的异常评估区域的自动评分分数。自动评分装置100_1为对应的终端设备20提供已计算的最终的自动评分分数。因为参照图1和图2描述了自动评分装置100_1的详细构造，所以将省略重复描述。

根据本发明的示例性实施方式的自动评分方法可以通过实现为安装在终端设备上的程序而被利用。

图4是例示了其中安装有根据本发明的示例性实施方式的自动评分方法的程序的终端设备的图。

参照图4，终端设备40包括控制单元210、通信单元220、输入单元230、存储单元240和输出单元250。终端设备40是能够通过安装和执行自动评分程序100_2来执行根据本发明的示例性实施方式的自动评分方法的用户信息处理设备，并且可以是能够安装和执行程序的任何种类的终端。例如，终端设备40可以是平板PC、膝上型计算机、PC、智能电话、PDA、智能TV、移动通信终端等当中的至少一个。

控制单元210控制各种操作和与终端设备40的自动评分服务执行有关的操作。具体地，当接收到用户的测验请求信号时，控制单元210控制以根据所接收的测验请求信号来执行用于测验的应用并且将问题等显示在输出单元250的屏幕上。因此，控制单元210通过输入单元230来接收和处理针对问题的回答的信息(即，评分目标数据)，并且将经处理的评分目标数据存储到存储单元240。控制单元210执行自动评分程序100_2，并且控制以自动地对新的评分目标数据进行评分。此外，控制单元210控制以通过输出单元250将最终的自动评分结果信息显示在屏幕上以便通知用户。

通信单元220通过通信网络10来接收和发送数据，并且通信单元220通过包括有线方式或无线方式的各种通信方式来接收和发送数据。另外，通信单元220利用一个或更多个通信方式来接收和发送数据，并且为此，通信单元220包括根据不同的通信方式来接收和发送数据的多个通信模块。

输入单元230根据用户的操作来生成与用户的请求或信息对应的用户输入信号，并且可以由当前商业化的或将来将商业化的各种输入设备来实现。例如，输入单元230可以是诸如键盘、鼠标、游戏杆、触摸屏、触摸板等的一般输入设备，并且还包括用于通过感测用户的运动来生成特定输入信号的手势输入设备。输入单元230将从用户输入的信息发送到控制单元210。也就是说，输入单元230从应试者接收针对问题的回答，即，新的评分目标数据。

存储单元240存储用于终端设备40的操作所需的信息，并且具体地，存储与自动评分服务有关的信息。具体地，存储单元240存储编程为使得根据本发明的示例性实施方式的自动评分方法被执行的自动评分程序100_2。存储单元240包括诸如硬盘、软盘或磁带的磁媒体、诸如紧凑盘只读存储器(CD-ROM)或数字视频盘(DVD)的光学媒体、诸如软光盘的磁光媒体、ROM、随机存取存储器(RAM)以及闪速存储器。

输出单元250是设置为使得终端设备40的操作结果或状态被通知给用户的设备。例如，输出单元250包括通过屏幕在视觉上输出的显示单元或输出可听声音的扬声器等。具体地，输出单元250显示与终端设备40中驱动的自动评分服务有关的画面，并且显示用于根据用户的请求来执行自动评分服务的画面。此外，输出单元250显示从应试者输入的针对问题的回答(即，评分目标数据)，或者将针对评分目标数据的自动评分分数显示在屏幕上。

也就是说，终端设备40执行自动评分程序100_2，针对从输入单元230输入的用户的回答利用每个评估区域的评分模型来计算每个评估区域的自动评分分数(即，评分目标数据)，利用评估区域之间的相关模型来提取具有相关差异超过预定范围的分数的异常评估区域，基于剩余评估区域的自动评分分数来计算异常评估区域的分数中的每个分数的生成概率，并且将异常评估区域的自动评分分数改变成具有最高概率的分数。终端设备40像以上所描述的那样为用户提供最终计算的自动评分结果。

这里，记录在自动评分程序100_2中的程序命令可以被具体地设计和配置用于本发明，或者为计算机软件领域的技术人员所公知的且可利用的。

附图和说明书中所公开的本发明的示例性实施方式是为了更好理解仅仅呈现的特定示例，并且不旨在限制本发明的精神和范围。除本文所公开的示例性实施方式之外，本领域技术人员应当明白，在不脱离本发明的精神和范围的情况下，可以进行形式和细节方面的各种改变。

工业应用性

本发明涉及自动地评估用户在包括说、听、写等的一个或更多个语言区域中的回答的技术，并且更具体地，当针对用户的回答来评估一个或更多个评估区域时，本发明能够通过生成反映语言教育特性、评估区域特性、考官的回答评估特性等的评估区域之间的相关模型针对评估区域来更加逼真地对隐式准则进行建模。

此外，本发明可以选择评估区域之间的相关差异超过预定范围的异常评估区域，并且基于剩余评估区域的自动评分分数来将异常评估区域的分数调整为具有最高生成概率的分数。因此，因为评分被执行为与考官的主观评分数据更相似，所以本发明能够改进自动评估性能。

本发明能够被应用于自动评分服务，考虑到评估区域之间的相关性来执行自动评分操作以与考官的主观评分数据更相似，并且有助于服务行业的发展。

Claims

1.一种自动评分装置，该自动评分装置包括：

自动评分单元，所述自动评分单元被配置为接收评分目标数据，并且基于评分模型针对所接收的评分目标自动地计算每个所述评估区域的分数；以及

分数调整单元，所述分数调整单元被配置为利用所述评估区域之间的对应的相关模型来调整已计算的每个所述评估区域的分数，并且计算最终的自动评分分数。

2.根据权利要求1所述的自动评分装置，所述自动评分装置还包括评分模型生成单元，所述评分模型生成单元被配置为：利用通过针对一个或更多个回答以及从所述一个或更多个回答中提取的一个或更多个评估质量来评估所述评估区域中的至少一个评估区域所获得的先前的评分数据、通过机器学习来生成每个所述评估区域的所述评分模型。

3.根据权利要求2所述的自动评分装置，所述自动评分装置还包括相关模型生成单元，所述相关模型生成单元被配置为生成所述评估区域之间的所述对应的相关模型，所述对应的相关模型定义基于所述先前的评分数据生成所述评估区域中的至少一个评估区域之间的分数中的每个分数的概率。

4.根据权利要求1所述的自动评分装置，其中，所述分数调整单元被配置为将与所述评估区域中的一个评估区域相对应的分数和与所述评估区域当中的剩余评估区域相对应的其它分数进行比较，基于所述比较来选择所述评估区域之间的相关差异具有比预定范围更大的分数的异常评估区域，并且通过利用所述评估区域之间的所述相关模型调整所选择的异常评估区域的对应分数来调整已计算的分数。

5.根据权利要求4所述的自动评分装置，其中，所述分数调整单元被配置为利用所述对应的相关模型来计算所选择的异常评估区域的分数中的每个分数针对排除所述异常评估区域以外的所述剩余评估区域的分数中的每个分数的生成概率，并且将所述异常评估区域的所述对应分数改变成在所选择的异常评估区域的所述分数中的已计算的生成概率当中具有最高概率的分数。

6.一种自动评分方法，所述自动评分方法包括以下步骤：

基于评分模型针对评分目标数据自动地计算一个或更多个评估区域的每个评估区域的分数；以及

利用所述评估区域之间的对应的相关模型来调整每个所述评估区域的已计算的分数。

7.根据权利要求6所述的自动评分方法，其中，所述已计算的分数的调整步骤包括以下步骤：

将与所述评估区域中的一个对应的分数和与所述评估区域中的剩余评估区域对应的其它分数进行比较，并且基于所述比较来选择相关差异具有比预定范围更大的分数的异常评估区域；

基于排除所述异常评估区域以外的剩余评估区域的自动评分分数来计算所选择的异常评估区域的分数中的每个分数的生成概率；以及

将所述异常评估区域的对应分数改变成具有最高概率的分数。

8.根据权利要求6所述的自动评分方法，所述自动评分方法还包括：

利用通过针对一个或更多个回答以及从所述一个或更多个回答中提取的一个或更多个评估质量来评估所述评估区域中的至少一个评估区域所获得的先前的评分数据、通过机器学习来生成每个所述评估区域的所述评分模型。

9.根据权利要求8所述的自动评分方法，所述自动评分方法还包括：

生成所述评估区域之间的所述对应的相关模型，所述对应的相关模型定义基于所述先前的评分数据生成所述评估区域中的至少一个评估区域之间的分数中的每个分数的概率。

10.一种计算机可读记录介质，该计算机可读记录介质用于记录用于执行自动评分方法的程序，所述方法包括以下步骤：

应用先前生成的评估区域中的每个评估区域的评分模型，并且对评分目标数据执行一个或更多个评估区域的每个评估区域的自动评分；以及

利用每个所述评估区域的相关模型来调整所述一个或更多个评估区域的每个评估区域的自动评分分数。