CN103493041A

CN103493041A - 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法

Info

Publication number: CN103493041A
Application number: CN201280019540.3A
Authority: CN
Inventors: 金承焕; 金东南; 李银淑; 金星
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2011-11-29
Filing date: 2012-10-24
Publication date: 2014-01-01
Anticipated expiration: 2032-10-24
Also published as: WO2013081301A1; US9336199B2; CN103493041B; US20140067379A1; KR101475284B1; KR20130059795A

Abstract

本发明涉及用于自动评估句子的错误检测，并提供了一种利用浅层句法分析器来自动评估句子的自动句子评估装置及其错误检测设备和方法，由此通过针对撰写的输入句子利用n-gram生成词性串并基于根据相邻词性之间的连接关系定义的规则（浅层句法分析）对所生成的词性串进行句法分析来检测简单语法错误和句子结构分析错误，并且针对所检测出的错误提示校正草案，从而增加句子评估的准确度。

Description

使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法

技术领域

本公开涉及用于自动评估句子撰写的错误检测，更具体地讲，涉及一种用于自动评估句子的设备和方法以及针对此目的的错误检测设备，其将撰写的输入句子分割成词素，将词性（parts of speech）标注到所分割出的词素，检测各个词性串的简单语法英语撰写错误，并且基于由彼此相邻的词性的连接关系限定的规则来对它们进行句法分析，以提高撰写评估的准确度。

背景技术

近来，韩国SAT和企业分级评估已改变为根据说和写的实际英语表现评估。

即，教育部已开发出NEAT（国家英语能力测试，它是听、阅读理解、说和写的基于互联网的评估）并通过示范来进行实施，并且计划取代公务员考试和SAT的英语测试。在这些英语表现评估中，引入自动撰写评估系统来评估写作能力。

自动撰写评估系统从语法上分析撰写的句子并通过错误检测来评估它是否按照语法撰写。在这种情况下，在分析撰写的句子的处理中，必然需要将句子分割成词素，将词性标注到各个词素，并执行句法分析的处理。然而，传统句法分析未复杂地考虑词汇、词性、含义和上下文相关性，而是仅依赖于词性串信息，由此存在准确度显著降低的问题。

具体地讲，由于自然语言中存在上下文具有相互依赖关系的各种现象，所以通常定义的语法在句法分析方面存在局限。例如，在通过句法分析（syntax analysis）将词句法分析（parse）为“动词”的情况下，由于相邻词的词性，可将其句法分析为“名词”，而非“动词”。在这种情况下，存在通过句法分析提取两个或更多个句法树并且其句法分析变得有歧义的问题。

因此，需要一种通过对标注的输入句子的相邻词性之间的连接关系执行正确的句法分析来增强自动评估系统的解决方案。

发明内容

技术问题

根据一些实施方式，提供了一种使用浅层句法分析器（shallow parser）的自动句子评估装置、错误检测设备及相关方法，由此通过针对撰写的输入句子利用n-gram生成词性串并基于根据相邻词性之间的连接关系定义的规则（浅层句法分析）对所生成的词性串进行句法分析来检测简单语法错误和句子结构错误，针对所检测出的错误提示校正草案，从而增加句子评估的准确度。

技术方案

根据一些实施方式，一种用于自动评估句子的设备包括输入句子分割器、词性标注部、句法分析器、句子评估部和错误检测器。所述输入句子分割器被构造为将撰写的输入句子分割成词素，所述词素是句子的最小单元。所述词性标注部被构造为将词性标注到所分割出的词素。所述句法分析器被构造为基于词性分析句子的句法结构并输出句法树作为分析结果。所述句子评估部被构造为利用由所述句法分析器输出的句法树来评估所述句子语法上是否正确。所述错误检测器被构造为针对由所述词性标注部标注的各个词性利用n-gram生成词性串，基于根据彼此相邻的词性之间的连接关系定义的正则语法规则和上下文无关语法规则分析所生成的词性串以检测句法分析的错误，并针对所检测出的错误提供校正。

根据一些实施方式，一种利用浅层句法分析器来自动评估句子的撰写的错误检测设备包括词性串生成器、浅层句法分析器、错误检测器和错误校正部。所述词性串生成器被构造为针对标注到输入句子的各个词性，利用n-gram按照特定窗口单位生成词性串。所述浅层句法分析器被构造为基于上下文无关语法规则和正则语法规则来对所述词性串进行句法分析，并且计算所述词性串的亲密度。所述错误检测器被构造为根据由所述浅层句法分析器计算出的亲密度来检测错误。所述错误校正部被构造为针对由所述错误检测器检测出的错误提供校正。

根据一些实施方式，一种利用浅层句法分析器来自动评估句子的撰写的错误检测方法包括以下步骤：针对标注到输入句子的各个词性，利用n-gram按照特定窗口单位生成词性串；基于上下文无关语法规则和正则语法规则来对所述词性串进行句法分析，从而计算所述词性串的亲密度；根据所计算出的亲密度来检测错误；以及针对所检测出的错误提供校正。

有益效果

根据本文公开的实施方式，通过考虑语言的典型规则以及相邻词性之间的依赖关系分析撰写的输入句子，具有这样的效果：检测语法错误的准确度增加，以增强自动句子评估的能力。

另外，通过根据预定模式生成词性串并以所生成的词性串为单位执行分析，具有这样的效果：与传统的全句法分析相比，句法分析的歧义减少，并且能够详细检测错误的类型。

附图说明

图1示出根据至少一个实施方式的用于自动撰写评估的错误检测设备的构造。

图2示出根据至少一个实施方式的错误检测设备的详细构造。

图3是示出正则语法的示例的表。

图4是针对根据至少一个实施方式的使用错误检测设备的错误检测方法的方法的流程图。

图5是示出检测错误的具体处理的流程图。

图6是示出通过图4的错误检测方法生成词性串的处理的示例性表。

具体实施方式

以下描述详细参照附图。然而，本领域普通技术人员将理解，以下描述不限于以下具体公开的实施方式，可以按照各种形式实现，并且以下描述的范围不限于以下实施方式。公知的技术、元件、结构和处理将省略，以避免使本公开的主题模糊。

如图1所示，提供有：自动句子评估装置100，其分析撰写的输入句子并评估撰写是否正确；以及错误检测设备200，其检测自动评估句子时的句法分析错误，并针对所检测到的错误提示校正草案。

在图1中，为了更好的理解，示出了错误检测构造（即，错误检测设备200）独立于自动句子评估装置100来构造的示例。然而，另选地，错误检测设备200可形成为包含在自动句子评估装置100中的单个设备。

自动句子评估装置100接收撰写的输入句子作为数据，并且包括输入句子分割器110、词性标注部129、句法分析器130、句子评估部140等作为用于评估输入句子的构造。

输入句子分割器110将撰写的输入句子（以下，称作“输入句子”）分割成句子和词素。

这里，句子的分割表示利用标点符号（例如，句号、问号、感叹号等）将撰写的输入句子分割成多个句子。

分割成词素表示将通过句子的分割所分成的各个句子分割成词素，词素是句子的最小单元。在英语撰写的情况下，由于语言的特性，单词后不会附有后置助词，因此作为最小单元的词素可为单词本身。

词性标注部120将对应的词性标注到在输入句子分割器110中分割出的各个词素。可参照已经存储的词性字典来进行词性的标注。例如，词性的类型包括名词、动词、介词、形容词、副词、冠词、感叹词等。

句法分析器130基于在词性标注部120中标注的词性来分析各个句子的句法结构，并输出句法树作为分析结果。通常，“句法分析”是指分析句子的句法，“句法分析器”是指使得句法树输出以便获知是否可通过语法生成字符串的程序。

在句法分析时，句法分析器130发送标注了词性的句子以使句法分析的错误最小化，并从错误检测设备200接收所检测到的错误的信息以将其应用于句法树。

句子评估部140参照在句法分析器130中提取的句法树，并评估撰写是否正确。撰写的最终结果可在转换为分数之后输出，或者可通过T/F（真/假）标记来输出。

错误检测设备针对从句法分析器130发送来的句子利用n-gram生成词性串，并基于简单语法规则以及根据相邻词性之间的连接关系定义的语法规则来分析所生成的词性串，由此检测到英语撰写中的简单错误以及根据相邻词性之间的连接关系的错误。

另外，错误检测设备200显示所检测到的错误，并向句法分析器130提示校正草案。

图2示出根据至少一个实施方式的错误检测设备的详细构造。

错误检测设备200包括词性串生成器210、浅层句法分析器220、错误检测器230、错误校正部240、形式语法知识DB250、上下文无关语法知识DB260等，如图所示。

词性串生成器210利用n-gram生成针对各个词性的词性串，词性串按照任何窗口大小将在词性标注部120中标注的各个词性联系在一起。

例如，通过词素分割和词性标注将输入句子“I went to go to school.”提取为“I/名词”、“went/动词”、“to/介词”、“go/动词”、“to/介词”、“school/名词”，并且在词性串生成器210中，可通过应用Tri-gram来生成“I went to”、“went to go”、“go to school”、“to school(null)”、“school(null)(null)”等作为各个词性的词性串。

词性串生成器210预先设置窗口大小，并在错误检测中通过生成与所设置的窗口大小对应的词性来使用该窗口大小。为了详细检测，可通过改变窗口大小（例如，bi-gram和tri-gram）来生成并分析各个词性。

浅层句法分析器220针对由词性串生成器210生成的词性串，基于正则语法规则和上下文无关语法（CFG）规则来通过考虑彼此相邻的词性之间的连接关系对句法结构进行句法分析。

上下文无关语法规则称为一般英语语法，包括对与拼字法、冠词或时态有关的规则进行规范化的规则。

例如，上下文无关语法规则包括诸如这样的规则：时态为一般现在时，主语为单数形式的动词后附加“s”，“an”用于以元音开始的名词，“a”用于以辅音开始的名词。

此上下文无关语法规则存储在上下文无关语法知识DB260中，并在浅层句法分析器220进行句法分析的情况下提供此上下文无关语法规则。

正则语法规则定义无法由一般语法（即，上下文无关语法）定义，而是可根据彼此相邻的词性之间的亲密度或连接关系来进一步定义的例外规则。具体地讲，如图4所示，可参照拼字法、词之间的空格、冠词形式、冠词重叠、主语-动词不一致、词性混用、动词形式错误、不正确的搭配、不正确的词序、介词缺失、人称、多余限定词、多余介词等来定义规则。

例如，冠词“a”通常附在辅音前面，而冠词“an”附在第一音节不发音的名词前面，这是上下文无关语法。然而，冠词“an”附在名词“hoest”前面，这是正则语法。即，增加作为上下文无关语法规则的例外而应用的名词作为单独的规则是正则语法。

另外，作为正则语法规则的另一示例，在诸如“beggining”的打字错误的情况下，分析出不正确地使用了“beginning”，可检测校正草案“beginning”。

这种正则语法规则被存储在正则语法知识DB250中，并可以被提供用于浅层句法分析器220的句法分析，以作为参考。

因此，浅层句法分析器200利用所存储的上下文无关语法规则来直接分析简单语法错误，并利用正则语法规则根据彼此相邻的词性之间的连接关系来计算词性串的亲密度。如果词性的亲密度高，则浅层句法分析器220生成具有诸如名词短语、合成词、宾语短语和从属子句的诱生树（inducement tree）的对应词性串，如果亲密度低，则浅层句法分析器220利用独立的词代替短语，来生成具有形成各个词性串的词的诱生树。

确定亲密度是高还是低可通过设置用于确定的参考值并将亲密度与参考值进行比较来进行。或者，可通过计算可从词性串诱生出的多个诱生树的亲密度并确定亲密度的相对大小来进行。在这种情况下，可通过选择亲密度相对最高的诱生树来检测错误。

另外，浅层句法分析器220执行自下而上图表（chart）句法分析，其从标注的词性的右侧移位至左侧。由于自下而上图表句法分析不是用于一般句法分析的句法分析，所以对整个对象造句（S）不是目标。即，如果没有新形成节点，则句法分析停止。

错误检测器230基于通过浅层句法分析器220生成的分析结果从由句法分析器（图1的130）分析出的句法树检测错误。此时，错误检测器230利用n-gram进行检测，其将输入句子分割成具有特定部分的串，而非搜索整个输入句子，由此与针对整个句子的分析方法相比，可更快速且准确地进行错误检测。

错误校正部150基于上下文无关语法规则和正则语法规则来对由错误检测器140检测到的错误提示校正草案。

首先，为了评估句子，如果输入了撰写的输入句子，则自动句子评估装置将输入句子分割成句子和词素（S100）。

接下来，自动句子评估装置基于词性字典将词性标注到各个词素（S200）。

接下来，自动句子评估装置对分割出的句子执行句法分析，并提取句法树作为分析结果（S300）。

另外，自动句子评估装置利用浅层句法分析器对各个词性生成词性串以便确定所提取的句法树中是否存在错误，并以所生成的词性串为单位检测错误。

此后，自动句子评估装置校正所检测到的错误，并通过校正的句法树来评估句子（S500、S600）。可利用通过错误检测处理（S400）获得的校正草案来执行所述校正。

图5是示出错误检测处理（S400）的详细方法的流程图。

错误检测处理（S400）可由包括在自动句子评估装置中的错误检测设备来实现，或者由独立于自动句子评估装置而包括的错误检测设备来实现。

即，对于在词性标注处理（S200）中标注的各个词性，错误检测设备按照特定窗口单位生成词性串（S410）。

所述特定窗口表示将彼此相邻的2个、3个或更多个（n个）词性形成一组。bi-gram是将彼此相邻的2个词性形成一组，而tri-gram是将彼此相邻的3个词性形成一组。

错误检测设备利用n-gram（bi-gram、tri-gram等）按照设置的单位生成词性。

接下来，错误检测设备以词性串为单位执行浅层句法分析（S420）。

浅层句法分析基于存储的上下文无关语法规则和存储的正则语法规则考虑相邻词性之间的亲密度来分析句法结构。

具体地讲，利用所存储的上下文无关语法规则的知识，直接分析简单语法错误，同时，利用所存储的正则语法规则的知识，根据彼此相邻的词性之间的连接关系来计算词性的亲密度。如果词性的亲密度高，则可生成具有诸如名词短语、合成词、宾语短语和从属子句的诱生树的对应词性串，如果亲密度低，则可利用独立的词（而非短语）来生成具有形成各个词性串的词的诱生树。

接下来，错误检测设备基于分析结果检测从句法分析提取出的句法树的错误，并针对所检测出的错误提示校正草案（S430、S440）。

尽管已具体示出并描述了各种实施方式，但是本领域技术人员将理解，在不脱离本公开的主题和范围的情况下，可对其进行各种形式和细节上的改变。本公开和附图中使用的特定术语用于示意性目的，而不应被认为是对本公开的限制。本发明的范围应该由下述的权利要求请求保护的范围来解释，并且应该解释为，在与其等同的范围内的所有技术也应该被包含在本发明的范围内。

产业上的可利用性

如此前充分讨论的，在句法分析的情况下，传统句法分析不复杂地考虑词汇、词性、含义和上下文相关性，而是仅依赖于词性串信息，由此存在其准确度显著降低的问题。通过针对撰写的输入句子利用n-gram生成词性串并基于根据相邻词性之间的连接关系定义的规则来分析所生成的词性串，本文公开的实施方式可通过检测简单语法错误以及句子结构错误来增加针对句子的句子评估的准确度。就这一点，所公开的实施方式可能不应用于简单评估算法，而是通过应用于由企业进行的或者大学入学考试中的英语能力测试、作文评估等来实现自动评估。

Claims

1.一种用于自动评估句子的设备，该设备包括：

输入句子分割器，其被构造为将撰写的输入句子分割成词素，所述词素是句子的最小单元；

词性标注部，其被构造为将词性标注到所分割出的词素；

句法分析器，其被构造为基于词性来分析句子的句法结构并输出句法树作为分析结果；

句子评估部，其被构造为利用由所述句法分析器输出的所述句法树来评估所述句子语法上是否正确；以及

错误检测器，其被构造为针对由所述词性标注部标注的各个词性来利用n-gram生成词性串，基于根据彼此相邻的词性之间的连接关系定义的正则语法规则和上下文无关语法规则来分析所生成的词性串，以检测句法分析的错误，并针对所检测出的错误，向所述句法分析器提供校正草案。

2.一种利用浅层句法分析器来自动评估句子的撰写的错误检测设备，该错误检测设备包括：

词性串生成器，其被构造为针对标注到输入句子的各个词性，利用n-gram来按照预定窗口单位生成词性串；

浅层句法分析器，其被构造为基于上下文无关语法规则和正则语法规则来对所述词性串进行句法分析，并计算所述词性串的亲密度；

错误检测器，其被构造为根据由所述浅层句法分析器计算出的所述亲密度来检测错误；以及

错误校正部，其被构造为针对由所述错误检测器检测出的错误提供校正草案。

3.根据权利要求2所述的设备，其中，所述上下文无关语法规则包括对包括拼字法、冠词或时态的正规语法进行规范化的规则。

4.根据权利要求2所述的设备，其中，所述正则语法规则包括无法由上下文无关语法定义的例外规则以及能够根据彼此相邻的词性之间的亲密度或连接关系定义的规则。

5.根据权利要求2所述的设备，其中，所述浅层句法分析器还被构造为，如果针对词性计算出的所述亲密度大于参考值，则生成包括名词短语、合成词、宾语短语和从属子句的对应句法树，如果针对词性计算出的所述亲密度小于所述参考值，则利用独立的词代替短语来生成具有形成各个词性串的词的诱生树。

6.一种利用浅层句法分析器来自动评估句子的撰写的错误检测方法，该错误检测方法包括以下步骤：

针对标注到输入句子的各个词性，利用n-gram来按照预定窗口单位生成词性串；

基于上下文无关语法规则和正则语法规则来对所述词性串进行句法分析，从而计算所述词性串的亲密度；

根据所计算出的亲密度来检测错误；以及

针对所检测出的错误提供校正草案，以便对撰写的句子的句法分析的错误进行校正。

7.根据权利要求6所述的方法，其中，所述上下文无关语法规则包括对包括拼字法、冠词或时态的正规语法进行规范化的规则。

8.根据权利要求6所述的方法，其中，所述正则语法规则包括无法由上下文无关语法定义的例外规则以及能够根据彼此相邻的词性之间的亲密度或连接关系定义的规则。

9.根据权利要求6所述的方法，其中，计算所述亲密度的步骤包括以下步骤：如果针对词性计算出的所述亲密度大于参考值，则生成包括名词短语、合成词、宾语短语和从属子句的对应句法树，如果针对词性计算出的所述亲密度小于所述参考值，则利用独立的词代替短语来生成具有形成各个词性串的词的诱生树。