CN113642318A

CN113642318A - 英语文章的纠错方法、系统、存储介质及设备

Info

Publication number: CN113642318A
Application number: CN202111195110.4A
Authority: CN
Inventors: 张阳
Original assignee: Jiangxi Vaneducation Technology Inc
Current assignee: Jiangxi Wind Vane Intelligent Technology Co ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2021-11-12
Anticipated expiration: 2041-10-14
Also published as: CN113642318B

Abstract

本发明提供一种英语文章的纠错方法、系统、存储介质及设备，方法包括：获取一待批改的目标英语文章，对目标英语文章进行分句处理，以得到目标英语文章的每一个句子，通过预训练的序列标注模型对分句后的目标英语文章的每一个句子进行序列标注，以对目标英语文章的每一个句子中的每个单词标注标签，根据错误单词的标签识别出错误单词，根据错误单词的标签的类型确定对应的错误单词的错误类型。本发明通过训练好的序列标注模型对目标英语文章进行序列标注，能够快速的对目标英语文章中的每个单词打上标签，并根据错误单词的标签快速识别出文章中的错误单词，且能够根据标注的错误单词的标签的类型快速精细的识别出错误单词的错误类型。

Description

英语文章的纠错方法、系统、存储介质及设备

技术领域

本发明涉及教学作业批改领域，特别是涉及一种英语文章的纠错方法、系统、存储介质及设备。

背景技术

随着初高中英语作文的批改任务加重，一些初高中英语作文的自动批改系统也应运而生，英语作文自动批改系统不仅可以减轻教师的工作负担，还可以让学生自主进行作文的打分和修改，高效、准确的提高学生的写作能力和技巧。

然而现有的英语作文自动批改系统只能标出文章中的错误而无法对错误类型进行精细识别并批注，无法满足大部分师生的纠错需求。

发明内容

本发明的目的在于提出一种英语文章的纠错方法、系统、存储介质及设备，以解决现有的英语作文自动批改系统只能标出文章中的错误而无法对错误类型进行精细识别并批注，无法满足大部分师生的纠错需求的问题。

本发明提出一种英语文章的纠错方法，所述方法包括：

获取一待批改的目标英语文章，对所述目标英语文章进行分句处理，以得到所述目标英语文章的每一个句子；

通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签，所述标签包括错误单词的标签，所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签；

根据所述错误单词的标签识别出错误单词；

根据所述错误单词的标签的类型确定对应的错误单词的错误类型。

根据本发明提出的英语文章的纠错方法，具有以下有益效果：

综上，本发明提供的一种英语文章的纠错方法，有益效果在于：本发明通过获取一待批改的目标英语文章，对所述目标英语文章进行分句处理，以得到所述目标英语文章的每一个句子；通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签，所述标签包括错误单词的标签，所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签；根据所述错误单词的标签识别出错误单词；根据所述错误单词的标签的类型确定对应的错误单词的错误类型，以达到对文章中错误单词进行精细识别并纠错的目的。

本发明通过训练好的序列标注模型对所述目标英语文章进行序列标注，能够快速的对所述目标英语文章中的每个单词打上标签，并根据错误单词的标签快速识别出文章中的错误单词，且能够根据标注的所述错误单词的标签的类型快速精细的识别出错误单词的错误类型。

另外，根据本发明提供的英语文章的纠错方法，还可以具有如下附加的技术特征：

进一步地，所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括：

当所述错误单词中出现多种错误时，则通过预训练的所述序列标注模型对所述错误单词所在句子进行多次循环序列标注，每次循环仅标注所述错误单词的一种错误对应的标签。

进一步地，所述根据所错误单词的标签的类型确定对应的错误单词的错误类型的步骤后还包括：

通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构；

根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型。

进一步地，所述通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构的步骤包括：

通过预训练的所述句子分析模型将所述目标英语文章的每一个句子分解成若干组词语，并获取每组所述词语的结构及所述词语之间的语言学联系；

将每组所述词语分解成若干个单词并得到每个所述单词的词性；

根据每组所述词语的结构、所述词语之间的语言学联系及每个所述单词的词性分析得到所述目标英语文章的每一个句子的语法结构。

进一步地，所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤包括：

判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签；

若标注有所述词性变换类标签，则根据预设单词对照初高中常错类型语法库进行查找以筛选获得包含所述预设单词的初高中常错类型语法，所述预设单词为所述词性变换类标签对应标注的单词；

将所述目标英语文章的每一个句子的语法结构对照包含所述预设单词的初高中常错类型语法进行对比分析，识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。

进一步地，所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤还包括：

若没有标注所述词性变换类标签，则将所述目标英语文章的每一个句子的语法结构对照初高中常错类型语法库进行对比分析，识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。

进一步地，所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤前还包括：

建立样本库，所述样本库中的样本是包含错误单词并对所有单词进行手动标注的英语文章样本；

通过RoBERTa和XLNet结合的模型对所述样本库中的样本进行学习训练得到所述序列标注模型。

本发明提出一种英语文章的纠错系统，包括：

分句模块：用于获取一待批改的目标英语文章，对所述目标英语文章进行分句处理，以得到所述目标英语文章的每一个句子；

序列标注模块：用于通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签，所述标签包括错误单词的标签，所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签；

识别模块：用于根据所述错误单词的标签识别出错误单词；

确定模块：用于根据所述错误单词的标签的类型确定对应的错误单词的错误类型。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述的英语文章的纠错方法。

本发明还提出一种英语文章的纠错设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的英语文章的纠错方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明第一实施例英语文章的纠错方法的流程图；

图2为本发明第二实施例英语文章的纠错系统的系统框图；

图3为本发明第三实施例英语文章的纠错设备的结构示意图。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

实施例1

请参考图1，本发明的实施例提供一种英语文章的纠错方法，包括步骤S101~S104。

S101，获取一待批改的目标英语文章，对所述目标英语文章进行分句处理，以得到所述目标英语文章的每一个句子。

S102，通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签，所述标签包括错误单词的标签，所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签。

其中，所述词替换类标签用于指示单词出现错误，需要替换成另一个不同意思的单词的情况；所述插入类标签用于指示两个单词之间漏写了单词或标点符号，需要插入单词或标点符号的情况；所述删除类标签用于指示两个单词之间出现了单词或标点符号多余，需要删除多余单词或标点符号的情况；所述词性变换类标签用于指示单词的词性出现了错误需要变换的情况，如动词时态变换、大小写变换、单复数变换等，本发明错误单词的标签的类型包括但不限于词替换类标签、插入类标签、删除类标签和词性变换类标签。

所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括：

本发明通过预训练的所述序列标注模型对所述目标英语文章进行循环序列标注，若一个单词中出现多处错误，能够通过循环序列标注对单词进行叠加标注标签，以保证标注的精准性，防止出现漏纠现象。

所述通过训练好的序列标注模型对分句后的所述目标英语文章循环进行序列标注的步骤前还包括：

S103，根据所述错误单词的标签识别出错误单词。

S104，根据所述错误单词的标签的类型确定对应的错误单词的错误类型。

其中，所述根据所错误单词的标签的类型确定对应的错误单词的错误类型的步骤后还包括：

所述通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构的步骤包括：

本发明具体实施方式中是通过训练好的allennlp模型对序列标注后的所述目标英语文章进行成分分析和依存分析，能够得到每个句子的语法结构。

所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤包括：

具体的，一个单词如果出现词性错误，那么该单词一定存在语法错误，然而仅从一个单词的词性无法准确的判断出该单词在对应句子中的具体语法错误类型，如从句，因此，上述步骤通过所述词性变换类标签能够对有语法问题的预设单词进行准确定位，然后通过将所述预设单词在所述初高中常错类型语法库中进行查找，能够筛选出包含所述预设单词的所有初高中常错类型语法，进而缩减了与句中语法结构进行对比分析时的所述初高中常错类型语法的数据量，能够更方便的进行查找识别，得到识别结果，以达到对句中的语法错误及语法错误类型精细快速识别的目的。

所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤还包括：

具体的，如果某一语法结构中没有标注所述错误单词的标签，不代表该语法结构中不存在语法错误，因此，通过上述步骤对没有标注所述错误单词的标签的语法结构与所述初高中常错类型语法库进行对比分析，能够识别出该语法结构的语法错误及语法错误类型，以达到对语法错误及语法错误类型准确精细识别的目的。

实施例2

请参考图2，本实施例提供一种英语文章的纠错系统，包括：

分句模块：用于获取一待批改的目标英语文章，对所述目标英语文章进行分句处理，以得到所述目标英语文章的每一个句子。

序列标注模块：用于通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签，所述标签包括错误单词的标签，所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签。

其中，所述序列标注模块还用于：

所述序列标注模块还用于：

识别模块：用于根据所述错误单词的标签识别出错误单词。

其中，所述确定模块还用于：

所述确定模块还用于：

实施例3

请参考图3，本发明还提出一种英语文章的纠错设备，所示为本发明第三实施例当中的英语文章的纠错设备，包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30，所述处理器10执行所述计算机程序30时实现如上述的英语文章的纠错方法。

其中，所述英语文章的纠错设备具体可以为计算机、服务器、上位机等，处理器10在一些实施例中可以是中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器20中存储的程序代码或处理数据，例如执行访问限制程序等。

其中，存储器20至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是英语文章的纠错设备的内部存储单元，例如该英语文章的纠错设备的硬盘。存储器20在另一些实施例中也可以是英语文章的纠错设备的外部存储装置，例如英语文章的纠错设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器20还可以既包括英语文章的纠错设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于英语文章的纠错设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

需要指出的是，图3示出的结构并不构成对英语文章的纠错设备的限定，在其它实施例当中，该英语文章的纠错设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的英语文章的纠错方法。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种英语文章的纠错方法，其特征在于，所述方法包括：

根据所述错误单词的标签识别出错误单词；

2.根据权利要求1所述的英语文章的纠错方法，其特征在于，所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括：

3.根据权利要求1所述的英语文章的纠错方法，其特征在于，所述根据所错误单词的标签的类型确定对应的错误单词的错误类型的步骤后还包括：

4.根据权利要求3所述的英语文章的纠错方法，其特征在于，所述通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构的步骤包括：

5.根据权利要求4所述的英语文章的纠错方法，其特征在于，所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤包括：

6.根据权利要求4所述的英语文章的纠错方法，其特征在于，所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤还包括：

7.根据权利要求1所述的英语文章的纠错方法，其特征在于，所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注，以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤前还包括：

8.一种英语文章的纠错系统，其特征在于，包括：

识别模块：用于根据所述错误单词的标签识别出错误单词；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1－7任一所述的英语文章的纠错方法。

10.一种英语文章的纠错设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1－7任一所述的英语文章的纠错方法。