CN113642318A - 英语文章的纠错方法、系统、存储介质及设备 - Google Patents
英语文章的纠错方法、系统、存储介质及设备 Download PDFInfo
- Publication number
- CN113642318A CN113642318A CN202111195110.4A CN202111195110A CN113642318A CN 113642318 A CN113642318 A CN 113642318A CN 202111195110 A CN202111195110 A CN 202111195110A CN 113642318 A CN113642318 A CN 113642318A
- Authority
- CN
- China
- Prior art keywords
- sentence
- error
- word
- english article
- target english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供一种英语文章的纠错方法、系统、存储介质及设备,方法包括:获取一待批改的目标英语文章,对目标英语文章进行分句处理,以得到目标英语文章的每一个句子,通过预训练的序列标注模型对分句后的目标英语文章的每一个句子进行序列标注,以对目标英语文章的每一个句子中的每个单词标注标签,根据错误单词的标签识别出错误单词,根据错误单词的标签的类型确定对应的错误单词的错误类型。本发明通过训练好的序列标注模型对目标英语文章进行序列标注,能够快速的对目标英语文章中的每个单词打上标签,并根据错误单词的标签快速识别出文章中的错误单词,且能够根据标注的错误单词的标签的类型快速精细的识别出错误单词的错误类型。
Description
技术领域
本发明涉及教学作业批改领域,特别是涉及一种英语文章的纠错方法、系统、存储介质及设备。
背景技术
随着初高中英语作文的批改任务加重,一些初高中英语作文的自动批改系统也应运而生,英语作文自动批改系统不仅可以减轻教师的工作负担,还可以让学生自主进行作文的打分和修改,高效、准确的提高学生的写作能力和技巧。
然而现有的英语作文自动批改系统只能标出文章中的错误而无法对错误类型进行精细识别并批注,无法满足大部分师生的纠错需求。
发明内容
本发明的目的在于提出一种英语文章的纠错方法、系统、存储介质及设备,以解决现有的英语作文自动批改系统只能标出文章中的错误而无法对错误类型进行精细识别并批注,无法满足大部分师生的纠错需求的问题。
本发明提出一种英语文章的纠错方法,所述方法包括:
获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子;
通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签;
根据所述错误单词的标签识别出错误单词;
根据所述错误单词的标签的类型确定对应的错误单词的错误类型。
根据本发明提出的英语文章的纠错方法,具有以下有益效果:
综上,本发明提供的一种英语文章的纠错方法,有益效果在于:本发明通过获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子;通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签;根据所述错误单词的标签识别出错误单词;根据所述错误单词的标签的类型确定对应的错误单词的错误类型,以达到对文章中错误单词进行精细识别并纠错的目的。
本发明通过训练好的序列标注模型对所述目标英语文章进行序列标注,能够快速的对所述目标英语文章中的每个单词打上标签,并根据错误单词的标签快速识别出文章中的错误单词,且能够根据标注的所述错误单词的标签的类型快速精细的识别出错误单词的错误类型。
另外,根据本发明提供的英语文章的纠错方法,还可以具有如下附加的技术特征:
进一步地,所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括:
当所述错误单词中出现多种错误时,则通过预训练的所述序列标注模型对所述错误单词所在句子进行多次循环序列标注,每次循环仅标注所述错误单词的一种错误对应的标签。
进一步地,所述根据所错误单词的标签的类型确定对应的错误单词的错误类型的步骤后还包括:
通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构;
根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型。
进一步地,所述通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构的步骤包括:
通过预训练的所述句子分析模型将所述目标英语文章的每一个句子分解成若干组词语,并获取每组所述词语的结构及所述词语之间的语言学联系;
将每组所述词语分解成若干个单词并得到每个所述单词的词性;
根据每组所述词语的结构、所述词语之间的语言学联系及每个所述单词的词性分析得到所述目标英语文章的每一个句子的语法结构。
进一步地,所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤包括:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若标注有所述词性变换类标签,则根据预设单词对照初高中常错类型语法库进行查找以筛选获得包含所述预设单词的初高中常错类型语法,所述预设单词为所述词性变换类标签对应标注的单词;
将所述目标英语文章的每一个句子的语法结构对照包含所述预设单词的初高中常错类型语法进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
进一步地,所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤还包括:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若没有标注所述词性变换类标签,则将所述目标英语文章的每一个句子的语法结构对照初高中常错类型语法库进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
进一步地,所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤前还包括:
建立样本库,所述样本库中的样本是包含错误单词并对所有单词进行手动标注的英语文章样本;
通过RoBERTa和XLNet结合的模型对所述样本库中的样本进行学习训练得到所述序列标注模型。
本发明提出一种英语文章的纠错系统,包括:
分句模块:用于获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子;
序列标注模块:用于通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签;
识别模块:用于根据所述错误单词的标签识别出错误单词;
确定模块:用于根据所述错误单词的标签的类型确定对应的错误单词的错误类型。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述的英语文章的纠错方法。
本发明还提出一种英语文章的纠错设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的英语文章的纠错方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明第一实施例英语文章的纠错方法的流程图;
图2为本发明第二实施例英语文章的纠错系统的系统框图;
图3为本发明第三实施例英语文章的纠错设备的结构示意图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
实施例1
请参考图1,本发明的实施例提供一种英语文章的纠错方法,包括步骤S101~S104。
S101,获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子。
S102,通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签。
其中,所述词替换类标签用于指示单词出现错误,需要替换成另一个不同意思的单词的情况;所述插入类标签用于指示两个单词之间漏写了单词或标点符号,需要插入单词或标点符号的情况;所述删除类标签用于指示两个单词之间出现了单词或标点符号多余,需要删除多余单词或标点符号的情况;所述词性变换类标签用于指示单词的词性出现了错误需要变换的情况,如动词时态变换、大小写变换、单复数变换等,本发明错误单词的标签的类型包括但不限于词替换类标签、插入类标签、删除类标签和词性变换类标签。
所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括:
当所述错误单词中出现多种错误时,则通过预训练的所述序列标注模型对所述错误单词所在句子进行多次循环序列标注,每次循环仅标注所述错误单词的一种错误对应的标签。
本发明通过预训练的所述序列标注模型对所述目标英语文章进行循环序列标注,若一个单词中出现多处错误,能够通过循环序列标注对单词进行叠加标注标签,以保证标注的精准性,防止出现漏纠现象。
所述通过训练好的序列标注模型对分句后的所述目标英语文章循环进行序列标注的步骤前还包括:
建立样本库,所述样本库中的样本是包含错误单词并对所有单词进行手动标注的英语文章样本;
通过RoBERTa和XLNet结合的模型对所述样本库中的样本进行学习训练得到所述序列标注模型。
S103,根据所述错误单词的标签识别出错误单词。
S104,根据所述错误单词的标签的类型确定对应的错误单词的错误类型。
其中,所述根据所错误单词的标签的类型确定对应的错误单词的错误类型的步骤后还包括:
通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构;
根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型。
所述通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构的步骤包括:
通过预训练的所述句子分析模型将所述目标英语文章的每一个句子分解成若干组词语,并获取每组所述词语的结构及所述词语之间的语言学联系;
将每组所述词语分解成若干个单词并得到每个所述单词的词性;
根据每组所述词语的结构、所述词语之间的语言学联系及每个所述单词的词性分析得到所述目标英语文章的每一个句子的语法结构。
本发明具体实施方式中是通过训练好的allennlp模型对序列标注后的所述目标英语文章进行成分分析和依存分析,能够得到每个句子的语法结构。
所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤包括:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若标注有所述词性变换类标签,则根据预设单词对照初高中常错类型语法库进行查找以筛选获得包含所述预设单词的初高中常错类型语法,所述预设单词为所述词性变换类标签对应标注的单词;
将所述目标英语文章的每一个句子的语法结构对照包含所述预设单词的初高中常错类型语法进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
具体的,一个单词如果出现词性错误,那么该单词一定存在语法错误,然而仅从一个单词的词性无法准确的判断出该单词在对应句子中的具体语法错误类型,如从句,因此,上述步骤通过所述词性变换类标签能够对有语法问题的预设单词进行准确定位,然后通过将所述预设单词在所述初高中常错类型语法库中进行查找,能够筛选出包含所述预设单词的所有初高中常错类型语法,进而缩减了与句中语法结构进行对比分析时的所述初高中常错类型语法的数据量,能够更方便的进行查找识别,得到识别结果,以达到对句中的语法错误及语法错误类型精细快速识别的目的。
所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤还包括:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若没有标注所述词性变换类标签,则将所述目标英语文章的每一个句子的语法结构对照初高中常错类型语法库进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
具体的,如果某一语法结构中没有标注所述错误单词的标签,不代表该语法结构中不存在语法错误,因此,通过上述步骤对没有标注所述错误单词的标签的语法结构与所述初高中常错类型语法库进行对比分析,能够识别出该语法结构的语法错误及语法错误类型,以达到对语法错误及语法错误类型准确精细识别的目的。
综上,本发明提供的一种英语文章的纠错方法,有益效果在于:本发明通过获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子;通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签;根据所述错误单词的标签识别出错误单词;根据所述错误单词的标签的类型确定对应的错误单词的错误类型,以达到对文章中错误单词进行精细识别并纠错的目的。
本发明通过训练好的序列标注模型对所述目标英语文章进行序列标注,能够快速的对所述目标英语文章中的每个单词打上标签,并根据错误单词的标签快速识别出文章中的错误单词,且能够根据标注的所述错误单词的标签的类型快速精细的识别出错误单词的错误类型。
实施例2
请参考图2,本实施例提供一种英语文章的纠错系统,包括:
分句模块:用于获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子。
序列标注模块:用于通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签。
其中,所述序列标注模块还用于:
所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括:
当所述错误单词中出现多种错误时,则通过预训练的所述序列标注模型对所述错误单词所在句子进行多次循环序列标注,每次循环仅标注所述错误单词的一种错误对应的标签。
所述序列标注模块还用于:
建立样本库,所述样本库中的样本是包含错误单词并对所有单词进行手动标注的英语文章样本;
通过RoBERTa和XLNet结合的模型对所述样本库中的样本进行学习训练得到所述序列标注模型。
识别模块:用于根据所述错误单词的标签识别出错误单词。
确定模块:用于根据所述错误单词的标签的类型确定对应的错误单词的错误类型。
其中,所述确定模块还用于:
通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构;
根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型。
所述确定模块还用于:
通过预训练的所述句子分析模型将所述目标英语文章的每一个句子分解成若干组词语,并获取每组所述词语的结构及所述词语之间的语言学联系;
将每组所述词语分解成若干个单词并得到每个所述单词的词性;
根据每组所述词语的结构、所述词语之间的语言学联系及每个所述单词的词性分析得到所述目标英语文章的每一个句子的语法结构。
所述确定模块还用于:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若标注有所述词性变换类标签,则根据预设单词对照初高中常错类型语法库进行查找以筛选获得包含所述预设单词的初高中常错类型语法,所述预设单词为所述词性变换类标签对应标注的单词;
将所述目标英语文章的每一个句子的语法结构对照包含所述预设单词的初高中常错类型语法进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
所述确定模块还用于:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若没有标注所述词性变换类标签,则将所述目标英语文章的每一个句子的语法结构对照初高中常错类型语法库进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
实施例3
请参考图3,本发明还提出一种英语文章的纠错设备,所示为本发明第三实施例当中的英语文章的纠错设备,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器10执行所述计算机程序30时实现如上述的英语文章的纠错方法。
其中,所述英语文章的纠错设备具体可以为计算机、服务器、上位机等,处理器10在一些实施例中可以是中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是英语文章的纠错设备的内部存储单元,例如该英语文章的纠错设备的硬盘。存储器20在另一些实施例中也可以是英语文章的纠错设备的外部存储装置,例如英语文章的纠错设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括英语文章的纠错设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于英语文章的纠错设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要指出的是,图3示出的结构并不构成对英语文章的纠错设备的限定,在其它实施例当中,该英语文章的纠错设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的英语文章的纠错方法。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种英语文章的纠错方法,其特征在于,所述方法包括:
获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子;
通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签;
根据所述错误单词的标签识别出错误单词;
根据所述错误单词的标签的类型确定对应的错误单词的错误类型。
2.根据权利要求1所述的英语文章的纠错方法,其特征在于,所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤包括:
当所述错误单词中出现多种错误时,则通过预训练的所述序列标注模型对所述错误单词所在句子进行多次循环序列标注,每次循环仅标注所述错误单词的一种错误对应的标签。
3.根据权利要求1所述的英语文章的纠错方法,其特征在于,所述根据所错误单词的标签的类型确定对应的错误单词的错误类型的步骤后还包括:
通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构;
根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型。
4.根据权利要求3所述的英语文章的纠错方法,其特征在于,所述通过预训练的句子分析模型对所述目标英语文章的每一个句子进行成分分析和依存分析以得到所述目标英语文章的每一个句子的语法结构的步骤包括:
通过预训练的所述句子分析模型将所述目标英语文章的每一个句子分解成若干组词语,并获取每组所述词语的结构及所述词语之间的语言学联系;
将每组所述词语分解成若干个单词并得到每个所述单词的词性;
根据每组所述词语的结构、所述词语之间的语言学联系及每个所述单词的词性分析得到所述目标英语文章的每一个句子的语法结构。
5.根据权利要求4所述的英语文章的纠错方法,其特征在于,所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤包括:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若标注有所述词性变换类标签,则根据预设单词对照初高中常错类型语法库进行查找以筛选获得包含所述预设单词的初高中常错类型语法,所述预设单词为所述词性变换类标签对应标注的单词;
将所述目标英语文章的每一个句子的语法结构对照包含所述预设单词的初高中常错类型语法进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
6.根据权利要求4所述的英语文章的纠错方法,其特征在于,所述根据所述目标英语文章的每一个句子的语法结构并结合所述目标英语文章中所述错误单词的标签的类型进行分析识别出所述目标英语文章中的语法错误及语法错误类型的步骤还包括:
判断所述目标英语文章的每一个句子的语法结构中是否标注有所述词性变换类标签;
若没有标注所述词性变换类标签,则将所述目标英语文章的每一个句子的语法结构对照初高中常错类型语法库进行对比分析,识别出所述目标英语文章的每一个句子的语法结构的语法错误及语法错误类型。
7.根据权利要求1所述的英语文章的纠错方法,其特征在于,所述通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签的步骤前还包括:
建立样本库,所述样本库中的样本是包含错误单词并对所有单词进行手动标注的英语文章样本;
通过RoBERTa和XLNet结合的模型对所述样本库中的样本进行学习训练得到所述序列标注模型。
8.一种英语文章的纠错系统,其特征在于,包括:
分句模块:用于获取一待批改的目标英语文章,对所述目标英语文章进行分句处理,以得到所述目标英语文章的每一个句子;
序列标注模块:用于通过预训练的序列标注模型对分句后的所述目标英语文章的每一个句子进行序列标注,以对所述目标英语文章的每一个句子中的每个单词标注标签,所述标签包括错误单词的标签,所述错误单词的标签的类型包括词替换类标签、插入类标签、删除类标签和词性变换类标签;
识别模块:用于根据所述错误单词的标签识别出错误单词;
确定模块:用于根据所述错误单词的标签的类型确定对应的错误单词的错误类型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的英语文章的纠错方法。
10.一种英语文章的纠错设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一所述的英语文章的纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111195110.4A CN113642318B (zh) | 2021-10-14 | 2021-10-14 | 英语文章的纠错方法、系统、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111195110.4A CN113642318B (zh) | 2021-10-14 | 2021-10-14 | 英语文章的纠错方法、系统、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642318A true CN113642318A (zh) | 2021-11-12 |
CN113642318B CN113642318B (zh) | 2022-01-28 |
Family
ID=78426744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111195110.4A Active CN113642318B (zh) | 2021-10-14 | 2021-10-14 | 英语文章的纠错方法、系统、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642318B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
WO2014025135A1 (ko) * | 2012-08-10 | 2014-02-13 | 에스케이텔레콤 주식회사 | 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체 |
CN105824804A (zh) * | 2016-03-31 | 2016-08-03 | 长安大学 | 基于词库的英语拼写纠错工具和方法 |
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
CN106776549A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种基于规则的英语作文语法错误纠正方法 |
KR101813683B1 (ko) * | 2016-08-17 | 2017-12-29 | 창원대학교 산학협력단 | 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 |
CN108519974A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 英语作文语法错误自动检测与分析方法 |
CN110399936A (zh) * | 2019-08-06 | 2019-11-01 | 北京先声智能科技有限公司 | 一种用于训练英语语法改错模型的文本数据生成方法 |
CN110705262A (zh) * | 2019-09-06 | 2020-01-17 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
CN111680493A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 英语文本分析方法、装置、可读存储介质及计算机设备 |
CN111753532A (zh) * | 2020-06-29 | 2020-10-09 | 北京百度网讯科技有限公司 | 西文文本的纠错方法和装置、电子设备及存储介质 |
CN112528651A (zh) * | 2021-02-08 | 2021-03-19 | 深圳市阿卡索资讯股份有限公司 | 一种智能批改方法、系统、电子设备及存储介质 |
US20210118436A1 (en) * | 2019-10-21 | 2021-04-22 | Lg Electronics Inc. | Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word |
CN113076739A (zh) * | 2021-04-09 | 2021-07-06 | 厦门快商通科技股份有限公司 | 一种实现跨领域的中文文本纠错方法和系统 |
CN113255329A (zh) * | 2021-05-06 | 2021-08-13 | 北京智通东方软件科技有限公司 | 英文文本拼写纠错方法、装置、存储介质及电子设备 |
US20210271810A1 (en) * | 2020-03-02 | 2021-09-02 | Grammarly Inc. | Proficiency and native language-adapted grammatical error correction |
-
2021
- 2021-10-14 CN CN202111195110.4A patent/CN113642318B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014025135A1 (ko) * | 2012-08-10 | 2014-02-13 | 에스케이텔레콤 주식회사 | 문법 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체 |
CN103365838A (zh) * | 2013-07-24 | 2013-10-23 | 桂林电子科技大学 | 基于多元特征的英语作文语法错误自动纠正方法 |
CN105824804A (zh) * | 2016-03-31 | 2016-08-03 | 长安大学 | 基于词库的英语拼写纠错工具和方法 |
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
KR101813683B1 (ko) * | 2016-08-17 | 2017-12-29 | 창원대학교 산학협력단 | 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법 |
CN106776549A (zh) * | 2016-12-06 | 2017-05-31 | 桂林电子科技大学 | 一种基于规则的英语作文语法错误纠正方法 |
CN108519974A (zh) * | 2018-03-31 | 2018-09-11 | 华南理工大学 | 英语作文语法错误自动检测与分析方法 |
CN110399936A (zh) * | 2019-08-06 | 2019-11-01 | 北京先声智能科技有限公司 | 一种用于训练英语语法改错模型的文本数据生成方法 |
CN110705262A (zh) * | 2019-09-06 | 2020-01-17 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
US20210118436A1 (en) * | 2019-10-21 | 2021-04-22 | Lg Electronics Inc. | Artificial intelligence apparatus and method for recognizing speech by correcting misrecognized word |
US20210271810A1 (en) * | 2020-03-02 | 2021-09-02 | Grammarly Inc. | Proficiency and native language-adapted grammatical error correction |
CN111753532A (zh) * | 2020-06-29 | 2020-10-09 | 北京百度网讯科技有限公司 | 西文文本的纠错方法和装置、电子设备及存储介质 |
CN111680493A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 英语文本分析方法、装置、可读存储介质及计算机设备 |
CN112528651A (zh) * | 2021-02-08 | 2021-03-19 | 深圳市阿卡索资讯股份有限公司 | 一种智能批改方法、系统、电子设备及存储介质 |
CN113076739A (zh) * | 2021-04-09 | 2021-07-06 | 厦门快商通科技股份有限公司 | 一种实现跨领域的中文文本纠错方法和系统 |
CN113255329A (zh) * | 2021-05-06 | 2021-08-13 | 北京智通东方软件科技有限公司 | 英文文本拼写纠错方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
JUNG-HUN LEE; MINHO KIM; HYUK-CHUL KWON: "Deep Learning-Based Context-Sensitive Spelling Typing Error Correction", 《IEEE ACCESS》 * |
燕文会: "基于语料库的高三学生英语作文中动词使用错误分析", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642318B (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
Kasewa et al. | Wronging a right: Generating better errors to improve grammatical error detection | |
CN110134949B (zh) | 一种基于教师监督的文本标注方法和设备 | |
US11157686B2 (en) | Text sequence segmentation method, apparatus and device, and storage medium thereof | |
CN108932218B (zh) | 一种实例扩展方法、装置、设备和介质 | |
JP2011118526A (ja) | 単語意味関係抽出装置 | |
US11551146B2 (en) | Automated non-native table representation annotation for machine-learning models | |
CN112579466B (zh) | 测试用例的生成方法、装置及计算机可读存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN110147546B (zh) | 一种英语口语的语法校正方法及装置 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN109614623B (zh) | 一种基于句法分析的作文处理方法及系统 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN116861242A (zh) | 基于语言判别提示的语言感知多语言预训练与微调方法 | |
CN105786971A (zh) | 一种面向国际汉语教学的语法点识别方法 | |
CN113642318B (zh) | 英语文章的纠错方法、系统、存储介质及设备 | |
CN117077657A (zh) | 一种无监督语法纠错方法、装置、终端及介质 | |
Rosen | Building and Using Corpora of Non-Native Czech. | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
CN114358032A (zh) | 一种机器翻译错误检测模型训练方法、装置、设备及介质 | |
CN114580391A (zh) | 中文错误检测模型训练方法、装置、设备及存储介质 | |
CN112528651A (zh) | 一种智能批改方法、系统、电子设备及存储介质 | |
CN113515588A (zh) | 表单数据检测方法、计算机装置及存储介质 | |
CN110765792A (zh) | 基于词类别的神经网络机器翻译方法及系统、训练方法 | |
Garrido et al. | Recovering damaged documents to improve information retrieval processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province Patentee after: Jiangxi wind vane Intelligent Technology Co.,Ltd. Address before: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province Patentee before: JIANGXI VANEDUCATION TECHNOLOGY Inc. |
|
CP01 | Change in the name or title of a patent holder |