CN103365838B - 基于多元特征的英语作文语法错误自动纠正方法 - Google Patents

基于多元特征的英语作文语法错误自动纠正方法 Download PDF

Info

Publication number
CN103365838B
CN103365838B CN201310311955.4A CN201310311955A CN103365838B CN 103365838 B CN103365838 B CN 103365838B CN 201310311955 A CN201310311955 A CN 201310311955A CN 103365838 B CN103365838 B CN 103365838B
Authority
CN
China
Prior art keywords
word
speech
grammer
grammar
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310311955.4A
Other languages
English (en)
Other versions
CN103365838A (zh
Inventor
黄桂敏
周娅
王晓娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201310311955.4A priority Critical patent/CN103365838B/zh
Publication of CN103365838A publication Critical patent/CN103365838A/zh
Application granted granted Critical
Publication of CN103365838B publication Critical patent/CN103365838B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

基于多元特征的英语作文语法错误自动纠正方法,包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;其中语法纠错预处理模块对输入的训练文本集进行单词词性标注、句子句法解析和单词词频统计;语法纠错模型训练模块对输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征、单词及其词性的语法特征,计算单词语法特征权重,输出语法纠错统计模型;语法错误检查纠正模块利用语法纠错统计模型和语法纠错规则模型对待纠错作文进行语法纠错,输出英语作文中语法错误的纠正结果。该方法实现了对英语作文中常见11种英语语法错误自动纠正。

Description

基于多元特征的英语作文语法错误自动纠正方法
技术领域
本发明涉及自然语言处理技术与统计学,具体是基于多元特征的英语作文语法错误自动纠正方法。
背景技术
目前,英语作文语法错误的自动纠正方法主要分为两类,即:基于规则的英语作文语法错误自动纠正方法和基于统计的英语作文语法错误自动纠正方法。其中,基于规则的英语作文语法错误自动纠正方法是:通过分析英语句子的语法特征,总结归纳出固定的英语语法规则来构建英语句子语法规则纠错模型,当对英语作文的语法错误进行纠正时,构建英语句子语法规则纠错模型对英语作文中句子的语法进行检查,判断它们是否符合模型中存在的语法规则,来实现对英语作文中语法错误的自动纠正。基于统计的英语作文语法错误自动纠正方法是:通过训练文本集来构建英语句子的语法纠错统计模型,使用英语句子的语法纠错统计模型对英语作文中语法错误进行纠正处理。然而,这两种英语作文语法错误的自动纠正方法都存在如下优点与缺点。
1、基于规则的英语作文语法错误自动纠正方法
优点:纠错准确率高、执行效率高、使用简单,并且对于一些语法固定搭配、某些单词特殊用法、固定的语法规则、语法时态数一致性具有较好的纠错效果。
缺点:由于英语使用的灵活性和多变性,构建一种英语语法规则模型要花费较长时间,而且总结归纳的英语语法规则只能覆盖局限语法规则,英语语法错误纠正类型有限。
2、基于统计的英语作文语法错误自动纠正方法
优点:对于难以用语法规则描述的英语语法错误,这种方法具有较好的纠正效果。
缺点:英语语法纠错正确率受到训练文本集规模、语法特征提取广度和精度、训练构建的语法统计纠错模型好坏的影响,所以这种方法的纠错正确率有待改进。
总之,英语作文语法错误的自动纠正技术具有非常广阔的应用前景,例如:作者利用它自动纠正其英语作文中语法错误,以提高自身的英语写作水平;英语机器翻译系统使用它纠正输出的翻译结果,以提高英语机器翻译系统的译文准确度。
发明内容
本发明的目的是提供基于多元特征的英语作文语法错误自动纠正方法。
基于多元特征的英语作文语法错误自动纠正方法,其中包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;
语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;
语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词词性语法混淆集,根据单词词性语法混淆集提取单词词性上下文语法特征、单词词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,输出语法纠错统计模型;
语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,输出英语作文中语法错误的纠正结果。
所述的语法纠错预处理模块具体处理流程如下:
S0201开始;
S0202读入训练文本集;
S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;
S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;
S0205遍历单词词性标注库;
S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;
S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;
S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0210遍历句子句法树结构库;
S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;
S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;
S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0214当前短语及其词性加入单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;
S0216结束。
所述的语法纠错模型训练模块具体处理流程如下
S0301开始;
S0302读入单词词性标注库、句子句法树结构库和单词词性语法混淆集;
S0303将句子分割成单词词性单元,生成单词词性单元列表;
S0304遍历单词词性单元列表;
S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;
S0306如果当前单词在单词词性语法混淆集中,则转S0307操作;否则转S0305操作;
S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;
S0308计算当前单词语法特征权重;
S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权重,转S0305操作;
S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠错统计模型;
S0311结束。
所述的语法错误检查纠正模块具体处理流程如下:
S0401开始;
S0402读入一篇待纠错英语作文;
S0403遍历作文中英语句子;
S0404如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;
S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;
S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;
S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中定义的对应纠错方法进行语法纠错;
S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;
S0409输出待纠错英语作文的语法纠错结果;
S0410结束。
本发明中,所述的单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词。
所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。
所述的单词语法特征权重的计算公式如下:
单词语法特征权重=单词语法特征相关度×单词语法特征贡献度
其中:单词语法特征相关度的计算按下式:
单词语法特征贡献度的计算公式如下:
i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号,n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。
如果单词语法特征相关度大于等于零,则表示该单词语法特征与该单词之间存在符合语法规则的语法依赖关系;如果单词语法特征相关度小于零,则表示单词语法特征与该单词之间不存在语法依赖关系。
所述的当前单词分值计算公式如下:
单词分值=Σ(1≤j≤m)(系数j×单词语法特征权重j
j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号。如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0。
m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。
本发明的方法能够实现对英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误、单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误共11种英语作文错误的自动纠正。
本发明中的定义如下:
Ⅰ.训练文本集
训练文本集取材于多种英文文章,它们是不包含任何单词错误、语法错误、表达错误的正确英语短文。
Ⅱ.单词词性标注集
单词词性标注集采用美国宾州大学宾州树库词性标注集,它用于对训练文本集中单词进行词性标注。
Ⅲ.单词词性标注库
单词词性标注库是对训练文本集进行单词词性标注处理后输出的结果,它的格式如下:
训练文本集第1个句子:单词1/词性1单词2/词性2......单词i/词性i<回车>
训练文本集第2个句子:单词1/词性1单词2/词性2.......单词j/词性j<回车>
训练文本集第n个句子:单词1/词性1单词2/词性2.......单词k/词性k<回车>
Ⅳ.句子句法树结构库
句子句法树结构库是对训练文本集句子句法解析的结果,它由短语单词结构和单词语法依赖结构组成,短语单词结构表示句子中短语词性与单词词性之间的关系,短语词性标注采用美国宾州大学宾州树库标注集,它的格式如下:
单词语法依赖结构表示句子中两个单词之间的单词语法依赖关系,它的格式如下:
单词语法依赖关系1(单词x-单词标号x,单词y-单词标号y
单词语法依赖关系n(单词x-单词标号x,单词y-单词标号y
Ⅴ.单词词频统计库
单词词频统计库是对训练文本集的单词、单词对、词性、词性对、短语出现的次数的统计结果,简称词频。它的格式如下:
单词1^词频<回车>
单词i^词频<回车>
词性1^词频<回车>
词性j^词频<回车>
单词1^单词x^词频<回车>
单词k^单词x^词频<回车>
短语1^词频<回车>
短语n^词频<回车>
Ⅵ.单词词性语法混淆集
单词词性语法混淆集包括易混介词、易混词性、易混冠词和易混助动词,它们的具体内容如下表1所示:
表1:单词词性语法混淆集
Ⅶ.单词多元语法特征集
单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征,它们的具体内容如下表2所示:
表2:单词多元语法特征集
VIII.语法纠错统计模型
语法纠错统计模型是通过提取训练文本集中单词的语法特征,并计算单词的语法特征的权重,生成用于纠正英语作文语法错误的语法纠错统计模型,它的格式如下:
单词1^语法特征1^权重1
......
单词1^语法特征i^权重i
单词n^语法特征1^权重1
单词n^语法特征j^权重j
Ⅸ.语法纠错规则模型
语法纠错规则模型是本发明总结归纳的英语语法错误规则,它包括片段错误、名词数不一致性错误、形容词比较级最高级错误、动词与其补语修饰成分不搭配、单词重复使用错误,它的具体内容如下表3所示:
表3:语法纠错规则模型
附图说明
图1是本发明方法的总体处理流程图;
图2是语法纠错预处理模块处理流程图;
图3是语法纠错模型训练模块处理流程图;
图4是语法错误检查纠正模块处理流程图。
具体实施方式
本发明的基于多元特征的英语作文语法错误自动纠正方法的具体实施方式分为如下三个步骤。
第一步骤:执行“语法纠错预处理模块”
(1)对训练文本集进行预处理,用于预处理的训练文本集取材于多种英文文章,它们是不包含任何单词错误、语法错误、表达错误的50万字正确英语短文,其中一段英语短文内容如下所示:
Inallmylifethereareseveralpeoplewhohelpmealotatmycrucialmoments,amongwhommydearseconduncleinfluencesmemost.Sincemychildhood,mybeloveduncle,whowasapersonofintegrityandalearnedmanknownfarandnear,hastoldmeagainandagaintobeagoodboyandtobeatopstudentaswellasanhonestman.BeingaboyInevermadeanymischiefortoldalie.WhenIenteredAnhuiUniversity,myrespectedunclewasverymuchpleased.Hewassojoyfulthathetoldthegoodnewstoeveryonehemet.AsIwasthefirstcollegestudentinmyhometown,heentertainedmewithagoodmealasanencouragementandareward.
(2)对上述训练文本集中一段英语短文内容进行单词词性标注处理后,生成的单词词性标注库如下所示:
In/INall/DTmy/PRP$life/NNthere/EXare/VBPseveral/JJpeople/NNSwho/WPhelp/VBPme/PRPa/DTlot/NNat/INmy/PRP$crucial/JJmoments/NNS,/,among/INwhom/WPmy/PRP$dear/RBsecond/JJuncle/NNinfluences/VBZme/PRPmost/JJS./.
Since/INmy/PRP$childhood/NN,/,my/PRP$beloved/JJuncle/NN,/,who/WPwas/VBDa/DTperson/NNof/INintegrity/NNand/CCa/DTlearned/VBNman/NNknown/VBNfar/RBand/CCnear/RB,/,has/VBZtold/VBNme/PRPagain/RBand/CCagain/RBto/TObe/VBa/DTgood/JJboy/NNand/CCto/TObe/VBa/DTtop/JJstudent/NNas/RBwell/RBas/INan/DThonest/JJman/NN./.
Being/VBGa/DTboy/NNI/PRPnever/RBmade/VBDany/DTmischief/NNor/CCtold/VBDa/DTlie/NN./.
When/WRBI/PRPentered/VBDAnhui/NNPUniversity/NNP,/,my/PRP$respected/JJuncle/NNwas/VBDvery/RBmuch/RBpleased/JJ./.
He/PRPwas/VBDso/RBjoyful/JJthat/INhe/PRPtold/VBDthe/DTgood/JJnews/NNto/TOeveryone/NNhe/PRPmet/VBD./.
As/INI/PRPwas/VBDthe/DTfirst/JJcollege/NNstudent/NNin/INmy/PRP$hometown/NN,/,he/PRPentertained/VBDme/PRPwith/INa/DTgood/JJmeal/NNas/INan/DTencouragement/NNand/CCa/DTreward/NN./.
(3)对上述训练文本集中一段英语短文内容进行句子句法解析处理后,生成的句子句法树结构库如下所示:
prep_in(are-6,life-4)nsubj(are-6,people-8)nsubj(help-10,people-8)nsubj(lot-13,me-11)xcomp(help-10,lot-13)prep_at(lot-13,moments-17)nsubj(influences-25,uncle-24)prepc_among(help-10,influences-25)
prep_since(told-25,childhood-3)amod(uncle-7,beloved-6)nsubj(person-12,uncle-7)nsubj(told-25,uncle-7)prep_of(person-12,integrity-14)nsubj(boy-34,me-26)aux(student-40,to-36)
(4)对训练文本集进行预处理输出单词词性标注库和句子句法树结构库,对它们的单词进行词频统计,所生成的单词词频统计库如下所示。由于单词词频统计库较为庞大无法一一列举,因此下面只列举了单词词频统计库开始部分和结束部分的各20条数据,中间的数据用省略符号代替。
brave^86
newcomer^21
wishful^9
repaying^11
undertakings^21
champions^29
degenerate^19
jew^5
riverbanks^8
portland's^4
jet^31
arthur^38
"^3120
smashing^10
!^1160
&^9
defeating^18
'^878
stressing^21
$^560
CC^NN^:^93
NN^VBN^RP^48
VBP^RB^VB^686
VBN^NNS^NN^31
CC^WRB^TO^120
RB^EX^VBZ^139
VBP^NN^MD^42
WDT^RB^VBZ^210
NN^WDT^RBR^11
VB^CC^WRB^29
.^,^VBG^13
CC^JJ^RBR^9
DT^WP^.^9
RB^EX^VBP^8
WDT^RB^VBP^81
NN^VBN^RB^98
CC^RB^PRP$^75
``^EX^VBZ^59
WDT^RB^VBD^46
MD^VB^EX^8
第二步骤:执行“语法纠错模型训练模块”
语法纠错模型训练模块是对第一步骤执行语法纠错预处理模块输出的单词词性标注库和句子句法树结构库进行语法特征提取、语法特征权重计算,最后生成语法纠错统计模型。
由于单语法纠错统计模型较为庞大无法一一列举,因此下面只列举了语法纠错统计模型开始部分和结束部分的各15条数据,中间的数据用省略符号代替。
the^1^right^1.5026
the^6^upon^on^4.3405
the^5^will^relieve^2.1703
null^7^VB^:^0.0975
null^2^wide^open^2.6377
null^6^hundred^miles^1.3158
a/an^2system^for^4.3792
a/an^1^job^for^0.8448
a/an^6^to^outside^2.1896
VBN^1^FW^1.5144
VBN^2^PRP^-1.4945
VBN^6^NNP^0.2524
JJ^3^CD^-0.4917
JJ^3^JJR^-0.2659
JJ^5^CC^-0.0775
has^4^JJ^-1.1251
has^4^IN^-4.3116
has^4^TO^0.5336
has^4^CD^1.2985
has^4^PDT^0.4706
has^4^PRP^-3.0987
has^4^NNS^-4.5595
hasn't^4^VBN^5.465
is^4^TO^0.3711
is^4^``^1.4695
is^4^DT^1.3394
is^4^JJ^1.0284
is^4^VBG^1.0988
is^4^IN^-0.6948
is^4^VBN^2.1216
第三步骤:执行“语法错误检查纠正模块”
语法错误检查纠正模块是利用上述第二步骤生成的语法纠错统计模型和上述表3定义的语法纠错规则模型,对待纠错英语作文进行语法检查与纠正,最后输出待纠错英语作文的语法纠错结果,本实施方式的语法纠错过程如下:
(1)读入如下所示一篇待纠错英语作文。
Friendshipisessentialinone’slife.
Friendscanhelpusknowmorevarietypeople,openourvision.Wecanlearnalotofthingsfromthem.Themostobviousthingisweallaretheappleofourparents’eyes.Theywilldoeverythingtomakeushappy.Asaresult,wearegrowingastheflowersingreenhouse.Wecan’tlivewithoutourparents.However,wecanlearntocommunicate,learntocareothersandlearntobeindependencethroughfriends.
Asthesayinggoes,afriendinneedisafriendindeed.Ifafriendabandonsyouinthedifficulty.Personallyspeaking,hedoesn’tdeserveyourfriendship.
Inaword,makingfriendswithrightpeopleisfullofbenefit.
(2)对待纠错英语作文的句子进行单词词性标注,生成单词词性结构如下所示。
Friendship/NNis/VBZessential/JJin/INone/NN's/POSlife/NN./.
Friends/NNScan/MDhelp/VBus/PRPknow/VBmore/JJRvariety/NNpeople/NNS,/,open/VBour/PRP$vision/NN./.
We/PRPcan/MDlearn/VBa/DTlot/NNof/INthings/NNSfrom/INthem/PRP./.
The/DTmost/RBSobvious/JJthing/NNis/VBZwe/PRPall/DTare/VBPthe/DTapple/NNof/INour/PRP$parents/NNS'/POSeyes/NNS./.
They/PRPwill/MDdo/VBeverything/NNto/TOmake/VBus/PRPhappy/JJ./.
As/INa/DTresult/NN,/,we/PRPare/VBPgrowing/VBGas/INthe/DTflowers/NNSin/INgreenhouse/NN./.
We/PRPca/MDn't/RBlive/VBwithout/INour/PRP$parents/NNS./.
However/RB,/,we/PRPcan/MDlearn/VBto/TOcommunicate/VB,/,learn/VBto/TOcare/VBothers/NNSand/CClearn/VBto/TObe/VBindependence/NNthrough/INfriends/NNS./.
As/INthe/DTsaying/NNgoes/VBZ,/,a/DTfriend/NNin/INneed/NNis/VBZa/DTfriend/NNindeed/RB./.
If/INa/DTfriend/NNabandons/VBZyou/PRPin/INthe/DTdifficulty/NN./.
Personally/RBspeaking/NN,/,he/PRPdoes/VBZn't/RBdeserve/VByour/PRP$friendship/NN./.
In/INa/DTword/NN,/,making/VBGfriends/NNSwith/INright/JJpeople/NNSis/VBZfull/JJof/INbenefit/NN./.
(3)对待纠错英语作文的句子进行句子句法解析,生成句子句法结构如下所示。
nsubj(learn-3,We-1)aux(learn-3,can-2)prep_of(lot-5,things-7)prep_from(learn-3,them-9)
nsubj(we-6,thing-4)nsubj(apple-10,all-7)prep_of(apple-10,eyes-15)
nsubj(do-3,They-1)aux(do-3,will-2)aux(make-6,to-5)xcomp(do-3,make-6)
nsubj(happy-8,us-7)xcomp(make-6,happy-8)
prep_as(growing-7,result-3)nsubj(growing-7,we-5)aux(growing-7,are-6)
prep_as(growing-7,flowers-10)prep_in(flowers-10,greenhouse-12)
nsubj(live-4,We-1)aux(live-4,ca-2)prep_without(live-4,parents-7)
nsubj(learn-5,we-3)aux(learn-5,can-4)aux(communicate-7,to-6)xcomp(learn-5,communicate-7)xcomp(learn-5,learn-9)aux(care-11,to-10)xcomp(learn-9,care-11)xcomp(learn-5,learn-14)aux(independence-17,to-15)xcomp(learn-14,independence-17)prep_through(independence-17,friends-19)
nsubj(goes-4,saying-3)advcl(friend-12,goes-4)nsubj(friend-12,friend-7)prep_in(friend-7,need-9)
nsubj(abandons-4,friend-3)prep_in(abandons-4,difficulty-8)
nsubj(deserve-7,he-4)aux(deserve-7,does-5)
prep_in(full-11,word-3)nsubj(full-11,friends-6)prep_with(friends-6,people-9)prep_of(full-11,benefit-13)
(4)利用语法纠错规则模型的语法纠错规则对待纠错英语作文句子的语法错误进行检查。当检查到句子“Ifafriendabandonsyouinthedifficulty.”时,输出如下句子句法树结构。
在上述该句子的句子句法树结构中存在“FRAG”标记,它表示该句子的语法错误符合语法纠错规则模型中片段错误的语法错误类型。因此,语法纠错规则模型对应该句子的纠错方法是:句子不完整、句子成分残缺。
(5)利用语法纠错统计模型对对待纠错英语作文句子的语法错误进行检查。当检查句子“Asaresult,wearegrowingastheflowersingreenhouse.”时,输出该句子的单词词性结构如下所示。
As/INa/DTresult/NN,/,we/PRPare/VBPgrowing/VBGas/INthe/DTflowers/NNSin/INgreenhouse/NN./.
输出该句子的句子句法树结构如下所示。
prep_as(growing-7,result-3)nsubj(growing-7,we-5)aux(growing-7,are-6)
prep_as(growing-7,flowers-10)prep_in(flowers-10,greenhouse-12)
从该句子的名词短语词性结构“(NP(NNgreenhouse)”中可以看出,修饰名词“greenhouse”的冠词为零冠词,从单词多元语法特征集中提取零冠词的语法特征,利用上述Ⅷ.单词语法特征权重计算公式计算出单词词性语法混淆集中易混冠词“a/an,the,零冠词”的语法特征权重如下所示。
null^1^in^0.5212
null^3^IN^0.508
null^5^flowers^in^0.1489
null^6^.^0.3886
null^7^NNS^IN^0.2551
null^8^.^0.5212
null^9^greenhouse^1.1726
null^10^NN^0.834
null^11^countableNoun^1.1044
null^12^PP^0.7564
a/an^1^in^0.1646
a/an^3^IN^0.2812
a/an^6^.^0.1265
a/an^7^NNS^IN^0.0881
a/an^8^.^0.1646
a/an^9^greenhouse^0.0004
a/an^10^NN^0.8646
a/an^11^countableNoun^0.8264
a/an^12^PP^0.2095
the^1^in^5.8234
the^3^IN^6.2512
the^6^.^0.3082
the^7^NNS^IN^0.2249
the^8^.^0.3908
the^9^greenhouse^5.0775
the^10^NN^1.4308
the^11^countableNoun^2.5586
the^12^PP^1.3763
根据上述当前单词分值计算式,计算出零冠词的分值为6.2104,“a/an”的分值为2.7259,“the”的分值为23.4417。因此,根据语法纠错统计模型的纠错方法应该用分值最大的冠词“the”来纠正该句子名词短语词性结构“(NP(NNgreenhouse)”的零冠词语法错误,即在名词短语词性结构“(NP(NNgreenhouse)”里加入“the”。
(6)输出待纠错英语作文的语法纠错结果。
读入的一篇待纠错英语作文经过上述处理后,输出的语法纠错结果如下所示。
①Asaresult,wearegrowingastheflowersin[B-ERROR]greenhouse[E-ERROR].
[B-ERROR]表示语法错误的开始位置,[E-ERROR]表示语法错误的结束位置,[B-ERROR]、[E-ERROR]中间的“greenhouse”存在零冠词语法错误。本发明纠正该语法错误的说明是:在“greenhouse”前面需要插入定冠词“the”,以纠正它的零冠词语法错误。
②[B-ERROR]Ifafriendabandonsyouinthedifficulty.[E-ERROR]
[B-ERROR]表示语法错误的开始位置,[E-ERROR]表示语法错误的结束位置,[B-ERROR]、[E-ERROR]中间的“Ifafriendabandonsyouinthedifficulty.”存在If引导的条件状语从句缺少主句,句子句子成分残缺的语法错误。本发明纠正该语法错误的说明是:在“Ifafriendabandonsyouinthedifficulty.”后面需要插入一个句子作为主句,以纠正它的句子不完整、句子成分残缺的语法错误。

Claims (7)

1.基于多元特征的英语作文语法错误自动纠正方法,包括语法纠错预处理模块、语法纠错模型训练模块和语法错误检查纠正模块;
语法纠错预处理模块处理包括:输入训练文本集,对训练文本集进行单词词性标注、句子句法解析和单词词频统计,输出单词词性标注库、句子句法树结构库、单词词频统计库;
语法纠错模型训练模块处理包括:输入单词词性标注库、句子句法树结构库、单词词频统计库、单词多元语法特征集、单词词性语法混淆集,根据单词词性语法混淆集提取单词及其词性上下文语法特征、单词及其词性结构依赖语法特征,根据单词多元语法特征提取单词及其词性的语法特征,利用单词词频统计库计算单词语法特征权重,生成语法纠错统计模型,最后输出语法纠错统计模型;
语法错误检查纠正模块处理包括:输入语法纠错统计模型、语法纠错规则模型、单词词性语法混淆集,采用语法纠错统计模型纠正英语作文中冠词错误、介词错误、词性混淆错误、动词形态错误、助动词错误、主谓不一致错误,利用语法纠错规则模型纠正英语作文中单复数不一致错误、片段错误、形容词比较级最高级错误、动词与补语搭配错误、单词重复使用错误,最后输出英语作文中语法错误的纠正结果;其特征是:
所述的语法纠错预处理模块具体处理流程如下:
S0201开始;
S0202读入训练文本集;
S0203使用宾州树库标注集标注训练文本集中句子,输出单词词性标注库;
S0204使用上下文无关文法单词词性句法解析方法训练文本集中句子,输出句子句法树结构库;
S0205遍历单词词性标注库;
S0206如果单词词性标注库遍历结束,则转S0210操作;否则转S0207操作;
S0207如果当前单词在单词词频链表中,则转S0208操作;否则转S0209操作;
S0208当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0209当前单词及其词性加入单词词频链表,当前单词及其词性在单词词频链表中词频加1,转S0205操作;
S0210遍历句子句法树结构库;
S0211如果句法树结构库遍历结束,则转S0215操作;否则转S0212操作;
S0212如果当前短语在单词词频链表中,则转S0213操作;否则转S0214操作;
S0213当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0214当前短语及其词性加入单词词频链表,当前短语及其词性在单词词频链表中词频加1,转S0210操作;
S0215利用单词词频链表构建单词词频统计库,输出单词词频统计库;
S0216结束。
2.根据权利要求1所述的方法,其特征是:所述的语法纠错模型训练模块具体处理流程如下:
S0301开始;
S0302读入单词词性标注库、句子句法树结构库和单词词性语法混淆集;
S0303将句子分割成单词词性单元,生成单词词性单元列表;
S0304遍历单词词性单元列表;
S0305如果单词词性单元列表遍历结束,则转S0310操作;否则转S0306操作;
S0306如果当前单词在单词词性语法混淆集中,则转S0307操作;否则转S0305操作;
S0307从单词多元语法特征集中,提取当前单词及其词性的语法特征;
S0308计算当前单词语法特征权重;
S0309在语法纠错链表中保存当前单词及其词性语法特征、当前单词语法特征权重,转S0305操作;
S0310利用语法纠错链表构建语法纠错统计模型,并输出语法纠错统计模型;
S0311结束。
3.根据权利要求1所述的方法,其特征是:所述的语法错误检查纠正模块具体处理流程如下:
S0401开始;
S0402读入一篇待纠错英语作文;
S0403遍历作文中英语句子;
S0404如果待纠错英语作文最后句子纠错结束,则转S0409操作;否则转S0405操作;
S0405对待纠错英语作文中当前句子进行单词词性标注,生成该单词词性标注结构;
S0406对待纠错英语作文中当前句子进行句子句法结构解析,生成该句子句法树结构;
S0407利用语法纠错规则模型中定义的语法错误规则对当前句子进行检查,如果当前句子符合语法纠错规则模型的规则设置,则表明当前句子有语法错误,利用语法纠错规则模型中定义的对应纠错方法进行语法纠错;
S0408读取当前句子中单词,如果该单词在单词词性语法混淆集中,则将该单词作为当前单词,从单词多元语法特征集中提取当前单词的语法特征,从语法纠错统计模型中获得当前单词语法特征的权重,计算当前单词的分值,以及当前单词在单词词性语法混淆集中所在混淆单元的其他单词的分值,如果当前单词的分值不是最大,则表明当前单词有语法错误,使用最大分值的单词来纠正当前单词的语法错误,转S0404操作;
S0409输出待纠错英语作文的语法纠错结果;
S0410结束。
4.根据权利要求1所述的方法,其特征是:所述的单词词性语法混淆集为易混词性。
5.根据权利要求1所述的方法,其特征是:所述的单词多元语法特征集包括介词语法特征、动词语法特征、冠词语法特征、助动词语法特征。
6.根据权利要求1所述的方法,其特征是:所述的单词语法特征权重的计算公式如下:
其中:单词语法特征相关度的计算公式如下:
单词语法特征贡献度的计算公式如下:
其中,i是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性的序号;n是当前单词在单词词性语法混淆集中所属的易混类型中的单词或词性总数。
7.根据权利要求4所述的方法,其特征是:所述的当前单词分值计算公式如下:
其中,j是当前单词在单词多元语法特征集中所属的特征类型中的语法特征的序号;如果单词语法特征j在当前单词的多元语法特征集中,则系数j等于1;如果单词语法特征j不在当前单词的多元语法特征集中,则系数j等于0;
m是当前单词在单词多元语法特征集中所属的特征类型中的语法特征总数。
CN201310311955.4A 2013-07-24 2013-07-24 基于多元特征的英语作文语法错误自动纠正方法 Expired - Fee Related CN103365838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310311955.4A CN103365838B (zh) 2013-07-24 2013-07-24 基于多元特征的英语作文语法错误自动纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310311955.4A CN103365838B (zh) 2013-07-24 2013-07-24 基于多元特征的英语作文语法错误自动纠正方法

Publications (2)

Publication Number Publication Date
CN103365838A CN103365838A (zh) 2013-10-23
CN103365838B true CN103365838B (zh) 2016-04-20

Family

ID=49367217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310311955.4A Expired - Fee Related CN103365838B (zh) 2013-07-24 2013-07-24 基于多元特征的英语作文语法错误自动纠正方法

Country Status (1)

Country Link
CN (1) CN103365838B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
CN106776549B (zh) * 2016-12-06 2020-04-24 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
KR102490752B1 (ko) * 2017-08-03 2023-01-20 링고챔프 인포메이션 테크놀로지 (상하이) 컴퍼니, 리미티드 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정
CN108197107A (zh) * 2017-12-29 2018-06-22 秦男 数据处理方法
CN108595410B (zh) * 2018-03-19 2023-03-24 小船出海教育科技(北京)有限公司 手写作文的自动批改方法及装置
CN108519974A (zh) * 2018-03-31 2018-09-11 华南理工大学 英语作文语法错误自动检测与分析方法
CN110647625A (zh) * 2018-06-27 2020-01-03 上海意仕腾教育科技有限公司 一种英语写作评测系统的训练方法
CN109657251B (zh) * 2018-12-17 2022-08-09 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109670184B (zh) * 2018-12-26 2023-07-04 南京题麦壳斯信息科技有限公司 一种英文文章质量评估方法及系统
KR102199835B1 (ko) * 2018-12-31 2021-01-07 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法
CN110164422A (zh) * 2019-04-03 2019-08-23 苏州驰声信息科技有限公司 一种口语考试的多维度评估方法及装置
CN110134404A (zh) * 2019-04-12 2019-08-16 深圳壹账通智能科技有限公司 代码翻译方法、装置、计算机设备和存储介质
CN111737980B (zh) * 2020-06-22 2023-05-16 桂林电子科技大学 一种英语文本单词使用错误的纠正方法
CN111753530B (zh) * 2020-06-24 2024-05-31 上海依图网络科技有限公司 一种语句处理方法、装置、设备及介质
CN112667208A (zh) * 2020-12-22 2021-04-16 深圳壹账通智能科技有限公司 翻译错误识别方法、装置、计算机设备及可读存储介质
CN112466279B (zh) * 2021-02-02 2021-05-18 深圳市阿卡索资讯股份有限公司 一种英语口语发音自动纠正方法和装置
CN113723080B (zh) * 2021-07-26 2023-10-10 山东建筑大学 一种基于反向翻译的英文文章自动语法纠错方法
CN113553830B (zh) * 2021-08-11 2023-01-03 桂林电子科技大学 一种基于图的英语文本句子语篇连贯分析方法
CN113553835B (zh) * 2021-08-11 2022-12-09 桂林电子科技大学 一种英语文本中句子语法错误自动纠正方法
CN113642318B (zh) * 2021-10-14 2022-01-28 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101218573A (zh) * 2005-07-08 2008-07-09 微软公司 处理文档中的搭配错误
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719792B2 (en) * 2008-03-24 2014-05-06 International Business Machines Corporation Correcting job control language job errors
US9274770B2 (en) * 2009-06-22 2016-03-01 Oracle America, Inc. Fault tolerant compilation with automatic error correction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101218573A (zh) * 2005-07-08 2008-07-09 微软公司 处理文档中的搭配错误
CN102831558A (zh) * 2012-07-20 2012-12-19 桂林电子科技大学 不依赖人工预评分的大学英语作文自动评分系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大学英语短文单词语法错误纠错模型研究;黄研洲;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;20130415(第4期);第17页第3.3节第2段,第22页第4.2.1节第3段,第27页第2节第2段,第28页第2段,第35页第3节第1段,第37页第2、3小节,第38页第4节第1段,第40页第3小节,图4.1,表4.20、4.23 *

Also Published As

Publication number Publication date
CN103365838A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN103365838B (zh) 基于多元特征的英语作文语法错误自动纠正方法
CN105005557A (zh) 一种基于依存分析的中文兼类词处理方法
CN108519974A (zh) 英语作文语法错误自动检测与分析方法
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN103942192A (zh) 一种双语最大名词组块分离-融合的翻译方法
Dien et al. POS-tagger for English-Vietnamese bilingual corpus
CN107577663A (zh) 一种关键短语抽取方法和装置
CN105824800A (zh) 一种中文真词错误自动校对方法
Mansouri et al. State-of-the-art english to persian statistical machine translation system
Rajan et al. Rule based machine translation from English to Malayalam
CN103714053A (zh) 一种面向机器翻译的日语动词识别方法
Mukta et al. A phrase-based machine translation from English to Bangla using rule-based approach
Rehman et al. A hybrid approach for urdu sentence boundary disambiguation.
Ngo et al. Building an English-Vietnamese bilingual corpus for machine translation
Sumanathilaka et al. Swa-bhasha: Romanized sinhala to sinhala reverse transliteration using a hybrid approach
Lingam et al. Rule-based machine translation from English to Telugu with emphasis on prepositions
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
Singh et al. English-Dogri Translation System using MOSES
Mukund et al. NE tagging for Urdu based on bootstrap POS learning
Ziering et al. Multilingual lexicon bootstrapping-improving a lexicon induction system using a parallel corpus
Dhar et al. A hybrid dependency parser for Bangla
Altenbek et al. Identification of basic phrases for kazakh language using maximum entropy model
Li et al. The extracting method of Chinese-Naxi translation template based on improved dependency tree-to-string
Hung-Ngo et al. A visualizing annotation tool for semi-automatically building a bilingual corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131023

Assignee: Guilin ruiweisaide Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000190

Denomination of invention: Automatic correction of grammatical errors in english compositions based on multiple features

Granted publication date: 20160420

License type: Common License

Record date: 20221125

Application publication date: 20131023

Assignee: Guilin Ruisen Education Service Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000186

Denomination of invention: Automatic correction of grammatical errors in english compositions based on multiple features

Granted publication date: 20160420

License type: Common License

Record date: 20221125

EE01 Entry into force of recordation of patent licensing contract
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420