CN103688254B - 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 - Google Patents
用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 Download PDFInfo
- Publication number
- CN103688254B CN103688254B CN201280034880.3A CN201280034880A CN103688254B CN 103688254 B CN103688254 B CN 103688254B CN 201280034880 A CN201280034880 A CN 201280034880A CN 103688254 B CN103688254 B CN 103688254B
- Authority
- CN
- China
- Prior art keywords
- morpheme
- error
- sequence
- statement
- detecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000005540 biological transmission Effects 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供用于自动评估写作的基于示例的错误检测系统、用于该系统的方法和用于该系统的错误检测设备,其通过因特网或其它语言传输介质收集包括各种文体风格在内的示例语句,并且构建基于示例的数据库,其中,当写成的输入语句被输入时,输入语句被以语素为单位分解,从单独的语素产生按照预定窗口大小结合的语素序列,接着使用基于示例的数据库中示出的语素序列的频度来分析各个语素序列,由此检测每个语素中的错误并提出对错误的修改。
Description
技术领域
本公开涉及用于自动评估写作的错误检测,更具体地,涉及用于自动评估写作的基于示例的错误检测系统、方法和设备,其以语素为单位分解写成的输入语句,从语素产生按照预定窗口大小结合的语素序列,在基于示例的数据库(DB)中搜索每个语素序列,并且针对语素分析所述语素被与语素序列一起排列的频度,由此基于示例来检测各个语素的错误并且提出对检测到的错误的修改。
背景技术
最近,大学入学考试和本地企业的学业能力测试正在改变,以评估口语或写作的实际英语水平。
也就是说,为了提高英语水平,教育部(MOE)开发了国家英语能力测试(NEAT)(基于因特网的听力、阅读、口语和写作评定)。NEAT目前作为示例被强制执行,并且公务员考试或学习能力倾向测验(SAT)英语测试可以用NEAT代替。在这种英语能力测试中,引入了自动化写作评估系统来评估写作能力。
自动化写作评估系统在语法上分析所写成的语句并且通过错误检测来评估写成的语句在语法上是否合适。在此情况下,在分析写成的语句的过程中,不可避免地需要分析语句的语素并且对语素进行词性标注处理。因为相关技术的语素分析和词性标注装置仅依赖于词性(part-of-speech)序列信息而不另外考虑词汇表、词性、含义和周围词的上下文共现(co-occurrence)关系,所以存在准确性显著下降的问题。
为了解决这个问题,已经提出了使用词典、语言模型等补充地应用单词的规则信息和统计信息并且构建外围单词规则和单词上下文信息的错误检测和纠正方法。
具体地,语言模型可以利用概率基于语法统计信息来表示单词之间的连接关系,从给定区域的很多文本语句容易地提取连接关系,并且在错误检测上具有高准确性。然而,实际语言固有地随着时间和地点而变化而不是遵循标准化的规则,并且因而可能经常与语法统计信息不同。例如,暗示的词语、因特网术语、新建立的现代语言等违反语法,但是经常在真实生活中使用并且基于语法统计信息会被检测为错误。
因此,在写作评估中,需要一种即使在没有持续产生复杂规则但通过应用人们现在频繁使用的模式也能够使得错误检测中的错误减到最小并准确地纠正检测到的错误的方案。
发明内容
技术问题
根据一些实施方式,提供了用于自动评估写作的基于示例的错误检测系统、方法和错误检测设备,通过因特网或其它语言传输介质收集包括各种文体风格在内的示例语句,并且构建基于示例的数据库,其中,当输入了写成的输入语句时,输入语句被以语素为单位分解,从语素产生按照预定窗口大小结合的语素序列,在基于示例的DB中搜索各个语素序列,并且分析语素被与针对所述语素的语素序列一起排列的频度,由此基于示例来检测各个语素的错误并且提出对检测到的错误的修改。
技术方案
根据一些实施方式,一种用于自动评估写作的错误检测系统包括示例构建设备和错误检测设备。该示例构建设备被配置为通过语言传输介质收集包括多种文体风格的示例语句,以语素为单位分解收集到的示例语句,并且在基于示例的索引DB中构建示例语句。该错误检测设备被配置为当输入语句被输入时以语素为单位分解写成的输入语句,基于所述语素产生按照任意窗口(n-窗口)大小结合的语素序列,在基于示例的索引DB中搜索每个产生的语素序列,并且根据各个语素被与对应的语素序列一起排列的频度来检测错误。
根据一些实施方式,一种错误检测设备包括输入语句分解单元、词性标注单元和错误检测单元。该输入语句分解单元被配置为以语句和语素为单位对写成的输入语句集合进行分解。该词性标记单元被配置为对所述语素进行词性标注。该错误检测单元被配置为针对已被标注了词性的各个语素产生按照任意窗口(n-窗口)大小结合的语素序列,在基于示例的索引DB中搜索每个产生的语素序列,并且根据各个语素被与对应的语素序列一起排列的频度来检测错误部分。
根据一些实施方式,一种自动评估写作的错误检测方法包括:以语句和语素为单位分解写成的输入语句的集合;对语素进行词性标注;针对已被标注了词性的各个语素通过按照任意窗口(n-窗口)大小结合前向或后向定位的语素而产生语素序列;以及在基于示例的索引DB中搜索每个产生的语素序列,以根据各个语素被与对应的语素序列一起排列的频度来检测错误部分。
技术效果
根据此处公开的实施方式,通过基于自然表达而不是语言的标准化规则来收集并且构建语句(示例语句),基于所收集和构建的语句(示例语句)对输入语句进行分析以检测错误,并且如果需要则提出对错误的修改,提高了写作评估的性能。
附图说明
图1是例示根据至少一个实施方式的用于自动评估写作的错误检测系统的构造的图。
图2是例示根据至少一个实施方式的错误检测系统的示例性构建设备的构造图。
图3是例示根据至少一个实施方式的错误检测系统的错误检测设备的构造图。
图4是例示图3的错误检测单元的构造图。
图5是例示要在图3的每个部件中执行的功能的说明图。
图6是例示由图3的错误检测单元获得的结果值的图。
图7是例示根据至少一个实施方式的构建自动化写作评估的基于示例的DB的方法的流程图。
图8是例示根据至少一个实施方式的用于自动化写作评估的错误检测的方法的流程图。
图9是例示图8的错误检测处理的详细示意图。
具体实施方式
以下描述详细参照附图。然而,本领域技术人员将理解,以下描述不限于以下具体公开的实施方式并且按照各种不同形式实现,并且以下描述的范围不限于以下实施方式。将省略已知的技术、要素、结构和处理以避免混淆本公开的主题。
此处所用的措辞“示例(example)”是指“使用中的示例”的词典含义,并且是指其中特定单词在语言学领域使用的示例语句。具体地,此处使用的“示例”包括在真实生活中使用的作为不遵循标准化规则的语句的全部语句以及包括各种文体风格的语句,而不是其中基于标准化的语法结构构建语句的语料库(corpus)。
图1是例示根据至少一个实施方式的用于自动评估写作的错误检测系统的构造的图。
错误检测系统可以包括示例构建设备200和错误检测设备100。
示例构建设备200通过从语言传输介质公开的语句集合(sentence set)收集示例语句,以此来构建用于错误检测的大容量索引DB180。这个构建的索引DB180存储基于各个示例的统计信息。
错误检测设备100利用示例构建设备200构建的索引DB180来检测输入到分析单元的输入语句的错误,并且显示检测到的错误。另外,错误检测设备100通过提出对检测到的错误的修改来执行错误纠正功能。
错误检测设备100的特征在于根据基于示例的统计信息来检测输入语句中的错误。另外,错误检测设备100的特征在于使用N-语法(N-Gram)搜索方案,当检测到错误时,按照任意窗口(window)为单位结合的部分为单位比较和搜索统计信息,而不是以搜索完整的输入语句。
总体上,N-语法搜索方案包括以两个窗口为单位对部分(section)进行分类的二元语法(bigram)、以三个窗口对部分进行分类的三元语法(trigram)等。这些方案根据窗口大小考虑一个或更多个先前上下文的出现频度。
具体地,示例构建设备200按照图2例示那样构成。
参照图2,示例构建设备20包括示例收集单元210、示例分解单元220、N-语法产生单元230以及构建单元240。
示例收集单元210从通过诸如因特网、新闻和报纸文章这样的语言传输介质公开的大量语句集合收集示例语句。此时,假定示例语句包括真实生活中使用的全部语句、包含各种文体风格的语句等。因为新闻和报纸文章中包含的错误的数量少于其它介质中的错误,所以利用了新闻和报纸文章。
在预先输入了期望收集的关键词之后,在监测通过对应的语言传输介质公开的语句集合时,如果存在应用了输入的关键词的示例语句,则示例收集单元210可以自动地收集示例语句。
示例分解单元220以语句和语素为单位分解由示例收集单元210收集到的示例语句。语句分解表示使用诸如句号、问号和感叹号这样的标点符号以语句为单位分解多个示例语句的处理,并且语素分解表示以语素为单位分解被以语句为单位分解了的每个示例语句的处理。
N-语法产生单元230针对被示例分解单元220分解的每个语素产生按照任意的n窗口大小结合的语素序列。此时,通过基于每个语素结合前向或后向定位的语素而产生语素序列。例如,从示例语句“I want to go to school”利用3窗口大小产生的语素序列可以被产生为针对语素“I”的语素序列“I want to”、针对语素“want”的语素序列“want to go”和“(空)I want”、以及针对语素“to”的语素序列“I want to”和“to go to”。当在索引DB180中构建示例语句时,这些序列被用于以语句和语素为单位存储示例语句。
构建单元240将N-语法产生单元230产生的语素序列和对应的示例语句进行匹配并在索引DB(在图1中由180表示)中创建。
因此,如上所述地构造的示例构建装置200通过图7例示的处理进行构建。
首先,示例收集单元210通过诸如因特网、新闻和报纸文章这样的语言传输介质从大量的语句集合收集期望的样本语句(S100)。此时,在预先输入了期望收集的关键词之后,在监测通过对应的语言传输介质公开的语句集合时,如果存在应用了所输入的关键词的示例语句,则自动地收集示例语句,使得期望的示例语句被收集。
之后,示例分解单元220将由示例收集单元210收集到的示例语句的集合分解为语句和语素(S110)
之后,N-语法产生单元230针对每个语素产生按照任意窗口大小结合的语素序列(S120)。
之后,构建单元240将在先前操作中生成的语素序列和对应的示例语句进行匹配并且在索引DB中创建(S130)。
图3是例示根据至少一个实施方式的错误检测系统的错误检测设备的构造图。
错误检测设备100包括输入语句分解单元110、词性标注单元120、错误检测单元140、错误纠正单元150、词性词典160和索引DB180。
输入语句分解单元110接收写成的语句集合并且以语句和语素为单位分解输入的语句集合。
在此,如在示例构建装置200中描述的,语句分解表示使用诸如句号、问号和感叹号这样的标点符号以语句为单位分解多个示例语句的处理。语素分解表示以语素为单位分解被以语句为单位分解的各个示例语句的处理。在英语中,单词自身是语素,因为由于语言的性质,在单词后面不安排助词。
词性标注单元120基于存储在词性词典160中的词性信息向输入语句分解单元110分解的每个语素标记对应的词性。词性是名称、动词、介词、形容词、副词、冠词、叹词等。
例如,参照图5,当输入了输入语句(a)“I would like to live in the city.”时,输入语句分解单元110将输入语句分解为要素“I,”“would,”“like,”“to,”“live,”“in,”“the,”“city,”和句号(.),如(b)所示。词性标注单元120向分解的语素顺序地标注名词(I)、动词(would)、动词(like)、介词(to)、动词(live)、介词(in)、冠词(the)、名词(city)等,如在(c)中那样。
再次参照图3,错误检测单元140针对已由词性标注单元120标注了词性的各个语素产生按照任意窗口大小结合的语素序列,在索引DB180中搜索每个产生的语素序列,并且根据各个语素被与相应的语素序列一起排列的频度来检测错误。错误检测单元140以给定部分为单位进行搜索而不针对完整的输入语句进行搜索,并且与搜索整个输入语句的方法相比可以进行快速和准确的错误检测。
错误纠正单元150提取被与通过错误检测单元140搜索到的语素序列一起排列的语素,并且具体地,按照频度的降序提取语素,并且提出对检测到的错误的修改。
尽管错误检测单元150如上所述在提出修改的方法中使用作为错误检测方案而应用的N-语法搜索方案可以仅提出有错部分的语素,但还可以使用通过搜索与整个语句相似的语句简单地提议k个更高阶类似语句的方法。
图4是例示错误检测单元140的详细构造图。
具体地,错误检测单元140包括N-语法产生单元141、搜索单元143、兼容性计算单元145和错误确定单元147。
类似于在示例构建装置(图2中的200)中的N-语法产生单元(图2中的230),N-语法产生单元141通过基于已被词性标注单元(图2中的120)标注了词性的各个语素按照任意窗口大小结合前向或后向定位的语素而产生语素序列。
具体地,根据至少一个实施方式的N-语法产生单元141可以基于每个语素,通过按照任意窗口大小结合前向定位的语素而产生前向语素序列,并且通过按照任意窗口大小结合后向定位的语素而产生后向语素序列。
例如,考虑能够从输入语句针对语素“live”生成的前向语素序列,图5的(d)的(1)例示了基于语素“live”的语素序列的示例(按照至少2到5个窗口单位的语素序列的示例。也就是说,按照2窗口单位结合的语素序列是“to live”,并且按照3窗口单位结合的语素序列是“like to live”。增加了一个窗口的语素序列是“would like to live”和“I wouldlike to live.”。因此,可以提取在包括语素“live”的语素序列中语素“live”在语素“to”之后的出现频度,或者语素“live”在“like to,”、“would like to,”和“I would like to”之后的出现频度。
另一方面,可以如在(d)的(2)中例示的那样基于语素“live”产生针对后向定位的语素“in,”、“the,”和“city”按照任意窗口大小结合的语素序列。按照2窗口单位结合的后向语素序列可以产生为“live in,”,按照3窗口单位结合的后向语素序列可以产生为“livein the,”,并且按照4窗口单位结合的后向语素序列可以产生为“live in the city.”。
此时,N-语法产生单元141可以预设窗口大小,产生与所设定的窗口大小相对应的语素序列,并且在错误检测中利用产生的语素序列。对于详细的检测,优选的是通过如在二元语法或三元语法中那样改变窗口大小来产生各个语素序列并分析各个语素序列。在此情况下,因为在索引DB中存储的语素序列的容量显著增加并且复杂,所以还能够仅考虑一个窗口大小来产生语素序列并且分析语素序列。
搜索单元143针对输入语句中包括的各个语素在由多个示例语句构建的索引DB(图3中的180)中搜索是否存在由N-语法产生单元141产生的语素序列。
兼容性计算单元145提取各个语素被与从搜索单元143搜索到的语素序列一起排列的频度,并且基于所提取的频度来计算兼容性。计算出的兼容性由指示针对各个语素的语素序列的频度的分数表示。
此时,当在前向和后向都发现由N-语法产生单元141产生的语素序列时,兼容性计算单元145可以计算前向语素序列和后向语素序列中的每一个相对于一个语素的兼容性,并且通过对兼容性集成来计算集成兼容性。
另外,当针对前向语素序列和后向语素序列计算兼容性时,兼容性计算单元145可以根据各个语素的语素序列的出现频度应用不同的权重。例如,当后向语素序列中存在按照2窗口单位结合的语素序列“live in”、按照3窗口单位结合的语素序列“live in the”和按照4窗口单位结合的语素序列“live in the city”时,通过向具有较大数的窗口的语素分配较大的权重并且参照更多信息来确定兼容性。
错误确定单元147使用由兼容性计算单元145计算的各个语素的兼容性来产生图表,并且通过确定在所产生的图表中是否存在具有针对每个语素的低于阈值或减少了给定值或更多的兼容性分数的区间来检测错误部分。
此时,错误确定单元147可以分别产生针对前向的兼容性、后向的兼容性、以及集成兼容性中的每一种的图表。
在图6所例示的示例中,(a)例示输入语句,并且(b)例示针对该输入语句计算的各个语素的兼容性。
如在(b)中例示的,score_f(Wm)是前向兼容性,其表示在前向语素序列中各个语素被与所述前向语素序列一起排列的频度;score_b(Wm)是后向兼容性,其表示在后向语素序列中各个语素被与所述后向语素序列一起排列的频度;并且score(Wm)是通过对前向兼容性和后向兼容性取平均值而获得的集成兼容性。
(c)例示了使用(b)中例示的集成兼容性产生的图表。从此图表中看到,由于在“A”周围漏词等,小于或等于阈值,所以存在错误,即,在语素“live”周围。
将描述使用以上的错误检测设备来检测错误的方法
图8是例示根据至少一个实施方式的自动化写作评估的错误检测的方法的流程图。图9是例示图8的错误检测处理的详细示意图。
在此,假定由示例构建设备预先构建了利用错误检测的基于示例的DB,并且将主要描述错误检测设备执行的操作。
首先,参照图8,当错误检测设备接收到写成的输入语句的集合时,输入语句集合被以语句和语素为单位分解(S200)。
之后,错误检测设备基于词性词典对每个语素标注相应的词性(S210)。
之后,错误检测设备针对已被标注了词性的各个语素产生按照任意窗口大小结合的语素序列,在基于示例的DB中搜索每个产生的语素序列,并且通过比较操作检测错误(S220)。将参照图9详细描述具体错误检测。
之后,当提出了对检测到的错误的修改时,可以执行按频度的降序提取与从基于示例的索引DB搜索到的语素序列中的语素序列一起排列的语素的处理,或者执行通过提取和提议多个类似语句来使能进行纠正的处理(S230)。
接着,参照图9,在错误检测操作S220中,针对输入语句的各个语素具体产生按照任意窗口大小结合的语素序列(S221)。如上所述,语素序列可以基于各个语素被分类为和产生为前向结合的前向语素序列和后向结合的后向语素序列。
之后,针对各个语素在索引DB中搜索是否存在产生的语素序列(S222)。
之后,提取各个语素被与搜索到的语素序列一起排列的频度,并且基于所提取的频度来计算兼容性(S223和S224)。兼容性被转换为作为被与对应的语素序列一起排列的公共语素是否适当的程度的分数,与兼容性分数有关的计算方法与以上描述的方法相同。
之后,产生针对所计算的兼容性的图表,并且可以使用产生的图表来检测错误(S225)。例如,通过确定图表中针对各个语素的兼容性分数是否低于阈值或减小了给定值或更多来检测有错部分。
尽管已经具体示出和描述了各个实施方式,但本领域的技术人员可以理解的是,在不脱离本公开的主题和范围的情况下可以做出形式和细节上的各种修改。本公开和附图中使用的特定术语是用于示例性的目的,而不被认为是本公开的限制。
工业实用性
如上文完整讨论的,相关技术的自动写作评估系统难以通过使用基于单词规则和单词上下文信息的词典、语言模型等检测错误来评估不遵循标准化规则的写作。然而,根据此处公开的实施方式,通过因特网或者其它语言传输介质收集包括各种文体风格的示例语句,并且构建基于示例的数据库,其中,当书写的输入语句被输入时,输入语句被以语素为单位分解,从所述语素产生按照预定窗口大小结合的语素序列,接着使用基于示例的数据库中示出的语素序列的频度来分析每个语素序列,因而检测每个语素的错误并且改进自动评估的性能。按此方式,所公开的实施方式不仅可以应用于评估算法,而且还可以应用于大学入学考试和在本国企业进行的英语能力测试和英语写作测试等,因而使得能够进行自动评估。
Claims (13)
1.一种用于自动评估写作的错误检测系统,该错误检测系统包括:
示例构建设备,其被配置为通过语言传输介质收集包括多种文体风格的示例语句,以语素为单位分解收集到的示例语句,并且在基于示例的索引数据库中构建示例语句;以及
错误检测设备,其被配置为当写成的输入语句被输入时以语素为单位分解上述输入语句,基于已被标注了词性的各个语素通过按照任意窗口大小前向或后向地结合所分解的输入语句的一个或更多个语素来产生一个或更多个语素序列,按照所产生的语素序列搜索所述基于示例的索引数据库,并且根据每个语素与对应的语素序列一起排列的频度来检测错误,
其中,所述错误检测设备提取各个语素被与所搜索到的语素序列一起排列的频度,并且基于所提取的频度来计算兼容性,并且通过判断所计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。
2.一种错误检测设备,该错误检测设备包括:
输入语句分解单元,其被配置为以语句和语素为单位分解写成的输入语句的集合;
词性标注单元,其被配置为向所述语素标注词性;以及
错误检测单元,其被配置为基于已被标注了词性的各个语素通过按照任意窗口大小前向或后向地结合所分解的输入语句的一个或更多个语素来产生一个或更多个语素序列,按照所产生的语素序列搜索基于示例的索引数据库中,并且根据各个语素与对应的语素序列一起排列的频度来检测错误部分,
其中,所述错误检测单元包括:
兼容性计算单元,其被配置为提取各个语素被与所搜索到的语素序列一起排列的频度,并且基于所提取的频度来计算兼容性;以及
错误判断单元,其被配置为通过判断计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。
3.根据权利要求2所述的错误检测设备,其中,所述错误检测单元包括:
N-语法产生单元,其被配置为基于已被标注了词性的各个语素通过按照任意窗口大小结合前向或后向定位的语素来产生语素序列;以及
搜索单元,其被配置为针对每个语素在由多个示例语句构建的基于示例的索引数据库中搜索是否存在由所述N-语法产生单元产生的所述语素序列。
4.根据权利要求3所述的错误检测设备,其中,所述N-语法产生单元还被配置为基于各个语素通过按照任意窗口大小结合前向定位的语素来产生前向语素序列,并且通过按照任意窗口大小结合后向定位的语素来产生后向语素序列。
5.根据权利要求4所述的错误检测设备,其中,所述兼容性计算单元还被配置为计算所述N-语法产生单元产生的所述前向语素序列和所述后向语素序列中的每一个的兼容性,并且计算反映所述兼容性的集成兼容性。
6.根据权利要求3或5所述的错误检测设备,其中,所述兼容性计算单元还通过根据每个语素被与所述兼容性计算单元搜索的所述语素序列一起排列的频度而应用不同权重值来计算兼容性。
7.根据权利要求3所述的错误检测设备,该错误检测设备还包括:
错误纠正单元,其被配置为提取相对于所述搜索单元搜索的所述语素序列具有高频度的语素,并作为对所述错误检测单元检测到的错误部分的修改来提出。
8.一种自动评估写作的错误检测方法,该错误检测方法包括以下步骤:
以语句和语素为单位分解写成的输入语句的集合;
向所述语素标注词性;
针对已标注了词性的各个语素,通过按照任意窗口大小结合前向或后向定位的语素而产生语素序列;以及
按照所产生的语素序列搜索基于示例的索引数据库,以根据每个语素被与对应的语素序列一起排列的频度来检测错误部分,
其中,检测所述错误部分的步骤包括:
提取各个语素被与所搜索到的语素序列一起排列的频度,并基于所提取的频度来计算兼容性;以及
通过判断计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。
9.根据权利要求8所述的错误检测方法,该错误检测方法还包括以下步骤:
从所述基于示例的索引数据库搜索到的语素序列中提取与所述语素序列一起排列的频度高的语素,作为对所述错误部分的修改案来提出。
10.根据权利要求8所述的错误检测方法,其中,生成所述语素序列的步骤中:
基于各个语素,通过按照任意窗口大小结合前向定位的语素而产生前向语素序列,并且通过按照任意窗口大小结合后向定位的语素而产生后向语素序列。
11.根据权利要求8或10所述的错误检测方法,其中,检测所述错误部分的步骤包括:
针对各个语素,按各个语素搜索所述基于示例的索引数据库中是否存在产生的语素序列。
12.根据权利要求11所述的错误检测方法,其中,计算所述兼容性的步骤中,
当在生成所述语素序列的过程中产生的所述语素序列包括前向语素序列和后向语素序列二者时,提取各个语素与所述前向语素序列和所述后向语素序列一起排列的频度;
根据提取的频度计算各自的兼容性;以及
计算反映各自的所述兼容性的集成兼容性。
13.根据权利要求11所述的错误检测方法,其中,计算所述兼容性的步骤包括:
通过根据各个语素被与从所述基于示例的索引数据库搜索到的所述语素序列一起排列的频度而应用不同权重值来计算所述兼容性。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110109812A KR101522522B1 (ko) | 2011-10-26 | 2011-10-26 | 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법 |
KR10-2011-0109812 | 2011-10-26 | ||
PCT/KR2012/008749 WO2013062302A1 (ko) | 2011-10-26 | 2012-10-24 | 작문 자동 평가를 위한 예제기반 오류 검출 시스템, 이를 위한 방법 및 이를 위한 오류 검출 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103688254A CN103688254A (zh) | 2014-03-26 |
CN103688254B true CN103688254B (zh) | 2016-11-16 |
Family
ID=48168064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280034880.3A Expired - Fee Related CN103688254B (zh) | 2011-10-26 | 2012-10-24 | 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9542383B2 (zh) |
KR (1) | KR101522522B1 (zh) |
CN (1) | CN103688254B (zh) |
WO (1) | WO2013062302A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156051B (zh) * | 2015-03-27 | 2019-08-13 | 深圳市腾讯计算机系统有限公司 | 构建人名语料识别模型的方法及装置 |
US10332511B2 (en) * | 2015-07-24 | 2019-06-25 | International Business Machines Corporation | Processing speech to text queries by optimizing conversion of speech queries to text |
US10180989B2 (en) | 2015-07-24 | 2019-01-15 | International Business Machines Corporation | Generating and executing query language statements from natural language |
CN106528749B (zh) * | 2016-11-04 | 2019-04-30 | 福建天泉教育科技有限公司 | 基于写作训练的语句推荐方法及其系统 |
US10628737B2 (en) * | 2017-01-13 | 2020-04-21 | Oath Inc. | Identifying constructive sub-dialogues |
US10665122B1 (en) | 2017-06-09 | 2020-05-26 | Act, Inc. | Application of semantic vectors in automated scoring of examination responses |
US10741093B2 (en) | 2017-06-09 | 2020-08-11 | Act, Inc. | Automated determination of degree of item similarity in the generation of digitized examinations |
KR102268816B1 (ko) * | 2019-06-24 | 2021-06-24 | 국민대학교산학협력단 | 문장 데이터베이스를 이용한 작문 보조 시스템 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
WO2008136558A1 (en) * | 2007-05-04 | 2008-11-13 | Konkuk University Industrial Cooperation Corp. | Module and method for checking composed text |
CN101470700A (zh) * | 2007-12-28 | 2009-07-01 | 日电(中国)有限公司 | 文本模板生成器、文本生成设备、文本检验设备及其方法 |
CN101568918A (zh) * | 2006-12-05 | 2009-10-28 | 微软公司 | 基于web的搭配错误证明 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN101802812A (zh) * | 2007-08-01 | 2010-08-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7991609B2 (en) * | 2007-02-28 | 2011-08-02 | Microsoft Corporation | Web-based proofing and usage guidance |
KR100892004B1 (ko) * | 2008-05-21 | 2009-04-07 | 주식회사 청담러닝 | 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법 |
KR100978223B1 (ko) * | 2009-12-04 | 2010-08-26 | 윤여훈 | 어학학습 컨텐츠 생성방법 |
JP5284990B2 (ja) * | 2010-01-08 | 2013-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
-
2011
- 2011-10-26 KR KR1020110109812A patent/KR101522522B1/ko active IP Right Grant
-
2012
- 2012-10-24 WO PCT/KR2012/008749 patent/WO2013062302A1/ko active Application Filing
- 2012-10-24 CN CN201280034880.3A patent/CN103688254B/zh not_active Expired - Fee Related
-
2013
- 2013-12-04 US US14/097,209 patent/US9542383B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101568918A (zh) * | 2006-12-05 | 2009-10-28 | 微软公司 | 基于web的搭配错误证明 |
WO2008136558A1 (en) * | 2007-05-04 | 2008-11-13 | Konkuk University Industrial Cooperation Corp. | Module and method for checking composed text |
CN101802812A (zh) * | 2007-08-01 | 2010-08-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101470700A (zh) * | 2007-12-28 | 2009-07-01 | 日电(中国)有限公司 | 文本模板生成器、文本生成设备、文本检验设备及其方法 |
CN101655837A (zh) * | 2009-09-08 | 2010-02-24 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
Also Published As
Publication number | Publication date |
---|---|
US9542383B2 (en) | 2017-01-10 |
KR20130045547A (ko) | 2013-05-06 |
WO2013062302A1 (ko) | 2013-05-02 |
CN103688254A (zh) | 2014-03-26 |
US20140093845A1 (en) | 2014-04-03 |
KR101522522B1 (ko) | 2015-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103688254B (zh) | 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 | |
KR101678787B1 (ko) | 자동질의응답 방법 및 그 장치 | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
CN101539907B (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
US9836985B2 (en) | Systems and methods for automated scoring of textual responses to picture-based items | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
CN106844331A (zh) | 一种句子相似度计算方法和系统 | |
WO2012039686A1 (en) | Methods and systems for automated text correction | |
KR101636902B1 (ko) | 문법의 오류 검출 방법 및 이를 위한 장치 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
Duran et al. | Some issues on the normalization of a corpus of products reviews in Portuguese | |
US20030120481A1 (en) | Method for predicting negative example, system for detecting incorrect wording using negative example prediction | |
Singha et al. | Part of speech tagging in Manipuri with hidden markov model | |
Melero et al. | Holaaa!! writin like u talk is kewl but kinda hard 4 NLP | |
Khorjuvenkar et al. | Parts of speech tagging for Konkani language | |
Rosen | Building and Using Corpora of Non-Native Czech. | |
Nguyễn et al. | Affection of the part of speech elements in Vietnamese text readability | |
Silva et al. | Improving CoGrOO: the Brazilian Portuguese Grammar Checker | |
Han et al. | Japanese sentence pattern learning with the use of illustrative examples extracted from the web | |
Shaalan et al. | Morphological analysis of ill-formed Arabic verbs in intelligent language tutoring framework | |
Goonawardena et al. | Automated spelling checker and grammatical error detection and correction model for sinhala language | |
JP3783053B2 (ja) | 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 | |
Modh et al. | A Novel Morphological Analysis based Approach for Dynamic Detection of Inflected Gujarati Idioms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161116 Termination date: 20201024 |