CN110069768A - 一种基于篇章结构的英语议论文自动评分方法 - Google Patents

一种基于篇章结构的英语议论文自动评分方法 Download PDF

Info

Publication number
CN110069768A
CN110069768A CN201810056809.4A CN201810056809A CN110069768A CN 110069768 A CN110069768 A CN 110069768A CN 201810056809 A CN201810056809 A CN 201810056809A CN 110069768 A CN110069768 A CN 110069768A
Authority
CN
China
Prior art keywords
chapter
feature
article
ingredient
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810056809.4A
Other languages
English (en)
Inventor
周明
贾艳明
徐宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing's World Information Technology Co Ltd
Wuhan University of Technology WUT
Original Assignee
Beijing's World Information Technology Co Ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing's World Information Technology Co Ltd, Wuhan University of Technology WUT filed Critical Beijing's World Information Technology Co Ltd
Priority to CN201810056809.4A priority Critical patent/CN110069768A/zh
Publication of CN110069768A publication Critical patent/CN110069768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

本发明提供一种基于篇章结构的英语议论文自动评分方法,所述方法包括,篇章成分自动识别模块和篇章结构自动评分模块。在作文评分方法中通过对单词‑句子‑段落三个层面的特征提取,组成词汇‑句法‑结构三层结构的特征向量表示,通过细分议论文体裁文章的篇章成分类别,结合篇章成分的局部特征,句子的结构、句法分析以及词汇的丰富度等因素对篇章成分进行识别,综合考虑篇章成分识别结果和段落间的全局结构特征对评分任务的影响,最大程度上提升对议论文体裁作文的篇章结构评分效果。

Description

一种基于篇章结构的英语议论文自动评分方法
技术领域
本发明涉及一种作文评分方法,特别是一种基于篇章结构的英语议论文自动评分方法。
背景技术
随着自然语言处理技术的不断发展,尤其是在词性标注、句法分析以及词表示方法等各方面取得了突出进展,许多基于统计和自然语言处理的作文自动评分方法应用于实际的作文评分中。作文自动评分系统的广泛应用可以节省人工评分中耗费的大量的人力、物力和财力;同时由于人工评分时评分标准模糊,评分结果很大程度上依赖评分人的主观喜好,作文自动评分系统可以降低主观误差;而且作文自动评分系统评分效率高,评分周期短,可返回反馈信息。随着学生学习英语的阶段不断提高,参加高水平英语考试(如托福、雅思、GRE 等)的需求也在增强。这类高水平英语考试的作文类型大多为议论文,且在作文评测中更加注重学生作文的结构表达,尤其是雅思考试,文章的结构表达占据作文评分的较大比重。本方法主要是评测议论文体裁文章的篇章结构,提出了一种基于篇章结构的英语议论文自动评分的方法。
作文自动评分中,通常会采用传统机器学习方法,即先人工提取作文的各类特征,然后将提取的特征转换为特征向量,最后输入到回归模型中进行作文评分。但人工提取作文的篇章结构特征依赖评分经验且主观性强,针对这种问题,本方法将作文自动评分分为两步:第一步分析大量真实应考学生的托福写作议论文,按照议论文的五个要素进一步细分篇章成分类别,构建分类模型对文章每个篇章单元的篇章成分进行识别;第二步,基于第一步识别的篇章成分序列构建回归模型,完成文章的篇章结构评分。
发明内容
本发明提出了一种基于篇章结构的英语议论文自动评分方法,首先根据篇章成分类别提取篇章单元的结构、词汇和句法特征,构建随机森林分类模型识别作文中每个篇章单元的篇章成分类别;然后结合识别的篇章成分序列与标准篇章成分序列的最小编辑距离,综合考虑篇章结构的局部特性与全局特性,构建线性回归模型对作文的篇章结构部分进行评分。
附图说明
图1为本发明的自动作文评分方法流程图。
图2为本发明的篇章成分分类模型的人工特征的特征转换过程。
图3为本发明的篇章结构评分模型的人工特征的特征转换过程。
图4为本发明的自动作文评分方法架构。
具体实施步骤
本发明实现的方法流程如图1所示。本发明主要分为两部分,第一部分是篇章成分自动识别,这部分通过提取篇章的结构、词汇以及句法特征训练随机森林分类模型,预测每个篇章单元的篇章成分标签;第二部分是篇章结构自动评分,根据第一部分预测出的篇章成分序列和抽取的全局结构特征构建线性回归模型,进而对作文的篇章结构进行评分。
篇章成分自动识别是篇章结构评分的基础,篇章成分划分是篇章成分识别的重点。根据大量托福、雅思以及 GRE 的 Argument 官方范文和应考学生的文章,结合议论文的五个要素:论点、理由、论据、结论和论证,依据作文篇章结构评分研究领域的篇章成分划分方法,将篇章成分进一步划分为背景、观点、过渡、理由、理由解释、事实性例子、分析性例子、例子解释、例子泛化、让步和总结细粒度类别标签,进一步细分篇章成分类别使得不同作文的篇章结构的区分度更大,更有效地提高作文篇章结构评分性能。本发明的篇章成分自动识别模型提取每个篇章单元与篇章成分相关的特征,特征生成过程如图2所示。每篇作文的特征向量用一个矩阵来表示,矩阵中的每一行代表一个篇章单元的特征向量表示,利用随机森林方法来拟合篇章成分自动识别模型,随机森林在决策树的训练过程引入了随机属性选择,基学习器的丰富多样性使得模型的泛化性能进一步提升。
篇章成分自动识别操作流程步骤如下:
1)使用NLTK将作文分割成句子,一个句子即为一个篇章单元;
2)抽取词统计、标点符号、位置和局部篇章成分结构特征;
3)统计作文中宾州篇章树库中的指示词、SRILM工具提取句子的n-gram特征以及人称代词、情态动词和专有名词特征;
4)使用Stanford句法分析器抽取句子的句法分析树特征;
5)利用NLTK中的POS工具抽取句子的词性标注特征;
6)将抽取的离散和连续特征转换为特征向量;
7)利用随机森林方法训练篇章成分识别模型。
篇章结构评分模型的特征生成过程如图3所示。将篇章成分自动识别模型预测出文章的篇章成分序列与标准篇章成分序列计算最小编辑距离,同时抽取篇章结构全局结构特征,将两者拼接并转换成特征向量。使用0-1标准化对特征向量进行归一化处理,然后使用基于高斯概率密度的异常点检测方法EllipticEnvelope剔除异常点,最后利用线性回归构建篇章结构评分模型。
篇章结构自动评分操作操作流程步骤如下:
1)计算篇章成分识别模型预测的篇章成分序列与标准篇章成分序列的最小编辑距离;
2)抽取作文的全局结构特征;
3)将抽取的特征拼接并转换成特征向量;
4) 使用0-1标准化对特征向量进行归一化处理;
5)使用基于高斯概率密度的异常点检测方法EllipticEnvelope剔除异常点;
6) 利用线性回归构建篇章结构评分模型。

Claims (4)

1.一种基于篇章结构的英语议论文自动评分方法,其特征在于,从作文的单词-句子-段落三个层次抽取作文的词汇-句法-结构特征,利用特征拼接成的特征向量训练篇章成分自动识别模型和篇章结构自动评分模型,组成英语议论文评分框架。
2.如权利要求1所述的方法,其特征在于,所述框架的词汇特征包括:根据最新发布的宾州篇章树库提取的指示词、n-gram篇章单元困惑度特征、人称代词、情态动词以及专有名词特征;所述句法特征包括:句法分析树深度特征、词性标注特征;所述结构特征包括篇章单元词统计、位置特征、标点符号特征、局部篇章成分特征。
3.如权利要求1所述的方法,其特征在于,将权利要求2所述的特征通过转换后得到的特征向量输入所述篇章成分自动识别模型,使用随机森林方法训练模型。
4.如权利要求1所述的方法,其特征在于,通过权利要求3所述的篇章成分自动识别模型识别出每个篇章单元的篇章成分,以段落为单位顺序组合成篇章成分序列,与标准篇章成分序列、全局结构特征共同转换成特征向量,并采用归一化处理和剔除异常点操作,将处理后的特征向量作为所述篇章结构自动评分模型的输入,利用线性回归方法训练评分模型,最终完成作文的篇章结构评分。
CN201810056809.4A 2018-01-22 2018-01-22 一种基于篇章结构的英语议论文自动评分方法 Pending CN110069768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810056809.4A CN110069768A (zh) 2018-01-22 2018-01-22 一种基于篇章结构的英语议论文自动评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810056809.4A CN110069768A (zh) 2018-01-22 2018-01-22 一种基于篇章结构的英语议论文自动评分方法

Publications (1)

Publication Number Publication Date
CN110069768A true CN110069768A (zh) 2019-07-30

Family

ID=67364530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810056809.4A Pending CN110069768A (zh) 2018-01-22 2018-01-22 一种基于篇章结构的英语议论文自动评分方法

Country Status (1)

Country Link
CN (1) CN110069768A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN110826329A (zh) * 2019-11-13 2020-02-21 创意信息技术股份有限公司 一种基于困惑度的自动作文评分方法
CN110851599A (zh) * 2019-11-01 2020-02-28 中山大学 一种中文作文自动评分方法及教辅系统
CN111680493A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 英语文本分析方法、装置、可读存储介质及计算机设备
CN111832281A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 作文评分方法、装置、计算机设备及计算机可读存储介质
CN112214988A (zh) * 2020-10-14 2021-01-12 哈尔滨福涛科技有限责任公司 一种基于深度学习和规则结合的议论文结构分析方法
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113743091A (zh) * 2021-11-08 2021-12-03 山东山大鸥玛软件股份有限公司 一种作文类文本智能评分方法、系统与设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN110851599A (zh) * 2019-11-01 2020-02-28 中山大学 一种中文作文自动评分方法及教辅系统
CN110851599B (zh) * 2019-11-01 2023-04-28 中山大学 一种中文作文自动评分方法及教辅系统
CN110826329A (zh) * 2019-11-13 2020-02-21 创意信息技术股份有限公司 一种基于困惑度的自动作文评分方法
CN111832281A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 作文评分方法、装置、计算机设备及计算机可读存储介质
WO2021139265A1 (zh) * 2020-07-16 2021-07-15 平安科技(深圳)有限公司 作文评分方法、装置、计算机设备及计算机可读存储介质
CN111680493A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 英语文本分析方法、装置、可读存储介质及计算机设备
CN112214988A (zh) * 2020-10-14 2021-01-12 哈尔滨福涛科技有限责任公司 一种基于深度学习和规则结合的议论文结构分析方法
CN112214988B (zh) * 2020-10-14 2024-01-23 哈尔滨福涛科技有限责任公司 一种基于深度学习和规则结合的议论文结构分析方法
CN113435179A (zh) * 2021-06-24 2021-09-24 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113435179B (zh) * 2021-06-24 2024-04-30 科大讯飞股份有限公司 一种作文评阅方法、装置、设备及存储介质
CN113743091A (zh) * 2021-11-08 2021-12-03 山东山大鸥玛软件股份有限公司 一种作文类文本智能评分方法、系统与设备

Similar Documents

Publication Publication Date Title
CN110069768A (zh) 一种基于篇章结构的英语议论文自动评分方法
CN109213999B (zh) 一种主观题评分方法
US8301640B2 (en) System and method for rating a written document
Stab et al. Recognizing insufficiently supported arguments in argumentative essays
US9443513B2 (en) System and method for automated detection of plagiarized spoken responses
CN108319581B (zh) 一种自然语言语句评价方法及装置
RU2002127826A (ru) Способ автоматического определения языка распознаваемого текста при многоязычном распознавании
CN103176963A (zh) 基于crf++汉语句义结构模型自动标注方法
KR20200119358A (ko) 인공지능 기계학습 기반 자동채점을 이용한 토플 강의 추천 서비스 제공 시스템
CN108280065B (zh) 一种外文文本评价方法及装置
Hawkins et al. Using learner language from corpora to profile levels of proficiency: Insights from the English Profile Programme
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
Zhang et al. Using context to predict the purpose of argumentative writing revisions
CN103186658A (zh) 用于英语口语考试自动评分的参考语法生成方法和设备
Sijimol et al. Handwritten short answer evaluation system (HSAES)
CN113934814A (zh) 古诗文主观题自动评分方法
CN113591489A (zh) 语音交互方法、装置及相关设备
Stefanova et al. Educational data mining perspectives within university big data environment
Santos et al. Identifying important factors in essay grading using machine learning
CN116189851A (zh) 一种基于自然语言处理的运动员心理咨询服务系统及方法
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
Wolska et al. Computer-assisted scoring of short responses: the efficiency of a clustering-based approach in a real-life task
Gomaa et al. Tapping into the power of automatic scoring
Willis et al. Identifying domain reasoning to support computer monitoring in typed-chat problem solving dialogues
Farasyn et al. Challenges in tagging and parsing spoken dialects of Dutch

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190730

WD01 Invention patent application deemed withdrawn after publication